400-883-1990

华 进 视 角

深耕知识产权领域多年,以专业化视角解读理论与实践应用,提供专业策略参考。

AI底层算法创新的专利撰写:如何兼顾权利要求保护范围和客体问题?(上)

朱五云

发布于:

2023-12-13 13:31

来源:

华进专利事业群

摘 要

为了贯彻落实中央十九大报告中指出的“加快推动互联网、大数据、人工智能和实体经济深度融合”,以及习近平总书记在中共中央政治局第二十五次集体学习时强调的“要完善大数据、人工智能、基因技术等新领域新业态专利审查标准”等要求,国家知识产权局在2021年8月3号对外发布的《专利审查指南修改草案(征求意见稿)》中,对于大数据、人工智能等领域的发明的专利客体、创造性判断等问题,进一步明确了审查标准。虽然,目前专利审查指南的更新版本还未生效,但知识产权从业人员可从中窥见最新审查政策的导向。因此,基于目前专利审查指南的修订内容,结合多个典型案例,文章深入探讨了涉及AI算法本身改进的案例撰写方法,以期兼顾此类专利申请的客体问题以及权利要求保护范围问题之间的平衡。

关键词AI算法专利;基础层创新;技术层创新;客体;权利要求保护范围

 >>>  一、引 言

近几年,人工智能技术的发展势头迅猛,许多创新主体的创新方向已经从原来的应用层创新逐渐过渡到AI技术的底层算法本身的创新。各大创新主体对涉及AI算法类发明专利的保护需求也越来越强烈,尤其是对涉及机器学习的算法本身改进的发明专利申请的保护需求最为突出。
2020年2月1号施行的专利审查指南[1],虽在相关规定中给出了包含算法特征和方法特征的案件的客体审查基准,但创新主体对于而今的涉及AI算法本身创新的专利申请的客体审查判断仍然存在一定的困难。例如,现行的审查指南中仅明确规定了“对一项包含算法特征和方法特征的权利要求是否技术方案进行审查时,需要整体考虑权利要求中记载的全部特征。如果该项权利要求记载了对要解决的技术问题采用了利用自然规律的技术手段,并由此获得符合自然规律的技术效果,则该权利要求限定的解决方案属于专利法第二条第二款所述的技术方案。例如,权利要求中涉及算法的各个步骤体现出与所要解决的技术问题密切相关,如算法处理的数据是技术领域中具有确切技术含义的数据,算法的执行直接体现出利用自然规律解决某一技术问题的过程,并且获得了技术效果,则通过该权利要求限定的解决方案属于A2.2所述的技术方案[2]”。由此不难看出,现行的审查指南对于算法类专利申请案具有明确的规定,即算法类案件中涉及到的数据必须是技术领域中具有确切技术含义的数据,即规定了算法类案件要想通过客体审查的关口必须要与技术领域相结合,这无疑限缩了算法类案件的保护范围。
从各大创新主体的需求来看,未来的AI领域创新可能很大程度上倾向于算法本身的创新,例如:数学模型、参数优化上的创新,此类创新既可应用于A领域,也可应用于B领域,这在未来技术创新的道路上并不排除AI算法成为一种通用的工具,且无具体领域的限定。正如,现在被大家日常所用的计算机,在很多年以前也是技术的,以此类比到而今的AI算法专利——虽然技术性很强,但也难保在很多年后可能被人类作为通用工具,其并不局限在某一个领域。考虑到社会创新未来的发展,并且基于各大创新主体涉及AI算法专利的创新保护需求,国家知识产权局围绕人工智能和大数据领域也在尝试补充现有规定未涉及的客体审查基准,以期和公众一起探讨未结合具体技术领域的人工智能算法改进方案如何构成专利保护的客体,从而尝试给涉及AI算法本身改进的案件一条通过客体审查的出路,与此同时,也兼顾了此类案件的保护范围。
基于该初衷,国家知识产权局2021年8月3日公布的《专利审查指南修改草案(征求意见稿)》中,于第二部分第九章6.1.2节补充了有关人工智能算法的改进方案的审查基准,具体为“如果权利要求的解决方案涉及深度学习、分类聚类等人工智能、大数据算法的改进,该算法与计算机系统的内部结构存在特定技术关联,能够解决如何提升硬件运算效率或执行效果的技术问题,包括减少数据存储量、减少数据传输量、提高硬件处理速度等,从而获得符合自然规律的计算机系统内部性能改进的技术效果,则该权利要求限定的解决方案属于专利法第二条第二款所述的技术方案”。

上述内容实际上释放出了三层审查基准:
(1)审查权利要求中的解决方案是否涉及深度学习、分类聚类等人工智能、大数据的算法
(2)审查该算法是否与计算机系统的内部结构有特定技术关联
(3)审查该算法所带来的技术效果是否能够带来计算机内部性能的改进
若以上三层审查基准都满足,则权利要求中的解决方案即使没有明确规定应用领域,也符合A2.2规定的技术方案。
故而,基于对本次征求意见稿中审查指南补充的新的审查基准的理解,笔者同步结合以下几个典型案例,详细为大家剖析国家知识产权局对于AI算法类案件的审查方向的变化。

 >>>  二、以下专利申请案为何能顺利通过A2.2的客体审查?

首先,我们需明确AI算法类案件的创新包括哪些类型;谈及此处,则需了解AI技术的技术架构。
AI技术架构从上到下,分为AI应用层和AI底层算法,而AI底层算法包括AI基础层算法和AI的技术层算法。这三个层在各大创新主体的研发过程中经常会涉及到创新的技术点。
何为AI“应用层”创新?
此类创新是AI技术与各种应用场景的结合。
AI应用层是人工智能产业的延伸,集成一类或多类人工智能基础应用技术,面向特定应用场景需求而形成软硬件产品或解决方案。

例如,我们经常看到的智能驾驶、智能金融、智能医疗或者机器人等,都是常见的AI技术在应用场景上的创新。
何为AI“底层算法”创新?
实际上此类创新包含AI基础层的创新以及AI技术层的创新。
AI基础层主要包含基础硬件设施、算力平台、数据资源等,其聚焦的是计算能力和数据资源,为人工智能提供数据及算力支撑;
AI技术层聚焦在算法和模型上,主要包括操作系统、模型框架以及神经网络、深度学习、遗传算法等模型构建或者模型训练算法的创新。

针对AI底层算法类创新的案件,实际上无论是基础层的创新还是技术层的创新,过去几年中行业内处理此类案件常见的做法是将其算法创新与具体的技术领域相结合,以满足客体审查基准;但随着中央十九大报告的出台以及针对AI案件国家知识产权局一系列利好的修订内容,部分企业做了新的撰写尝试,并且取得了较好的结果。
接下来,笔者详细将分析此类案例,其中,案例一至案例三涉及的是AI技术层的创新专利,案例四和案例五涉及的是AI基础层的创新专利。

案例一
背景技术:
自训练方法是一种利用神经网络模型自身的学习结果对模型进行迭代训练的方法。传统的自训练方法通常需要对样本数据D进行数据增广,得到数据D';使用神经网络模型对数据D'进行预测,得到数据D'中各数据的输出结果;合并数据D与数据D',继续训练神经网络模型。直到达到终止条件。对于传统的自训练方法来说,神经网络模型的每一次训练,均需要执行数据增广与使用神经网络模型对增广数据进行预测的步骤,因此神经网络模型在进行自训练时所需的时间成本较高,步骤较为繁琐。
权利要求1 如下:
1.一种自训练方法,包括:
获取训练数据,所述训练数据中包含多个训练样本与各训练样本对应的标签;
使用训练数据对神经网络模型进行预设次数的训练,并将各次训练过程中使用的训练样本及其对应的输出结果作为缓存数据,记录到缓存中;
在训练次数超过预设次数之后,使用训练数据与缓存中的缓存数据对所述神经网络模型进行训练,并将各次训练过程中使用的训练样本及其对应的输出结果作为缓存数据,记录到缓存中;
在确定所述神经网络模型的训练达到终止条件的情况下,完成所述神经网络模型的自训练;
其中,所述将各次训练过程中使用的训练样本及其对应的输出结果作为缓存数据,记录到缓存中包括:
针对缓存数据中的同一个训练样本,使用本次训练过程中得到的输出结果替换前次训练过程中得到的输出结果。
【案例一】分析如下:
独立权利要求中的解决方案主要是通过采用创建缓存,将神经网络模型在各次训练过程中使用的训练样本及其对应的输出结果作为缓存数据进行记录的技术手段,克服现有技术中在每次训练过程中需要对数据进行增广以及对增广数据进行预测所导致的时间成本较高、步骤较为繁琐的技术问题,实现了减少对神经网络模型进行自训练时需要的时间成本,提升了对神经网络模型进行自训练的效率的技术效果。该方案涉及神经网络模型,虽然对涉及到的训练数据并没有具体的应用领域的限定,但是训练过程中涉及到创建缓存并记录数据,该过程与计算机系统的内部结果存在特定的技术关联,且整体的训练过程降低了计算机在训练模型时的自训练时间成本,从而达到提升神经网络模型的自训练效率这一符合自然规律的涉及计算机系统内部性能改进的技术效果。
故而,此案在审查过程中通过了客体的审查关口,并且最终得到授权。

案例二
背景技术:
当固定采用某一种模型训练方案,会使得处理器的资源不能很好的被调用,从而使得计算机的运行效率比较低。
权利要求1 如下:
1.一种训练方法,包括:
当训练数据的大小发生改变时,针对改变后的训练数据,分别计算所述改变后的训练数据在预设的至少两个候选训练方案中的训练耗时;
从预设的至少两个候选训练方案中选取训练耗时最小的训练方案作为所述改变后的训练数据的最佳训练方案;所述至少两个候选训练方案包括至少一个单处理器方案,至少一个基于数据并行的多处理器方案;
将所述改变后的训练数据在所述最佳训练方案中进行模型训练。
【案例二】分析如下:
独立权利要求中的解决方案主要是在训练数据大小发生变化时,通过计算采用变化后的训练数据在至少两个训练方案中的训练耗时来选择最佳训练方案,并将改变后的训练数据在最佳训练方案中进行模型训练,其中,最佳训练方案包括单处理器方案以及多处理器方案。整个步骤整体上是围绕当数据发生变化,如何对单、多处理器方案进行更好的调度,使得计算机的运行效率更高。该方案涉及到模型训练,虽然对涉及到的训练数据并没有具体的应用领域的限定,但是训练过程中涉及到根据训练耗时控制对单处理器训练方案、多处理器训练方案进行更好的调度,该过程与计算机系统的内部结构存在特定的技术关联,且整体的训练过程降低了计算机在训练模型时的耗时,从而达到提升计算机的运行效率这一符合自然规律的涉及计算机系统内部性能改进的技术效果。
故而,此案在审查过程中通过了客体的审查关口,并且最终得到授权。

案例三
背景技术:
在实际应用中,经常需要检测业务数据是否为异常数据。为此可以训练模型,进而可以通过训练的模型检测业务数据是否为异常数据。因此,如何提高模型的训练效果是当前亟需解决的技术问题。
权利要求1 如下:
1.一种模型训练方法,包括:
获取训练样本集,所述训练样本集包括无标签样本集和有标签样本集,所述无标签样本集包括多个第一样本,所述有标签样本集包括多个第二样本和类型标签,所述类型标签用于表示所述有标签样本集中是否包含异常的第二样本;
根据所述无标签样本集,对第一模型进行训练,所述第一模型包括特征提取子模型;
根据所述有标签样本集和特征提取子模型的训练结果,对第二模型进行训练,所述第二模型包括特征提取子模型和异常数据检测子模型,所述异常数据检测子模型用于根据特征提取子模型的输出检测异常数据。
【案例三】分析如下:
独立权利要求的解决方案主要是通过无标签样本集对第一模型进行训练,可以实现对第二模型的部分模型参数进行无监督的预训练,进而通过有标签样本集实现对第二模型的模型参数进行有监督的再次训练。这样便于利用大量的无标签样本,并结合相对少量的有标签样本,实现对第二模型的模型参数进行训练,有利于提高第二模型的训练效果。整个解决方案中涉及模型训练上的改进,属于涉及人工智能领域的算法改进,虽然对涉及到的无标签样本和有标签样本以及模型并没有具体技术领域的限定,但是从实质分析来看其通过这样的训练方式的改进,提高了计算机训练第二模型的训练效果,能够解决计算机提升执行效果的技术问题,从而使得计算机系统内部性能得到了改进。
故而,此案在审查过程中通过了客体的审查关口,并且最终得到授权。

案例四
背景技术:
目前在机器学习的过程中,对训练样本数据的需求量巨大,并且需要对大量的训练样本数据进行标注,传统技术中通常需要人工对大量的训练样本数据进行标注,使得标注工作过分依赖于人,并且工作量巨大,标注的效率较低。
公开版本的权利要求1 如下:
1.一种数据标注的方法,其特征在于,所述方法包括:
通过预先训练的目标标注模型对多个待标注数据进行标注,得到由所述待标注数据对应的标注结果构成的目标集合;
利用预先训练的目标分类器选取所述待标注数据中的非可信数据,以验证所述非可信数据对应的标注结果;
更正所述目标集合中未通过验证的非可信数据所对应的标注结果。
授权版本的权利要求1 如下:
1.一种数据标注的方法,其特征在于,所述方法包括:
通过预先训练的目标标注模型对多个待标注数据进行标注,得到由所述待标注数据对应的标注结果构成的目标集合;
利用预先训练的目标分类器选取所述待标注数据中的非可信数据,以验证所述非可信数据对应的标注结果;
更正所述目标集合中未通过验证的非可信数据所对应的标注结果,并将经过更正的目标集合存放入预先建立的标注数据库中,利用所述标注数据库对所述目标标注模型进行更新;
其中,所述待标注数据用于作为机器学习的训练样本数据,所述标注结果用于作为机器学习的所述训练样本数据的标注。
【案例四】分析如下:
案例四的解决方案主要是通过训练好的目标标注模型对多个待标注数据进行标注后,又利用目标分类器筛选出更有可能标注错误的待标注数据进行抽检,并对错误的标注结果进行更正。从而使得标注工作无需完全依赖于人,节省了大量的人力资源,提高了标注的效率。同时,能够更有针对性的验证被标注数据的结果,提高了标注的准确度。
此案在审查过程中经历了三次审查意见,其中一通的审查意见中明确指出了公开版本的独立权利要求不符合A2.2的规定,后面的二通和三通指出的是有关新颖性和创造性的问题。基于该第一次审查意见通知书的意见,笔者找到了如上的授权版本,授权版本独立权利要求中增加了“并将经过更正的目标集合存放入预先建立的标注数据库中,利用所述标注数据库对所述目标标注模型进行更新;其中,所述待标注数据用于作为机器学习的训练样本数据,所述标注结果用于作为机器学习的所述训练样本数据的标注”。
结合授权后的版本,笔者分析国家知识产权局的审查思路大致如下,授权后独立权利要求的解决方案中明确了“所述待标注数据用于作为机器学习的训练样本数据,所述标注结果用于作为机器学习的所述训练样本数据的标注”,该特征主要明确了独立权利要求的解决方案涉及机器学习领域,虽然其对涉及到的待标注数据或者训练样本数据并没有具体的应用领域的限定,但是从“并将经过更正的目标集合存放入预先建立的标注数据库中,利用所述标注数据库对所述目标标注模型进行更新”这一特征上明确了预先建立了标注数据库,并调用标注数据库对模型进行更新,而这一过程必然与计算机系统的内部结构存在特定的技术关联,且利用更新后的目标标注模型对数据进行标注的过程,达到了提升计算机对数据进行标注的效率这一符合自然规律的涉及计算机系统内部性能改进的技术效果,故此案在审查过程中通过了客体的审查关口,并且最终得到授权。

案例五
背景技术:
数据清洗是指发现并纠正数据中的错误的一道程序,其任务是过滤掉不符合要求的数据。一般来说,数据清理是对清洗前的数据进行精简以得到清洗后的数据的过程。现有的数据清洗通常需要数据清洗人员手工实现,通过人工检查,逐个验证数据。
权利要求1 如下:
获取待清洗的训练样本集合;
基于所述训练样本集合,对初始模型进行有监督训练得到包括特征提取层的模型;
采用所述特征提取层提取所述训练样本集合中的训练样本的特征数据;
对所得到的特征数据进行聚类处理,以确定所述训练样本集合中孤立的训练样本;
基于所确定出的孤立的训练样本,对所述训练样本集合进行清洗,得到清洗后的训练样本集合,以及利用所述清洗后的训练样本集合重新对所述初始模型进行有监督训练。
【案例五】分析如下:
独立权利要求的解决方案主要是通过采用训练得到的特征提取层提取训练样本的特征数据并进行聚类处理以得到孤立训练样本,并采用该孤立的样本对训练样本集合进行清洗,得到清洗后的训练样本集合,进而无需人工清洗,丰富了数据清洗的方式,提高数据清洗的效率和准确性,进而提高了模型训练的准确性和效率。该方案涉及到有监督训练、聚类处理等人工智能算法,虽然对涉及到的训练样本并没有具体的应用领域的限定,但是基于孤立的训练样本对原来的训练样本集合进行清洗,该清洗过程与计算机系统的内部结构存在特定的技术关联,且整体的清洗过程降低了人工清洗的成本,节约了数据清洗的耗时,达到了提高计算机清洗数据的效率和准确性,使得计算机进行模型训练的效果得到提升,提升了计算机系统内部性能改进的技术效果,故此案在审查过程中通过了客体的审查关口,并且最终得到授权。
结合以上案例,读者应该可以清晰地看到国家知识产权局对AI算法类案件进行客体审查的过程中,已经逐渐的在放松客体审查的关口,并已逐步在利用《专利审查指南修改草案(征求意见稿)》中所补充的有关人工智能算法的改进方案的审查基准,这对于众多的创新主体在AI算法上的创新无疑是非常利好的导向。

400-883-1990
info@aciplaw.com

华进官方微信公众号

Copyright © 2021 华进联合专利商标代理有限公司.All Rights Reserved.粤ICP备12081038号