专利分析,特别是进行大规模专利数据分析时,例如专利导航或专利地图的项目中,专利标引是重要的工作之一。例如我们执行一个主题为“自动驾驶”的专利分析项目,检索到的专利数量可能是几千项,甚至上万项,接下来重要的工作是去噪声和标引,这个工作常常占到整个项目工作量的50%到80%,可以说专利分析项目的质量主要取决于标引的质量。
对专利进行标引是进行一步分析的前提,标引之后,才能知道专利布局的主要方向或子模块、技术路线、技术功效。总之,专利分析中,只要是有技术含量的分析,一定涉及到专利标引,否则统计数据都可以通过系统直接导出,无非是准确度高低的问题。
但标引真是费时费力,这里面涉及到颗粒度和准确度的问题。一件专利可以从多个层次标引多个维度,一个大型分析项目标引的维度和层次可能达到几十个。
例如下面的这项专利,假设可以标引成4个层次,每个层次可以标引8个维度,假设项目有1000项专利需要标引,后相当于把1000项专利的每个在32个标签中选择4个标签。这当然非常麻烦,而且容易出错,不同的标引维度之间边界非常难把握。
所以这么多年来,很多人都尝试使用AI实现标引,在这里需要说明的是,我们这里说的标引或打标签是的有监督的标引,也就是标引的维度和层次是用户提前设定的,而不是完全交给系统进行标引,完全交给系统的标引实际上是个聚类的问题。
在AI领域,对多项数据按照用户设定的方向进行标引或打标签,这实际上是个多分类的问题,这本是神经网络比较擅长的领域,将二分类的方法转化为多分类即可。例如将一堆动物的图片分成猫、狗、鸡、鸭,这个问题并不复杂。当把AI擅长的多分类解决方案用于专利标引时,效果差得超过想象。道理也很简单,专利分析项目的标引远比一般的多分类复杂得多,一般的专利分析项目,需要分类的专利内容都非常接近,例如自动驾驶中高精度地图的专利,1000多项专利都是涉及高精度地图,每项专利之间的文字表达都非常接近,这就不是区分猫和狗的情况了,而是区分虎斑猫的花纹是经典纹、鱼骨纹、斑点纹、麻纹的问题,而且每种花纹中又有细分。这样的分类,传统AI多分类方案显然不能满足要求。利用词向量的方法进行标引更不能满足要求。
随着大语言模型的出现,人们也尝试用大模型去标引,例如直接将标引的数据交给ChatGPT,让大模型去标引,但同样面临这样的问题,在待标引专利的技术内容涉及的领域相差较大的时候,例如1000项专利中涉及药品、汽车、轮船,并且标引的维度相对较少的时候,这时候大语言模型标引的准确度比较高,但是当待标引的专利内容之间比较接近的时候,例如所有的专利都是涉及自动驾驶领域的高精度地图,并且要对相关专利标引多个层次和维度,这时候大语言模型标引的准确度严重下降。
原创 佑斌
免责声明:版权归原创所有仅供学习参考之用,禁止用于商业用途,部分文章推送时未能及时与原作者取得联系,若来源标错误侵犯到您的权益烦请告知我们将立即删除。
免责声明:当前页为 AI能够解决专利标引问题吗产品信息展示页,该页所展示的 AI能够解决专利标引问题吗产品信息及价格等相关信息均有企业自行发布与提供, AI能够解决专利标引问题吗产品真实性、准确性、合法性由店铺所有企业完全负责。世界工厂网对此不承担任何保证责任,亦不涉及用户间因交易而产生的法律关系及法律纠纷,纠纷由会员自行协商解决。
友情提醒:世界工厂网仅作为用户寻找交易对象,就货物和服务的交易进行协商,以及获取各类与贸易相关的服务信息的渠道。为避免产生购买风险,建议您在购买相关产品前务必确认供应商资质及产品质量。过低的价格、夸张的描述、私人银行账户等都有可能是虚假信息,请您谨慎对待,谨防欺诈,对于任何付款行为请您慎重抉择。
投诉方式:fawu@gongchang.com是处理侵权投诉的专用邮箱,在您的合法权益受到侵害时,请将您真实身份信息及受到侵权的初步证据发送到该邮箱,我们会在5个工作日内给您答复,感谢您对世界工厂网的关注与支持!