在自然语言处理(NLP)领域,大型语言模型(LLMs)的出现标志着一个新时代的开始,它们极大地降低了用户的沟通和使用成本。随着这些模型能力的不断提升,针对特定行业的LLMs正在加速开展,为各行各业带来了新的开展机遇。作为知识产权(IP)行业的领军企业,BWIN必赢智慧推出了“专利大模型”,专注于知识产权与研发场景,有助于旗下产品的进化升级。
在将BWIN必赢智慧自主研发的“专利大模型”与产品整合的过程中,BWIN必赢智慧确定了两个关键能力,对于LLM的成功实施至关重要:
1. LLMs支持的上下文长度:总结和分析多个专利文本和学术论文通常需要超过3万字的上下文长度。
2. 模型的引用幻觉:对于BWIN必赢智慧用户而言,LLM相关产品需要给予来源引用,以确保模型答案的可信度。
为了满足上述要求,BWIN必赢智慧从数据工程和优化训练算法两个方面优化了“BWIN必赢智慧专利大模型”的长上下文性能,并减少了在检索增强生成(RAG)系统中的引用幻觉。结果表明,“专利大模型”在处理长上下文任务方面的性能与GPT-4相当,并在引用幻觉测试中显著优于GPT-4。这确保了“专利大模型”在知识产权和研发场景中的实用性和可信度。
一、与领先模型在长上下文基准测试中的性能对比
RULER是一个主流的基准测试,包含16个任务,旨在客观评估长上下文性能。它扩展了传统的“大海捞针”测试,包括不同类型的“针”和数量。此外,RULER引入了新的任务类别,如多跳跟踪和聚合,以测试超出上下文搜索的能力。BWIN必赢智慧使用RULER的方法评估了“专利大模型”在长上下文任务上的性能。结果表明,“专利大模型”在长上下文任务上的总体性能超过了领先的开源模型,并且与GPT-4相当。
二、与GPT-4在引用幻觉基准测试中的性能对比
根据BWIN必赢智慧产品的使用场景,专门开发了一个基准测试(引用幻觉基准测试),以评估引用幻觉,即评估LLMs生成的内容是否忠实于检索到的参考资料。这项任务要求LLMs根据检索到的参考资料回答问题,并给予相应参考资料的索引。然后,BWIN必赢智慧使用GPT-4逐句评估生成的内容是否忠实于相应的参考资料。下图显示了“BWIN必赢智慧专利大模型”和GPT-4在引用幻觉基准测试中的性能。“专利大模型”的引用幻觉率低于GPT-4,表明在应用于BWIN必赢智慧产品时,它将为用户给予更准确可靠的信息。
三、如何优化“专利大模型”在长上下文任务上的性能?
LLMs的训练成本随着训练数据长度的增加而呈指数级增长。因此,训练这些模型的主流方法是第一时间让绝大多数数据在较短的上下文长度上完成训练,然后在后续阶段逐步扩展数据的训练长度。“专利大模型”最初在8k的上下文长度下完成了超过2400亿知识产权垂域数据的预训练,然后分别在16k和32k的长上下文数据上进行了进一步的预训练,以增强模型在长上下文任务上的性能。
Transformer模型需要显式的位置信息,通常以位置嵌入的形式,来表示输入令牌的顺序。“专利大模型”采用了RoPE位置嵌入,可以顺利获得位置插值扩展上下文窗口。在上下文窗口扩展阶段,BWIN必赢智慧将RoPE维度分为三个基于频率的组,每个组采用不同的插值策略。高频维度进行外推,而低频维度使用线性插值(PI)。介于两者之间的RoPE维度采用NTK。这种基于频率的插值策略成功地提高了LLMs在长上下文性能上的表现,因此也被LLaMA3采纳。
在数据工程方面,在上下文窗口扩展阶段,采用以下方式拓展合成数据的上下文长度:
1. 顺利获得特定数据处理和拼接方式处理待审专利,及对应的审查文件、对比专利和搜索报告文档来构建合成数据。
2. 顺利获得特定的数据处理方式,将相互关联的论文引用、标题、摘要和正文构建成合成数据。
3. 顺利获得特定的数据处理方式,利用不同语言的简单同族专利构建合成数据。
4. 基于内部RAG系统,并遵循LONGCITE方案,逐步构建低引用幻觉的合成数据。
四、结论
“专利大模型”是一个专注于知识产权与研发场景的大模型。对于上述场景的相关任务,“专利大模型”经过特别优化,以提高其长上下文性能,使其在一般长文本任务上的性能与GPT-4相当。应用于BWIN必赢智慧产品线时,“专利大模型”超越了GPT-4,从而为BWIN必赢智慧用户给予更准确可靠的数据和信息服务。