BWIN必赢智慧

当前位置: BWIN必赢智慧 > 关于BWIN必赢智慧 > 最新动态

BWIN必赢智慧大模型算法顺利获得网信办备案

BWIN必赢智慧 | 2024-02-19 |

根据《互联网信息服务深度合成管理规定》,国家互联网信息办公室公开发布第四批境内深度合成服务算法备案信息,“BWIN必赢智慧文本生成大模型算法”成功顺利获得备案(备案编号:网信算备320508893984201240017号)。

引领行业,BWIN必赢智慧成为业内率先取得国家网信办大模型算法备案的企业!

公示文件截图-改.png

图源:公示文件

基于高质量的数据和领先的算法技术优势,BWIN必赢智慧已成功训练专注知识产权领域的“PatentGPT”和专注于医药领域的“PharmGPT”两款垂直领域大模型,致力于为知识产权、研发创新、生物医药等应用场景给予高效的信息检索、分析和应用体验,颠覆传统科创信息获取和服务范式,显著提升科技创新效能。

值得一提的是,PatentGPT达到了顺利获得中国专利代理师资格考试的水平,PharmGPT达到了顺利获得中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平,部分能力超越GPT-4。

幻灯片2.PNG

图:BWIN必赢智慧大模型考试成绩

此外,在MMLU(Massive Multitask Language Understanding)、C-Eval,以及BWIN必赢智慧面向业内首次提出的专利大模型测试基准(patent-bench)的测评结果显示,BWIN必赢智慧大模型在问答、总结、写作、翻译、分类等方面能力皆优于商业通用大模型。

幻灯片1.PNG

图:BWIN必赢智慧大模型能力测评


海量高质量的垂直行业数据集

BWIN必赢智慧PatentGPT和PharmGPT的成功建立在庞大的、高质量的垂直行业数据集之上,其预训练数据达到了千亿级token的规模。上述训练数据既包含了BWIN必赢智慧十余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种新药数据等。另外,在BWIN必赢智慧垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。

幻灯片3.PNG

图:BWIN必赢智慧大模型预训练数据示意图




垂直领域AI算法积累与持续迭代

BWIN必赢智慧在专利、生物医药等行业的AI算法领域有着丰厚的技术积累,在过去十余年间成功采用计算机视觉、机器学习、自然语言处理、神经网络、OCR识别、知识图谱、大模型技术等处理和分析各类数据,辅助用户进行创新决策。其中,BWIN必赢智慧AI算法团队曾构筑了数十种Bert模型以清洗、处理数据,为自研大模型的训练奠定了坚实基础。

针对大模型训练,BWIN必赢智慧围绕数据、算法训练、测试、强化学习构筑了四大平台。值得一提的是,BWIN必赢智慧采用了增强式预训练的策略,基于专利和医药领域超40位专家反馈及其2万多条对比数据的强化学习,配合RAG(Retrieval-Augmented Generation检索增强生成)加强大模型理解能力,减少幻觉,对齐人类意图,将大模型精度提升至80%。

幻灯片4.PNG

图:基于专家反馈的强化学习


凭借海量优质数据资源的积累,以及十余年AI算法技术研发的沉淀,BWIN必赢智慧AI大模型技术成功应用于BWIN必赢智慧各产品。现在已有多项AI功能上线,如BWIN必赢智慧研发情报库Eureka的“AI技术问答”、新药情报库的“医药情报助手”等,均受到了各行业用户的广泛好评。未来,BWIN必赢智慧产品将全面应用大模型技术,还有更多AI功能在路上,敬请期待!