近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一。
(资料图片)
工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。
据悉,评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型。评估结果选取性能前六名的模型进行公布。
百度文心一言测评表现超过GPT3.5
本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题。主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力。
评测结果显示,GPT4表现最佳。国内头部大模型表现亮眼,整体与GPT3.5相当。其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一。
在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。
主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距。
在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力。
大模型发展新热点:丰富特定行业专业知识
虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强。
实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。
关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调。
当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。
比如百度文心一言与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型。在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果。
据悉,未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等。(肖智)
关键词:
推荐内容
- 天天快播:工联院大模型测评:文心一言在工业领域表现超过GPT3.5 a>
- 当前速读:聂黎明:新产业发展有三大趋势 助力现代化产业体系建设 a>
- 推进职业教育产教融合 专家:使产业需求融入人才培养全过程 a>
- 港交所、北交所:支持符合条件的企业在两地上市 热推荐 a>
- 世界报道:?3连板东方通信:公司市盈率显著高于行业市盈率水平 a>
- 观焦点:易事特:拟与员工持股平台设钠离子电池公司 a>
- 新股暗盘 | 艾迪康控股(09860)暗盘收涨1.14% 每手赚70港元|今日热讯 a>
- 全球关注:崔东树:1-5月汽车行业利润1746亿元 同比增长24% a>
- 中钢协:建议国家宏观调控部门将冶金煤纳入国家调控机制_环球通讯 a>
- 煤炭工业协会、煤炭运销协会发布《关于做好迎峰度夏期间煤炭保供稳价工作的倡议书》|新资讯 a>
- 商业飞行潜力引关注 Joby Aviation(JOBY.US)盘前涨超14%创52周新高 a>
- 比亚迪:将向加勒比地区提供新能源乘用车产品 a>
- 莆田鞋在哪里买 - 推荐6个购买渠道 a>
- 每日热点:苯乙烯材料指的是什么东西?苯乙烯的用途应用范围主要有哪些? a>
- 全球最新:基金认购好还是申购好?为什么不建议购买新基金? a>
- 婚内出轨有哪些精神赔偿标准? 请求精神损害赔偿有哪些条件? a>
- 海南自贸港180个项目集中开工建设_全球看点 a>
- 当前热文:珠江啤酒控股股东拟减持不超2.259%股份 a>
- 怎样保护眼睛近视? 高度近视保护眼睛的方法有哪些?|全球速递 a>
- 百事通!怎样保护眼睛近视? 高度近视保护眼睛的方法有哪些? a>