专注试管助孕服务,20年我们始终如一
包成功零风险,8000多个家庭共同选择
精选国内顶尖生殖中心,成功率有保障
13971193333
阅读:15 发布时间:2023-06-30 03:25:51
原标题:工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位工联院大模型测评:文心一言在工业领域表现超过GPT3.5,居国内大模型首位 近期,中国工业互联网研究院(简称“工联院”)针对人工智能大模型在中文工业领域的知识问答能力进行系统性评测。
结果显示,百度文心一言表现超过GPT3.5,综合评价指数在国内排名第一
工联院本次评测选取了工业领域典型的八大行业。百度文心一言在电子设备、装备、钢铁、采矿、电力、石化、建材等七大行业均获国内第一。
五大院士,八大IEEE Fellow,共十三位顶级专家构成了专家委员会评测对象涵盖GPT4、GPT3.5、文心一言、ChatGLM等国内外具有代表性的头部大模型评估结果选取性能前六名的模型进行公布
百度文心一言在国内“更懂工业”本次工业知识问答测试主要分为客观题与主观题两大类,总计超过1100个问题主观题主要考察四大维度:基础能力、语句能力、概括能力和逻辑能力评测结果显示,GPT4表现最佳国内头部大模型表现亮眼,整体与GPT3.5相当。
其中百度文心一言表现超过GPT3.5,在国内大模型中排名第一
在客观题环节,评测结果显示,GPT4与文心一言表现好于其他大模型。但评测结果也同时指出,大模型普遍准确率有较大的提升空间。
主观题方面,国内大模型的基础能力、语句能力与GPT4接近,概括能力、逻辑能力与GPT4有一定差距在大模型的自我认知能力和污染问题分析能力上,GPT4相较于其他大模型表现出更好的能力大模型发展新热点:丰富特定行业专业知识。
虽然国内大模型在本次评测表现较好,甚至在部分行业赶超GPT3.5,但工联院评测报告也指出,国内外通用大模型在工业知识问答领域探索仍处于初级阶段,国内大模型与GPT4有差距,比如行业间的泛化能力有待加强实际上,工联院评测报告揭示出通用大模型落地垂直行业的痛点,缺乏特定行业的专业知识。
关于解决难题的方法,工联院评测报告给出的建议是,进一步丰富相关专业领域的数据训练集,进一步进行专业化的微调当前,国内科技公司纷纷加强与工业企业合作,期望通过在实际场景中探索应用大模型,弥补差距,赶超GPT4.0。
比如在本次评测中位居国内模型第一的百度文心一言,与南方电网电力调度控制中心在电力调度场景探索使用调度AI大模型在汽车行业,长安汽车基于百度文心大模型正在开发生成式人工智能产品,赋能一款量产车型,实现提升用户体验的目标。
除了能源、汽车制造,百度智能云还在建筑、采矿、物流、纺织等领域,探索使用大模型提升运营效率和用户体验效果通过在实际场景的探索应用,科技公司可以积攒更多的行业Know-how(技术诀窍),扩展相关领域的数据训练集。
这种外部真实反馈有助驱动大模型更加快速地实现迭代升级未来,工联院将持续开展通用大模型在工业领域更多维度的性能评测,包括但不限于大模型的鲁棒性、安全性以及人类大价值观等红星新闻记者 胡沛返回搜狐,查看更多。
责任编辑:
解放军东部战区19日在台岛周边组织海空联合战备警巡,举行海空···
【粉丝投稿】王先生近期身体有些不适,从网络上查找资料后决定尝···
7月20日,知名影视演员李勤勤通过社交账号更新了一段视频,视···
我国的手工业早在百年前的清朝末年,就因为世界经济的冲击而一蹶···
每个人都曾梦想仗剑走天涯,但大部分人都悄然无踪影少有人能直面···
作者:北极猪前几天秋天的第二个节气处暑过了,也宣告了今年夏天···
来源:经济参考报最新公布的关键经济数据显示,欧洲服务业意外萎···
图①:航拍位于龙南市关西镇的西昌围施鸿雄摄 图②:在龙南市杨···
北京首钢男篮在21日更新了2023-24赛季球员注册名单,其···
作者:Sunnice 前段时间和朋友聚会时喝到了这款范佳乐教···