时隔不到一个月,最新版本文心大模型达到了怎样的实力?在公开测试集上进行的基础模型少样本(Few-Shot)评测显示,文心大模型3.5(ERNIE 3.5)在多个测试集的得分已超过ChatGPT。
三大评测基准综合评估 上万道考题“统考”主流大模型
为验证主流大模型的各项综合能力,评测在AGIEval、C-Eval和MMLU三个权威评测基准上进《qm全民彩票最近》行综合评估。
AGIEval评测基准是微软研究院发布的、专门用于评估模型在“以人为本”的标准化考试中表现水平的测试集。该基准选取20种面向普通人类考生的官方、公开、高标准的资格考试,包括普通大学入学考试(如中国的高考和美国的SAT考试)、司法考试、数学竞赛、律师资格考试、国家公务员考试以及美国的GRE、GMAT等。
C-Eval评测基准是由上海交通大学、清华大学以及爱丁堡大学联合创制和发布的中文基础模型评测集。它包含13948个多项选择题、涵盖52个不同的学科,设置了四个难度级别,是面向中文语言模型的综合考试评测集。
MMLU是伯克利大学、哥伦比亚大学、伊利诺伊大学厄巴纳-香槟分校和芝加哥大学联合发布的一种大规模多任务语言理解的基准测试,用于衡量模型的英文跨学科专业能力。该测试包含57个科目,涵盖STEM、人文、社会科学等。
除了文心大模型3.5,评测的模型还有ChatGPT、GPT-4、ChatGLM、LLaMa系列大模型。评测可以看出大模型在能力上的优劣,同时对模型的迭代发展也有着很强的指导作用。
评测结果:文心大模型3.5中文能力超GPT-4,综合能力超ChatGPT
在AGIEval、C-Eval等中英文权威测试集和MMLU英文权威测试集中,国产文心大模型3.5取得了超过ChatGPT和LLaMa、ChatGLM等其他大模型的分数表现,在中文评测项中超越了GPT-4。
在中文AGIEval评测中,文心大模型3.5得分64.37,远超ChatGLM-6B、LLaMa-7B、LLaMa-13B、LLaMa-65B,同时还超过了 ChatGPT的40.27分和 GPT-4的56.96分,位居第一。AGIEval评测英文部分中,GPT-4得分65.55居于首位,文心大模型3.5得分录得 50.59分,仅次于GPT-4。紧随其后的是ChatGPT录得48.75分。
在中文C-Eval评测中,文心大模型3.5测出71.93的最高得分,不仅高于ChatGPT的51.70分,还略高于GPT-4的68.57分,领先于LLaMa-65B、LLaMa-7B、ChatGLM-6B的得分。
在英文MMLU测试中,GPT-4和ChatGPT的表现较好,分别以82.47分和68.85分领先于其他大模型。文心大模型3.5得分65.10紧随其后,优于LLaMa-65B、LLaMa-13B、LLaMa-7B、ChatGLM-6B等模型分数。
从上述评测得分来看,文心大模型3.5版中文能力突出,甚至有超出 GPT-4 的表现;综合能力稍逊于GPT-4,但已经在评测中超过了 ChatGPT,远远领先于其他开源大模型。
国产大模型中文能力优势突出 综合能力加速缩小差距
尽管市面上有多个大模型横空出世,但大模型研发门槛高、难度大、投入高,依赖算力、数据等综合支撑的现实不容小觑。在推动大模型产业化的路上,中国企业如何在大模型发展过程中发挥所长优势,加速缩小差距?
中国工程院院士邬贺铨曾在接受采访时表示,中国企业在获得中文语料和对中国文化的理解方面比外国企业有天然的优势,中国制造业门类最全,具有面向实体产业训练产业AIGC的有利条件。在算力方面中国已具有较好的基础。
以百度文心大模型3.5为例,与3.0版本相比,通过各项算法和数据的优化,尤其是百度首创的知识增强和检索增强技术的优化,新版本文心大模型在各项能力上均有明显提升。据了解,百度人工智能四层架构的端到端优化,尤其是框架和模型层的协同优化,让文心大模型训练速度、模型效果加速提升。
眼下,市场呼唤大模型,呼唤先进可用的 AI大模型。相信以百度等为代表的中国科技公司,基于对中国文化的感悟和对中国市场的理解,能够做出不逊于国外公司的AI应用。在数智化的征程上,中国企业应积极迎接挑战,持续创新。
责任编辑:冯体炜
蜜姐概括了下通策医疗关于此事的公告披露,如下图。qm全民彩票最近
“未来,还要推动乡村产业全链条升级 ➣,在产业快速发展的同 ➥时,加强品牌建设,提升品牌溢价能力,为农民带来新的增收渠道,♈为乡村发展创造新的增长点。”韩一军说。
本报记者 唐玄宗 【编辑:盛昌 】