首页 > 资讯

智源发布FlagEval“百模”评测新成果助力大模型生态发展

发布时间：2024-12-20 13:31:09 | 来源：中国网 | 作者： | 责任编辑：孙玥

12月19日，智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval，经过数次迭代，目前已覆盖全球800多个开闭源模型，包含20多种任务，90多个评测数据集，超200万条评测题目。

在评测方法与工具上，智源研究院联合全国10余家高校和机构合作共建，探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM，并构建面向大模型新能力的有挑战的评测集，包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等，其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集，有18000多个轮次对话，和14万多个回答。

评测结果显示，大模型发展正聚焦综合能力提升与实际应用，多模态模型迅速崛起，而语言模型发展则相对放缓。在开源生态中，新的开源贡献者不断涌现，为模型发展注入新活力。

此外，智源研究院还联合海淀区教师进修学校进行了K12全学段、多学科试卷评测，发现模型整体表现有所提升，但仍与人类学生存在差距，尤其在理科方面表现偏弱。

值得一提的是，智源研究院推出的FlagEval大模型角斗场和模型辩论平台FlagEval Debate，为用户提供了模型对战和辩论评测服务，进一步揭示了模型间的差异和潜力。在金融量化交易评测中，大模型已展现出生成有回撤收益策略代码的能力，头部模型能力已接近初级量化交易员水平。

智源研究院副院长兼总工程师林咏华表示，FlagEval评测体系将坚守科学、权威、公正、开放的准则，持续创新，为大模型技术生态发展提供有力洞察。未来，评测体系将进一步探索动态评测与多任务能力评估，以更准确地感知大模型的发展趋势。（张九阳）

查看网址

​智源发布FlagEval“百模”评测新成果 助力大模型生态发展

智源发布FlagEval“百模”评测新成果助力大模型生态发展