​智源发布FlagEval“百模”评测新成果 助力大模型生态发展

发布时间:2024-12-20 13:31:09 | 来源:中国网 | 作者: | 责任编辑:孙玥

12月19日,智源研究院发布并解读国内外100余个开源和商业闭源的语言、视觉语言、文生图、文生视频、语音语言大模型综合及专项评测结果。

本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,经过数次迭代,目前已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。

在评测方法与工具上,智源研究院联合全国10余家高校和机构合作共建,探索基于AI的辅助评测模型 FlagJudge和灵活全面的多模态评测框架FlagEvalMM,并构建面向大模型新能力的有挑战的评测集,包括与北京大学共建的HalluDial幻觉评测集、与北师大共建的CMMU多模态评测集、多语言跨模态评测集MG18、复杂代码评测集TACO以及长视频理解评测MLVU等,其中与北京大学共建的HalluDial是目前全球规模最大的对话场景下的幻觉评测集,有18000多个轮次对话,和14万多个回答。

评测结果显示,大模型发展正聚焦综合能力提升与实际应用,多模态模型迅速崛起,而语言模型发展则相对放缓。在开源生态中,新的开源贡献者不断涌现,为模型发展注入新活力。

此外,智源研究院还联合海淀区教师进修学校进行了K12全学段、多学科试卷评测,发现模型整体表现有所提升,但仍与人类学生存在差距,尤其在理科方面表现偏弱。

值得一提的是,智源研究院推出的FlagEval大模型角斗场和模型辩论平台FlagEval Debate,为用户提供了模型对战和辩论评测服务,进一步揭示了模型间的差异和潜力。在金融量化交易评测中,大模型已展现出生成有回撤收益策略代码的能力,头部模型能力已接近初级量化交易员水平。

智源研究院副院长兼总工程师林咏华表示,FlagEval评测体系将坚守科学、权威、公正、开放的准则,持续创新,为大模型技术生态发展提供有力洞察。未来,评测体系将进一步探索动态评测与多任务能力评估,以更准确地感知大模型的发展趋势。(张九阳)

查看网址