首页 > 新闻

中国电信开源12B星辰大模型，携手昇腾推进大模型全栈国产化进程

发布时间：2024-04-18 13:58:20 | 来源：中国网 | 作者：辛文 | 责任编辑：严格

中国电信消息，近日中国电信人工智能研究院开源12B参数规模星辰语义大模型TeleChat-12B，相较1月开源7B版本，内容、性能和应用等方面整体效果提升30%，其中，多轮推理、安全问题等领域提升超40%。在C-eval、MMLU、AGIEVAL等国际权威榜单上，排名处于国内同级别参数开源模型的前列，进一步促进大模型开源生态繁荣，助力AI产业加速高质量发展。另据悉，中国电信将于年内开源千亿级参数大模型。

中国电信人工智能研究院（TeleAI）坚持完全自研自主可控，在中国电信首席技术官、首席科学家、TeleAI院长李学龙带领下，加快研发创新，不断优化底层模型结构，解除Word Embedding与lmhead共享参数，有效提升模型稳定性和训练效果，并基于精细化的CheckPoint效果验证，进行动态的数据配比优化调整，大幅提升模型训练效果。

海量高质量数据是保证大模型效果的基础，TeleChat-12B将7B版本1.5T训练数据提升至3T，优化数据清洗、标注策略，持续构建专项任务SFT（监督微调）数据，优化数据构建规范，大大提升数据质量；同时，基于电信星辰大模型用户真实回流数据，优化奖励模型和强化学习模型，有效提升模型问答效果。

TeleAI通过更彻底地开源推动大模型技术进步，同时携手华为昇腾，推动大模型全栈国产化进程。此次开源提供基础模型以及基于相应版本的对话模型、不仅支持传统的全量参数更新还支持LoRA等只更新部分参数的高效微调方法、支持Deepspeed微调、支持int8、int4量化。

在推动大模型全栈国产化进程上，TeleChat-12B已支持昇腾AI基础软硬件：推理方面，支持Atlas 300IDUO推理卡，精度与性能表现均与业界第一梯队持平。已规划支持Atlas800IA2推理服务器；训练方面，支持昇腾训练服务器，用户可使用昇思MindSpore和PyTorch框架进行多机多卡模型训练和微调，两个框架下模型精度与性能均有不俗表现。当前在多个项目中，已基于昇腾技术完成模型商用落地。下一步规划基于天翼云昇腾智算集群，训练多种尺寸的TeleChat模型，以AI赋能千行百业。随着电信与华为昇腾合作的不断深入，电信已经培养出一支成熟的昇腾开发者团队，为人工智能技术自主可控贡献专家力量。

加速探索创新的同时，星辰大模型也在深入推动人工智能与各行各业的融合，积极探索新兴的应用场景。星辰语义大模型已应用于行文写作、代码编程、网络故障分析以及经营分析等场景，以行文写作为例，其平均生成字数超过1500字，有效采纳率达到85.7%；在对外企事业单位客户的业务中，星辰语义大模型支持企业经营分析、政务公开咨询、民生诉求接待等场景，可覆盖95%的实际业务场景，多轮理解准确率达到90%。除传统行业应用场景，星辰大模型积极探索前沿领域应用，赋能具身智能，解决无人机编排投入多、开发量大的问题，实现无人机智能编排轻量化建设。

据悉，星辰大模型已广泛应用落地，赋能千行百业转型升级。客服大模型在全国试点上线18个服务场景，充分赋能智慧客服和数字人，在激活十亿级的日志、百亿级的网络参数等海量数据资产的基础上，进一步深化智能化运营；星辰政务大模型已落地某市民生诉求场景，为市民提供在线文本问答服务，提升政务服务能力，提高市民满意度；星辰经分大模型已落地某市经信局行业大模型，利用大模型生成能力快速草拟相关产业研究报告，简化知识检索流程，快速、精准查询所需知识内容，以便迅速、准确地掌握发展动态，支持决策过程，并追踪全球经济形势和科技创新，满足迫切的产业洞察和分析需求。

查看网址