界面新闻记者 |
界面新闻编辑 | 宋佳楠
9月25日上午,百度在云智大会上推出百舸AI异构计算平台4.0和千帆大模型平台3.0等AI基础设施产品,并公布了多项AI相关业务的最新数据。其中,文心大模型日均调用量已经超过7亿,距离百度上次公布的6亿数据有进一步提升。
在刚结束的阿里云栖大会上,阿里巴巴CEO吴永铭曾表示,阿里云的单网络集群已经拓展至10万卡级别,而百度也不甘于落后。百度集团执行副总裁、百度智能云事业群总裁沈抖特别强调,百舸4.0将不仅仅是万卡集群,而是具备了成熟的10万卡集群部署和管理能力。
百度今年一直在强调大模型的落地应用。百度CEO李彦宏在最近一次内部讲话中表示,具备应用场景、能够持续迭代升级的大模型,与其它模型产品的差距会越来越大。
基于此,百度找来了长安汽车和三星等大量客户为其站台,以展示百度大模型在各行各业的落地应用成果。
沈抖表示,过去一年,百度感受到客户的模型需求猛增,需要的集群规模越来越大,企业对模型推理成本下降的预期也越来越高。
训练大模型的前提是创建集群,这并非简单地买来GPU组装即可,通常需要几个月的时间进行设备配置和调试。
此前有云厂商提到,组建集群可以压缩到1天,而沈抖称,百舸4.0能够做到最快1小时完成组建,主要采用将业界流行训练工具和框架进行内置的方式。
一旦进入到大规模训练阶段,最重要的就是稳定性。大模型领域一直遵循著名的Scaling Law(尺度定律),认为模型性能会随着参数、算力和数据集的规模增加而提高。
根据沈抖的说法,GPU集群需要耗费巨额的建设和运营成本,通常建设一个万卡集群,单是GPU的采购成本就高达几十亿元。如果是10万卡集群,服务器一天消耗的电量大约是300万千瓦时,相当于北京东城区一天的居民用电量。
在这种大规模的集群上,硬件不可避免会出现故障,规模越大,出故障的概率越高。在这些故障中,绝大多数是由GPU引起的,因为GPU是非常敏感的硬件,对温度、湿度等环境波动反应灵敏。
沈抖提到,Meta训练Llama3模型时,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。
大模型的训练是庞大的单一任务,一个节点出错,整个集群就需要停下,并回滚到上一个记忆点。考虑到GPU集群的成本非常昂贵,每多停一分钟就会白白烧钱,“有效训练时长”便成为非常重要的指标。
针对大模型训练过程中故障频发的问题,百舸4.0对故障检测手段和自动容错机制进行了升级,目前万卡集群上的有效训练时长达到99.5%,沈抖称这高于同行对手的数据表现。此外,百舸4.0将主流的长文本推理效率提升了1倍以上,同时降低了推理成本。
在百度最新的财报电话会上,李彦宏曾透露,二季度百度智能云AI贡献的收入占比进一步提升至9%,而上一季度为6.9%。
大模型工具的性能提升固然重要,但对于百度来说,模型落地的成果更具有现实意义。
除升级百舸平台外,百度还着重介绍了最新的千帆3.0平台。根据沈抖公布的数据,在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。千帆3.0可调用包括文心系列大模型在内的近百个国内外大模型,也支持调用语音、视觉等各种传统的小模型。
目前,大模型落地的三大主要需求分别是应用开发、模型推理和模型开发。
在应用开发层,企业级RAG(将企业和行业数据做成外挂知识库给大模型)和Agent智能体是两大常见的大模型落地场景。
其中,智能体接到任务后,会进行自主思考、任务拆解、方案规划,并调用工具,全程自主进行,能够完成过往需要3到4个APP才能完成的任务。
沈抖表示,百度内部为千帆平台提供了百度搜索和百度地图等超过80个官方组件,用来提升智能体在特定任务上的能力。
而在李彦宏看来,智能体是大模型发展的下一个重要方向。“有很多人看好智能体这个发展方向,但是到今天为止,智能体还不是共识,像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。”
百度在今年的Create大会上曾发布过三款产品,分别是AgentBuilder、AppBuilder和ModelBuilder。其中,AgentBuilder和AppBuilder都与智能体相关,一个门槛更低,另一个更强调功能性。
根据百度最新透露的数据,智能体在百度生态的分发量大幅增加,7月日均分发次数超800万次,为5月数据的两倍。
百度旗下数字人平台和智能客服产品也有了最新进展。其中曦灵数字人平台4.0,支持根据文字快速生成不同妆造、不同行业特色的3D数字人形象和视频,并将3D超写实数字人的价格从万元降至199元。
智能客服产品“客悦”则在用户意图理解、多模态信息交流等方面进行了优化,提升了处理复杂问题的能力。
按照百度的说法,目前业内“问题自主解决率”的平均水平是80%,升级后“客悦”将这一指标提升至92%。该产品已累计帮助企业客户服务超过1.5亿人次,交互超5亿次。