大模型引发算力消耗战,商汤科技如此破局

发布日期:2024-04-27 04:27    点击次数:64

4月23日,商汤科技举办技术交流日活动,发布行业首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求,并升级“日日新SenseNova 5.0”大模型体系,其综合能力全面对标GPT-4 Turbo,技术领跑加速生成式AI向产业落地的全面跃迁,实现大模型按需所取。

在人工智能发展的最基本法则——尺度定律(Scaling Law)的准则下,商汤持续寻求最有数据配比并建立数据质量评价体系,推动自身大模型研发的同时,也为行业伙伴提供大模型训练、微调、部署和各类生成式AI的能力及服务。

此次会上,商汤科技董事长兼CEO徐立表示,商汤在尺度定律的指导下,会持续探索大模型能力的KRE三层架构(知识-推理-执行),不断突破大模型能力边界。以下为徐立演讲主要内容:

如何更好提升大模型性能

和去年相比,商汤的大模型在认知有很大迭代。去年主要聚焦在模型本身的参数发布,而今年则更多关注行业场景的落地。

大模型的研发,在行业当中有一条大家认知的基本法则,称之为“Scaling Law 尺度定律”。

在尺度定律通常意义下,大家的认知是随着模型的参数变大、数据量变大、训练时长加长,算法性能会越来越好,对算力的消耗就变成一种必然要求。

这背后有两条隐藏的假设,即:第一,可预测性:可以跨越5-7个数量级尺度依然保持对性能的准确预测。

第二,保序性:在小尺度上验证了性能优劣,在更大尺度上依然保持。

这个尺度定律是资源配置的引导器,可以在有限的研发资源上找到最优的模型架构和数据配方,从而实现 效果最大化,让模型能够更高效地完成学习。

在许多实际评测级上,通常认知的推理计算、语言能力等实验上,发现保序性和可预测性依然是正确的。例如,在不同参数大小的模型上可以很容易看到,性能好的依然性依然领先。

同时,选择更佳的数据配方性能提升效率会更大。这也带来另一个启示,即可以以一个小参数的模型通过更加优质的数据配方来完成大参数模型所能完成的事。

那么,应该从哪里找到更好的数据集?这就有必要提到大模型能力的分层。

第一,知识层:过往大模型已经有共识能够把世界的知识融汇到一个模型当中。

第二,推理层:在世界知识的背后,可以称之为推理,也就是世界知识联系背后的道理,是更加高阶的知识,是解决模型是否聪明,是否能够举一反三的核心能力。

第三,执行层:在推理之上如果能和世界进行交互就有了执行层。

可以看到知识、推理、执行形成完备的集合来构造世界上大模型的三个基本能力,也是构造高质量数据的核心方法论。

目前,商汤大模型“日日新”5.0最重要的提升除了模型采用混合专家(MoE)之外,也解决了数据质量的瓶颈,在知识层面上采用超过10T的Tokens,使得高质量数据的完备性能够得以保持。

除此之外,还合成构造了思维链数据,这是保障模型能力提升的关键。如果每一个行业思维链数据都能够被轻松构造,大模型在行业中的推理能力就会大幅度提升,在这个过程中构造数千亿的知识链数据,从而使得模型能力可以对标GPT-4。

这也使得尺度定律也未必在现实中就一定能够适用,比如会触及物理的极限;比如没有数据,合成构造的数据速度就会非常慢;再比如硬件连接的极限。今年3月,微软就提到Open AI如果把超过10万张的卡连接在一起,可能会引发电力短缺。

如果在物理限制之下,对这些卡、连接、拓扑进行新的设计,这就给出了一个全新的要求,就是算法设计和算力设施需要联合优化。

首先算力设施的拓扑极限用来定义下一个阶段的算法,而新的算法又要重新指导算力设施的建设。这就是商汤AI大装置(SenseCore)联合迭代的核心能力。

全面对标 GPT-4 Turbo

目前,日日新5.0更新主要了一些新的突破,首先,采用混合专家架构(MoE),能够完成6000亿的参数,并且激活少量参数就能完成推理,保持推理效率。其次,基于超过10TB tokens的训练数据,并具有几千亿的合成数据。再次,推理上下文窗口 达到200K。最后,增强知识、推理、数学、代码能力,全面对标 GPT-4 Turbo。

日日新5.0的自然语言能力,得益于对大量中文预料的构建。比如,2022年的高考作文题目,是基于《红楼梦》里亭子的提名来写一篇关于文化、关于创新的话题。

传统写作文基本都会有一些套路,比如“首先、其次、再次、沉浸、迭代、收尾”。但是大模型写得会相对比较发散,从诗经中的《兼爱》,到对文化的革故鼎新,再到互联网上一些新的知识融合,相对来说是比较开放式的创作,不受模板约束。很多文案类的创作内容可以运用好日日新5.0的中文能力来形成不一样的百花齐放的创作。

还有一个有意思的场景。大家通常会在滴滴打车后把图片发给等待的朋友,说坐这个车过来还有多少分钟。把这张打车图片给到模型,里面有司机的信息、车辆信息、车牌信息等等,商汤大模型甚至能识别出截图有中国移动和中国联通,是双卡双待的手机,这个场景是GPT-4难以识别出来的,GPT-4对车牌的识别还有错误,这其实对多模态信息的获取是有更准确的要求。

再比如,早上点了一个早餐送到房间,包含炸馄饨+烧肉面+冰红茶,想问问早餐有多少热量,让模型针对图片进行分析。商汤的模型和GPT-4的对比可见,GPT-4对内容识别有错误,它认为这是烧鸡面。在与中国文化相关的图片、内容、文本,日日新5.0用理解来辅助生成、用生成助推理解的联合过程,有一定的行业领先优势。

今年是大模型在端侧应用爆发的元年。如果几十亿个端侧设备都在不停地调用大模型,没有任何一个服务器能够承接。端侧能力的应用是大模型铺开最核心的关键。

把商汤SenseChat-Lite版本和GPT-4比较可以看到,前者出拳速度快,其实这不是因为模型能力怎么强,而是在不同的适用场景之下小模型决策速度快。当大模型还在计算时,小模型已经完成了判断并且出拳了,不管是不是最优,但实实在在打到了对手身上。

天下武功为快不破,接下来考验的端侧小模型能力,商汤发布的1.8B的能力全面领先所有开源2B的同级别模型,并且跨级领先了7B、13B模型,性能、指标非常硬核。

大部分推理最好能在端侧100%完成,如果要追求高性能,可以用端云联动模式。

在垂直行业“融会贯通”

目前,商汤大模型在垂直行业也具备了特别的行业认知和数据。金融行业的特点是强监管性,法规频繁更新,甚至众多的法规是冲突的,因此要读懂背后的决策逻辑。金融背后的思考链就是外规要强于内规,新法规要覆盖老规则,有冲突的情况下先用新的,外规内化,最后形成完整点。如问大模型一个开户问题,它要查到很多文件,一个简单的问题它都需要进行联合的规范查询。

医疗行业,如上传一份体检报告,它能够解读出一些信息,看到里面有一个胆囊异常,会要求继续上传前几年的报告,然而发现2019年之前胆囊是正常的,但2020年有一个小的胆囊异常,2021年胆囊异常变大,所以它强烈建议去医院,并建议有一个健康的饮食习惯。

政务行业,也是要联动不同信息数据,比如有一位80岁户籍老人想买电动轮椅车,并问可以享受什么样的补助?这部分信息分散在大量不同的文档里,什么样的人能享受补助,购买的电动轮椅车又可以享受什么样的补助,等等,这是一个复杂的多逻辑过程。最后大模型会给出建议,并给出相应条款供查询。

南方+记者  郜小平