天天报道:大模型时代，商汤造“工厂”

首页 > 资讯 > > 内容页

天天报道:大模型时代，商汤造“工厂”

2023-04-12 10:31:36

2018年冬天，临港成为上海自贸区新片区的时候，特斯拉没有Model Y，OpenAI没有ChatGPT。

眼下，这两块招牌背后，电动汽车和生成式AI已是当下全球产业中最热闹的两件事。甚至前者在AI展现的新能力映衬下都显得有些“传统”了。

【资料图】

越来越多的人隐约有一种生活状态将被颠覆的感觉。电动汽车给埋在发动机旁边一百多年的油罐做了分离手术，如果越来越多人现在已经习惯了这一点的话，ChatGPT又扛着新的AI大旗说，不止出行方式，整个人类的生产方式——人类如何获取知识，如何写代码和工作方案——都要彻底改变了。

上海临港悄然站到了这两场变革的关键位置。

现在这里是国内场景最丰富的自动驾驶测试场。特斯拉在美国本土之外的首座超级工厂几年前落在这里，另一座特斯拉储能超级工厂几年后也会在这里落地——同样的，如果越来越多人现在已经习惯了这些的话——距离特斯拉超级工厂3公里外的一座人工智能计算中心（AIDC）则正在愈发引来新的注目。

这个建筑面积接近20个足球场大小的空间里，安置了5000个服务器机柜和多达27000块GPU，背后的建造者是商汤科技。

与这个AIDC的建造相隔不久，商汤科技在2019年第一次推出了自研的CV（计算机视觉）模型，用10亿的参数规模实现了当时业界最好的算法效果。两年之后，商汤开始训练30亿参数的多模态大模型“书生”，并在2022年开源。

4月10日，商汤科技CEO徐立出现在临港AIDC的现场，背后是一张AI生成的图案，画面上是一个人类宇航员正在走入一个新的科技世界。

这个在复杂而具体的商业场景中成长起来的中国AI公司，正式拉开了自己的大模型叙事。

一整套大模型

商汤大模型研究的起点，可以回溯到4、5年前。

数据库ImageNet项目中有1400万张手动标注的图像，是目前世界上最大的视觉数据库。任何一个CV（计算机视觉）模型都绕不开它。在利用ImageNet训练AlexNet模型时，可以大致衡量一个CV大模型的学习能力。

2019年，商汤科技团队和新加坡南洋理工大学的研究者一起，用512块GPU把在ImageNet数据集上训练AlexNet的时间缩短到90秒，大幅提升此前腾讯用1024块GPU创造的4分钟最短时间。

数据库ImageNet项目中有1400万张手动标注的图像，是目前世界上最大的视觉数据库。利用ImageNet训练AlexNet模型的耗时，是高性能AI训练和计算的一个衡量尺度，关乎AI生产及后续迭代的研发效率。这次性能突破在行业之外并不惹眼，但对商汤科技在大模型研发中的架构能力发展意义重大。

商汤科技从2018年开始了AI大模型的研发，一年之后已经具备了千卡并行的系统能力。那两年是商汤在大模型研发的起步。2019年，商汤自研了一个10亿参数的CV大模型，实现了当时业界最好的算法效果。

这个10亿参数的模型现在已进一步发展成一个320亿参数量的、全球最大的CV大模型，并且从去年开始在自动驾驶、工业质检等多个领域发挥作用。而这个CV大模型现在只是商汤科技大模型体系中的一个。

4月10日的上海临港AIDC，商汤科技首次公布了“日日新SenseNova”的大模型体系。同样首次公布的，还有在NLP（自然语言处理）、AIGC（人工智能内容生成）领域的多个AI大模型。

图源：商汤科技

依托于千亿级参数的NLP模型，商汤科技发布了最新的自研中文语言大模型应用平台“商量SenseChat”。

如同名字的字面意思，生成式自然语言大模型最重要的能力并不只是问答，在与人的多轮对话中步步逼近精准答案的能力同样重要。这考验着大模型在语义理解基础上的逻辑推演水平。

徐立在现场实时演示了如何用“商量”来完成童话故事的续写、邀请函的文本创作和细节修改。在展示中，“商量”已经具备相当的逻辑推理能力，并且在多轮对话中展现了不错的上下文理解水平。

图源：商汤科技

商汤科技也展示了语言大模型支持下的几项创新应用，比如帮助开发者更高效地编写和调试代码，或者为用户提供个性化的医疗建议。值得一提的是，“商量”在短时间内完成了对一整部《专利法》的理解，并且能够顺利的从中提取和概括信息来回答问题，答案准确。这显示这个语言大模型也具备了一定的对超长文本的理解能力。

图源：商汤科技

基于这个大语言模型，商汤科技发布了包括AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列自研的生成式AI应用。

文生图创作平台 “秒画SenseMirage”展现了光影真实、细节丰富、风格多变的强大文生图能力，可支持6K高清图的生成；客户还可根据自身需求训练生成模型；AI数字人视频生成平台“如影SenseAvatar”仅需一段5分钟的真人视频素材，就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。

图源：商汤科技

“琼宇SenseSpace”和“格物SenseThings”则是两个3D内容生成平台。基于神经辐射场技术（NeRF），“琼宇SenseSpace”具备城市级大尺度的空间重建生成能力，只需要2天即可完成100平方公里的空间生成（算力为1200 TFLOPS的标准下），建模效率相当于传统人工建模的500人水平；“格物SenseThings”可实现各品类物体，包括光照和材质维度在内的细致还原，并且支持如航天器模型、室内盆栽等复杂结构物体的复刻。两套平台生成的各类3D内容都能够进行再编辑再创作。

图源：商汤科技

从“秒画SenseMirage”、“如影SenseAvatar”到“琼宇SenseSpace”和“格物SenseThings”，可被视为一个完整的视频内容的制作和生成工具平台。人、物到空间的数字化闭环都包含在这套生成式AI应用矩阵里。将为未来短视频、直播产业带来生产力的提升。

这些都归于商汤科技“日日新SenseNova”的大模型体系之下。

徐立表示，这个名字取自《大学》的第三章中，汤之《盘铭》的一句“苟日新、日日新、又日新”。商汤科技也希望商汤大模型体系的迭代速度及处理问题的能力上可以日日更新。

做大模型，也做流水线工厂

一个大模型里，参数量与处理数据量的乘积，就是所需要的计算量。

Meta在今年2月发布了语言模型LLaMA，这个仅有130亿参数的语言模型在性能表现上超过了拥有十倍于它（1750亿）参数的GPT-3，这或许是一个新的趋势。

当计算量由于有限的可调用资源而被设定出一个上限时，大模型的迭代开始变成一个参数量与数据量的分配问题。大量权重会给到数据，因此现实场景中的垂直领域大模型，其参数量不能肆无忌惮的增长。

从一个通用的千亿（甚至万亿）大模型里追求智能涌现，然后蒸馏出百亿或者数十亿级参数规模的大模型，以此为垂直领域大模型的训练起点，这是目前AI领域大模型落地的研发思路。因此对于最终意在服务于具体场景的商汤科技来说，一个通用、全修的大模型是必须的。

但这只是基础。

从生产方式上，此前人类历史上闪耀的算法模型，从谷歌、抖音的信息流算法，甚至到Bert与GPT-3，某种程度上都仍然出自小模型时代模型的生产方法。

在ChatGPT劈开红海后，关于大模型最曲折的一段共识道路已经走完。当大模型开始规模化的成为一种生产力工具，其批量生产所需要的算力以及资源效率需要一个新的生产范式。

这意味着大模型的研发已经从一场思维竞赛，过渡到一个数据获取和算力调配的效率竞赛。

“很多人认为，只要买了这么多GPU，就可以去搭建超大规模的训练集群，这是很大的误区。其实训练人工智能大模型，造超级AI计算机去完成任务，我认为是工程的奇迹。”陈宇恒表示。

过去5年，超大参数AI大模型的参数量几乎每一年提升一个数量级。过往的10年，最好的AI算法对于算力的需求增长超过了100万倍。但算力并不只是GPU数量的正相关。上万张GPU的并行效率背后是系统架构和网络架构设计的复杂工程。否则，虽然1万张卡和1000张卡理论来说是有10倍的训练速度，但实际上可能1万张卡只能有1000张卡2倍的训练效率。

集群框架的设计，数据存储等因素都是修炼大模型时需要前置的问题。换句话说，大模型的修炼开始普遍成为一个工程学问题。

如何让大模型的生产范式从小作坊转变到流水线工厂——汤科技希望临港AIDC能成为那个工程学答案。

为什么是商汤

临港AIDC——或者叫做“SenseCore AI大装置”——正是为此而搭建的。这是一个巨大的算力中心，也是一个融合了“大模型+大算力”体系的研发实体。

临港AIDC 图源：新民晚报

临港AIDC在算力规模、并行训练能力以及稳定性方面的基础素质，使其可以为大模型研发提供强大的驱动力。

SenseCore商汤AI大装置目前包含27,000块GPU，可输出5000 Petaflops算力，是亚洲最大的智能计算平台之一。

以巨大算力规模为基础，SenseCore AI大装置目前可支持20个千亿参数量的超大模型同时训练，并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务体系，并提供涵盖数据、训练工具、推理部署、性能优化一条龙的大模型基础设施服务体系。

在AI大模型时代，衡量算力能力和核心指标不是简单的数字，其一是多卡并行状态下的有效利用率，即能够支撑大模型训练的实际算力；其二是系统能够持续稳定运行的时长。

SenseCore AI大装置拥有出色的并行计算能力，能够以最大4000卡规模集群进行单任务训练，并可做到七天以上不间断的稳定训练。SenseCore AI大装置在2022年已支持了超过10个大模型训练项目，其中不仅有商汤自身的大模型训练项目，也包含了一些其他企业自定义的模型训练任务。在4000卡规模集群的训练关键指标达到世界领先之后，SenseCore AI大装置将为商汤科技未来万亿级参数规模的大模型训练提供基础。

算力层、以及平台层和算法层的三层结构组成了SenseCore商汤AI大装置的整体架构。基于AI大装置和“日日新SenseNova”大模型体系，商汤科技也将面向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务（Model-as-a-Service）。

图源：商汤科技

某种程度上，大模型算法本身是大模型在实际场景落地中那个最容易跨越的环节，更多的矛盾集中在后续的工程能力，以及成本控制上。垂直领域大模型近年在技术上已经开始越过工业红线，但它的成本仍然太高。换句话说，AI已经证明了“能不能”的问题，接下来的问题是“够不够便宜”。

这些都是SenseCore商汤AI大装置在数据标注效率、模型部署成本等环节希望解决的问题。

“它不单是说在AI的生产上做了产品的壳，它是提供了一整套工具和产品以及解决方案，把人工智能大模型的新的生产范式去做整体的商业化，以及对外的服务，去推进人工智能领域的整个商业化的发展。”陈宇恒这样描述SenseCore商汤AI大装置的角色定位。

换个角度，SenseCore商汤AI大装置是一套IaaS+PaaS的产品体系。

从每个模型单独标注数据、单独训练的模式的“小作坊”模式，过渡到由少数大模型不断生产、迭代进化，由大模型支撑领域模型升级，再通过精调等手段，生产行业及场景模型，迅速达到应用标准的“流水线”模式。商汤科技需要这样一个大模型生产“工厂”，在未来大量新的AI大模型的研发过程中尽早和产业场景做结合，从研发端开始压缩这条技术链路。

这决定了大模型研发降本增效的程度，AI在生产和应用端的成本降低会引导出新的商业模式，这最终会缩短AI与现实的距离。

一位国内自然语言公司的从业者曾对品玩表示，“技术和场景，一家AI公司最好只选一头”。这句话的背景是2016年左右人工智能在国内激起的第一波浪潮，言下之意，彼时一穷二白的人工智能初创公司，需要集中精力先生存。

商汤科技也是在那一次浪潮中涌现出来的人工智能公司，但却是其中少有最终完成上市的一个。现在新的大模型浪潮涌动，作为一家人工智能平台型公司的商汤科技，面临的局面也今时不同往日。

当下大模型竞争的重要参与者，微软、Google包括近日推出Segment的Meta，大模型的背后都是坚实的场景支撑，并且两者会在很早期就开始融合。商汤的处境相似，一家人工智能公司要长久保持技术活力。需要在技术和场景两端同时建立脉络。

“技术和商业要齐头并进”，陈宇恒表达了类似的判断。这既是说大模型要尽早的进入现实环境中去自我优化，也可以理解为未来大模型的研发过程本身就要尽早放入相应的产业语境里来完成，以产品的形式来形成用户反馈的闭环。

而已经走入智慧汽车、智慧城市等领域产业深处的商汤科技，需要承担起这个未来大模型生产方式变革中的基础设施角色。

x 广告

最近更新

天天报道:大模型时代，商汤造“工厂”

天天报道:大模型时代，商汤造“工厂”

大模型时代，商汤造“工厂”

缪斯MP5未识别到内存卡是什么原因？缪斯mp5进水了怎么解决？

未识别原因：1、MP5卡槽的问题，可能是卡槽接触不良。2、可能是内存...

天天视点！Garageband怎么查看术语表？ Garageband有哪些功能？

Garageband怎么查看术语表?Garageband查看术语表教程：请点按位于课

新乡旅游有哪些好看的景点？新乡有哪些特色美食？|世界微头条

新乡旅游有哪些好看的景点？九莲山景区九莲山景区，位于新乡市辉县

杠杆基金还有吗？期权基金有杠杆吗|天天观焦点

杠杆基金还有吗杠杆基金没有。杠杆基金是对冲基金的一类。国内杠杆

全球观察：邻友圈怎么更改密码?邻友圈怎么绑定手机号？

邻友圈怎么更改密码?1、首先打开邻友圈，进入个人中心页面，点击右

长岭阿里斯顿冰箱的排水孔在哪里？长岭阿里斯顿老冰箱怎么调温度？

长岭冰箱排水管在冷藏室后背的下方，排水管主要承担雨水、污水、农...

【全球新要闻】杜康发现酒的故事是什么 中国酒业的始祖介绍

白酒是现代生活中不可缺少的饮品。无论是在宴会上还是在家庭聚会上

软文发稿网做营销是一种非常独特的体验

软文发稿网（song ruanwen com ）秉着为企业轻松做推广的经营理念，

联想电脑硬盘怎么隐藏分区？联想电脑硬盘保护怎么解除？

如何隐藏分区：1、按下Win+R键，输入diskmgmt msc后点击确定。2、...

简讯：网游概念强势拉升，冰川网络一度涨停，奥飞娱乐斩获四连板

网游概念12日盘中强势拉升，截至发稿，冰川网络大涨超19%，盘中一度...

环球观速讯丨11股获高管增持 永和股份获增持金额最多

证券时报网讯，数据宝统计显示，近10个交易日（3月28日~4月11日）共...

北向资金净卖出超20亿元-环球热点评

证券时报网讯，4月12日早盘，北向资金持续卖出，截至9:59，北向资金...

全球通讯！瑞丰高材新设子公司 经营范围含生物基材料制造

证券时报e公司讯，企查查APP显示，近日，山东瑞丰生物材料有限公司...

科技部等多部门：进一步支持西部科学城加快建设

证券时报网讯，科技部等印发《关于进一步支持西部科学城加快建设的...

safari无法下载此文件是什么意思？safari无法下载此文件怎么解决？

含义：1、苹果设备自带浏览器safari不支持下载。2、iPhone固件的强...

为用户创造美好 海信视像发布全场景显示新品

场景化消费将重塑显示行业竞争格局，4月10日，海信视像总裁李炜在全

带vga接口的显卡有哪些？vga显卡驱动怎么安装？

含VGA接口的显卡：1、7系的GTX 750、740、730和710，9系的GTX 950...

视点！夏枯草能代替胶囊吗？夏枯草贵不贵？

夏枯草能代替胶囊吗?这个就是一样的药物，之所以做成胶囊和片，是因

软文推广：一篇软文的推广需要结合文章本身进行有效的推广-今日报

企业在选择软文媒介和安排软文的发布时，需要根据自身的需要和特点

十大品牌设计公司排行榜 中国十大创意设计公司

十大品牌设计公司排行榜2023年最值得推荐的十大品牌设计公司 NO 1

短讯！广东发展“赏花经济”促增收

金羊网

北京北站地铁站是几号线？北京北站地铁站叫什么名字？

北京北站地铁站叫做西直门站。去北京北站可以乘坐北京地铁2号线、北...

养老保险手册丢了怎么办？职工社会养老保险手册丢了怎么办？ 当前热点

养老保险手册丢了怎么办？职工社会养老保险手册丢了怎么办？参保人

全球快消息！网贷逾期不还的后果是什么呢？信用卡逾期最佳处理方法是什么？

网贷逾期不还的后果是什么1、高额罚息。逾期之后，用户需要承担高额

民营企业和私企的区别是什么？民营企业有什么特点？

区别：1、定义不同。民营企业指的是非国有国营的企业，私营企业指的...

股票限价和数量是什么意思？股票怎么限定价格买入？-世界热消息

股票限价和数量是什么意思?股票限价是指限价委托(即：投资者需自行

鸭子属于什么类的动物？鸭子吃什么食物为主？

你好，鸭子属于水陆两栖类、雁形目鸭科鸭属动物。1、鸭是雁形目鸭科...

wlwz的含义是什么？ 网络用语wl是什么意思？

wlwz的含义是什么?wlwz是电视剧《武林外传》的缩写。网络用语wl是什

视讯！最近对睡眠的研究揭示了大脑和肠道之间意想不到的联系

睡眠是人类最重要的活动之一——如此重要，事实上，即使我们一晚睡...

培训师提供避免无聊的提示 以防止在日常跑步中受伤

是否曾经开始过新的健身之旅，却发现自己在几周内感到无聊或遭受新...

不生孩子的年轻人叫什么？年轻人为何不愿生孩子了？ 每日看点

不生孩子的年轻人叫什么?不生孩子的叫丁克族。丁克的名称来自英文Do

世界微头条丨信用卡欠5000怎么办呢？网贷逾期后会扣其他卡上的钱吗？

信用卡欠5000怎么办1、偿还欠款：信用卡逾期最佳的处理方案当然是偿

网商贷逾期会产生哪些后果？网贷逾期多久会上黑名单？_焦点信息

网商贷逾期会产生哪些后果?1、产生罚息。这是金钱上的损失。如果信

世界看点：广东上线电力市场零售数字化平台 一万四千家企业上网“淘电”

“‘淘电’，就像在购物网站上购买商品一样，售电公司是卖家，在平...

70万民事诉讼需要多少钱？70万民事诉讼律师费多少？

70万民事诉讼需要多少钱70万诉讼标的诉讼费是7000元。依照国务院制

世界热推荐：股票常用的指数有哪些？股票里面有哪些重要的指数？

股票常用的指数有哪些?标普500指数：代表美国500家规模最大的上市公

当前焦点!民事诉讼律师费用收取标准是什么？为了5000元起诉值得吗？

民事诉讼律师费用收取标准是什么?一、代理民事诉讼案件(一)不涉及财

网贷逾期一千多块钱可以立案么吗？网贷逾期被起诉怎么办？

网贷逾期一千多块钱可以立案么吗?网贷逾期一千多块钱是可以立案的。

西厢记脱胎于哪个唐传奇故事？西厢记为什么被称为禁书？

【全球新要闻】杜康发现酒的故事是什么中国酒业的始祖介绍

环球观速讯丨11股获高管增持永和股份获增持金额最多

全球通讯！瑞丰高材新设子公司经营范围含生物基材料制造

为用户创造美好海信视像发布全场景显示新品

十大品牌设计公司排行榜中国十大创意设计公司

养老保险手册丢了怎么办？职工社会养老保险手册丢了怎么办？当前热点

wlwz的含义是什么？网络用语wl是什么意思？

培训师提供避免无聊的提示以防止在日常跑步中受伤

不生孩子的年轻人叫什么？年轻人为何不愿生孩子了？每日看点

世界看点：广东上线电力市场零售数字化平台一万四千家企业上网“淘电”

新车购置价是什么意思（新车购置税怎么算的）天天即时

骁龙8处理器怎么样骁龙8+和骁龙888哪个好？当前动态

骁龙8处理器怎么样骁龙8+和骁龙888哪个好?1、它是高通在2021年11

细胞与基因治疗成为现代医疗主要趋势当前快看

海外并购首要目的是什么？海外并购基金运作模式有哪些？当前热闻

车险必上险种是什么？车险一般上哪几个险种？买车险一般买什么险种？当前视点

新乡市委书记李卫东会见泰国农业与合作社部督察长猜瓦·尤塔坤世界快看点

gsm网络是什么？gsm的网络结构图天天速递

首批20只公募基金产品一季报出炉超九成实现超额收益|每日消息