多模态AI竞争之道在于百姓之日用要解决“好用”而非“能用”落地瓶颈

0人浏览 2025-04-14 07:05:00

在通往通用人工智能(AGI)的路径上，多模态正成为技术演进的关键节点。

4月10日，南都湾财社记者获悉，商汤科技在“2025技术交流日”上发布了新一代大模型系列“日日新SenseNova V6”，涵盖通用模型、推理模型、视频理解模型及全模态交互模型，聚焦视觉、文本、语音等多模态能力的融合与落地。“AI之道，在于百姓之日用。”商汤集团董事长徐立在现场表示，随着通用能力增强，大模型将逐步走入更多真实生活场景，因此要解决模型“好用”而非“能用”的落地瓶颈。徐立表示，今年以来，中国大模型的研发进展显著提速，在多个维度已具备与海外同步发布，甚至实现局部超越的能力。

商汤新动作的背后，也折射出国内大模型竞争正从规模竞赛转向“推理+落地”双重比拼。近一个月，百度“文心一言4.0”、字节“豆包大模型”纷纷强化多模态布局，MiniMax等创业公司也在语音、视频理解上快速突破。业内普遍认为，随着语音对话、视频生成、具身智能等新场景涌现，原生多模态架构将成为未来行业的技术主线。

新路径

多模态“重构”大模型技术路径

在行业从“百模大战”进入深水区之后，多模态正成为国产大模型厂商共同押注的新路径。与过去追逐参数规模不同，如今模型的发展更强调结构设计、模态协同与实际应用的连接能力。以语言为中心的范式已难独立承载通用智能的需求，融合图像、语音、视频等多源信息，成为迈向AGI的必要一环。

“现在已经用完了互联网上大部分的文本数据。”徐立在演讲中指出，海量的图像、视频、三维等非文本模态中蕴藏着尚未被系统挖掘的知识宝藏。他强调:“从数据量来看，多模态是补充人类智能的核心要素；从学习方法上，多模态也是效率更高的。”

而在技术实现上，多模态融合并非模态简单堆叠，而是涉及“原生架构”的深度设计难题。

商汤科技联合创始人林达华在接受南都湾财社等媒体采访时表示，模型之间“加法式”的拼接会带来模态之间能力的削弱，必须通过从底层架构打通各模态之间的联系，才能实现真正的融合。他提到，商汤从2023年中起就在攻克模态桥接技术，构建统一的“感知-推理”链条。

不只商汤在推进融合架构的落地，百度、阿里等厂商也在强调“多模态原生训练”能力。

百度文心大模型已在图文理解、多图推理等任务上开放测试，通义千问亦在视频、音频输入的端到端处理上投入资源。新兴玩家如Moonshot AI、智谱AI也相继发布包含图像理解或视频摘要功能的模型，争夺“多模态AI”新高地。

新趋势

将构成“轻量模型+交互场景”新范式

同时，落地场景正在反向塑造模型架构。商汤科技联合创始人、大装置事业群总裁杨帆指出，模型结构的变化往往是“被需求倒逼的”。在自动驾驶、车舱交互、虚拟客服等商用环境中，多模态不仅是性能指标，更关乎成本控制与响应速度。例如SenseNova V6系列中，轻量化的Omini模型专为视频语音交互优化，延迟控制在500毫秒内，是“从业务中生长出来的技术”。

多模态也在改变大模型训练的逻辑。徐立指出，“规模化堆卡”的思路正在降温，模型能力的增长更多依赖于思维链构建、数据精度优化与场景适配。他认为，“模型的成长方式可以是更有效的强化学习，而非简单的token数量提升”。这种趋势正促使国产厂商将更多精力投入“数据与结构”的系统优化。

在业内看来，多模态正成为技术、商业和交互维度交汇的核心阵地。随着硬件部署成本下降、智能终端普及，面向语音、图像、视频的模型能力将逐步由云端向端侧延伸，构成“轻量模型+交互场景”的新范式。国产大模型厂商正试图通过这一路径，打破“强算力+大模型”壁垒，实现从科研展示走向真实使用的跨越。

新挑战

落地为王，厂商竞逐“最后一公里”

随着大模型从“能力竞赛”转向“场景比拼”，如何穿越从研发到应用的“最后一公里”，成为行业共同面临的挑战。一方面，多数厂商仍在探索“To C”的路径；另一方面，“To B+To G”的场景成为当前最现实的突破口。

徐立指出，大模型最终要“在真实的环境中解决那些日常烦琐，但重要的行业需求”，这不仅是应用落地的核心，也是一家AI公司能否建立护城河的关键。

商汤近年来持续推进“三位一体”(AI基础设施、大模型、行业应用)战略，是为打通这一链条。徐立认为，“当AI聚集了人类现有的大量平均水平的知识后，就能够用触类旁通的能力，为开放问题形成确定性的解决方案”。这意味着，模型的商业价值，往往取决于能否嵌入具体业务流程之中，成为“工具”而非“玩具”。

林达华也强调，真正有生命力的Agent，必须落在活生生的场景里。他举例称，商汤为保险公司提供多模态模型服务，能够从理赔资料中识别潜在骗保行为，“这不是demo，而是业务链条的一部分”，体现了“智能体+行业知识”结合的实际价值。

从行业整体来看，金融、教育、文旅、车载、政务等B端场景成为国产厂商主要试水地。百度将文心大模型嵌入政务热线与金融客服系统，阿里云则主打财务分析与合同审核。新兴玩家如MiniMax、智谱AI也在拓展企业知识管理与智能问答等垂类场景，试图建立“从模型到产品”的打包能力。

大模型企业在商业化上的打法也愈加分化。一类聚焦“产品化”模型，以“智能体+工具链”切入SaaS市场；另一类则强调“平台化”能力，为其他开发者和行业伙伴提供底层模型和API接口。在林达华看来，这两者并不冲突，但“唯有深入产业，才能形成数据飞轮和场景黏性”，这是国产大模型实现长效商业化的根基。

“AI之道，在于百姓之日用。”徐立表示，从“炫技”走向“实用”，国产大模型能否真正进入寻常人家的日常，还需穿越技术与场景之间的灰色地带。行业博弈的下半场，拼的不再是参数和榜单，而是理解现实世界、嵌入实际流程的能力。

采写:南都·湾财社记者严兆鑫

制图:黄亚岚(即梦AI)

本文分类：实时讯息
本文链接：https://m.heituzi.com/news/7xMA91RMXr.html

上一篇 > 创新研发多维度增收，生物医药公司业绩释放新增量
下一篇 > 多肉织梦文旅共兴——张宜庄园的“造梦”故事

导航栏目

多模态AI竞争之道在于百姓之日用要解决“好用”而非“能用”落地瓶颈

17只白酒股下跌贵州茅台1475.5元/股收盘

梁山县交通运输局打出维修行业提质增效组合拳

监控拍下老人离世前最后画面：提农具出门干活，突然转身看了看身后自己的老房子

中汽协秘书长付炳锋：“反内卷”治理工作不断深化，严防“内卷外溢”

天舟八号“带货”能力为啥这么强？未来还有这些力量加入“货运队伍”

导航栏目

多模态AI竞争之道在于百姓之日用 要解决“好用”而非“能用”落地瓶颈

17只白酒股下跌 贵州茅台1475.5元/股收盘

梁山县交通运输局打出维修行业提质增效组合拳

监控拍下老人离世前最后画面：提农具出门干活，突然转身看了看身后自己的老房子

中汽协秘书长付炳锋：“反内卷”治理工作不断深化，严防“内卷外溢”

天舟八号“带货”能力为啥这么强？未来还有这些力量加入“货运队伍”

多模态AI竞争之道在于百姓之日用要解决“好用”而非“能用”落地瓶颈

17只白酒股下跌贵州茅台1475.5元/股收盘