浙江在线2月14日讯(记者 龚晓)近几年,随着人形机器人、机器狗等新生事物在社会上流行,“具身智能”这个略显生涩的名词,通过政府文件、新闻报道等形式走入大众视野,那它究竟应该怎么解释呢?

(杭州联汇科技股份有限公司CEO兼首席科学家赵天成)
带着这个疑问,浙江在线新闻网站品牌栏目《向“新”力》采访了杭州联汇科技股份有限公司CEO兼首席科学家赵天成。
在他的表述中,具身智能可以理解为具备身体的人工智能,区别于大家常用的对话式AI大模型,它不仅可以思考,还能在物理世界中解决问题。
“行业内对具身智能有个称呼——物理AI。” 赵天成说。
一个“大脑”多个形体
2014年,赵天成刚进入美国卡内基梅隆大学学习,他美国导师告诫他,不要去研究人家已经解决的问题,要着眼于下一个十年。于是,赵天成便开始研究多模态智能体(Agent,感知环境并行动、用于实现特定目标),“主要用于实现人工智能与物理世界的交互沟通。”
“最初只做对话,接着做视觉,后来做了末端的执行策略。”赵天成说,“智能体形成了感知、理解、决策的闭环,这是具身智能的雏形。”
2020年,赵天成选择回国创业,他说中国是“物理AI”发展的热土,在全世界范围内,我们国家在装备制造、供应链衔接、机电一体化、软硬件整合方面都有着显著的优势,很容易就能将先进技术整合成产品,进而参与市场竞争。
经过几年的努力,联汇科技开发了三条主要的产品线,一个是视觉模块,用于感知和理解,摄像头取景后,辅之以大模型级别的理解和分析,让具身智能具备人眼的功能;一个是记忆模块,以视频方式存储、分析、总结具身智能的活动;一个是决策模块,“看见着火了,马上灭火,而不是通知人来灭火,这是我们跟之前AI的本质区别。”赵天成说。
联汇科技的三个模块,可以根据需要灵活组合,赋能机器人、机器狗等不同的载体,安装大脑模块的具身智能可以通过“数据链”共享感知、共享记忆、共享决策,一个“大脑”适配多个形体,相互配合完成指令。“比如无人机看见哪里失火了,就可以指挥有灭火能力的机器狗、机器人,根据‘大脑’规划的路线去灭火。”赵天成说。
“数据荒”制约发展
目前,具身智能发展最大的瓶颈就是“数据荒”。
据介绍,文本大模型训练的语料,是基于人类多年来在线上线下积累下来的海量文本作为基础的,“但是具身智能没有可用于训练的海量数据。”赵天成说。
现阶段尚未构建起专门针对物理 AI 的互联网体系,因此不存在可直接利用的现成海量数据源。目前,全国各地有不少地方在建设一些“数采”工厂,但是效率很低规模很小,无法满足具身智能产业的进一步发展。
人工智能发展很快,在科学研究阶段,小模型的训练需要的数据量不大,现在的大模型需要数千亿至数万亿单词的文本训练,“基础设施的建设依然还在路上。”如果无法突破目前的模式,具身智能产业想要进一步发展,就要在核心算法上突破。“毕竟训练一个人,一个婴幼儿学会走路,学会拿筷子吃饭,并不需要海量的数据。”赵天成分析道。
“一人公司”将成现实
对于目前的科创大潮,不少人担心无法分享时代的红利,毕竟不是所有人都拥有理工科的博士学位。对此,赵天成微笑回应,随着人工智能的发展,将来会出现“一人公司”:以后创业需要雇佣的就不是员工,而是各种各样的智能体,有物理智能体,也有数字智能体。
目前,联汇科技也推出一个名为“OttoBox(中文名小欧)”的个人AI工作站,它可以精准识别画面语义,听懂复杂指令,内置的数据库实现毫秒级语义检索,AI文件柜系统自动解析入库素材,为每一份素材配上专属智能档案。

(联汇科技的产品)
“小欧”直击视频创作痛点。“脚本、初剪,甚至爆款解析都能自动生成。”赵天成说,“对于视频创作者来说,一人公司已经不是科幻了,而是现实。”
具身智能的本质是让AI从“数字世界”走向“物理世界”,而中国最大的优势,就是把这种跨越变成了产品。赵天成强调:“物理AI不是简单给机器装大脑,而是构建一个能感知、理解、决策并行动的生态闭环。一个‘大脑’适配多个形体,靠的是数据链打通共享记忆与协同决策——这才是具身智能的底层逻辑。”