人型机器人模型发展剖析:从模型创新转向数据累积
摘要
VLA(Vision-Language-Action,视觉-语言-动作)模型为奠定人型机器人的基础架构,但面临生态碎片化与数据稀缺挑战。在模型架构方面,开源与硬体抽象层将可推动跨平台部署,而触觉感测与多模态时序对齐为多模态融合之关键;在数据方面,机器人即服务(RaaS)租赁模式将成为加速规模化与多样数据收集的重要商业模式,而世界模型提供低成本数据补充,共同解决物理互动数据稀缺困境。
一. VLA模型生态与数据为现阶段人型机器人发展瓶颈
二. 模型发展重心逐渐转向数据累积与场景多样性
三. 拓墣观点
图一 VLA模型发展史
图二 Transformer+Tokenization架构说明
图三 触觉相关数据对人型机器人之影响
表一 2026年2月RoboChallenge Table30具身智能评测结果
表二 2026年机器人VLA模型厂商更新动态举要
