2026-03-10 拓墣产业研究院

人型机器人模型发展剖析：从模型创新转向数据累积

焦点报告 AI关键软硬体人机科技

意见反映字体大小小中大

摘要

VLA(Vision-Language-Action，视觉－语言－动作)模型为奠定人型机器人的基础架构，但面临生态碎片化与数据稀缺挑战。在模型架构方面，开源与硬体抽象层将可推动跨平台部署，而触觉感测与多模态时序对齐为多模态融合之关键；在数据方面，机器人即服务(RaaS)租赁模式将成为加速规模化与多样数据收集的重要商业模式，而世界模型提供低成本数据补充，共同解决物理互动数据稀缺困境。

一. VLA模型生态与数据为现阶段人型机器人发展瓶颈
二. 模型发展重心逐渐转向数据累积与场景多样性
三. 拓墣观点

图一　VLA模型发展史
图二　Transformer+Tokenization架构说明
图三　触觉相关数据对人型机器人之影响

表一　2026年2月RoboChallenge Table30具身智能评测结果
表二　2026年机器人VLA模型厂商更新动态举要

会员专属

您好，该资料属会员权益方可浏览，您需成为会员且购买此产业项目权限才可观看，详细说明如下：

拓墣产业研究院之「产业数据库」为付费的会员服务，若您尚未具备会员身份，欢迎您申请加入或是与我们的客服联络了解。
若您所属公司机关已具有拓墣会员身份，并且设定予贵公司人员在线申请，请先行移至「申请会员账号」填写申请数据后送出，我们会尽快为您审核办理。若未开放在线申请，请您询问贵公司的承办联系人处理，谢谢。
由于贵公司无采购此产业项目，因此您将无法浏览此篇文章，欲查询贵公司所购买的产业项目明细，请至「会员权益」查询，谢谢。