特斯拉于9月24日发布官方视频,更新了其人形机器人方面的进展。视频显示TeslaBot通过视觉和位置编码器实现了肢体的校准,且展示了其人形机器人出众的姿态控制能力。此次展示再次凸显端到端算法在人形机器人应用端的不断成熟,且再次展示出特斯拉在数据量、算法及算力方面的优势。此外,其仅靠视觉、编码器和IMU就完成了任务,展现出超强的硬件控制能力。鉴于人形机器人可用数据集迅速攀升及算法、算力的不断成熟,我们维持人形机器人行业“强于大市”评级,建议持续关注人形机器人板块及相关厂商投资机会。


【资料图】

▍输入端:特斯拉端到端模型输入端为视频信号,即图像及音频信号的混合输入,但此次展示显示其识别部分神经网络算法仅使用视觉信息。

特斯拉于9月24日发布官方视频,视频内容展示的算法凸显出TeslaBot复杂真实条件下的分类分拣能力,且展现出对目标摆放物姿态的精准识别及纠正能力。尽管人形机器人与汽车在输入视觉信息方面存在一定差异,但基于特斯拉基于V12自动驾驶的算法体系同时应用于人形机器人及汽车是可行的,且有利于加速提升识别算法的泛化能力。此次视频展示暂未提及所选用相机类别,基于目前图像识别算法框架原理,我们认为此类识别2D及3D相机都可实现,选配核心为成本控制因素,国内视觉镜头及相机等核心零部件厂商已具备此类产品生产能力,产品配套方案及产品性价比值得关注。

输出端:特斯拉人形机器人输出端为信号及姿态控制。

TeslaBot手指的灵活性在视频中得到良好展示,其可以以人类速度完成抓取并分类,即使在快速变化的环境下其信号处理及关节控制依然保持良好反应能力及较高输出稳定性,手指抓取力度同样表现出较高水平。此外视频同样展示了TeslaBot出众的姿态控制能力,其已可以初步展示部分类瑜伽动作。关节、传感器、控制系统对输出端稳定性至关重要,尽管国内厂商此类产品在产品产出一致性及可靠性存在一定短板,但产品升级迭代速度快,且此领域可选方案较多,不同厂商有望在不同价格段占据优势。

▍算法:特斯拉端到端学习框架不断成熟,泛化能力持续增强。

端到端框架能够直接从原始输入端到最终输出端进行训练,无需进行手动特征工程(manual feature engineering)或中间阶段的处理,端到端依然利用深度神经网络能力,优势在于能极大程度减少手工设计组件,可以直接通过从原始数据中学习,捕获复杂关系和细微差别,而这些微妙之处可能很难通过手动特征工程来明确指定,这项优势可以提高性能、缩短开发周期并减少开发者对领域专业知识的依赖;缺点在于所需数据量极大,数据收集成本及模型训练成本较高。尽管此视频未展示其具体算法,但基于其输入输出信息,建议关注基于强化学习框架的机器人控制算法。

硬件:机器人“瑜伽”展现出超强的硬件控制能力, IMU、编码器等传感环节的重要性愈发显现。

特斯拉Optimus机器人在最新视频中展现出较强的身体平衡能力,包括单腿站立时前后平衡能力和平行与身体方向的平衡能力,表明特斯拉机器人的静态运动控制稳定性以及用以控制平衡的IMU的较高精度。此外,特斯拉机器人的灵巧手表现更加灵活,身体控制更加顺滑,表明了关节模组中的“双编码器”并非存在阻滞性较强的缺点,灵巧手中的编码器也同样具备较高精度。特斯拉机器人优秀的硬件控制能力表明从硬件、传输再到软件,其均较2023年5月官方团队中展示的机器人有较多硬件优化。

风险因素:

人形机器人政策执行及支持力度低于预期;国内厂商及特斯拉人形机器人任务攻关进度不及预期;人形机器人市场需求低于预期;国产人形机器人产业化低于预期;人形机器人主流技术方案发生重大变化;国产机器人厂商响应程度低于预期。

投资策略。

鉴于端到端深度学习框架逐步完善,算法泛化能力持续增强,市场可调取数据集持续增加,机器人识别交互及执行能力有望在数据快速量变的背景下加速实现质变;且随着控制端硬件规模化生产的扩大及实用性研发的深入有望加速人形机器人本体的落地应用。建议关注视觉/力学/IMU传感器、位置编码器、控制系统、关节/灵巧手、芯片及算法上市(拟上市)公司。

推荐内容