逐际动力创始人张巍在峰瑞资本2024年投资人年度峰会上分享了具身智能领域的前沿技术、商业化路径等方面的思考。
2.他认为,具身智能是未来十年人类最重要的科技革命,但目前仍面临很多问题和质疑。
3.为此,逐际动力选择做人形本体加全控小脑,旨在将未来一定有用、现在还没有做得很好的一类东西做好。
4.同时,逐际也在研发低成本的具身大脑工业母机,探索一种新型的学习训练方式。
5.目前,逐际的人形机器人(大负载全身搬运)已经用最低成本的方式完成了原理验证,全尺寸人形机器人即将发布。
春节期间,不一样的机器人吸引了公众的关注。春晚舞台上,身着花棉袄的机器人翩翩起舞;泰山的陡峭山巅,外骨骼机器人帮助游客顺利登顶;在海南,U型机器人与冲浪教练携手营救落水游客。
2024年,具身智能行业迎来了深刻的变革。硬件层面,机器人形态趋于标准化,慢慢的变多的公司能够迅速打造出具备人形外观的机器人;软件层面,技术路径日渐明晰,行业正在向机器人基础大模型的框架迈进;与此同时,行业的“入局者”也呈现多元化趋势——除传统机器人领域的企业外,无人驾驶和大厂背景的创业者们纷纷投身于这一前沿科技领域。
具身智能的发展令人瞩目,但依旧存在一些亟待深入探讨的问题:如何突破机器人商业化的瓶颈?具身智能还需在哪几个方面加强完善其本体?如何提升机器人操作的泛化能力,使其能适应更多样化的应用场景?大模型对具身智能发展带来了怎样的深远影响?
在峰瑞资本2024年投资人年度峰会上,逐际动力创始人张巍博士发表了题为《具身智能:机遇与挑战》的演讲,分享了他对具身智能领域前沿技术、商业化路径等方面的思考。
我们也邀请了峰瑞资本副总裁颜黔杭补充分享了其对具身智能领域的投资思考,详见文末,希望能提供新的视角。
张巍认为,具身智能是当下最火的一条赛道,尽管它目前仍面临很多问题和质疑,但背后还是有一个共识——具身智能是未来十年人类最重要的科技革命。
如果机器人的定位是“代替人完成能改变物理世界的任务”,这其中就有两个关键词——“代替人”和“任务”,它们看似简单,其实往往是巨大的陷阱——如果不理解透这两个词,具身智能落地就会变得异常复杂。
他表示,逐际动力(以下简称“逐际”)的观点和定位,并非是让机器人去代替人,而是Empower人——“机器人不会代替人,它背后的逻辑是很复杂的。”
1、机器人+AI:他表示,上一代的机器人+AI模式已经持续很长一段时间,这是商业化最难的方向,它可能仅仅是“海市蜃楼”。
此类机器人能在工厂里能完成很复杂的分拣任务,或者快递包裹分拣。但是它们在真正的商业闭环上,还是有很多挑战的:“没准卖出去的那一刹那,就是赔钱的开始。”
2、无人驾驶:在张巍看来,从2016-2024年,无人驾驶已发展了很久,却仍难以评判其成熟度——“当感觉找到“技术开关”时,却还是有“最后的10%”的难度是无法估计的,恰恰就是这10%,是影响整体发展的关键。”
同时,其商业经济价值也很难判断。因为代替人,和协助人,这两件事是有本质区别的,它们有不一样的商业模式,也会带来不同的产品,这两种产品所经受的考验是完全不一样的。
让机器人“用起来”其实格外的简单,可是形成商业闭环却非常难。现在上路的无人车,或者配送车的本体,都不是主角,在整个商业经济价值链条里可能占比不到10%。
同样的,机器人产品本身也只占商业链条的不到10%,剩下的部署维护、改造场景,协作关系等部分才是最大的开销。所以机器人不光有好的本体,还一定要有数据工具、训练工具、部署工具,以及维护工具,这一整套的效率体系才是竞争力,而非本体。
同理,如果想让机器人代替人,并非改变本体的问题,而是要改变一整套协作关系。
现在提到具身智能,人们都会联想到与大语言模型的结合。例如,要想将人类的意图告诉机器,就需要task encoding或者embedding(任务编码或嵌入),大脑要先对task做处理和决策,再由小脑去执行运动。
对比起来看的话,无人车是格外的简单的具身智能任务,因为其任务定义很明确,唯一目标就是抵达目的地,在结构化的道路上移动。而且,无人车的“小脑”就是底盘和域控制器,如今也已经很成熟。
即便如此,张巍也不认为目前的无人驾驶可算作“完全替代人”:“它本质上还是AI+人。无人驾驶只是用技术改变了人开车的方式。”
而对于具身智能来说,完全代替人类更加困难。张巍用一个很简单的任务举例:收拾一下桌子。可这样的任务却很难被机器人拆解和执行,比如,到底收拾桌子上的哪些物品,收拾到什么程度算干净?“如果没有大语言模型,大家甚至都不太敢想机器人能执行这样的任务。但现在只是敢想,具体怎么做还不清楚。”
理想化的想法,是用数据堆出一个“具身大脑”,同时也有通用小脑+通用本体,就能完成各种任务。
但是张巍认为,采用一致的通用本体形态,是没有必要的。对此,他总结出现有的四大本体类型:
人形的下半身,只有双腿或四腿,主要完成locomotion(移动能力)的任务。
本质上机器人就在做两件事:代替人的双手来操作、代替人的双腿来移动。他认为,在行业发展过程中,创造最大价值的应该是这两类本体,所以逐际也是选择做这两类。“押宝押哪一个,去做哪种本体?我认为这不是一个好问题,好的问题是‘这个行业还需要发展哪一种本体’。”
在他看来,要想做高价值的本体,需要3个条件:1、目前在物理世界中尚不存在;2、原理上可支持被做出来;3、未来一定是机器人形态中的一种。
“有观点认为,一个大模型,就有几率会成为整个具身智能的大脑。其实这是个不切实际的想法,其实具身智能要好多大脑。而且现在我们不缺某个领域里的大脑,我们缺的是学习的能力,也就是高效处理数据的能力。”张巍说道。
张巍认为,具身算法定义硬件,但数据定义算法。所有的数据都要被用上,尤其是真机数据(在真实硬件设备上采集和生成的数据)很重要。
不可否认的是,仿真是一种对模型的使用方式,且仿真和模型对数据的发生和产生都有巨大帮助。但是如果从数据整合的角度来看,模型是历史数据的压缩,就像牛顿定律,可以看作是对所有运动物体的数据的一个压缩,且压缩得比较好。
“所有压缩好的数据,都可拿来产生新的数据,帮助推进泛化。”泛化性意味着机器人能够将从特定环境或任务中获得的经验,迁移到新的环境或任务中。例如,一个机器人可能在特定的房间内学会怎么样避开障碍物,但其泛化性强的话,它应该能够在不同的环境里也能有效避障。
他指出,操作的泛化性有好多种,有分模块的,有端到端的,它们本质是对数据的利用和假设的不同方式。
“但是当前,我们的所有数据处理方法都难以达到理想中的功能需求。所以现在不能盲目地追求在一种方法上堆数据、提升性能,而是要找到‘曲线D’,也就是我称之为‘性能数据比’或者‘数据性能转化率’的一条曲线。”
那么,怎么样才可以提升数据利用率?张巍表示,其实从容易获得的规则数据中,有很多信息能让我们指导操作的泛化性。
他展示了一个逐际动力的案例——不需要大规模采集真机和模拟数据,而是通过text prompt,让大模型生成人类操作的视频,就能指导协作机械臂完成操作任务。“我们的数据利用率,可达当前算法的100倍。”张巍说道。
他表示,逐际之所以做人形本体加全控小脑,是希望将“未来一定有用,现在还没有做得很好”的这一类东西做好。
同时,逐际也在研发低成本的具身大脑工业母机,探索一种新型的学习训练方式,以求具身智能可以在任意领域中以更高的效率去完成可泛化的任务。
张巍强调称,逐际动力的核心的定位一直都是Empower innovators:“我们不直接进工厂,我们的定位是希望做具身智能的英伟达,将具身智能创新、落地的效率提升百倍千倍。”
据他透露,目前逐际的人形机器人(大负载全身搬运)已经用最低成本的方式完成了原理验证,而且是在验证目标没有被取舍掉的前提下。同时,逐际还将发布第一款全尺寸人形机器人,能够原地起立、直膝行走。
感谢张博深入的洞察和思考。峰瑞资本持续关注具身智能领域的创新机会,很欢迎相关领域的创业者、投资人与我们深入交流,请联系
2024年,具身智能市场经历了显著的变化,大多数表现在硬件和软件两个方面。
硬件层面,机器人形态趋于统一。行业逐渐形成共识,机器人整体结构和核心零部件的选型设计趋同。这在某种程度上预示着硬件搭建的门槛大幅度降低,慢慢的变多的公司能快速搭建出人形机器人。
软件层面,技术路径更加清晰。过去,机器人主要依赖于模型预测控制(MPC)、模仿学习和强化学习等单点策略实现某类任务。而现在,行业正向机器人基础大模型的框架靠拢。具体来说,机器人通过视频预训练、高质量数据的微调(SFT),以及实际场景的数据反馈进行强化学习,优化任务表现。
此外,入局者也发生了变化。除了传统的机器人行业从业者,无人驾驶企业和大厂背景的创业者也开始投身具身智能领域。这一趋势在2024年下半年尤为明显,人形机器人市场正在吸引更多跨行业的关注和资源。
目前,全球具身智能行业处于技术逐步收敛的阶段,各家的方法论趋于相似,拥抱AI。具体来说,操作和运动控制都开始强调基础大模型和全身运动控制。
中国市场的独特优点是硬件供应链响应速度快,下游工业和服务业场景对机器人的需求量大,数据积累丰富。这些优势为国内厂商提供了良好的发展基础。然而,挑战也同样存在,特别是在关键研发技术和产品化方面,国内厂商需要突破现有的技术瓶颈,才能在竞争格局中占据有利位置。
2024年,逐际动力在人形机器人领域的技术和产品两方面都取得了显著进展,为具身智能行业带来新的可能性。
技术层面,逐际一直走在行业前沿,持续推动人形机器人全身运动、感知决策、任务执行等核心技术的研发。产品层面,逐际推出创新的“三合一”模块化产品Tron1,主要面向科研市场。这一产品为下游客户提供了一个软硬件完善的平台,帮他们实现研发和落地的需求。人形机器人最新一代产品即将在25年发布,我们很期待。
2025年,具身智能赛道的机遇与挑战并存。从融资和创业的角度来看,随着创业者不断涌现,主流基金已经在具身智能领域完成了布局,新公司的融资机遇相比于前两年会门槛会提升。
然而,从技术角度来看,具身智能仍处于科研阶段,尚未形成大规模商业化。因此,对那些在关键技术挑战上(如全身控制、泛化能力等)有底层创新的公司,依然有切入创业的窗口期。
近期,机器人相关视频爆火,比如机器人在春晚摇手绢、登山徒步等等,反映了公众对机器人的美好期许。但这些视频更多展示了机器人的运动能力和智能化水平,摇手绢或登山徒步这些场景是一个很具象的展现方式,让公众对人形机器人的商业化未来充满期待。
整体来看,具身智能的商业化应用前景广阔,但目前仍处于早期研发技术阶段,距离产品化和大规模商业化还有较长的路径。
人形机器人商业化的重点是控制机器人的产品化成本,以及机器人高效完成通用化任务的能力。短期内,人形机器人的商业化应用仍以科研和展示为主。未来,真正的商业化应用可能会率先出现在工业和服务业领域。
目前市场的共识是,人形机器人将成为辅助人类的智能助理(机器人形态的AI Agent),而不是简单的替代人力。例如,在重复性体力劳动与对人身健康不友好的场景,机器人能成为“得力助手”,提高人的工作效率。