外表比潮玩手办更灵动,内在比猫狗等“毛孩子”更懂人:市场或许要迎来第一批陪伴机器人了。
7月2日,第一财经记者了解到,陪伴机器人灵童机器人将在8月开启第一波交付。第一财经记者前往研发办公室体验了动作捕捉、人机交互、情绪识别等机器人的软硬件训练环节。
在体验中,记者了解到,想要让陪伴机器人更懂人,不仅要赋予它语言能力,还要让它“动得像人”、看得懂人、记得住人与它之间的情感轨迹。这需要机器人工程、模型算法研发团队的成员“灌”大量的交互数据,并进行微调。
对于这个融合AI与硬件的新故事,市场已经迫不及待了。今年6月,珞博智能宣布完成数千万元的天使轮融资。萌友智能也在去年年底官宣了一轮数百万美元的融资,旗下产品已经在海外众筹平台Kickstarter上陆续交付。而在灵童机器人的融资股东中,科大讯飞和策源资本都位列其中,产品目前已经在京东上线。
陪伴机器人想要脱离玩具定位,走向长期陪伴,靠的不是AI的噱头,而是与用户之间建立“关系”的能力。当语言不再是唯一入口,当视觉和触觉能够辅助机器识别,当机器的“性格”与“灵性”成为产品卖点,陪伴机器人正在重新定义AI硬件“情绪价值”的边界。
映射人体数据,机器人学做人
7月2日下午,在上海漕河泾开发区的人形机器人创新孵化器,记者被“五花大绑”起来。在灵童机器人的办公室,第一财经记者体验了穿戴式的动捕设备。记者的头部、小臂、大臂、背部和腰部各绑了一个弹力带,带子的表面装有一个数据盒。在八个弹力带的作用下,机器人很快跟着记者“有样学样”做出各种动作。
这套动捕装置是让机器人学习人类动作的核心装备,记者每一个动作,几乎都能被桌面上的人形机器人实时“模仿”出来。灵童机器人的核心产品是一个内置AI模块的桌面人形机器人,外观上看接近于二次元手办,身高60厘米。在记者问它“你怎么看起来有点不开心?”时,它叉起了腰,佯装生气地回答:“因为你没有陪我聊天呀。”
这个叉腰的小动作,正是记者通过动捕设备采集人体动作数据后“教”给机器人的。灵童机器人的研发负责人贾星亮告诉第一财经,动捕设备记录下人体骨骼的运动轨迹后,会将数据转化成特定格式的文件,再由工程师建模,将人体骨骼与机器人关节一一对应。“但简单的1∶1映射会导致动作变形,因此,工程师会根据机器人的本体结构进行微调。”比如人类挥手时肩膀旋转30度,但机器人手臂较短,就需要按比例缩小这个幅度。
在这个身高约为人类身高三分之一的机器人身体中,一共有35个数字伺服舵机——是机器人能够“动起来”的前提。为了让机器人“懂”人,灵童研发团队还以大语言模型为基础,引入了视觉、触觉等多模态输入,并借助机器人的具身性拓展了表达方式。
“系统会综合分析用户的语音语调、对话内容以及场景信息,来判断其情绪状态。”贾星亮举例,开心时语音往往会上扬,而悲伤时语速则会变慢。“我们还在完善视觉识别功能,未来机器人有机会通过摄像头识别用户的面部表情。”他说。
强调情绪价值,语言交互是最优解吗?
“最近机器人的性格很好,情绪价值拉满。”一位灵童机器人的产品工程师如是评价机器人最近的表现。
作为硅基生命,机器人给用户的情绪价值都由背后的大模型决定。当机器人识别到用户的情绪后,机器人会从预设的100多个基础动作中选择最合适的反应。这些动作主要来自专业动捕演员的表演,也有部分是从网络视频、游戏当中提取的。例如,当检测到用户处于愉悦状态时,机器人可能会微笑并挥手致意;而当用户情绪低落时,它则可能张开双臂,做出一个安慰性的拥抱动作。
记者在研发办公室现场看到,工程师正在通过强化学习的方式对这些输入与输出进行精度训练。“就像教小孩学会察言观色一样,”一位工程师解释说,“机器人需要在不断互动中学会‘什么时候该挥手,什么时候该跳舞’。”训练过程需要工程师与机器人持续对话,并在机器人作出反应时给予正向反馈。随着训练的深入,机器人逐渐趋近于高奖励行为,从而表现出越来越自然、贴心的“情绪价值”。
但情绪价值一定要通过对话的交互来实现吗?业内仍然存在不同的观点。
北京萌友智能的CEO何嘉斌在接受第一财经记者的采访时表示,聊天并不是陪伴机器人的核心环节,甚至“没有必然的联系”。“如果是办公的场景,包含频繁交流和对话的交互动作,并不一定是陪伴机器人的最优解。”
带人设、个性化的语言交互,只是陪伴机器人的一个产品形态。他认为,陪伴机器人产品体验中最容易做出产品溢价和用户黏性的部分是“灵性”,即机器在多模态体系下的自学习能力和人类在交互中投射的情感。
萌友智能的产品Ropet是一个拥有毛茸茸外观的桌面机器人,它并不像人,从外表看,只是一个毛绒玩具。何嘉斌介绍,Ropet能够通过自身的视觉和触觉传感器识别到用户的输入行为,通过多模态的识别和计算,利用自身的硬件进行反馈,比如在触摸的时候发出声音或改变眼睛的状态,来“表达”喜爱。
当与人类的交互行为被机器以数据的形式在一段周期内记录,有点像人类用数据去“喂养”一个宠物。何嘉斌说,多模态的感知能力叠加持续的行为学习能力,构成了产品“灵性”的核心部分,而这些都不一定要通过语音交互来实现的。
智能不止于大模型,AI能否撑起溢价
SevenUp Capital的创始人赵楠透露,根据他的观察,毛绒玩具厂商采购一块嵌入玩具中的AI物理模块的价格在30~50元,AI物理模块厂商自身的硬件毛利率在20%左右。而一个毛绒玩具的终端售价大约在150~200元。但加上AI陪伴的交互功能,一个毛绒玩具的售价有机会达到500元左右。
这意味着,AI能力正成为陪伴机器人区别于传统“玩具”品类的核心要素。不过,AI如何真正落地到具体的场景和产品中,仍然是一个需要精细打磨的课题。陪伴机器人的“AI故事”该怎么讲,才能让用户真正感到陪伴?
“和用户共创,或许是建立亲密关系的关键。”贾星亮告诉第一财经记者,在用户使用灵童机器人产品的过程当中,能够定制化地导入个人经历和经验,并通过自定义人设的方式与用户共同“塑造性格”。“为了避免互动过程出现割裂感,我们还提供了记忆的永久保存功能。”贾星亮介绍,机器人模型能够抽取对话中的关键词进行长期记忆,用户可以随时调取这些“共同回忆”来进行互动。
陪伴机器人SKYRIS的创始人张宇诺告诉第一财经记者,陪伴机器人的核心在于“如何建立关系”。SKYRIS的产品是一只会飞的机器人BOBO。BOBO外观像一个气球,但有两只小翅膀、类似小鸟的眼睛和嘴巴。在他看来,尽管AI大模型为产品赋予了智能,但真正实现“陪伴”,还需要更多维度的设计和辅助机制。
“就像人类之间建立关系,不只是靠语言对话,还需要主动开启话题、持续引导、及时反馈、深入挖掘情绪等多个环节,而这些情感互动的细腻之处,仅靠大模型远远不够。”他说。
因此,在大模型能力背后,依然少不了大量机器人工程师的参与。贾星亮表示,团队每天需要与机器人进行高频互动,通过不断测试和微调模型反应,优化其对话逻辑与情绪识别能力。“在产品最终交付前,我们会对情绪理解的准确性,以及硬件动作的稳定性做最后一轮打磨。”
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com