机器之心发布
在与3D数字人互动时,你是否曾感到不适:他们的嘴巴动着,表情却显得无比僵硬;他们的手势活跃,但与所说内容却完全脱节。这种外表像真实人的现象加上怪异的动作,使得人们不禁感受到所谓的“恐怖谷”效应。
这一问题的关键在于,人类的沟通不仅仅通过语言或动作来完成。一个简单的耸肩可以表达无奈,而一个肯定的点头则传递认同感,微微上扬的眉毛则可能暗示怀疑。这些非语言信号由手势、姿态和面部表情组成,构成了真正交流中不可或缺的重要部分。
目前大部分3D数字人仍依赖于基础的动作拼接技术,难以体现复杂的语义和情绪表达。而这种自然流畅且充满情感的表现力,对数字人来说至关重要:他们需要它建立信任,机器人需要它与人类合作,游戏角色更需这一表现力来展现生动的形象。
AI初创公司SentiPulse与中国人民大学高瓴人工智能学院的博士生团队进行了深入研究,提出了一种新的3D数字人动作生成框架——SentiAvatar,用于构建富有表现力的互动式3D数字人。基于这一框架,团队创造了虚拟角色SUSU,使其能够实时进行语言交流、动作表现及情感传递。
新范式的开启
今天,SentiAvatar框架、SUSU角色模型及高质量动作数据集SuSuInterActs正式全球开源。
- 论文标题:SentiAvatar: Towards Expressive and Interactive Digital Humans
- 论文地址:https://arxiv.org/abs/2604.02908
- 项目主页:https://sentiavatar.github.io/
弥补三大研究缺口
实现3D数字人在真实对话中自然地表达自己,看似只是一个简单工程问题,但实际上它触及了三个长期存在的研究空白:
首先是高质量数据的匮乏。现有数据集多以英语语料为主,并且缺乏与动作同步的面部表情,中文对话场景下的全身动作数据几乎没有。
其次是复合语义的动作偏差。当描述从简单的“挥手”演变为“无奈地耸肩”或“认同地点头”时,模型的理解能力会显著下降。
最后是对话节奏的错位。模型生成的动作要么步伐稳重如机械,要么与语音的重音、停顿完全错位。
是否能让数字人既能理解“应该说什么”,又能在说话中自然做出节奏一致的流畅动作?
问题的核心
语义与韵律实际上是涉及两个不同时间尺度的问题。当前方法在对话驱动的动作生成中陷入一个困境:全局语义的对齐虽要求模型理解整个句子行为语义,但帧级韵律的对齐又要求模型对动作的速度变化进行精确响应。单一模型难以同时兼顾这两者。
SentiAvatar的创新之处在于将句子级语义规划与帧级韵律驱动分开处理,而不是强行将其集成进一个端到端的模型。
SentiAvatar架构
为了解决上述问题,SentiPulse团队构建了虚拟角色SUSU,并创建了SuSuInterActs数据集(包含2.1万段语料,总计37小时)。该对话数据通过光学动捕技术获取,涵盖同步语音、全身动作和面部表情。
数据采集的四个步骤
- 角色与场景设计。
- 通过大语言模型生成带行为标注的对话脚本。
- 专业动捕演员录制动作。
- 后处理与时间对齐。
最终数据集规模达到了21,133段,36.9小时,涵盖日常聊天、情感支持和趣味互动等多个场景。
该数据集的构建集中在单一角色上,确保了一致的行为模式,便于学习特定的动作与表情风格。
动态模型的创新
对于对话数据集中的动作,团队在预训练阶段引入了自研的动作基础模型,利用超过20万条异质动作序列进行训练,赋予其通用运动先验。
实时生成的潜力
SentiAvatar的架构使其能够不间断生成流畅且自然的动作,实现在0.3秒内生成6秒的输出,支持无限轮次的实时交互。
开源与未来展望
从数字人到数字生命的跨越
今天,SentiAvatar框架、SuSuInterActs数据集及预训练模型将重磅开源,面向全球研究机构和开发者,推动3D动作生成技术和应用的边界。SentiPulse明确,未来的3D数字人将不再是简单的模拟,而是具备像人类一样的表达能力和认知水平,通过构建更完整的表达模型和人格系统,重塑人机关系的本质。
当数字人能理解情感、语言和语境,主动参与交流时,“数字生命”的美好愿景便不再遥远。