SentiAvatar革新3D虚拟人运动创作模式

机器之心发布

在与3D数字人互动时，你是否曾感到不适：他们的嘴巴动着，表情却显得无比僵硬；他们的手势活跃，但与所说内容却完全脱节。这种外表像真实人的现象加上怪异的动作，使得人们不禁感受到所谓的“恐怖谷”效应。

这一问题的关键在于，人类的沟通不仅仅通过语言或动作来完成。一个简单的耸肩可以表达无奈，而一个肯定的点头则传递认同感，微微上扬的眉毛则可能暗示怀疑。这些非语言信号由手势、姿态和面部表情组成，构成了真正交流中不可或缺的重要部分。

目前大部分3D数字人仍依赖于基础的动作拼接技术，难以体现复杂的语义和情绪表达。而这种自然流畅且充满情感的表现力，对数字人来说至关重要：他们需要它建立信任，机器人需要它与人类合作，游戏角色更需这一表现力来展现生动的形象。

AI初创公司SentiPulse与中国人民大学高瓴人工智能学院的博士生团队进行了深入研究，提出了一种新的3D数字人动作生成框架——SentiAvatar，用于构建富有表现力的互动式3D数字人。基于这一框架，团队创造了虚拟角色SUSU，使其能够实时进行语言交流、动作表现及情感传递。

新范式的开启

今天，SentiAvatar框架、SUSU角色模型及高质量动作数据集SuSuInterActs正式全球开源。

论文标题：SentiAvatar: Towards Expressive and Interactive Digital Humans
论文地址：https://arxiv.org/abs/2604.02908
项目主页：https://sentiavatar.github.io/

弥补三大研究缺口

实现3D数字人在真实对话中自然地表达自己，看似只是一个简单工程问题，但实际上它触及了三个长期存在的研究空白：

首先是高质量数据的匮乏。现有数据集多以英语语料为主，并且缺乏与动作同步的面部表情，中文对话场景下的全身动作数据几乎没有。

其次是复合语义的动作偏差。当描述从简单的“挥手”演变为“无奈地耸肩”或“认同地点头”时，模型的理解能力会显著下降。

最后是对话节奏的错位。模型生成的动作要么步伐稳重如机械，要么与语音的重音、停顿完全错位。

是否能让数字人既能理解“应该说什么”，又能在说话中自然做出节奏一致的流畅动作？

问题的核心

语义与韵律实际上是涉及两个不同时间尺度的问题。当前方法在对话驱动的动作生成中陷入一个困境：全局语义的对齐虽要求模型理解整个句子行为语义，但帧级韵律的对齐又要求模型对动作的速度变化进行精确响应。单一模型难以同时兼顾这两者。

SentiAvatar的创新之处在于将句子级语义规划与帧级韵律驱动分开处理，而不是强行将其集成进一个端到端的模型。

SentiAvatar架构

为了解决上述问题，SentiPulse团队构建了虚拟角色SUSU，并创建了SuSuInterActs数据集（包含2.1万段语料，总计37小时）。该对话数据通过光学动捕技术获取，涵盖同步语音、全身动作和面部表情。

数据采集的四个步骤

角色与场景设计。
通过大语言模型生成带行为标注的对话脚本。
专业动捕演员录制动作。
后处理与时间对齐。

最终数据集规模达到了21,133段，36.9小时，涵盖日常聊天、情感支持和趣味互动等多个场景。

该数据集的构建集中在单一角色上，确保了一致的行为模式，便于学习特定的动作与表情风格。

动态模型的创新

对于对话数据集中的动作，团队在预训练阶段引入了自研的动作基础模型，利用超过20万条异质动作序列进行训练，赋予其通用运动先验。

实时生成的潜力

SentiAvatar的架构使其能够不间断生成流畅且自然的动作，实现在0.3秒内生成6秒的输出，支持无限轮次的实时交互。

开源与未来展望

从数字人到数字生命的跨越

今天，SentiAvatar框架、SuSuInterActs数据集及预训练模型将重磅开源，面向全球研究机构和开发者，推动3D动作生成技术和应用的边界。SentiPulse明确，未来的3D数字人将不再是简单的模拟，而是具备像人类一样的表达能力和认知水平，通过构建更完整的表达模型和人格系统，重塑人机关系的本质。

当数字人能理解情感、语言和语境，主动参与交流时，“数字生命”的美好愿景便不再遥远。

SentiAvatar革新3D虚拟人运动创作模式

分享到：

精选推荐

里夫斯预计将错过首轮多数赛事 最早复

女足亚洲杯精彩瞬间：我们（女性）都值得骄傲

聚焦中甲，享受票根优惠！

霍勒迪是历史上最被低估的球员之一，我对

全国村超赛季启动，上海金山赛区迎战25支

里夫斯预计将错过首轮多数赛事最早复