MIMO 是阿里巴巴集团智能计算研究所推出的新型 AI 框架,用于可控角色视频合成。
它基于空间分解建模技术,将 2D 视频转换为 3D 空间代码,实现对角色、动作和场景的精确控制。
MIMO 的核心是将视频分解为主要人物、底层场景和浮动遮挡三部分,分别编码为身份代码、运动代码和场景代码,以此作为合成过程的控制信号,提高了合成视频的真实感和用户对视频内容的控制能力。
MIMO 主要有可控角色合成、动作控制、场景交互、空间分解建模、3D 感知合成、灵活的用户控制和任意角色的可扩展性等功能。
其技术原理包括 3D 深度估计,用单目深度估计器将 2D 视频帧转换成 3D 空间表示;空间分解为主要人物、底层场景和浮动遮挡三个空间组件;组件编码为身份代码、运动代码和场景代码;结构化运动表示用变形人体模型编码人物动作;规范身份表示将角色转换到规范姿势解耦身份和动作;场景和遮挡编码用共享变分自编码器编码场景和遮挡组件并重新组织为完整场景代码。