性爱-国内试镜 王亦洲课题组 TPAMI 2023 入选论文解读:东说念主体动作生成综述:措施、资源与挑战

杨超越 ai换脸 /

你的位置:性爱 > 杨超越 ai换脸 > 国内试镜 王亦洲课题组 TPAMI 2023 入选论文解读:东说念主体动作生成综述:措施、资源与挑战
国内试镜 王亦洲课题组 TPAMI 2023 入选论文解读:东说念主体动作生成综述:措施、资源与挑战
发布日期:2024-10-08 05:54    点击次数:73

国内试镜 王亦洲课题组 TPAMI 2023 入选论文解读:东说念主体动作生成综述:措施、资源与挑战

  本文是对发表于谋划机视觉领域顶级期刊 TPAMI 2023 的综述论文 Human Motion Generation: A Survey 的解读国内试镜。该论文由北京大学博雅特聘确认注解王亦洲课题组与北京大学艺术学院岑岭助理确认注解、华为云首席科学家田奇博士互助完成。

 

  这篇综述初次全面总结了东说念主体动作生成领域的有关探究责任。作家率先先容东说念主体动作和生成模子的基础学问,然后对三个主要子任务(基于文本、音频和场景动手的东说念主体动作生成)的代表性措施进行了详细。此外,作家还梳理了常见数据集和评估方针,并盘考了洞开问题和潜在的异日探究标的。作家但愿本综述不详为这个快速发展的领域提供一个全面的概览,并启发处分现存挑战的新想路。

 

  论文同一:https://arxiv.org/pdf/2307.10894.pdf

  Early Access: https://ieeexplore.ieee.org/document/10313063

  

图1. 代表性的东说念主体动作生成任务和措施概览。

  

01 配景先容

 

  东说念主类左证自身意图和环境信息来狡计和实施身体动作。看成东说念主工智能的一项伏击认识,生成东说念主体的动作形状引起了各个探究领域的越来越多的模样,包括谋划机视觉、谋划机图形学、多媒体、机器东说念主学和东说念主机交互。东说念主体动作生成的认识是生成当然、传神且种种化的东说念主体动作,在电影制作、视频游戏、增强实践/假造实践、东说念主机交互和假造数字东说念主等领域具有正常应用。

 

  跟着深度学习的兴起,连年来种种生成措施获取了快速发展,如自追思模子、变分自编码器(VAE)、归一化流、生成拒抗蚁集(GAN)和去噪扩散概率模子(DDPM)。这些措施在文本、图像、视频和 3D 物体等不同领域获取了无边告捷。另一方面,东说念主体建模的显耀阐扬使得从视频中索求东说念主体动作和构建大鸿沟东说念主体动作数据集变得愈加容易。因此,连年来数据动手的东说念主体动作生成引起了探究界越来越多的敬爱。

 

  然则,东说念主体动作生成面对的挑战不单是是将深度生成模子应用于东说念主体动作数据集:

  1. 东说念主体动作高度复杂和非线性,受物理和生物力学料理;而东说念主类大脑具有感知生物畅通的特意神经机制,对稍不当然的动作形状齐很明锐。因此,生成的动作在质处所面有很高的要求,需要兼具当然性、开通性和合感性。

  2. 东说念主体动作生成的需求时时包括一个条目信号,如文本态状、配景音频或周围环境,如图1所示。因此生成的动作不仅自己应该合理,还应与条目信号息争一致。

  3. 东说念主体动作看成一种伏击的非说话交流绪言,背后反应了多个潜在身分,如行为认识、个东说念主作风、社会法度和文化抒发。欲望情况下,动作生成模子应该学习捕捉动作变化和与条目信号间秘要的语义关联。

 

  基于这一领域的快速发展和败露的挑战,咱们提供了这篇全面的综述,以匡助探究界追踪其阐扬。图2总结了连年来东说念主体动作生成措施的发展。

 

图2. 东说念主体动作生成措施的近期阐扬(不同条目信号动手)。

  

02 动作生成措施

 

  本篇综述论文主要模样基于条目信号的东说念主体动作生成任务,包括文本动手、音频动手和场景动手,并辩认总结了这些措施的代表性效果,如表1所示。

 

表1. 东说念主体动作生成代表性措施总结。

 

  文本动手

  文本动手东说念主体动作生成任务旨在左证当然说话态状生成东说念主体动作序列。这类措施不错分为两类:动作标签动手和当然说话动手。动作标签动手应用有限的预界说标签生成动作,而当然说话动手则不错基于种种化的文本态状生成更丰富的动作。

 

  音频动手

  音频动手东说念主体动作生成任务旨在左证音频信号(如音乐或语音)生成相应的东说念主体动作。这类任务主要不错分为音乐到跳舞和语音笔直势两个子任务。音乐到跳舞任务生成与音乐节拍和作风相匹配的跳摆动作,而语音笔直势任务则生成与语音内容相息争的上半身动作。

 

  场景动手

  场景动手东说念主体动作生成任务旨在左证场景环境生成合理的东说念主体动作。这类措施时时选用多阶段管线,率先预测认识位置或认识交互锚点,然后狡计旅途或轨迹,临了沿轨迹生成动作。

  

03 数据集

 

  咱们辩认总结了与文本、音频和场景条目有关的东说念主体动作数据集。这些数据集涵盖了种种动作类别、音频类型和场景类型,为东说念主体动作生成探究提供了丰富的数据资源,如表2所示。

 

国产综合自拍偷拍在线

表2. 东说念主体动作生成主要数据集总结。

 

04 评价方针

 

  咱们总结了从不同角度评价生成动作的常用方针,包括简直性、种种性、条目一致性、主不雅评测等等,如表3所示。这些方针不错匡助探究者比拟不同措施的性能,鼓舞领域的发展。此外,咱们也探讨了现存评价方针的局限性。

 

表3. 东说念主体动作生成主要评价方针总结。绿色、蓝色、橙色辩认代表文本动手、音频动手和场景动手的探究责任。

  

05 异日瞻望

 

  尽管这个领域获取了马上的阐扬,但仍存在一些首要挑战需要异日的探索。有鉴于此,咱们从不同角度瞻望了几个豪阔远景的异日探究标的,以期能激勉东说念主体动作生成探究的新冲破。异日的责任不错从数据、语义、评价、可控性和互动性等方面进行久了探究,以达成更当然、简直、种种化的东说念主体动作生成。

 

  数据:网罗高质地的东说念主体动作数据具有挑战性,异日探究不错探讨使用异构数据源,通过弱监督学习措施或多模态基础模子整合数据上风。

 

  语义:东说念主体动作不单是是身体部位的畅通,还具有丰富的非言语雷同功能。异日探究不错久了探讨从数据、措施和评价等方面捕捉东说念主体动作与条目信号之间的高层语义干系。

 

  评价:合适的动作评价方针至关伏击,但具有挑战性。异日责任不错模样联想更顺应东说念主类感知且具有可解释性的客不雅评价方针。

 

  可控性:生成内容的可控性在骨子应用中超过伏击。异日探究不错进一步探索可控性,以创造更用户友好的体验,举例交互式和细粒度剪辑。

 

  互动性:东说念主体动作的互动性尚未得到充分探讨。异日探究不错模样东说念主体动作生成在东说念主际互动和东说念主与环境互动配景下的应用国内试镜,举例外交群体中的互动动作和动态可操作场景中的动作生成。