学界把2D公路变成3D飞车游戏,MIT

北京哪家医院治疗白癜风好 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/

选自arXiv

作者:ShunyuYao等

机器之心编译

参与:乾树、刘晓坤

MIT和清华大学的研究者提出目标几何、外观和姿态的分解表征架构,并将其整合到深度生成模型中,实现了对2D图像目标的3D操控。这种操作体验犹如使用了3D游戏引擎,背向的汽车可以翻过来,离得远的汽车可以拉近并自动放大。会不会在将来,给几张图片我们就能为3D赛车游戏建模~

人类感知世界的能力令人难以置信,但更厉害的是人类模拟和想象未来的智力。给出如图1所示的街道图像,我们可以毫不费力地检测并识别汽车及其属性,更有趣的是,人类可以想象汽车在3D世界中如何移动和旋转。

受这些人类能力的启发,在这项工作中,MITCSAIL和清华大学的研究者寻求获得机器的可解释、可表达和可分解的场景表征,并使用学习到的表征来进行灵活的3D感知场景操控。

深层生成模型在学习图像的层次表征和将表征解码回图像方面取得了显着的突破。然而,获得的表征通常限于单个孤立的目标,难以解释,并且缺少单一目标背后的复杂3D结构。因此,这些深度生成模型不支持图像处理任务,例如图1所示的目标移动。

另一方面,图形引擎使用预定义的结构化和分解的输入(即图形编码)来渲染图像。因此,它们可以直接用于场景处理。但是,从图像中恢复图形编码通常很难。

图1:学习一个对场景语义以及三维信息和目标纹理进行编码的整体场景表征。编码器-解码器模型学习用于图像重建和3D感知图像处理的分解式表征。例如,可以用新的3D姿态估计将汽车移动到不同的位置。

在本文中,研究者提出将基于目标的、可解释的场景表征融入深度生成模型。该模型采用编码器-解码器架构,对应三个分支,一个用于目标几何和姿态估计,一个用于背景外观,一个用于目标外观。

几何分支通过学习近似可微的渲染器推断目标形状和姿态。外观分支首先预测输入图像的实例标签图。然后运用纹理自编码器来获得每个目标的纹理表征。

从纹理中分解出3D几何和姿态可实现3D感知场景操控。例如,为了拉近汽车,我们可以简单地编辑它的位置和姿势,但保持其纹理和语义不变。

研究者给出了定量及定性结果,以证明该框架对两个数据集VirtualKITTI和Cityscapes的有效性。由于3D感知场景操控问题尚未有一致的描述,除了定性结果之外,研究者还在VirtualKITTI上创建了一个图像编辑基准,并对比类似的2D流水线来评估本文的模型。研究者还通过评估表征准确率和图像重建质量来研究模型设计。

论文:3D-AwareSceneManipulationviaInverseGraphics

论文


转载请注明:http://www.aierlanlan.com/tzrz/4108.html