基于revision的提示,可用于将一种三维数据迁移到到另一种类型的三维数据。 经过上述流程,GPT能够生成各种类型的三维语言数据,主要基于下列三维资产: Objaverse,包含万个三维物体,不过由于语言描述是从在线资源中提取的,未经人工检查,因此大多数对象的描述都包括大量噪声,比如网址等,或是无法生成描述。研究人员利用基于 ChatCaptioner 的提示功能为场景生成高质量的 D 相关描述。
Scannet,包含约个D室内场景的富标注数据集,提供了场景中物体的 葡萄牙语帝汶电子邮件列表 语义和边界框。 HabitatMatterport HMD ,具身人工智能(embodied AI)的三维环境数据集。HMDSem为HMD的多个场景进一步添加了语义注释和边界框。 一、DLLM 懂D的语言模型来了!UCLA、上交、MIT等联合提出DLLM:性能大涨 D特征抽取器 训练DLLM的第一步是建立有意义的D特征,使之可以与语言特征相匹配,但由于缺乏大规模三维资产数据集,所以无法采用预训练的方式学习表征。

受到从二维多视角图像中提取三维特征的方法启发,研究人员提出通过渲染多个不同视角的三维场景来提取三维点的特征,并从渲染的图像特征中构建三维特征。 首先提取渲染图像的像素对齐密集特征,然后针对不同类型的三维数据,设计了三种方法从渲染图像特征中构建三维特征: )直接重建(direct reconstruction) 基于D数据,使用真实相机矩阵,直接从三维数据渲染的rgbd图像中重建点云,将特征直接映射到重建的三维点。
|