首页 > 范文大全 > 其他范文

三维场景设计综述范文(优选3篇)

三维场景设计综述范文(优选3篇)



三维场景设计综述范文 第1篇

文中提供了一份SSC数据集的全面列表,展示在表1中。SSC数据集被定义为包含有稀疏/密集数据和语义标签的配对。虽然有14个数据集符合这些条件,但只有一半被用于SSC,其中四个最受欢迎的在表格中加粗,并在图1中预览。

密集注释是一个明显的挑战。对于室内静态场景可以通过多视图或旋转装置完全捕获,但3D室外动态场景几乎不可能完全捕获,因为这需要无所不在的场景感应。真实情况 y 通常是通过聚合和标注一小段时间窗口 T 内的稀疏序列数据{y0​,y1​,...,yT​} 获得的。

对于室内的RGB-D数据集,通常利用结构光运动(SfM)或视觉SLAM(vSLAM)实现,但这会造成空洞、数据丢失和嘈杂的注释。这些不完美之处通常通过局部匹配CAD模型来推断密集完整的物体几何形状或通过后处理孔洞填充技术来减少。

在室外环境中,点云注册技术使得将多个激光雷达测量合并到单一参考坐标系中成为可能。虽然经常被认为是密集的,但实际数据集中的真实场景通常是嘈杂且非连续的,实际上是对真实场景的近似。无论使用多少帧,某些场景部分仍然被遮挡,尤其是在动态环境中。传感器的精度和密度通常随着距离的增加而逐渐减少。刚性注册只能应对视点变化,导致动态物体(如移动汽车)产生轨迹,这对学习先验的影响仍在讨论中。另一个限制在于传感器,它们只感知几何表面而不是体积,使所有固体物体变成壳体。为了生成语义标签,常见的做法是从多个虚拟视点观察聚合的3D数据以最小化标签歧义,这个过程是繁琐且容易出错的。最后,如图3所示,室内/室外数据集中的语义分布高度不平衡。

三维场景设计综述范文 第2篇

x 是一个场景的不完整3D表示,SSC是一个函数 f(.),它能够推断出一个密集的、语义上标注过的场景 y^​,使得 f(x)=y^​ 尽可能地接近真实的3D场景 y。通常情况下,x 要比y 稀疏得多,复杂性在于固有的歧义性,尤其是当由于稀疏的感知或遮挡导致大量数据缺失时(例如图2所示的情况)。由此,问题不能通过简单地在 x 中插值数据来解决,而是通常通过从稀疏输入和带有语义标签的密集3D场景(x,y 对)中学习先验知识来解决。

稀疏的3D输入 x 的性质极大地影响了任务的复杂性。尽管可以从多种传感器获取3D数据,但RGB-D/立体相机或激光雷达(LiDAR)是常用的。例如,RGB-D/立体相机提供了可见表面的密集描述,其中缺失的区域对应于被遮挡的区域,如图2a所示。这减少了SSC任务到只在被遮挡的区域估计语义完成的范畴。相反,激光雷达数据提供了明显更稀疏的感知,随着距离的增加密度递减,而激光束的点返回覆盖空间的一小部分,导致未知体积的比例很高,如图2b所示。

三维场景设计综述范文 第3篇

SSC需要同时输出几何和语义信息。虽然这两者是高度耦合的——几何信息帮助理解语义,反之亦然——但使用不同性质的输入数据,例如提供额外的纹理或几何洞察,自然有其优势。我们发现,大约三分之二的文献使用多模态输入,尽管在最近的作品中这似乎不那么流行(参见表2‘输入’列)。对于绝大多数多输入的作品,RGB通常与各种几何输入一起使用[6, 16, 17, 32, 33, 43, 51, 76, 77, 79, 86, 89, 180],因为它是获取语义的自然候选。即使没有颜色,通常也会采用2D和3D模式的融合,因为这使得特征估计更为丰富。这是因为2D和3D的邻域是不同的,2D数据是沿着传感器的光轴进行平面投影的结果。随后,一个常见的策略是融合用不同的2D/3D编码处理的几何特征,以获得更丰富的局部场景描述符。在文献[6]中,深度和占用被融合,而文献[78]使用深度和类似TSDF的数据。如前所述(参见第节),TSDF提供了一个梯度场,有助于网络收敛。最后,也发现了面向应用的融合,例如在[21]中融合了鸟瞰图和几何输入——这更适合室外SSC。

我们将融合类型分为三类,如图9所示。融合可以在输入层(早期融合)、中间层特征(中期融合)或在后期/输出层(晚期融合)应用。在表2的‘融合策略’列中,它们分别被标为E、M和L。

早期融合。最简单的方法是在任何进一步处理之前合并输入模态[6, 22, 33, 43, 51, 54, 180],见图9a。这里有两种策略:当空间对齐时(例如RGB/Depth),可以按通道进行合并;或者,可以将输入投影到一个共享的3D空间(即特征提升)。对于空间对齐的模态,常见的是使用法线/深度对[54]或RGB/语义对[6],并用2D CNN来处理它们。第二种策略是将任何2D输入提升到3D——假设有深度信息和准确的传感器间校准——然后用3D网络处理。这已经在RGB/深度[51]、深度/语义[22, 43]、点/语义[180]中完成。除非使用点,这第二种策略会导致一个稀疏张量,因为并非所有3D单元都有特征。值得注意的是,[6, 22, 43, 180]使用了语义,这是首先从RGB或类似深度的数据估计出来的。一个2D或3D网络处理合并的张量,而逻辑上它超过了单一模态输入[32, 43, 54]

相关内容

热门阅读
随机推荐