- · 《智库时代》栏目设置[06/28]
- · 《智库时代》收稿方向[06/28]
- · 《智库时代》投稿方式[06/28]
- · 《智库时代》征稿要求[06/28]
- · 《智库时代》刊物宗旨[06/28]
【泡泡图灵智库】反思伪激光雷达表示
作者:网站采编关键词:
摘要:泡泡图灵智库,带你精读机器人顶级会议文章 标题:Rethinking Pseudo-LiDAR Representation 作者: Xinzhu Ma1, Shinan Liu2, Zhiyi Xia3, Hongwen Zhang4, Xingyu Zeng2, and Wanli Ouyang1 机构:The University of Sydney, Sen
泡泡图灵智库,带你精读机器人顶级会议文章
标题:Rethinking Pseudo-LiDAR Representation
作者: Xinzhu Ma1, Shinan Liu2, Zhiyi Xia3, Hongwen Zhang4, Xingyu Zeng2, and Wanli Ouyang1
机构:The University of Sydney, SenseTime Computer Vision Research Group;SenseTime Research;Dalian University of Technology;Institute of Automation, Chinese Academy of Sciences
来源:ECCV 2020
编译 : 陈圣伦
审核:李鑫
这是泡泡图灵智库推送的第 585篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权
摘要
大家好,今天为大家带来的文章是Rethinking Pseudo-LiDAR Representation。
最近提出的基于伪激光雷达的三维探测器显著提高了单目/双目三维检测任务的性能。然而,其中潜在的机制对研究团体而言仍然是模糊的。本文对此进行了深入的研究,并观察到伪激光雷达表示的有效性来自坐标变换,而不是数据表示本身。在此基础上,本文设计了一种基于图像的CNN检测器,命名为PatchNet,它具有更广泛的适用性,可以实例化为基于伪激光雷达的三维检测器。此外,PatchNet中的伪激光雷达数据被表示为图像,这意味着可以很容易地利用现有的2D CNN从输入数据中提取深度特征,从而提高3D检测性能。在KITTI数据集上进行的实验可以证明,PatchNet优于所有现有的基于伪激光雷达的方法。
代码: src="http://p0.qhimg.com/t01ce99a005ff7179e8.jpg?size=859x449"/>
1.基于伪激光雷达的方法
Step 1: 深度估计单目图像(或立体图像对)作为输入,使用独立的CNN(图1(a))预测每个图像的深度d (u,v)。
Step 2: 2D检测采用另一个CNN提取二维目标区域(图1(a))。
Step 3: 3D数据生成 首先,根据步骤2提取的区域,从步骤1生成的深度图中裁剪兴趣区域(roi)。然后,对每个roi的像素点进行三维坐标恢复:
其中f为焦距,Cx和Cy为主点位置。
Step 4: 3D目标检测基于伪激光雷达的方法将步骤3生成的三维数据作为激光雷达信号,使用point-wise CNN预测结果(图1(c))。具体而言,它们被视为无序点集{x1,x2,…,xn},并由PointNet处理,将一组点映射到输出向量:
其中γ和h由多层感知机实现。
PatchNet-vanilla中的步骤1、2、3与基于伪激光雷达的检测器相同,主要的区别是步骤4。
图2. 输入数据的图解。
如图2,在PatchNet-vanilla中生成的三维数据表示为图像,每个像素位置有3个通道,即x,y,z。与伪激光雷达中使用的point-wise CNN不同,PatchNet-vanilla中使用2D CNN处理输入数据。
图3. 网络结构。
PatchNet首先在两个中间预测任务(二维检测和深度估计)上训练两个深度CNN来获取位置和深度信息,这与PatchNet-vanilla和pseudo-LiDAR的检测器一样。然后,如图3所示,对于每一个检测到的2D目标区域,从深度图中裁剪出相应的区域,并使用公式1恢复其空间信息。之后,使用骨干网络提取roi的特征,并通过mask全局池化和前景mask进行过滤。最后,使用一个具有难度分配机制的检测头来预测由(x,y,z,h,w,l,θ)参数化的3D包围框。
主要结果
表1. 对比不同输入表示。在KITTI验证集上进行了实验,*表示该方法的复现结果。指标为Car类别的AP|R11。
表2. 在KITTI验证集上的三维目标检测结果。指标为Car类别的AP3D和APBEV,共有11个召回位置。*表示该方法的复现结果。
表3. 基于KITTI数据集的Car类别三维检测性能。测试集AP|40由官方排行提供。IoU阈值设置为0.7。*表示该方法基于伪激光雷达数据。
图4. KITTI验证集的定性结果。红框代表本文的预测,绿框为ground truth。激光雷达信号仅用于可视化。
泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!
文章来源:《智库时代》 网址: http://www.zksdbjb.cn/zonghexinwen/2021/0226/927.html