投稿指南
来稿应自觉遵守国家有关著作权法律法规,不得侵犯他人版权或其他权利,如果出现问题作者文责自负,而且本刊将依法追究侵权行为给本刊造成的损失责任。本刊对录用稿有修改、删节权。经本刊通知进行修改的稿件或被采用的稿件,作者必须保证本刊的独立发表权。 一、投稿方式: 1、 请从 我刊官网 直接投稿 。 2、 请 从我编辑部编辑的推广链接进入我刊投审稿系统进行投稿。 二、稿件著作权: 1、 投稿人保证其向我刊所投之作品是其本人或与他人合作创作之成果,或对所投作品拥有合法的著作权,无第三人对其作品提出可成立之权利主张。 2、 投稿人保证向我刊所投之稿件,尚未在任何媒体上发表。 3、 投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、 投稿人向我刊所投之作品不得同时向第三方投送,即不允许一稿多投。 5、 投稿人授予我刊享有作品专有使用权的方式包括但不限于:通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑,以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、 第5条所述之网络是指通过我刊官网。 7、 投稿人委托我刊声明,未经我方许可,任何网站、媒体、组织不得转载、摘编其作品。

【泡泡图灵智库】反思伪激光雷达表示

来源:智库时代 【在线投稿】 栏目:综合新闻 时间:2021-02-26
作者:网站采编
关键词:
摘要:泡泡图灵智库,带你精读机器人顶级会议文章 标题:Rethinking Pseudo-LiDAR Representation 作者: Xinzhu Ma1, Shinan Liu2, Zhiyi Xia3, Hongwen Zhang4, Xingyu Zeng2, and Wanli Ouyang1 机构:The University of Sydney, Sen

泡泡图灵智库,带你精读机器人顶级会议文章

标题:Rethinking Pseudo-LiDAR Representation

作者: Xinzhu Ma1, Shinan Liu2, Zhiyi Xia3, Hongwen Zhang4, Xingyu Zeng2, and Wanli Ouyang1

机构:The University of Sydney, SenseTime Computer Vision Research Group;SenseTime Research;Dalian University of Technology;Institute of Automation, Chinese Academy of Sciences

来源:ECCV 2020

编译 : 陈圣伦

审核:李鑫

这是泡泡图灵智库推送的第 585篇文章,欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

大家好,今天为大家带来的文章是Rethinking Pseudo-LiDAR Representation。

最近提出的基于伪激光雷达的三维探测器显著提高了单目/双目三维检测任务的性能。然而,其中潜在的机制对研究团体而言仍然是模糊的。本文对此进行了深入的研究,并观察到伪激光雷达表示的有效性来自坐标变换,而不是数据表示本身。在此基础上,本文设计了一种基于图像的CNN检测器,命名为PatchNet,它具有更广泛的适用性,可以实例化为基于伪激光雷达的三维检测器。此外,PatchNet中的伪激光雷达数据被表示为图像,这意味着可以很容易地利用现有的2D CNN从输入数据中提取深度特征,从而提高3D检测性能。在KITTI数据集上进行的实验可以证明,PatchNet优于所有现有的基于伪激光雷达的方法。

代码: src="http://p0.qhimg.com/t01ce99a005ff7179e8.jpg?size=859x449"/>

1.基于伪激光雷达的方法

Step 1: 深度估计单目图像(或立体图像对)作为输入,使用独立的CNN(图1(a))预测每个图像的深度d (u,v)。

Step 2: 2D检测采用另一个CNN提取二维目标区域(图1(a))。

Step 3: 3D数据生成 首先,根据步骤2提取的区域,从步骤1生成的深度图中裁剪兴趣区域(roi)。然后,对每个roi的像素点进行三维坐标恢复:


其中f为焦距,Cx和Cy为主点位置。

Step 4: 3D目标检测基于伪激光雷达的方法将步骤3生成的三维数据作为激光雷达信号,使用point-wise CNN预测结果(图1(c))。具体而言,它们被视为无序点集{x1,x2,…,xn},并由PointNet处理,将一组点映射到输出向量:


其中γ和h由多层感知机实现。

PatchNet-vanilla中的步骤1、2、3与基于伪激光雷达的检测器相同,主要的区别是步骤4。


图2. 输入数据的图解。

如图2,在PatchNet-vanilla中生成的三维数据表示为图像,每个像素位置有3个通道,即x,y,z。与伪激光雷达中使用的point-wise CNN不同,PatchNet-vanilla中使用2D CNN处理输入数据。


图3. 网络结构。

PatchNet首先在两个中间预测任务(二维检测和深度估计)上训练两个深度CNN来获取位置和深度信息,这与PatchNet-vanilla和pseudo-LiDAR的检测器一样。然后,如图3所示,对于每一个检测到的2D目标区域,从深度图中裁剪出相应的区域,并使用公式1恢复其空间信息。之后,使用骨干网络提取roi的特征,并通过mask全局池化和前景mask进行过滤。最后,使用一个具有难度分配机制的检测头来预测由(x,y,z,h,w,l,θ)参数化的3D包围框。

主要结果

表1. 对比不同输入表示。在KITTI验证集上进行了实验,*表示该方法的复现结果。指标为Car类别的AP|R11。


表2. 在KITTI验证集上的三维目标检测结果。指标为Car类别的AP3D和APBEV,共有11个召回位置。*表示该方法的复现结果。


表3. 基于KITTI数据集的Car类别三维检测性能。测试集AP|40由官方排行提供。IoU阈值设置为0.7。*表示该方法基于伪激光雷达数据。



图4. KITTI验证集的定性结果。红框代表本文的预测,绿框为ground truth。激光雷达信号仅用于可视化。

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

文章来源:《智库时代》 网址: http://www.zksdbjb.cn/zonghexinwen/2021/0226/927.html



上一篇:高铁已经过时了?美智库迷惑言论翻车,网友:
下一篇:“人造太阳”核心部件突破,英智库必须承认中

智库时代投稿 | 智库时代编辑部| 智库时代版面费 | 智库时代论文发表 | 智库时代最新目录
Copyright © 2018 《智库时代》杂志社 版权所有
投稿电话: 投稿邮箱: