[Paper Review] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries
Updated:
논문 정보: Wang, Y., Guizilini, V. C., Zhang, T., Wang, Y., Zhao, H., & Solomon, J. (2022, January). Detr3d: 3d object detection from multi-view images via 3d-to-2d queries. In Conference on Robot Learning (pp. 180-191). PMLR.
DETR3D 논문은 DETR 논문이 발표된 이후, 3D Object Detection task에 맞게 바꾼 논문입니다.
이 논문을 잘 이해하려면 DETR 논문을 먼저 잘 알고 있어야합니다.
Main Contribution
- multi-camera dectection을 3D set-to-set prediction으로 처음 시도하였다. 기존 3D Object Detection의 경우, 각 camera view에서 object detection을 수행한 후, final step에서 이 결과들을 합친다. 그러나 DETR3D의 경우, 모든 layer에서 모든 camera의 view 정보를 사용하여 연산한다.
- backward geometric projection을 통해 2D feature extraction과 3D bounding box prediction 과정을 연결한다. 이 방법을 통해 inaccurate depth prediction으로 인한 영향을 받지 않는다.
- DETR과 마찬가지로, NMS 같은 post-processing이 필요 없다.
Multi-view 3D Object Detection
- Input
- multi-view images K개 (nuScenes의 경우 6장)
- camera matrices
- GT bounding boxes (birds-eye view에서의 position, size, heading angle, velocity를 포함하여 9가지 attribute을 가짐)
- categorical labels
Fig2. Inputs of feature learning. -
Feature Extraction
Fig3. Feature Extraction. - ResNet과 FPN으로 input을 feed한 후, 4개의 feature set을 얻는다.
- (k= 1, 2, 3, 4)
- multi-scale feature를 사용함으로 서로 다른 size의 object를 더 잘 인식할 수 있음.
- Detection Head
Fig4. Detection Head. - DETR3D detection head는 6개의 layer로 구성
- 각 layer는 feature refinement step과 multi-head attention layer로 구성
- predict a set of bounding box centers associated with object queries
- project these centers into all the feature maps using the camera transformation matrices
- sample features via bilinear interpolation and incorporate them into object queries
- describe object interactions using multi-head attention
- 2개의 sub-network로 object query 하나 당 Bbox와 class label을 맞춤.
- Sub-network는 FC-layer
- 각 layer는 feature refinement step과 multi-head attention layer로 구성
- DETR3D detection head는 6개의 layer로 구성
-
Set-to-set loss
Fig5. Set-to-set loss. Fig6. Loss Function. - DETR의 loss 함수와 동일
- Hungarian algorithm을 사용하여 모든 object query에서 예측한 bounding box와 모든 ground-truth bounding box 사이에서 bipartite matching을 수행
- loss을 최소화하는 최적의 일치를 찾고, classification과 bounding box에 대한 Loss를 계산
Performance
Paper Link: [https://arxiv.org/pdf/2110.06922.pdf]
Comments