one line of code at a time
Learning Spatiotemporal Features with 3D Convolutional Networks 논문 (C3D) 정리 본문
Learning Spatiotemporal Features with 3D Convolutional Networks 논문 (C3D) 정리
oloc 2024. 8. 22. 12:27논문 분석
이 논문의 motivation은 CNN + LSTM 아키텍처인 LRCN이 대량의 데이터셋 (large-scale dataset)에서는 그렇게 효율적이지 못하다는 이다.
이 논문은 영상 분석에서 3D 컨볼루션 네트워크를 제안한다. 2D는 spatial feature만 잡아낼 수 있지만, 3D CNN은 spatial + temporal feature를 잡아낼 수 있다. 3 x 3 컨볼루션 연산이 아닌 3 x 3 x 3 연산을 하는 것이다. 이 논문에서 실험을 다양하게 했는데 3 x 3 x 3 커널 연산이 성능이 가장 좋았다고 한다. 추가된 1차원으로 spatiotemporal information/feature를 학습하게 된다.
3D CNN 아키텍처는 다음과 같다.

8개의 3D 컨볼루션 레이어, 5개의 max-pooling layer, 2개의 fully connected layer, 그리고 마지막으로 분류 task라면, softmax를 통해 클래스에 대한 확률을 구하게 된다.
일단 UCN-101 데이터에서 성능을 테스트하기 전에 Sports-1M 데이터로 사전 학습을 한다. 이 데이터는 백만 장의 유튜브 비디오이고, 487개의 클래스를 가진다. 그런 다음 UCF-101 데이터으로 전이 학습 (transfer learning)을 한다. UCF-101 데이터는 13,320개의 비디오 데이터가 있으며 101개의 action 카테고리가 있다. 전이 학습으로는 파인튜닝이 있는데 쉽게 말하면 새로운 데이터에 맞게 일부 가중치를 업데이트하는 것을 말한다.
논문 요약
1. 3D CNN 아키텍처는 간단하면서도 대량의 비디오 데이터에서 시공간의 정보를 학습하는 데 효율적인 모델이다.
2. 다른 action recognition (행동 인식) 방법보다 높은 정확도를 가지 빠르게 추론할 수 있다.
3. 3D CNN은 2D CNN보다 더 많은 학습 용량을 가지지만, 반면에 더 많은 데이터가 필요하고 더 많은 비용이 든다.
👍 논문 읽으러 가기
'AI공부' 카테고리의 다른 글
| Long-term Recurrent Convolutional Networks forVisual Recognition and Description (LRCN) 논문 정리 (0) | 2024.08.22 |
|---|---|
| Contrastive Language-Image Pre-training (CLIP) 정리 (1) | 2024.08.14 |