one line of code at a time

Long-term Recurrent Convolutional Networks forVisual Recognition and Description (LRCN) 논문 정리 본문

AI공부

Long-term Recurrent Convolutional Networks forVisual Recognition and Description (LRCN) 논문 정리

oloc 2024. 8. 22. 11:59

논문 분석

이 논문은 Long-term Recurrent Convolutional Networks forVisual Recognition and Description (LRCN)이라는 새로운 아키텍처를 제안했다. 이 모델은 시간과 공간 상에서 visual dependencies를 학습할 수 있다.  (The proposed model enables learning visual dependencies in space and time)

 

 

LRCN 아키텍처는 크게 input, CNN layer, LSTM layer, 그리고 output 이렇게 4가지 파트로 되어 있다. CNN은 visual feature를 추출해내고, LSTM은 sequence 학습을 담당한다. 

 

input은 영상 클립을 프레임 단위로 나눈 이미지이고, 이 이미지가 사전학습된 CNN 모델 (ex. AlexNet)에 들어간다. LSTM에는 CNN에서 추출된 feature 벡터가 들어가고, 이걸로 시퀀스 모델링을 한다. 

 

LSTM은 RNN (Recurrent Neural Network)의 그라디언트 소실 문제 (vanishing gradient problem)을 해결한 모델이다. 구체적으로, RNN에서 메모리 메커니즘을 추가해서 어떤 과거의 정보를 기억하고 잊어버릴지를 학습하게 된다. 

 

영상의 경우 이미지와는 달리 temporal 정보를 고려하는 것이 중요한데 LSTM을 도입해서 시간 정보도 학습하고자 했다. 

 

또한, CNN과 LSTM의 가중치(weight)들이 shared across time 하기 때문에 긴 시퀀스도 잘 처리할 수 있다고 말하고 있다.

 

이 논문에서 다루는 task는 activity recognition, image captioning, 그리고 video description이다. 

 

논문 요약

1. visual sequence modeling 중에서 처음으로 CNN과 LSTM을 통합시킨 모델이다.

2. 전체 시스템을 end-to-end로 학습할 수 있다.

3. 하지만 temporal modling을 통해 dramatic한 성과를 내지는 못했다.

 

👍논문 읽으러 가기

https://arxiv.org/pdf/1411.4389