본문 바로가기
🧠 AI, 인공지능/AI & 머신러닝 초보 가이드

[Vision] XMem (Video Object Segmentation)

by 테크옵저버 2025. 10. 4.
개발 : Ho Kei Cheng and Alexander G. Schwing (University of Illinois Urbana-Champaign)
연도 : 2022년
관련논문 : Link 

🔹 핵심 개념

  • XMem은 비디오(영상) 에서 특정 물체를 프레임마다 지속적으로 추적(segmentation) 하는 모델
  • 예를 들어, 첫 프레임에서 “이 사과”를 지정하면, 다음 수백 프레임에서도 그 사과의 마스크를 유지하며 추적합니다.

 

🔹 특징

특징 설명
Long-term Memory 이전 프레임의 정보를 기억하며 추적 (수천 프레임 가능)
빠른 추론 실시간 속도로 영상 처리 가능
강력한 정확도 복잡한 장면(가려짐, 조명 변화 등)에서도 안정적인 추적
Online updating 프레임마다 학습 없이 업데이트 가능

🔹 활용

  • 최근 연구에서는 이 두 모델을 결합해서 씁니다.
  • SAM + XMem 조합 = “Video-level Segmentation”
SAM 첫 프레임에서 모든 객체를 분할 (object discovery)
XMem 이후 프레임들에서 그 객체들을 계속 추적 (object tracking)

 

이 조합을 쓰면,

비디오 전체에서 객체를 자동으로 분리하고 추적할 수 있게 됩니다.

 

예를 들어, 로봇이 작업장 안을 카메라로 관찰하면서

  • SAM이 “기계, 파이프, 사람”을 구분하고
  • XMem이 “기계가 계속 같은 위치에 있는지”, “사람이 접근하는지” 등을 추적할 수 있는 거예요.