개발 : Ho Kei Cheng and Alexander G. Schwing (University of Illinois Urbana-Champaign)
연도 : 2022년
관련논문 : Link
🔹 핵심 개념
- XMem은 비디오(영상) 에서 특정 물체를 프레임마다 지속적으로 추적(segmentation) 하는 모델
- 예를 들어, 첫 프레임에서 “이 사과”를 지정하면, 다음 수백 프레임에서도 그 사과의 마스크를 유지하며 추적합니다.
🔹 특징
| 특징 | 설명 |
| Long-term Memory | 이전 프레임의 정보를 기억하며 추적 (수천 프레임 가능) |
| 빠른 추론 | 실시간 속도로 영상 처리 가능 |
| 강력한 정확도 | 복잡한 장면(가려짐, 조명 변화 등)에서도 안정적인 추적 |
| Online updating | 프레임마다 학습 없이 업데이트 가능 |
🔹 활용
- 최근 연구에서는 이 두 모델을 결합해서 씁니다.
- SAM + XMem 조합 = “Video-level Segmentation”
| SAM | 첫 프레임에서 모든 객체를 분할 (object discovery) |
| XMem | 이후 프레임들에서 그 객체들을 계속 추적 (object tracking) |
이 조합을 쓰면,
→ 비디오 전체에서 객체를 자동으로 분리하고 추적할 수 있게 됩니다.
예를 들어, 로봇이 작업장 안을 카메라로 관찰하면서
- SAM이 “기계, 파이프, 사람”을 구분하고
- XMem이 “기계가 계속 같은 위치에 있는지”, “사람이 접근하는지” 등을 추적할 수 있는 거예요.
'🧠 AI, 인공지능 > AI & 머신러닝 초보 가이드' 카테고리의 다른 글
| [인공지능 핵심 노트] 어텐션(Attention)과 디포머블 어텐션(Deformable Attention) (0) | 2026.02.20 |
|---|---|
| Google ADK(Agent Development Kit) Built-in tool 정리 (0) | 2025.11.16 |
| [Vision] SAM (Segment Anything Model) 모델 (0) | 2025.10.04 |
| [환경구축] 2. Docker 환경에서 Ubuntu 설치하기 (0) | 2025.09.13 |
| [환경구축] 1. Docker 설치하기 (맥북 M4 기준) (0) | 2025.09.12 |