본문 바로가기
🤖 자동화 & 인공지능/AI & 머신러닝 초보 가이드

[논문] BAGEL: 멀티모달 AI의 새로운 지평을 여는 오픈소스 모델

by 밤바라 2025. 5. 31.

👋 도입: 텍스트와 이미지를 넘나드는 AI의 등장

최근 AI 분야에서는 텍스트, 이미지, 비디오 등 다양한 데이터를 통합적으로 이해하고 생성하는 멀티모달 모델의 중요성이 부각되고 있습니다. 이러한 흐름 속에서 ByteDance의 연구팀이 개발한 오픈소스 모델 BAGEL은 멀티모달 AI의 새로운 가능성을 제시하며 주목받고 있습니다.

🧠 본문

1. BAGEL이란?

BAGEL은 ByteDance의 연구팀이 개발한 오픈소스 멀티모달 AI 모델로, 텍스트, 이미지, 비디오, 웹 데이터를 통합적으로 이해하고 생성할 수 있는 능력을 갖추고 있습니다. 특히, 디코더 전용 구조로 설계되어 다양한 모달리티의 데이터를 효과적으로 처리할 수 있습니다.

2. MoT 아키텍처의 채택

BAGEL은 Mixture-of-Transformer-Experts (MoT) 아키텍처를 채택하여 멀티모달 이해와 생성을 위한 두 개의 트랜스포머 전문가를 구성합니다. 이들은 동일한 토큰 시퀀스를 공유된 자기 주의 연산을 통해 처리하며, 텍스트 토큰 예측에는 Next-Token-Prediction 방식을, 시각 토큰 예측에는 Rectified Flow 방식을 사용합니다. 이러한 구조는 이해와 생성을 위한 파라미터를 분리함으로써 최적화 문제를 완화하고 성능을 향상시킵니다.

3. 대규모 교차 멀티모달 데이터로의 사전 학습

BAGEL은 대규모의 교차된 텍스트, 이미지, 비디오, 웹 데이터를 활용하여 사전 학습되었습니다. 이러한 데이터는 멀티모달 대화, 텍스트-이미지/비디오 생성, 이미지 조작 등 다양한 생성 데이터를 자연스럽게 통합하며, 복합적인 멀티모달 추론 능력을 강화합니다.

4. 출현 특성의 관찰

BAGEL의 학습 과정에서 다음과 같은 출현 특성이 관찰되었습니다:

  • 기본적인 멀티모달 이해와 고화질 생성 능력이 먼저 수렴합니다.
  • 이후 복잡한 편집 및 자유로운 시각적 조작 능력이 나타납니다.
  • 마지막으로 장문 맥락 추론이 멀티모달 이해 및 생성에 도움이 되며, 이전에 독립적이었던 기술들이 모달리티 전반에 걸쳐 복합적인 추론으로 시너지를 발휘합니다.

특히, "Intelligent Edit"와 같이 복합적인 멀티모달 추론이 필요한 작업은 더 많은 훈련 토큰에서 높은 성능에 도달하며 출현 특성을 명확히 보여줍니다.

5. 평가 및 성능

BAGEL은 이미지 이해 및 이미지 생성 표준 벤치마크에서 기존 개방형 모델들을 능가하는 성능을 보여주었습니다. GEdit-Bench 및 IntelligentBench 평가를 통해 이미지 편집 능력과 복합 멀티모달 추론 능력을 평가하였으며, 중간 추론 단계("thinking" 단계)를 생성하도록 허용하면 BAGEL의 생성 및 편집 성능이 크게 향상됨을 확인했습니다.

또한, 세계 모델링 능력(세계 탐색, 회전, 다중 프레임 생성)에 대한 질적 평가에서도 우수한 성능을 보여주며, 실제 세계 장면 외에 다른 도메인(수묵화, 만화, 비디오 게임)으로의 일반화 능력도 확인되었습니다.

🧾 결론

BAGEL은 통합 멀티모달 사전 학습의 스케일링이 출현 특성으로 이어질 수 있음을 보여주는 개방형 기초 모델입니다. 표준 벤치마크에서의 뛰어난 성능과 함께 복합적인 멀티모달 추론 및 세계 모델링 능력을 보여주며, 개방형 모델의 역량 범위를 확장하고 있습니다. 연구진은 BAGEL의 코드와 체크포인트를 공개하여 향후 멀티모달 연구 기회를 촉진하고자 합니다.

❓ 독자 질문

여러분은 BAGEL과 같은 멀티모달 AI 모델이 앞으로 어떤 분야에서 가장 큰 영향을 미칠 것으로 예상하시나요? 의견을 댓글로 공유해주세요!

728x90
반응형