📚 Study & Tech

[AI]Multi-modal AI | fusion | 조기, 중간, 사후 융합

동다리 2026. 4. 20. 17:19

논문 리뷰 발표를 준비하다가....

 

멀티모달 AI에서는, 서로 다른 모달리티의 정보를 언제 합치느냐에 따라 조기 융합, 중간 융합, 사후(지연) 융합으로 나뉜다. 

일반적인 AI 진행 단계

  1. 입력: 각 데이터가 들어옴
  2. 추출: 특징을 추출함
  3. 출력: 최종 예측을 만듦

 

1. 조기 융합 (Early Fusion / Feature-level Fusion)

데이터가 모델의 깊은 층으로 들어가기 전, 입력 단계나 아주 초기 특징 추출 단계에서 하나로 합치는 방식

즉, 입력 데이터 자체 또는 아주 낮은 수준의 특징을 바로 합침

 
  • 특징: 두 데이터 사이의 밀접한 상관관계를 학습하기에 유리함
  • 두 데이터가 비교적 비슷한 구조를 가질 때, 시간 정렬 문제가 크지 않을 때, 간단한 Baseline 모델이 필요할 때 좋음
  • 예시: EEG band  power + fNIRS HbO/HbR 평균값을 한 벡터로 합쳐 분류기에 넣음 or 동일 길이로 맞춰 한 입력 텐서로 넣음
  • 장점: 데이터 수준에서 결합하기 때문에 정보 간의 직접적인 연결 고리를 찾기 좋음
  • 단점:
     
    • 정보 손실: EEG와 fNIRS처럼 샘플링 속도나 채널 수가 크게 다를 경우, 이를 맞추는 과정에서 중요한 정보가 사라질 수 있음
    • 경직성: 학습 과정에서 각 데이터의 고유한 특성이 무시되고 하나로 묶여버리는 경향이 있어 유연성이 떨어짐
    • 두 신호의 스케일, 차원, 시간축이 잘 맞아야 하며 한 모달리티의 잡음이 다른 모달리티까지 오염시킬 수 있음

2. 중간 융합 (Intermediate Fusion)_최근 가장 많이 쓰임

각 데이터를 별도의 신경망 브랜치에서 어느 정도 처리(추출)한 뒤, 네트워크의 중간 지점에서 결합하는 방식으로,

중간 표현을 합치는 방식 (e.g., hidden representation, feature embedding)

 
  • 특징: 각 데이터의 고유한 속성을 보존하면서도 고차원적인 상호작용을 포착하는 균형 잡힌 접근법
  • 모달리티 특성이 많이 다를 때 활용하기 좋음
  • 예시: 각 Branch에서 특징 추출 후 branch의 feature를 cross attention으로 결합 및 최종 분류
  • 장점:
     
    • 독립적 특징 보존: 각 데이터(EEG, fNIRS)가 가진 고유한 장점을 충분히 뽑아낸 뒤 합치므로 정보 유실이 적음
       
    • 고차원 상호작용: 데이터 그 자체의 결합이 아니라, 가공된 '특징'끼리 결합하므로 더 복잡하고 지능적인 관계를 찾아낼 수 있음
       
    • 조기 융합보다 훨씬 유연하고 각 모달리티의 특성에 맞게 따로 처리가 가능함
  • 단점: 모델의 구조가 복잡해지고 설계 난이도가 높음

3. 사후(지연) 융합 (Late Fusion, Decision-level Fusion)

각 모달리티를 끝까지 따로 분석해서 각자 예측 결과를 만든 다음 마지막에 합치는 방식

 
  • 특징: 각 데이터의 고유한 속성을 보존하면서도 고차원적인 상호작용을 포착하는 균형 잡힌 접근법
  • 두 모달리티의 시간축 혹은 구조가 너무 다를 때, 안정적인 baseline이 필요할 때, robust한 시스템이 필요할 때 활용하기 좋음
  • 예시: 마지막에 평균 내거나 가중합하여 최종 예측 (majority voting, weighted voting, meta-classifier)
  • 장점:
     
    • 구현이 비교적 안정적
    • 각 모달리티를 독립적으로 최적화 가능
    • 해석이 쉬움
  • 단점: 모달리티 간 세밀한 상호작용을 반영하지 못하고, 서로 보완되는 정보를 놓칠 수 있음

  Fusion Index
조기 융합 raw signal, low-level feature
중간 융합 hidden feature, embedding
사후 융합 decision, probability, score

 

반응형

'📚 Study & Tech' 카테고리의 다른 글

[LLM] 임베딩 (Embedding)(1)  (0) 2026.03.24