본문 바로가기
paper

AI Choreographer: Music Conditioned 3D Dance Generation with AIST++

by 기록 주인 2024. 9. 16.

 

AI Choreographer



AIST++ Dataset

  1. 대규모 3D 춤 동작 데이터셋:
    • 1,408개의 3D 춤 동작 시퀀스와 음악이 매칭된 데이터.
    • 30명의 댄서가 10개의 춤 장르(Old School, New School, Jazz 등)를 포함.
  2. 다중 뷰 비디오:
    • 9개의 카메라 뷰로 캡처된 동작과, 3D로 재구성된 포즈 정보 제공.
  3. 다양한 춤 장르:
    • 각 장르별로 다양한 BPM(템포)를 반영한 춤 동작 포함.
    • 85%는 기본 안무, 15%는 복잡한 고급 안무로 구성.
  4. 연구 활용성:
    • 2D/3D 포즈 추정음악 기반 동작 생성 연구에 적합.
    • 음악과 동작의 상호작용을 연구할 수 있는 크로스모달 데이터셋.

이 데이터셋은 음악과 동작의 상관관계를 학습하는 데 유용하며, 다양한 3D 동작 연구에 중요한 자원으로 활용된다.

 



Music Conditioned 3D Dance Generation

 

Music Conditioned 3D Dance Generation 부분은 음악을 조건으로 한 3D 춤 동작 생성에 대해 설명한다. 주어진 2초 길이의 초기 동작(시드 동작)과 더 긴 음악 시퀀스를 기반으로 향후의 춤 동작 시퀀스를 생성하는 방법론을 다루고 있다.

 

Transformer를 사용한 기본 구조

Transformer는 Self-Attention 메커니즘을 기반으로 하며, 입력 데이터를 내부 표현으로 변환하여 중요한 정보를 학습한다. 논문에서는 다음과 같은 Attention 연산을 통해 입력된 정보를 처리한다:

여기서 W는 학습 가능한 가중치 행렬이다. Softmax를 통해 각 위치의 중요도를 계산하며, 이를 통해 어텐션 값을 얻게 된다.

 


Full Attention Cross-Modal Transformer (FACT) model

FACT 모델음악동작 간의 상관관계를 학습해, 3D 춤 동작을 생성하는 모델이다. 이 모델의 중요한 특징은 모든 입력을 한 번에 처리하는 Full Attention 구조를 사용한다는 점이다. 이는 각 입력 시점에서 모든 과거 정보를 고려해 더 긴 시퀀스의 맥락을 반영할 수 있게 한다.

 

1. 입력 처리 과정

  • 음악 시퀀스 Y와 동작 시퀀스 X를 Transformer에 각각 인코딩하여, 두 개의 임베딩 시퀀스를 생성한다.
  • 이 임베딩을 기반으로 Cross-modal Attention을 적용해, 음악과 동작 간의 상관관계를 학습한다.

 

2.  기존의 Attention과의 비교

  • Shift-by-1 Causal Attention: 기존 GPT 모델에서 사용하는 방식으로, 미래 정보를 완전히 차단하고, 이전 시점 정보만을 사용하여 예측하는 방식으로, 시퀀스에서 이전 정보만을 참조하는 제약을 걸기 위한 방식이다. 이는 주로 시간적 순서가 중요한 문제에서 사용된다. 시퀀스를 1칸씩 오른쪽으로 이동하면서 과거 정보만을 참조하게끔 설계된 구조이다.
  • **Full Attention: FACT 모델에서 사용하는 방식으로, 모든 입력 시점을 한 번에 처리해 미래까지 예측할 수 있게 한다. 이는 더 자연스럽고 일관된 동작 시퀀스를 생성하는 데 중요한 역할을 한다.

 

3. FACT 모델의 장점

  • Full Attention을 사용하여 단순히 다음 한 프레임을 예측하는 것이 아니라, 미래의 N 프레임을 예측할 수 있다. 이로 인해 모델이 동작의 시간적 일관성을 더 잘 학습하고, 장기적인 맥락을 반영한 자연스러운 동작을 생성할 수 있다.
  • 이 방식은 Shift-by-1 Causal Attention과 비교하여, 몇 단계 후에 동작이 멈추거나 부자연스러워지는 문제를 방지할 수 있다. 이는 장기적인 시퀀스를 다루는 춤 동작 생성에 매우 유리하다.

 



Experiments

 

1. AIST++ Motion Quality Validation

  • AIST++ 데이터셋의 3D 동작 품질을 검증하기 위해 MPJPE-2D(2D 관절 위치 오류)를 사용하여, 2D 키포인트와 3D 재구성 관절 사이의 일치도를 평가했다.
  • 전체 데이터셋의 평균 MPJPE-2D는 6.2 픽셀로, 86% 이상의 키포인트가 10픽셀 이내의 오차를 보였다. PCKh@0.5 지표는 98.7%로, 높은 일치도를 보였다.

 

2. Music Conditioned 3D Motion Generation

  • FACT 모델이 다양한 음악 장르에 맞춰 춤 동작을 생성하는 능력을 평가했다. AIST++ 데이터셋을 train/test로 나누어 실험을 진행했다.
  • 실험 결과, FACT 모델은 다른 최신 모델들보다 더 높은 품질의 춤 동작을 생성하고, 음악과 동작 간의 상관관계도 더 잘 유지했다.

 

3. Quantitative Evaluation

  • Motion Quality: FID(Fréchet Inception Distance) 점수로 생성된 동작의 품질을 평가했으며, FACT 모델이 더 우수한 성능을 보였다.
  • Generation Diversity: 다양한 춤 동작을 생성하는 능력에서 FACT 모델이 더 높은 다양성을 보였다.
  • Motion-Music Correlation: Beats Alignment Score로 음악과 동작의 상관관계를 평가했으며, FACT 모델이 더 높은 상관관계를 유지했다.

 

4. Ablation Study

  • Attention 메커니즘Cross-modal Fusion의 역할을 분석한 실험이다. Full AttentionFuture-N supervision 방식이 장기적 동작 예측에서 더 뛰어난 성능을 보였다.

 

5. User Study

  • 30명의 사용자에게 AI Choreographer와 기존 모델들이 생성한 동작을 평가하게 했다. 그 결과, FACT 모델이 더 나은 춤 동작을 생성한다고 평가받았다.

 


 

'paper' 카테고리의 다른 글

EDGE: 코드 구현  (7) 2024.09.21
Music-Driven Group Choreography  (0) 2024.09.15
EDGE  (1) 2024.09.15