본문 바로가기
paper

Music-Driven Group Choreography

by 기록 주인 2024. 9. 15.

 

 

 

Music-Driven Group Choreography

.



AIOZ-GDANCE Dataset

AIOZ-G(Group)DANCE Dataset는 실제 환경에서 수집된 대규모 그룹 댄스 비디오 데이터셋이다. 이 데이터셋의 주요 목표는 3D 동작 데이터를 제공하는 것이다. 그러나 모션 캡처 시스템(MoCap)을 이용하기에는 너무 많은 비용과 시간이 소요되기 때문에, 이 데이터셋은 반자동 레이블링 방식을 통해 대규모 데이터를 수집하고 구축한다.

 

Data Collection and Preprocessing

  • Video Collection: YouTube, TikTok, Facebook에서 공개적으로 접근 가능한 그룹 댄스 영상을 수집하며, 모든 비디오는 1920x1080 해상도와 30FPS로 처리된다.
  • Human Tracking: 최신 다중 객체 추적기를 사용하여 비디오 내 모든 사람의 바운딩 박스를 추적하고, 잘못된 추적은 수동으로 수정한다. 추적이 정확해야 정확한 2D 및 3D 데이터를 얻을 수 있기 때문에, 이 단계는 중요하다.
  • Pose Estimation: 각 사람의 바운딩 박스를 이용해 2D 포즈를 추정하며, 잘못된 포즈 추정값은 수동으로 교정해 2D keypoints 데이터를 개선한다.

Group Motion Fitting

  • Local Mesh Fitting: SMPL(Skinned Multi-Person Linear) 모델을 사용하여 3D 인간 메쉬를 표현하며, 이를 통해 각 댄서의 움직임을 3D로 맞춘다. 이 과정에서 포즈와 트랜슬레이션을 포함한 다양한 변수를 최적화하여 3D 재구성을 수행한다. 

이 모든 항(error, 오차)을 최소화함으로써, 각 댄서의 움직임이 자연스럽고 정확하게 재구성된다.

  • Global Optimization: 전체 춤 그룹의 동작을 일관되게 만들기 위한 최적화 단계를 거치며, 발이 땅과 접촉할 때 그 위치를 제약하는 등의 방법을 통해 최종 3D 데이터를 생성한다.

이 단계에서는 그룹 전체가 자연스럽게 움직이도록 최적화한다. 각각의 댄서가 일관된 위치와 깊이를 유지하면서도, 서로의 움직임에 영향을 주지 않도록 신경 쓴다.


How will AIOZ-GDANCE be useful to the community?

이 데이터셋은 다양한 연구에 유용할 수 있다.

  • Group Dance Generation: 그룹 댄스 생성은 아직 충분히 연구되지 않았으며, 이 데이터셋을 통해 더 많은 연구가 가능할 것이다.
  • Human Pose Tracking: SMPL을 활용한 3D 데이터를 사용하여 인간의 포즈 추적 연구에 활용할 수 있다.


Audio-driven Group Dance Generation

Transformer Music Encoder

  • 음악 입력: 시스템의 첫 단계는 음악 시퀀스를 입력받는 것이다. 입력된 음악 시퀀스는 Transformer Music Encoder를 통해 처리되며, 이는 음악에서 중요한 특징을 추출한다.
  • Positional Encoding: Transformer는 시간에 따른 음악 시퀀스의 순서를 반영하기 위해 위치 인코딩(Positional Encoding)을 추가한다. 이를 통해 음악의 시간적 패턴을 학습할 수 있다.

이 단계는 수식에서 mtm_t로 표현되는 음악 시퀀스 {m1,m2,…,mT}\{m_1, m_2, \dots, m_T\}에 해당하며, 이를 기반으로 추출된 오디오 특징이 다음 단계로 전달된다.

 

 

Initial Pose Generator

  • 입력 포즈: 이 단계에서는 초기 댄서들의 위치와 함께 음악 특징이 입력된다. 이 특징들을 기반으로, 각 댄서의 초기 포즈가 **MLP(다층 퍼셉트론)**를 통해 생성된다.
  • 결과: 초기 포즈가 생성된 후, 이는 그룹 동작을 생성하는 다음 단계의 기반이 된다.

 

Group Motion Generator (Group Encoder & Decoder)

  • Group Encoder: 이 단계에서는 각 댄서의 포즈와 음악 시퀀스를 입력으로 받아, 다음 시간 단계에서의 포즈를 예측한다. 이를 위해 **LSTM (Long Short-Term Memory)**이 사용되며, 이전 시간 단계의 포즈를 바탕으로 각 댄서의 새로운 포즈가 생성된다.
  • Group Decoder: 생성된 포즈는 각 댄서의 다음 시간 단계 포즈를 예측하기 위해 MLP Decoder로 다시 전달된다.

 

 

Cross-entity Attention

  • 댄서 간 상호작용: 이 단계에서는 댄서들 간의 공간적 관계를 고려하여 각 댄서의 포즈를 조정한다. 가까이 있는 댄서들이 더 높은 상관관계를 가지도록 하여, 그룹 동작의 일관성과 자연스러움을 높인다.
  • Attention Mechanism: 이 과정에서는 Attention 메커니즘을 사용하여 댄서 간의 관계를 모델링한다. Scaled Dot-Product Attention이 사용되며, 각 댄서 간의 거리를 기반으로 상호작용을 계산한다.

 

 

Final Output

  • 최종 포즈 생성: 최종적으로 각 댄서의 포즈는 MLP(Multilayer Perceptron) Decoder를 통해 생성되며, 이는 다음 시간 단계의 포즈를 예측한다. 이 과정이 반복되면서, 그룹 댄스의 모든 동작이 음악과 동기화된 상태로 생성된다.

 

 



Experiments

 

AIOZ-GDANCE Statistic

  • Dataset Split: AIOZ-GDANCE는 총 16.7시간 분량의 그룹 댄스와 음악 데이터를 포함하고 있으며, 각 영상은 15초에서 60초 길이로, 30FPS로 디코딩된다. 데이터셋은 훈련(80%), 검증(10%), 테스트(10%) 세트로 나누어져 있다.
  • Dataset Analysis: 음악 장르와 댄스 스타일의 분포를 분석한 결과, PopElectronic이 인기 있는 음악 장르로 나타났으며, Zumba, Aerobic, Commercial이 주요 댄스 스타일로 확인되었다.

 

Group Dance Generation Result

Implementation Details

  • 모델 세부 사항: MLP는 3개의 은닉층과 각각 512개의 뉴런을 사용하며, Transformer Music Encoder는 8개의 attention heads를 가진 2개의 층으로 구성된다. 각 Group Encoder 레이어는 동일한 구조로 3개의 동일한 Group Encoder 레이어가 쌓여 학습 용량을 확장한다. Cross-entity Attention에서는 8개의 heads가 사용된다.
  • 훈련 과정: 240프레임의 시퀀스를 랜덤으로 샘플링해 모델을 훈련시키며, L2 loss를 사용하고 Adam 옵티마이저로 학습을 진행한다.

 

Evaluation Protocol

  • 평가 지표: 싱글 댄스 품질을 평가하기 위해 Frechet Inception Distance (FID), Motion-Music Consistency (MMC), **Generation Diversity (GenDiv)**를 사용한다. 그룹 댄스 품질 평가를 위해 Group Motion Realism (GMR), Group Motion Correlation (GMC), **Trajectory Intersection Frequency (TIF)**가 사용되었다.

 

Experimental Results

  • Cross-entity Attention Analysis: Cross-entity Attention(CA)이 추가된 경우, FACT 모델 대비 모든 메트릭에서 큰 성능 향상이 확인되었다. CA를 사용한 GDanceR는 특히 그룹 댄스에서 더 나은 일관성을 제공하며, 댄서들 간의 교차 문제를 해결하는 데 효과적이다.
  • Number of Dancers Analysis: 생성된 댄서 수에 따른 성능을 분석한 결과, FID와 GMR은 생성된 댄서 수에 크게 영향을 받지 않았으나, MMC는 안정적으로 작동함을 보여주었다. 반면 GenDiv는 댄서 수가 증가할수록 감소하고, TIF는 교차 빈도가 증가함을 나타냈다.
  • Dance Style Analysis: 각 댄스 스타일에 따른 성능을 비교한 결과, AerobicZumba는 일관된 스타일을 제공했으며, CommercialIrish는 모델링이 쉬운 반면, BollywoodSamba는 더 복잡한 동작을 요구했다.
  • Latent Motion Fusion Analysis: 지역적인 움직임과 전역적인 움직임을 결합하는 방법을 실험한 결과, 지역적 정보와 전역적 정보를 결합(Concatenate)했을 때보다 더해진 결과(Add)가 더 좋은 성능을 보여주었다.

 

 


 

'paper' 카테고리의 다른 글

EDGE: 코드 구현  (7) 2024.09.21
AI Choreographer: Music Conditioned 3D Dance Generation with AIST++  (4) 2024.09.16
EDGE  (1) 2024.09.15