Lip and Voice Synchronization Using Visual Attention 


Vol. 13,  No. 4, pp. 166-173, Apr.  2024
https://doi.org/10.3745/TKIPS.2024.13.4.166


PDF
  Abstract

본 연구에서는 얼굴 동영상에서 입술의 움직임과 음성 간의 동기화 탐지 방법을 제안한다. 기존의 연구에서는 얼굴 탐지 기술로 얼굴 영역의 바운딩 박스를 도출하고, 박스의 하단 절반 영역을 시각 인코더의 입력으로 사용하여 입술-음성 동기화 탐지에 필요한 시각적인 특징을 추출하였다. 본 연구에서는 입술-음성 동기화 탐지 모델이 음성 정보의 발화 영역인 입술에 더 집중할 수 있도록 사전 학습된 시각적 Attention 기반의 인코더 도입을 제안한다. 이를 위해 음성 정보 없이 시각적 정보만으로 발화하는 말을 예측하는 독순술(Lip-Reading)에서 사용된 Visual Transformer Pooling(VTP) 모듈을 인코더로 채택했다. 그리고, 제안 방법이 학습 파라미터 수가 적음에도 불구하고 LRS2 데이터 세트에서 다섯 프레임 기준으로 94.5% 정확도를 보임으로써 최근 모델인 VocaList를 능가하는 것을 실험적으로 증명하였다. 또, 제안 방법은 학습에 사용되지 않은 Acappella 데이터셋에서도 VocaList 모델보다 8% 가량의 성능 향상이 있음을 확인하였다.

  Statistics


  Cite this article

[IEEE Style]

D. Yoon and H. Cho, "Lip and Voice Synchronization Using Visual Attention," The Transactions of the Korea Information Processing Society, vol. 13, no. 4, pp. 166-173, 2024. DOI: https://doi.org/10.3745/TKIPS.2024.13.4.166.

[ACM Style]

Dongryun Yoon and Hyeonjoong Cho. 2024. Lip and Voice Synchronization Using Visual Attention. The Transactions of the Korea Information Processing Society, 13, 4, (2024), 166-173. DOI: https://doi.org/10.3745/TKIPS.2024.13.4.166.