본문 바로가기
임프레션

Meta, 새 AI 모델은 1,000개 이상 언어를 인식하고 음성 생성 가능

by seeweb TV 2023. 5. 31.
728x90

 

메타는 1,000개 이상의 언어를 인식하고 음성을 생성할 수 있는 인공지능 모델을 개발했습니다. 이는 현재 사용 가능한 모델보다 10배나 많은 언어를 다룰 수 있는 것으로, 사라져 가는 언어를 보존하는 데 중요한 한 걸음이라고 회사는 말합니다.

메타는 이 모델을 코드 호스팅 서비스인 GitHub를 통해 공개합니다. * 이들은 이를 오픈 소스로 공개함으로써 다양한 언어로 작업하는 개발자들이 모든 사람을 이해하는 메시징 서비스나 언어에 구애받지 않는 가상 현실 시스템 등 새로운 음성 응용 프로그램을 개발하는 데 도움이 될 것이라 주장합니다.

세계에는 약 7,000개의 언어가 있지만, 기존 음성 인식 모델은 이 중 약 100개 정도만 포괄적으로 다룰 수 있습니다. 이는 이러한 모델들이 많은 양의 라벨이 지정된 훈련 데이터를 필요로 하는데, 이러한 데이터는 영어, 스페인어, 중국어 등 소수의 언어에 대해서만 제공됩니다.

메타 연구자들은 이 문제를 극복하기 위해, 회사가 2020년에 개발한 기존의 인공지능 모델을 재훈련시킴으로써 대량의 라벨이 지정된 데이터 없이 오디오에서 음성 패턴을 학습할 수 있도록 했습니다.

그들은 이 모델을 새로운 데이터 세트에 훈련시켰는데, 첫 번째 데이터 세트는 1,107개 언어로 된 인터넷에서 가져온 신약성경과 해당 텍스트의 오디오 녹음을 포함하고 있었으며, 두 번째 데이터 세트는 3,809개 언어로 된 라벨이 없는 신약성경 오디오 녹음을 포함하고 있었습니다. 팀은 음성 오디오와 텍스트 데이터를 처리하여 품질을 향상시킨 후, 오디오 녹음과 해당 텍스트를 정렬하는 알고리즘을 실행했습니다. 그런 다음 이 정렬된 데이터로 훈련된 두 번째 알고리즘을 사용하여 이 과정을 반복했습니다. 이러한 방법을 통해 연구자들은 알고리즘에게 새로운 언어를 더 쉽게 학습시킬 수 있었으며, 동반된 텍스트가 없어도 가능했습니다.

하지만 팀은 이 모델이 특정 단어나 구절을 잘못 해석할 수 있는 위험이 있으며, 이는 부정확하거나 잠재적으로 논란이 있는 라벨로 이어질 수 있다고 경고합니다. 또한, 이들은 자신들의 음성 인식 모델이 다른 모델보다 더 편향된 단어를 생성했다는 점을 인정하고 있지만, 차이는 0.7%에 불과하다고 밝혔습니다.

그러나 이 프로젝트에 참여하지 않은 아프리카 언어에 대한 자연어 처리 작업을 수행하는 조직인 Masakhane의 연구원인 Chris Emezue는 연구의 범위는 인상적이지만, 종교적인 텍스트를 사용하여 AI 모델을 훈련시키는 것은 논란의 여지가 있다고 말합니다.

 

728x90
반응형

댓글