2025-04-23 08:35
Dia 모델이 다른 TTS 모델들과 비교해서 어떻게 차별화되나요?
Dia 개발자들이 직면한 장애물은 무엇이었으며, 이를 어떻게 극복했나요?
Dia 모델의 잠재적인 사용 사례는 무엇인가요?

출처: 언블록미디어
- Toby Kim과 Jaeyong Sung 한국의 대학생이 개발한 Dia 모델, 1.6억 파라미터로 진짜 감정 표현
- 단일 GPU에서 실시간으로 실행되며 ElevenLabs와 Sesame CSM 능가
[Unblock Media] AI 음성 생성 분야에 대변혁이 일어날 수 있다. 이번 혁신은 대형 기술기업이 아닌 한국의 두 명의 학부생 팀에서 나왔다.
"Dia"는 텍스트를 음성으로 변환하는 모델로, Toby Kim과 Jaeyong Sung이 Nari Labs 하에 개발했다. 이 모델은 진짜 감정 표현, 소리 지르기, 인간 같은 경고음을 모방할 수 있다. 1.6억 개의 파라미터로 구성된 이 모델은 단일 GPU에서 실시간으로 실행되며, 최초로 Twitter에서 이 모델을 소개한 Deedy Das에 따르면 ElevenLabs와 Sesame CSM 같은 업계 리더들을 확연히 능가했다.
Das는 "오디오가 아마도 더 이상 구별할 수 없는 단계에 도달했다"고 썼다. "많은 사람이 이것이 AI인지 모를 것이다."
Toby Kim은 프로젝트 시작 후 Google의 NotebookLM 팟캐스트 기능에 반해, 기존의 TTS API에 실망하여 자연스럽고 대본 없는 인간 대화를 모방할 수 있는 모델을 구축하기로 결정했다. 그들이 직면한 가장 큰 장애물은 컴퓨터 성능이었다.
그러나 Google의 TPU 연구 클라우드를 통해 TPU에 접근할 수 있었고, JAX, Flax, Pallas 커널과 같은 대규모 학습 인프라를 독학으로 습득했다. 세 달 후, 그들은 Dia를 완전히 학습시켰다.
Dia는 단순한 연구 모델에 그치지 않고, 이제 B2C 애플리케이션으로 전환되고 있다. 이 앱은 사용자가 자연스러운 대화를 생성하고, 음성 콘텐츠를 리믹스하며, 창의적인 출력을 친구들과 공유할 수 있도록 하여, 표현력 있는 AI 음성 상호작용의 장벽을 낮출 것이다.
사용 사례는 개인 감정 음성 비서, AI 생성 스토리텔링, 헬스케어 음성 지원 도구 등의 영역을 포함한다.
TTS 모델이 ElevenLabs처럼 명확성과 운율에 집중하는 반면, Dia의 강점은 감정 충실성에 있다. 낮은 추론 비용과 단일 GPU에서의 휴대성 결합으로, Dia는 실시간 음성 인터페이스, 가상 캐릭터, 감정 AI의 미래를 위해 강력한 도약을 제시한다.
그리고 이 모델은 실리콘 밸리에서 나온 것이 아니라 서울에서 개발되었다.
최신소식을 메일로 받아보세요.