다음, 국내 최초 음성 합성 엔진 ‘뉴톤 톡’ API 공개

사람이 말하듯 자연스럽게 읽는다

14다음_뉴톤톡_음성인식

 

다음 뉴튼톡 음성인식,<사진=다음>

14다음_뉴톤톡_음성합성

 

다음 뉴튼톡 음성합성,<사진=다음>

- 자체 개발 한국어 운율 모델 적용, 대용량·자동화 처리에 의한 운율 예측 고도화

- 음성 인식 API에 합성 엔진 추가해 완전한 형태의 음성 API 무료 제공

다음커뮤니케이션이 국내 최초로 음성 합성 API를 공개했다. 자체 개발한 음성 합성 엔진 ‘뉴톤 톡(Newtone Talk)’의 API로 입력된 글자를 사람처럼 자연스럽게 읽어 주는 것이 특징이다. 지난 2월 공개한 음성 인식 엔진 ‘뉴톤(NewTone)’의 API에 음성 합성 기능이 더해짐으로써 입출력이 모두 가능한 음성 API를 무료로 이용할 수 있게 됐다. 뉴톤 톡은 2012년 말, 다음이 인수한 음성 인식 전문기업 ‘다이알로이드’의 기술을 바탕으로 제작됐다.

음성 합성이란 글자를 입력했을 때 이를 음성으로 변환해 들려주는 것으로 운율, 높낮이 등 사람의 발성을 그대로 재현해내는 것이 이 기술의 완성도를 가름한다. 이를 위해 다음은 한국어 운율 모델을 자체 개발했으며 대용량·자동화 처리 기술에 의해 빠르게 모델을 학습할 수 있도록 했다. 기존 음성 합성 기술은 대부분 사람이 들어보고 운율과 발성상태를 표기한 후 이를 기반으로 학습하는, 수작업에 의존하는 형태였다. 하지만 다음의 운율 모델은 이 모든 과정을 자동으로 처리하며 다양한 운율을 예측하기 때문에 효율적이다. 다음 검색으로 축적된 데이터를 활용해 가수 ‘2NE1’, ‘B1A4’의 이름과 같이 사전에 등록되지 않은 신조어도 ‘투애니원’, ‘비원에이포’로 정확히 읽고, ‘ㅋㅋㅋ’은 ‘크크크’로, ‘You&I’와 같이 특수문자가 포함된 경우에는 ‘유앤아이’로 읽는 등 유연한 대응도 눈에 띈다.

뉴톤 톡은 한 번에 최대 30초의 음성을 합성할 수 있다. 입력된 글자를 분석해 음성으로 합성하기까지 0.1초면 된다. 문장을 입력하고 합성 요청을 하면 즉시 들을 수 있다. 뉴톤 톡에는 현재 남성과 여성 각 하나씩의 낭독 음색이 탑재돼 있고, 대화체나 밝은 낭독체 등 4개의 음색이 연내 추가될 예정이다.

뉴톤 톡의 활용 범위는 무한하다. 예를 들어, 현재 ‘100미터 앞에서 우회전입니다’라는 형태로 음성 안내하는 내비게이션 앱을 ‘100미터 앞에서 다음커뮤니케이션 본사를 끼고 우회전입니다’ 수준까지 안내 가능하도록 만들 수 있다. 뉴스나 문자, 책 구절 등을 읽어주거나 각종 안내 방송을 대신할 수 있고, 시각 장애인을 위한 생활형 앱 등을 개발할 때도 유용하다.

다음 검색부문 이상호 부사장은 “음성 합성 기능의 추가로 입출력이 모두 가능한 음성 엔진이 완성됐다. 이를 통해 음성 기반의 새로운 감각과 메시지를 나눈다는 의미를 담아 음성 인식 엔진을 ‘뉴톤(Newtone)’으로, 음성 합성 엔진을 ‘뉴톤 톡(Newtone Talk)’으로 이름 지었다”며 “개발자 누구나 음성 인식 및 합성 기술을 자유롭게 활용해 혁신적인 모바일 서비스를 만들 수 있도록 완성된 엔진을 API로 먼저 공개했고, 이런 시도가 장기적으로 음성 기술 영역 전반의 발전을 이끌 것이라 기대한다”고 밝혔다.

뉴톤과 뉴톤 톡은 안드로이드와 iOS 버전 모두를 지원한다. 다음 개발자 네트워크(http://dna.daum.net)에서 제휴 신청을 하면 발급 받을 수 있으며 일 1만회까지 자유롭게 사용 가능하다. 이미 뉴톤 API를 발급 받았다면 별도의 재신청 절차 없이 뉴톤 톡 기능까지 이용할 수 있다

댓글 쓰기

Photo News

더보기