오늘의 서비스/오늘의 소프트웨어

개발자가 사용하는 KT Cloud의 AI TTS 보이스 사용기.

Dalmangyi 2023. 2. 7.

 

 

 

 

KT Cloud 서비스들

KT 클라우드에서는 2가지의 TTS를 제공하고 있습니다.

첫 회원가입 후에 첫 결제정보 등록하고 3개월 이내로 무료체험(100만원 체험쿠폰)을 제공합니다.

 

 

1. 지니 Voice - 기가지니 TTS 엔진을 기반으로 제공되는 고품질 음성 합성 API

KT에서 나온 오래된 TTS 입니다. 

목소리가 자연스럽지 않고 기계 목소리가 느껴집니다. 

대신 가격(1000문자당 20원)이 저렴합니다.

caring_man.wav
0.23MB

다운받아서 한 번 들어보세요.

 

 

 

2. Voice Studio - 첨단 AI기술을 활용해 다양한 목소리와 다국어, 풍부한 감정 표현이 가능한 음성 합성 서비스를 제공합니다.

humelo 회사의 AI 보이스 기능이 사용된 TTS입니다. 

상당히 자연스럽고, 다양한 목소리와 언어를 제공합니다. 

 

 

지원 목소리 종류

- 성별 : 남성, 여성

- 언어 : 한국어,일본어,중국어,미국식 영어, 영국식 영어, 호주식 영어, 스페인어

- 나이 : 10대 미만, 10대, 20대, 30대, 40대, 50대, 60대 이상

- 감정 : 중립, 즐거움, 화남, 슬픔, 차분함. 등등 

 

female09.wav
1.19MB

샘플로 지원되는 음성입니다. 다운받아서 한 번 들어보세요.

 

 

API

kt cloud console : https://cloud.kt.com/console

api문서 : https://cloud.kt.com/download/KT_AI_API_standard_v1.1.pdf

API는 동작을 잘 되더군요. 단지 KT CLOUD가 사용하기 너무 불편했습니다.

가격은 깡패입니다. 월 10만원 이며, 1글자당 0.1원~0.2원이 차감되며, 10만원이 소모되면 다시 또 10만원이 결제됩니다.

가장 불편했던 점은 120자 단위로 호출해야되는점. 한국어와 영어가 같있을때, 영어를 흘려서 이야기하는점;;

대신 목소리 품질이 많이 좋습니다. 제 기준으로 100점만점중 87점 정도 퀄리티가 나옵니다.

 

voice_out_0.mp3
0.06MB
voice_out_0-99.zip
2.53MB
voice_201~518.zip
3.67MB

API를 요청해서 만든 목소리 입니다. 다운받아서 들어보세요.

 

speaker 부분이 목소리 선택 부분인데 100~999까지 있고, 999는 custom 목소리라고 하는데... 

100~998까지 어떤 스타일의 목소리인지 설명해주는 리스트가 없어서 정말 골치아픕니다.......

 

짧은 문구로 목소리를 만들어서 다운로드 했습니다.

voice_out_0번이 speaker 100입니다. 

voice_temp_201번이 speaker 201 입니다. 

100~998까지 시도해서 서버에서 생성이 가능한 speaker 번호만 다운로드해두었습니다. 

100번대는 남자, 200번대는 여자, 500번대는 기타 인거 같아요. 

번호가 올라갈수록 나이가 든 목소리가 나올 확률이 크며, X16~X20은 힙합 스러운 목소리가 나옵니다;;

 

 

 

Voice Studio App

오히려 Voice Studio는 API 보다 웹(https://aivoicestudio.ai/app/dashboard)에서 설정하는 기능이 더 세세했습니다.

웹앱은 무료로 4,000자 까지 이용이 가능하며, 월 12,000원에 24,000자를 제공하고 있습니다.

같은 대사, 같은 보이스여도 저장 포맷에 따라서 글자 차감이 다릅니다.

helloworld.mp3
0.14MB

voice_studio로 만든 음성입니다. 다운받아서 한 번 들어보세요.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

댓글