오늘의 서비스/오늘의 소프트웨어

TTS 목소리 (AI 보이스) 비교 - 네이버, 아마존, 구글, 카카오, PlayHT, KT, IBM

Dalmangyi 2023. 2. 2.

 

2023.10.11 PlayHT, KT, IBM 추가.

----------------------------------------------------------------------

 

 

AI가 흔해진 요즘세상. AI를 이용한 TTS는 어떤 서비스가 있을지 비교해보았습니다.

 

선택한 서비스들은 아래와 같은 기능을 가지고 있습니다.

✓ TTS 기능 (당연ㅋㅋ)

다양한 언어 지원 (한국어는 당연히 되야됨)

API를 지원하는 서비스 (국내 회사 중 한 곳은 서비스는 좋은데 꼭,, Contact 요금제 이딴거 써야가능해서 배제함)

 

 

 

 

 

 

 

 

클로바 보이스 (from Naver Cloud Platfrom)

https://www.ncloud.com/product/aiService/clovaVoice

 

NAVER CLOUD PLATFORM

cloud computing services for corporations, IaaS, PaaS, SaaS, with Global region and Security Technology Certification

www.ncloud.com

네이버의 AI 목소리를 검색하면 대부분 클로바 더빙을 알려주는데. 

클로바 더빙은 영상 편집과 TTS가 합쳐진 기술입니다. 

TTS기능만 쓰려면 클로바 보이스 기능을 써야합니다. 

다양한 목소리, 성별, 언어, 속도, 음색, 감정까지 설정할 수 있습니다. 

상세한 기능을 제공해서 좋긴하지만, 기본 가격이 비싼게 단점입니다. 

 

 

기본사용량을 넘으면 글자당 100원이라는 살인적인 금액;;; 중국어로 말해야할판임

 

 

 

 

 

 

 

 

 

 

아마존 Polly (from Amazon)

아마존에서 텍스트를 읽어서 보이스를 내주는 서비스는 polly가 있습니다. 

https://us-east-1.console.aws.amazon.com/polly/home/SynthesizeSpeech

 

다양한 목소리가 있고, 다양한 언어를 지원하지만

한국어에 해당하는 목소리는 '서연(Seoyeon, 여성)' 목소리 밖에 없어서 많이 아쉽네요.

speech_20230202061630704.mp3
0.04MB

 

 

요금

네이버 보다 세세하게 가격을 측정하고 있어서 정말 좋습니다. 

자세한 사항은 amazon에서 확인해 보세요. (https://aws.amazon.com/ko/polly/pricing)

 

 

 

 

 

 

 

 

 

 

 

 

Cloud Text-to-Speech (구글 클라우드)

구글 클라우드를 이용한 TTS입니다. 

구글 답게 다양한 옵션과 무료 사용폭이 큽니다. 

아직 기계 목소리를 못 벗어나네요.

Jack Recording 2023-02-02 16-33-14.mp4
0.08MB

 

요금

문자당 0.021원..

 

 

 

 

 

 

 

 

 

 

Text to Speech (카카오i클라우드)

사업자를 가진사람만 가능. 

https://www.kakaoicloud.com/service/detail/6-34

 

대신 가격이 싼데.......

 

 

 

 

 

 

 

 

 

PlayHT

 

최근(2023.10.11) 찾은 서비스 인데, 생각보다 기능이 많더군요.

하지만 한국어가 어설픈건 사실입니다.

node.js SDK, API, Webhook까지 지원합니다.

이외에도 속도변경이라던가, 성조기능, 자연스러운 정지, AI목소리 만들기 기능이 있다고 합니다.

아직 제대로 써보지 못해서 어느정도인지 감은 안오네요.

 

 

 

가격정책

매달 사용되는 단어를 기준으로 가격정책을 보시면 되고, 상업적으로 하시려면 무조건 유료사용자여야 합니다.

characters가 한달에 사용할 수 있는 글자 개수를 뜻합니다.

 

100개국 이상의 목소리를 지원하고,

한국어는 기본적으로 14개의 AI 목소리가 있습니다.

거의 목소리가 비슷하고, 음질도 좋지 않습니다.

샘플파일

full_-LQAgV5tUlbfzqbpLwuE.mp3
0.03MB
SunHi Neural (Korean).mp3
0.04MB

API 문서가 제공되서 무료인 상태로 이것저것 해봤씁니다.

api 문서는 보기 좋았지만

deprecated api와 v1, v2가 뒤섞여서 언제 고장나도 모를 기능들이 많았습니다.

그리고 사용 가능한 목소리는 정말 많은 나라의 목소리를 제공했지만

웃긴건 사용가능한 api라고 해놓고, 제가 사용가능한 목소리가 아닙니다. 

한국어는 모두 유료 모드에서만 사용이 가능합니다.

좀 더 어이없는건 service라고 적힌 부분인데 뭘까 ..... 하고 자세히보니, 

gc, polly, ms, watson ...... 이라고 적혀있네요

한마디로 자기들이 개말한 모델은 없고, 구글, 아마존, 마소, IBM이 만든 api 땡겨와서 만든곳이였군요.

물론 통합해주는건 좋지만, 이런 서비스 장기적으로 써봤자 손해일께 뻔하니

쓰지 않는걸 추천드립니다.

API가 아닌 Studio도 문제가 많습니다.

한국어 입력이 엉망이에요.

 

 

 

 

 

 

 

 

 

KT Voice

kt는 다방면으로 사용해본 만큼. 별도로 페이지를 만들어두었습니다.

https://dalgonakit.tistory.com/220

 

개발자가 사용하는 KT Cloud의 AI TTS 보이스 사용기.

KT Cloud 서비스들 KT 클라우드에서는 2가지의 TTS를 제공하고 있습니다. 첫 회원가입 후에 첫 결제정보 등록하고 3개월 이내로 무료체험(100만원 체험쿠폰)을 제공합니다. 1. 지니 Voice - 기가지니 TTS

dalgonakit.tistory.com

 

 

 

 

 

 

IBM Cloud

IBM 클라우드가 있는걸 까먹었군요...

IBM단점은 기분나쁘게 느린정도 입니다.

 

 

기본 월 1만 글자 까지는 공짜이고,

프리미엄이 되야 속도가 빠른가 봅니다.

그리고 1만자 초과시엔 1000자당 26600원 이라고하니,  글자당 26.6원으로 계산하시면 됩니다.

 

 

 

댓글