この記事でわかること
・音声合成サービスとはなにか
・Amazon PollyとGCP Text-To-Speechの比較結果
近年AIの発達は著しく、スマホアプリのOS標準機能にも、テキストの音声読み上げ機能がついているなど、音声合成技術は今やとても身近な機能となってきています。
当然のごとく、AWSやGCPといった代表的なクラウドサービスにも音声合成サービスが用意されており、音声変換のサービス構築も容易になっています。
今回の記事では、これらの代表的な音声合成サービスの使用方法や性能の違いについて、整理していこうと思います。
- 音声合成サービスを試してみたいひと
- AWS/GCPどちらのサービスを使用するか迷っているひと
の参考になれば幸いです。
音声合成(Text-To-Speech)サービスの概要
音声合成サービスは以下のような機能を有しています。
- AIがテキストデータを解釈し、テキスト情報から音声データを生成する
- 深層学習技術を使用し、人間の声のような音声を合成できる
- 数十の言語で音声を生成することができる
今では様々なシーンで活用されている音声合成ですが、代表例としては、
- 高齢者への音声読み上げサービス
- 音声案内システム
- Vtuberなどのバーチャルキャラクターの声
などといったシーンで活用されており、生活を支える役目を担ってくれていますね。
音声合成サービスの比較
そんな音声合成サービスですが、今回は私個人として利用シーンが多いAWS/GCPのサービスである
を比較していこうと思います。
比較する観点として、サービス利用を判断する軸として見る必要がありそうな、以下の4点を比較対象としました。
- 変換可能テキストの上限数
- 利用料金
- 音声品質
- 辞書機能
変換可能テキストの上限数
一度で音声データに変換可能なテキスト文字数ですが、
- Amazon Polly SynthesizeSpeech API : 3000文字
- Amazon Polly SpeechSynthesisTask API : 10000文字
- GCP Text-To-Speech : 約2500文字
となっており、Amazon Pollyのほうが優位性がありました。
特に万単位の音声合成を行う場合は、Amazon Pollyを使用する必要があります。
サービス名 | テキスト上限数 | 参照リンク |
Amazon Polly (SynthesizeSpeech API) | 3,000文字 | https://docs.aws.amazon.com/ja_jp/polly/latest/dg/limits.html#limits-synthesizespeech |
Amazon Polly (SpeechSynthesisTask API ) | 10,000文字 | https://docs.aws.amazon.com/ja_jp/polly/latest/dg/limits.html#limits-synthesizespeech |
GCP Text-To-Speech | 5,000バイト (日本語約2,500文字) | https://cloud.google.com/text-to-speech/quotas?hl=ja |
利用料金
利用料金としては、標準品質と高品質で異なる料金設定となっており、どちらも基本料金は同じで無料枠が異なる設定となっています。
標準品質
- Amazon Polly : 最初のリクエストから12か月間は1か月あたり500万文字無料。超過分は100万文字当たり4ドル
- GCP Text-To-Speech : 1か月あたり400万文字無料。超過分は100万文字当たり4ドル
高品質
- Amazon Polly : 最初のリクエストから12か月間は1か月あたり100万文字無料。超過分は100万文字当たり16ドル
- GCP Text-To-Speech : 1か月あたり100万文字無料。超過分は100万文字当たり16ドル
となっており、毎月無料枠があるGCP Text-To-Speechに優位性がありました。
お試しで使用するうえでは、どちらも大きな差はありませんが、長い期間使用し続ける場合は、GCPほうが安くなります。
サービス名 | 無料枠 | 料金 | 参照リンク |
Amazon Polly | ・標準品質: 最初のリクエストから12か月間は1か月あたり500万文字無料 ・高品質: 最初のリクエストから12か月間は1か月あたり100万文字無料 | ・標準品質: 100万文字当たり4ドル ・高品質: 100万文字当たり16ドル | https://aws.amazon.com/jp/polly/pricing/ |
GCP Text-To-Speech | ・標準品質: 1か月あたり400万文字無料 ・高品質: 1か月あたり100万文字無料 | ・標準品質: 100万文字当たり4ドル ・高品質: 100万文字当たり16ドル | https://cloud.google.com/text-to-speech/pricing?hl=ja |
音声品質
音声品質の比較に関しては、感覚的な評価にはなってしまいますが、若干Amazon Pollyのほうが良い評価となりました。
※どちらも標準音声、デフォルト設定での比較
サービス名 | 音質 | 読み間違い | イントネーション | 備考 |
Amazon Polly | ◎ | ◎ | ◎ | だいぶ人間らしい抑揚のあるイントネーション |
GCP Text-To-Speech | ◎ | ◎ | 〇 | 少しロボットのような音声 |
辞書機能
GCP Text-To-Speechには辞書機能が見当たりませんでした。
Amazon Pollyでは辞書機能があるので、長期運用する際は、辞書を使用した音声品質の向上が見込めるでしょう。
サービス名 | 辞書機能 | 参照リンク |
Amazon Polly | ・機能あり ・Pronunciation Lexicon Specification (PLS) ファイルとしてXML形式で 作成をすることで利用可能 | https://docs.aws.amazon.com/ja_jp/polly/latest/dg/managing-lexicons.html |
GCP Text-To-Speech | ・公式ドキュメントに記載なし | なし |
まとめ
今回は、AWS/GCP のText-To-Speechを比較を解説してきました。整理すると
1. 変換可能テキストの上限数
Amazon Polly > GCP Text-To-Speech で Amazon Pollyが優勢
2. 利用料金
GCP Text-To-Speech > Amazon Polly で GCP Text-To-Speechが優勢
3. 音声品質
Amazon Polly > GCP Text-To-Speech で Amazon Pollyが優勢
4. 辞書機能
Amazon Polly > GCP Text-To-Speech で Amazon Pollyが優勢
ということで、Amazon Pollyが優勢、という結果となりました。
しかし、どちらも大きな差異はないくらい魅力的なサービスとなっています。
実際にサービス運用を検討する場合は、他のサービス部分をAWS/GCPどちらで構築しているか、などの親和性を考慮して選択してもよさそうです。
本記事を通して、音声合成サービスの理解に繋がっていれば幸いです。
コメント