4つの観点からAmazon Polly と GCP Text-To-Speech を比較してみる

AWS
この記事は約6分で読めます。
この記事でわかること

・音声合成サービスとはなにか
・Amazon PollyとGCP Text-To-Speechの比較結果

近年AIの発達は著しく、スマホアプリのOS標準機能にも、テキストの音声読み上げ機能がついているなど、音声合成技術は今やとても身近な機能となってきています。

当然のごとく、AWSやGCPといった代表的なクラウドサービスにも音声合成サービスが用意されており、音声変換のサービス構築も容易になっています。

今回の記事では、これらの代表的な音声合成サービスの使用方法や性能の違いについて、整理していこうと思います。

  • 音声合成サービスを試してみたいひと
  • AWS/GCPどちらのサービスを使用するか迷っているひと

の参考になれば幸いです。

当サイトは、複数企業とアフィリエイトプログラムを提携し、情報提供を行っています。
当サイトを経由してサービスの申込みがあった場合、提携している企業から広告報酬を受け取ることがありますが、コンテンツの内容やサービスの評価には一切関与していません。

音声合成(Text-To-Speech)サービスの概要

音声合成サービスは以下のような機能を有しています。

  • AIがテキストデータを解釈し、テキスト情報から音声データを生成する
  • 深層学習技術を使用し、人間の声のような音声を合成できる
  • 数十の言語で音声を生成することができる

今では様々なシーンで活用されている音声合成ですが、代表例としては、

  • 高齢者への音声読み上げサービス
  • 音声案内システム
  • Vtuberなどのバーチャルキャラクターの声

などといったシーンで活用されており、生活を支える役目を担ってくれていますね。

音声合成サービスの比較

そんな音声合成サービスですが、今回は私個人として利用シーンが多いAWS/GCPのサービスである

を比較していこうと思います。

比較する観点として、サービス利用を判断する軸として見る必要がありそうな、以下の4点を比較対象としました。

  1. 変換可能テキストの上限数
  2. 利用料金
  3. 音声品質
  4. 辞書機能

変換可能テキストの上限数

一度で音声データに変換可能なテキスト文字数ですが、

  • Amazon Polly SynthesizeSpeech API : 3000文字
  • Amazon Polly SpeechSynthesisTask API : 10000文字
  • GCP Text-To-Speech : 約2500文字

となっており、Amazon Pollyのほうが優位性がありました。
特に万単位の音声合成を行う場合は、Amazon Pollyを使用する必要があります。

サービス名テキスト上限数参照リンク
Amazon Polly
(SynthesizeSpeech API)
3,000文字https://docs.aws.amazon.com/ja_jp/polly/latest/dg/limits.html#limits-synthesizespeech
Amazon Polly
(SpeechSynthesisTask API )
10,000文字https://docs.aws.amazon.com/ja_jp/polly/latest/dg/limits.html#limits-synthesizespeech
GCP Text-To-Speech5,000バイト
(日本語約2,500文字)
https://cloud.google.com/text-to-speech/quotas?hl=ja

利用料金

利用料金としては、標準品質と高品質で異なる料金設定となっており、どちらも基本料金は同じで無料枠が異なる設定となっています。

標準品質
  • Amazon Polly : 最初のリクエストから12か月間は1か月あたり500万文字無料。超過分は100万文字当たり4ドル
  • GCP Text-To-Speech : 1か月あたり400万文字無料。超過分は100万文字当たり4ドル
高品質
  • Amazon Polly : 最初のリクエストから12か月間は1か月あたり100万文字無料。超過分は100万文字当たり16ドル
  • GCP Text-To-Speech : 1か月あたり100万文字無料。超過分は100万文字当たり16ドル

となっており、毎月無料枠があるGCP Text-To-Speechに優位性がありました。

お試しで使用するうえでは、どちらも大きな差はありませんが、長い期間使用し続ける場合は、GCPほうが安くなります。

サービス名無料枠料金参照リンク
Amazon Polly・標準品質:
最初のリクエストから12か月間は1か月あたり500万文字無料

・高品質:
最初のリクエストから12か月間は1か月あたり100万文字無料
・標準品質:
100万文字当たり4ドル

・高品質:
100万文字当たり16ドル
https://aws.amazon.com/jp/polly/pricing/
GCP Text-To-Speech・標準品質:
1か月あたり400万文字無料

・高品質:
1か月あたり100万文字無料
・標準品質:
100万文字当たり4ドル

・高品質:
100万文字当たり16ドル
https://cloud.google.com/text-to-speech/pricing?hl=ja

音声品質

音声品質の比較に関しては、感覚的な評価にはなってしまいますが、若干Amazon Pollyのほうが良い評価となりました。
※どちらも標準音声、デフォルト設定での比較

サービス名音質読み間違いイントネーション備考
Amazon Pollyだいぶ人間らしい抑揚のあるイントネーション
GCP Text-To-Speech少しロボットのような音声

辞書機能

GCP Text-To-Speechには辞書機能が見当たりませんでした。
Amazon Pollyでは辞書機能があるので、長期運用する際は、辞書を使用した音声品質の向上が見込めるでしょう。

サービス名辞書機能参照リンク
Amazon Polly・機能あり
・Pronunciation Lexicon Specification (PLS) ファイルとしてXML形式で
作成をすることで利用可能
https://docs.aws.amazon.com/ja_jp/polly/latest/dg/managing-lexicons.html
GCP Text-To-Speech・公式ドキュメントに記載なしなし

まとめ

今回は、AWS/GCP のText-To-Speechを比較を解説してきました。整理すると

1. 変換可能テキストの上限数
Amazon Polly > GCP Text-To-Speech で Amazon Pollyが優勢

2. 利用料金
GCP Text-To-Speech > Amazon Polly で GCP Text-To-Speechが優勢

3. 音声品質
Amazon Polly > GCP Text-To-Speech  で Amazon Pollyが優勢

4. 辞書機能
Amazon Polly > GCP Text-To-Speech で Amazon Pollyが優勢

ということで、Amazon Pollyが優勢、という結果となりました。

しかし、どちらも大きな差異はないくらい魅力的なサービスとなっています。
実際にサービス運用を検討する場合は、他のサービス部分をAWS/GCPどちらで構築しているか、などの親和性を考慮して選択してもよさそうです。

本記事を通して、音声合成サービスの理解に繋がっていれば幸いです。

コメント

タイトルとURLをコピーしました