Amazon Pollyを使ってAIに音声を読み上げしてもらおう!

こんにちは、こんばんは、エンジニアの久保田(@kubotak_public)です。

先日から弊社では社内勉強会の技術書籍感想会をポッドキャストとして配信をはじめました。 まずはLeanとDevOpsの科学の感想会をしていますので興味ある方ぜひご聴取ください。

open.spotify.com

さて、このポッドキャストのオープニングでナレーションを努めていただいたのはなんとAWSのAIでした。 それが「Amazon Polly」です。

コンソールにアクセスすると以下のような画面からテキストを読み上げてくれます。

話者は「ミズキ(女性)」と「タクミ(男性)」の2種類が用意されていますが、残念ながらニューラル(可能な限り自然で人間に似た音声を生成します。)が利用できるのは「タクミ(男性)」のみでした。 ※2023年1月現在

テキストの入力はSSML(Speech Synthesis Markup Language)に対応していて、例えばポッドキャストのオープニングは以下のようなSSMLを書いています。

<speak>
<p>このポッドキャストは<phoneme alphabet="x-amazon-pron-kana" ph="エムアンドエークラウ'ド">エムアンドエークラウド</phoneme>の<phoneme alphabet="x-amazon-pron-kana" ph="ウェブ">Web</phoneme>エンジニアが、<phoneme alphabet="x-amazon-pron-kana" ph="ウェブ">Web</phoneme>系の技術書籍の感想を語り合うプログラムです。</p>
<p>お題の書籍を各章毎に事前に読んで、その章毎の感想を語り合います。</p>
<p><phoneme alphabet="x-amazon-pron-kana" ph="ツンドク">積ん読</phoneme>している本が紹介されていたら、これを機会に読んでいただいたり、すでに読んだことのある本であれば、思い出していただく機会になれば幸いです。</p>
<p>それでは、本日の感想会が始まります</p>
</speak>

ここだとエムアンドエークラウドはそのままだとエムアンドークラウド↑みたいに読まれてしまうので<phoneme alphabet="x-amazon-pron-kana" ph="エムアンドエークラウ'ド">エムアンドエークラウド</phoneme>とすることでエムアンドークラウド↓と読ませることができます。

読み上げデータはMP3でダウンロードできるので、それを利用してポッドキャストに組み込んでいます。

昨今読み上げAIのソフトウェアやサイトが数多くありますが、権利関係が大変で気軽に使いたいなーと困っていたところAWSに読み上げAIがあり驚きました。 気軽に使えて、なおかつ自然に発声してくれるので興味のある方は使ってみてください!