『AIアナウンサー荒木ゆい』に使われている技術

僕はYouTubeで、AIアナウンサーの荒木ゆいを知りました。堀江貴文さんのチャンネルです。

この動画です。フジテレビやNHKラジオなどにも使われているようです。なので、みなさんも、どこかで聞いたことがあるかもしれません。

声を聞いてみると、まだまだ機械感はあるものの、自然な日本語として聞き取れます。これまでも、機械が読み上げてくれることはありました。しかし、人間が長い時間をかけて、抑揚などを調整する必要がありました。ニコニコ動画やYouTubeでは、「ゆっくり実況」というものがありますが、これも抑揚がなく自然な日本語には遠い印象でした。

僕は、ゆっくり実況が大好きです。1日に何本も見てますよ(笑)

機械の読み上げ機能は、今までも問題はありませんでした。しかし、荒木ゆいの登場で、よりノンストレスで聞くことができるようになるでしょう。

技術的には、何があったのか?

荒木ゆいを開発している「株式会社Spectee」によると、基本的な技術は「Text to speech」であるとのこと。「Text to speech」とは、Specteeが開発したものではなく、IBMが開発したものです。それだけでは、従来と同じ。そこに、ディープラーニングを取り入れることで、人間が話しているように、近づけることができます。2018年1月に特許を申請済みです。

今のところ、荒木ゆいを利用するのは、テレビ局やラジオ局のような企業でしょう。趣味として利用するには、高いと思います。利用料金については、この記事最下部の参考文献の、Specteeのホームページからご覧下さい。

学習について

はじめに紹介した動画で語られていました。実際に人間のアナウンサーが読み上げた音声や原稿を分析しているようです。データ量については、動画では約10万件としか明かされていません。

そして、企業が荒木ゆいを利用すると、そのデータがSpecteeに集まります。どこで文章を区切って欲しいか、などのデータです。それらが、より自然な日本語の発話に反映されます。

これから使う企業が増えることにより、ますますの進化が期待できます。

おわりに

AIアナウンサーによる読み上げ機能が、スマホに標準搭載される時代がくると思っています。そうなれば、このブログの記事も、目で読まずに聞き流すようになるでしょう。これは、僕がブログを始めた頃から意識していることです。

なるべく画像を使わずに、記事を書いているのはそのためです。

決して、画像をつくるのが面倒だとか、つくる技術が足りないからじゃないよ!

おーわり