多言語音声データを用いた日本語音声合成モデルを開発

数秒の音声データと日本語テキストだけで音声合成を可能に

この度NABLASは多言語話者の声質を保持したまま、日本語テキスト音声合成を可能とするTTS ( Text-to-Speech ) モデルを開発しました。本モデルは、言語を問わない数秒の発話音声のデータを用いて、他言語話者の音声から流暢な日本語の音声合成が可能です。本技術により通訳や発話困難者への支援、映画や動画などのエンターテインメント作品の多言語化など、幅広い分野での応用が期待できます。

◾️開発の背景と概要

近年、様々な音声合成の活用が急速に広がり、自動音声案内や本の読み上げ、動画の吹き替えなど音声合成を活用した場面が増えてきました。しかし、これまでの音声合成では、声優やアナウンサーが事前に決められた文章を収録し、数分からなる音声データを元に声質を再現した音声モデルの構築が必要でした。また、日本語の音声合成の場合、日本語話者による音声モデルが必要となり、他言語の音声モデルでは流暢な日本語での音声合成は難しい状況でした。

これらの課題に対して、英語や中国語、韓国語など言語を問わない数秒の発話音声データから日本語テキストを読み上げ可能な音声合成モデルを構築し、日本語話者でなくても流暢な日本語による音声合成を可能としました。また、本モデルは、Google社が開発した音声生成モデル「SoundStorm」の構造をベースとして、当社開発の日本語対応音声生成モデルを活用しており、瞬時に日本語の音声合成が可能です。

SoundStormの日本語モデルに関するリリースについてはこちらをご覧ください。

https://www.nablas.com/post/japanese-voice-synthesis

〈音声生成の例〉

多言語話者の音声データ

0:00

日本語テキスト：NABLASでは、ディープラーニングを中心とした先端AI技術を活用して困難な課題を解決します

多言語話者の音声データを用いた日本語音声合成

0:00

◾️本モデルの活用例

・発話困難者への支援

発話に支援を必要とされる方へ、自身または任意の音声データを用い、発言したい内容をテキスト入力し音声で出力することで発話における障壁の解消へと繋がります。

・言語学習および通訳における活用

多言語学習および通訳において、話者本人の音声データを用いて瞬時に音声合成が可能です。通訳者が翻訳内容をテキスト入力することにより、話者の声質そのままに日本語での発言が可能となります。

・エンターテインメント分野における活用

日本語吹き替えにおいて、吹き替え元となる音声を用いることで同一話者による日本語吹き替えが可能です。メディアやゲーム、オーディオブックなどコンテンツ制作のコストダウンや創作活動の幅を広げることに繋がります。

◾️今後の展望

音声合成技術は様々な分野での活用が期待される技術です。この度の多言語音声データを用いた日本語対応音声合成モデルの開発だけでなく、音声変換や、さらに高速となるリアルタイムでの対話翻訳など、日本での音声合成および音声生成技術の活用がより活発化するよう、引き続き技術開発を進めてまいります。また、それら生成AI技術の悪用防止や検出技術の開発にも引き続き取り組んで参ります。

■お問い合わせ

NABLASの音声生成に関するお問い合わせは以下フォームからお気軽にご相談ください。https://www.nablas.com/contact