声質変換に挑戦 #1

はじめに

GWの連休を利用して、声質変換(voice conversion)に挑戦しました。
目標の性能には至りませんでしたが、GWが終わるので一旦打ち切って現状を記します。


2019/05/05 公開
2019/05/07 加筆・修正しました

目的と方法

声質変換は、音声の話者情報を変換する技術です。例えば、Aさんが喋った音声をあたかもBさんが喋った音声のように変換することができます。

今回は、自分の音声を下記の女性の音声に変換することに挑戦します。目標は、変換した音声にその女性の音声らしさを感じられるレベルです。

変換先の音声:声優統計コーパスの藤東知夏様の音声

自分の技術的な興味から CycleGAN を使用した声質変換を行うことにしました。
CycleGAN による声質変換は既存の研究がありますが、今回は技術的な理解を深めることも兼ねているので、既存の研究の技術を少しずつ取り入れながら作っていきます。

結果

GW終了時点での結果は以下のようになりました。残念ながら目標の性能には至りませんでした。自分の声とは感じないですが、変換先の話者の音声とは思いづらい音声になりました。

変換前(自分の声)

変換後(音質が悪いので注意)

感想

結果はイマイチでしたが、先人の成果を参考に試行錯誤したので、とても勉強になりました。

次に挑戦する際は、自分の音声の収録環境(なぜかフェードインして収録される…)の改善や未使用の技術を使い性能向上を目指します。

Share