AIボイスチェンジャー RVCとRealtime Voice Changer Clientによるリアルタイム音声変換

今回は、ボイスチェンジャー界の新星、RVCについてお話しします。
これはオープンソースのAIボイスチェンジャーで、用意された音声から学習したモデルを作成し、リアルタイムで声質を変換するという革新的な技術です。

下記サイトを参考にさせていただきました！
自分なりに、試した方法で成功したので、記事にいたしました！

それでは、皆さんも新しい声の世界を楽しんでみてください！

1.RVC-betaというソフトで、音声素材のあるデータを学習して「.pth」というファイルを作ることができます。
※学習するにあたって、学習時間は、グラフィックカードの性能に依存します。今回、学習させたグラフィックカードは、RTX3070です。VRAMは、8GBです。

2.Realtime Voice Changer Clientというソフトで、「.pth」の拡張子のファイルを取り込み、リアルタイムに自分の声を学習済みの声に変換することができます。

Boothなどで、すでに学習済の.pthファイルをダウンロードした場合は、Realtime Voice Changer Clientのインストールから進んでいただいて結構です。

※学習させるのは、ある程度の量と、質の音声データと、PCのスペック、特にグラフィックカードのスペックが必要です。

しかし、自分で学習しなくても、Boothでかわいい声の女の子の声の.pthファイルが無料でダウンロードできます。　RVCで検索すると色々出てきます。　ありがたいですね〜！

学習させたい音声データを「マルチモーダルデータベース」でダウンロードする。

今回、音声学習データとしてずんだもんの音声データを利用させていただきました。
この貴重なデータは、マルチモーダルデータベースのウェブサイトからダウンロードすることが可能です。

私が使用したのは、合計で4600個のずんだもんの音声ファイルです。

マルチモーダルデータベースにアクセスすると、ずんだもんだけでなく、東北イタコ、四国めたん、九州そらのボイスデータもダウンロード可能です。

1.RVC-betaのインストール

学習させたい音声がある場合は、RVC-betaをダウンロードします。
Hugging Faceというサイトでダウンロードしますが、ダウンロードするには、アカウントを作らないといけません。
無料なので、つくってみましょう。

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/RVC-beta.7z

下記のdownloadボタンを押してRVC-beta.7zをダウンロードします。7GBくらいあります。

7-ZIp解凍ソフト
拡張子が.7zという見慣れない拡張子ですが、下記URLから7-Zipという解凍ソフトをダウンロードして、解凍しました。

RVC-beta.7zのアップデートをダウンロード

RVC-betaのアップデートが出ていますので、GitHubからダウンロードします。
3.5GBくらいあります。

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

ファイルを解凍しました。

正しいアップデートの方法は、よくわからないですが、アップデートファイルを全選択し（下記画像左）、最初にダウンロードしたRVC-beta（下記画像右）に中身のファイルをドラッグでファイルを置き換えました。
これが正しい方法なのかわからないです（笑）

RVC-betaの起動

RVC-betaフォルダの中のgo-webをダブルクリックで開きます。

ファイルデータを置いている場所が、階層の深いところだとエラーが出てしまいます。

RVC-betaファイルをハードディスクの一番浅い階層に移動します。
D:直下に入れました。

もう一度go-webをダブルクリックして起動します。
すると、ブラウザが立ち上がりました。

中国語が出てきてびっくりしますが、ブラウザを翻訳すると見やすくなるかもです。
上のタブのトレーニングをクリックします。

トレーニングするファイル名を決めます。この場合、ずんだもんの音声データを学習させるので、ファイル名をZundamon_VOICEにしました

次に、学習させたい、ずんだもんの音声データがあるフォルダを右クリックからパスのコピーをします

この場所に、パスのペーストをします。

搭載されているGPUが表示されているのを確認、特徴抽出をクリックしました。
よくわからないですが、一応クリックしときました（笑）

下記のパラメーターがありますが、総トレーニング回数だけ30に増やしました。
他は、デフォルトです。総トレーニング回数が、30ぐらいだと、結構使い物になるものができてくるらしいのでこれでやってみました。
しかし、かなり時間がかかります。
私の環境で、RTX3070でしたが、6時間くらいかかりました（笑）
元の音声データが4600個もあるので・・・

そして、GPUのメモリが8GBなので、機械学習では少ないらしいです。
16GBくらいは欲しいところです。16GBくらいあればもっと早くできるかもです。

・エポックごとの保存頻度　5
・総トレーニング回数　30
・每张显卡的batch_size（ちょっとよくわからない）4

最後に、ワンクリックトレーニングをぽちっとクリックすると学習が始まります。

長い闘いが済んだ後、学習したデータは、RVC-beta > weights > の中に.phという拡張子で作られています。

2.Realtime Voice Changer Clientのインストール

このソフトは、リアルタイムで、音声変換するためのソフトです。
RVCで学習したデータを取り込んで、自分の声を学習したデータの声にすることができます。

下記からダウンロードしてください。normalをクリックしてダウンロード

https://github.com/w-okada/voice-changer

このままダウンロードをクリック。2.7GBあります

このようなファイルがダウンロードできましたので、解凍します。

続いて、下記URLからhubert_base.ptをダウンロードします。

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/hubert_base.pt

ダウンロードしたhubert_base.ptをMMVCServerSIOの中に入れます。

MMVCServerSIOの中のstart_httpをダブルクリックで立ち上げます。
すると、このようなウィンドウが立ち上がりますが、詳細情報をクリックします。

実行をクリックします。

一番最初にこのようなウィンドウが現れますが、少し待ちます。

Windowsセキュリティの警告ウィンドウがでてきますが、こちらはキャンセルでOKです。

Realtime Voice Changer Clientが立ち上がりました！
左下のRVCをクリックします。

Model Settingの中の、Model(.onnx,pt,pth)のselectをクリック

読み込みたい.pthデータを選びます。
RVC-betaで学習済みの.pthを使いたい場合は、
RVC-beta > weightsの中の学習した.pthデータがあります。
私の場合は、学習済のずんだもんのデータを選択しました。

Model Settingの中の、Default Tuneの数値を8にしました。
この数値を上げれば声が高くなります。
そしてuploadをクリックします。
uploadをしてからDefaultTuneを変えると、もう一度uploadをする必要があります。

Speaker Settingの中のDefault Tuneの数値も上げると声が高くなります。
こちらは、リアルタイムで変更してもよいです。

Server Controlのstartをクリックすると、音声の変換ができます。
その前に、Device SettingのAudioInputにマイクのドライバを選択します。
AudioOutpotに出力したいスピーカーを選択します。
※ただし、このままでは、Clusterや、Discordなどのサービスで使用することができません。
仮想オーディオをインストールします。

3.仮想オーディーをインストールしよう

Discordやclusterで使う場合、仮想オーディーをインストールしないといけません。
→参考URL：https://xrcloud.jp/blog/articles/business/4709/　

VB-CABLE Virtual Audio Deviceのダウンロード

下記サイトにアクセスします。
https://vb-audio.com/Cable/

Windowsの方は、下記画像のWindowsのアイコンをクリックします。

ダウンロードできました。
これを解凍します。

解凍したフォルダの中はこんな感じです。
お使いのOSが64bitの場合は、VBCABLE_Setup_x64を開いてインストールします。

開くときに、ファイルを右クリックをして、管理者として実行で開きます。

このアプリがデバイスに変更を与えることを許可します。

Install Driverをクリックしてインストールします。

VB-CABLE Virtual Audio Deviceがインストールができましたら、Realtime Voice Changer Clientを立ち上げます。
MMVCServerSIO > start_http をダブルクリックで立ち上げます。
すると、AudioOutputに、CABLE Input(VB-Audio Virtual Cable)が現れますのでこれを選択します。