AIボイスチェンジャー RVCとRealtime Voice Changer Clientによるリアルタイム音声変換

今回は、ボイスチェンジャー界の新星、RVCについてお話しします。
これはオープンソースのAIボイスチェンジャーで、用意された音声から学習したモデルを作成し、リアルタイムで声質を変換するという革新的な技術です。

下記サイトを参考にさせていただきました!
自分なりに、試した方法で成功したので、記事にいたしました!

 

それでは、皆さんも新しい声の世界を楽しんでみてください!

 

1.RVC-betaというソフトで、音声素材のあるデータを学習して「.pth」というファイルを作ることができます。
※学習するにあたって、学習時間は、グラフィックカードの性能に依存します。今回、学習させたグラフィックカードは、RTX3070です。VRAMは、8GBです。

2.Realtime Voice Changer Clientというソフトで、「.pth」の拡張子のファイルを取り込み、リアルタイムに自分の声を学習済みの声に変換することができます。

Boothなどで、すでに学習済の.pthファイルをダウンロードした場合は、Realtime Voice Changer Clientのインストールから進んでいただいて結構です。

※学習させるのは、ある程度の量と、質の音声データと、PCのスペック、特にグラフィックカードのスペックが必要です。

しかし、自分で学習しなくてもBoothでかわいい声の女の子の声の.pthファイル無料でダウンロードできます。 RVCで検索すると色々出てきます。 ありがたいですね〜!

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

 

学習させたい音声データを「マルチモーダルデータベース」でダウンロードする。

 

今回、音声学習データとしてずんだもんの音声データを利用させていただきました。
この貴重なデータは、マルチモーダルデータベースのウェブサイトからダウンロードすることが可能です。

 

私が使用したのは、合計で4600個のずんだもんの音声ファイルです。

マルチモーダルデータベースにアクセスすると、ずんだもんだけでなく、東北イタコ、四国めたん、九州そらのボイスデータもダウンロード可能です。

目次

1.RVC-betaのインストール

学習させたい音声がある場合は、RVC-betaをダウンロードします。
Hugging Faceというサイトでダウンロードしますが、ダウンロードするには、アカウントを作らないといけません。
無料なので、つくってみましょう。

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/RVC-beta.7z

下記のdownloadボタンを押してRVC-beta.7zをダウンロードします。7GBくらいあります。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

7-ZIp解凍ソフト
拡張子が.7zという見慣れない拡張子ですが、下記URLから7-Zipという解凍ソフトをダウンロードして、解凍しました。

 

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

 

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

RVC-beta.7zのアップデートをダウンロード

RVC-betaのアップデートが出ていますので、GitHubからダウンロードします。
3.5GBくらいあります。

https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

ファイルを解凍しました。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

正しいアップデートの方法は、よくわからないですが、アップデートファイルを全選択し(下記画像左)、最初にダウンロードしたRVC-beta(下記画像右)に中身のファイルをドラッグでファイルを置き換えました。
これが正しい方法なのかわからないです(笑)

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

RVC-betaの起動

RVC-betaフォルダの中のgo-webをダブルクリックで開きます。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

ファイルデータを置いている場所が、階層の深いところだとエラーが出てしまいます。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

RVC-betaファイルをハードディスクの一番浅い階層に移動します。
D:直下に入れました。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

もう一度go-webをダブルクリックして起動します。
すると、ブラウザが立ち上がりました。

中国語が出てきてびっくりしますが、ブラウザを翻訳すると見やすくなるかもです。
上のタブのトレーニングをクリックします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

トレーニングするファイル名を決めます。この場合、ずんだもんの音声データを学習させるので、ファイル名をZundamon_VOICEにしました

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

次に、学習させたい、ずんだもんの音声データがあるフォルダを右クリックからパスのコピーをします

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

この場所に、パスのペーストをします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

搭載されているGPUが表示されているのを確認、特徴抽出をクリックしました。
よくわからないですが、一応クリックしときました(笑)

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

下記のパラメーターがありますが、総トレーニング回数だけ30に増やしました。
他は、デフォルトです。総トレーニング回数が、30ぐらいだと、結構使い物になるものができてくるらしいのでこれでやってみました。
しかし、かなり時間がかかります。
私の環境で、RTX3070でしたが、6時間くらいかかりました(笑)
元の音声データが4600個もあるので・・・

そして、GPUのメモリが8GBなので、機械学習では少ないらしいです。
16GBくらいは欲しいところです。16GBくらいあればもっと早くできるかもです。

・エポックごとの保存頻度 5
総トレーニング回数 30
・每张显卡的batch_size(ちょっとよくわからない)4

最後に、ワンクリックトレーニングをぽちっとクリックすると学習が始まります。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

長い闘いが済んだ後、学習したデータは、RVC-beta > weights > の中に.phという拡張子で作られています。

2.Realtime Voice Changer Clientのインストール

このソフトは、リアルタイムで、音声変換するためのソフトです。
RVCで学習したデータを取り込んで、自分の声を学習したデータの声にすることができます。

下記からダウンロードしてください。normalをクリックしてダウンロード

https://github.com/w-okada/voice-changer

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

このままダウンロードをクリック。2.7GBあります

このようなファイルがダウンロードできましたので、解凍します。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

 

続いて、下記URLからhubert_base.ptをダウンロードします。

https://huggingface.co/lj1995/VoiceConversionWebUI/blob/main/hubert_base.pt

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

ダウンロードしたhubert_base.ptMMVCServerSIOの中に入れます。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

MMVCServerSIOの中のstart_httpをダブルクリックで立ち上げます。
すると、このようなウィンドウが立ち上がりますが、詳細情報をクリックします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

実行をクリックします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

一番最初にこのようなウィンドウが現れますが、少し待ちます。

Windowsセキュリティの警告ウィンドウがでてきますが、こちらはキャンセルでOKです。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

Realtime Voice Changer Clientが立ち上がりました!
左下のRVCをクリックします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

Model Settingの中の、Model(.onnx,pt,pth)のselectをクリック

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

読み込みたい.pthデータを選びます。
RVC-betaで学習済みの.pthを使いたい場合は、
RVC-beta > weightsの中の学習した.pthデータがあります。
私の場合は、学習済のずんだもんのデータを選択しました。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

Model Settingの中の、Default Tuneの数値を8にしました。
この数値を上げれば声が高くなります。
そしてuploadをクリックします。
uploadをしてからDefaultTuneを変えると、もう一度uploadをする必要があります。

Speaker Settingの中のDefault Tuneの数値も上げると声が高くなります。
こちらは、リアルタイムで変更してもよいです。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

Server Controlのstartをクリックすると、音声の変換ができます。
その前に、Device SettingのAudioInputにマイクのドライバを選択します。
AudioOutpotに出力したいスピーカーを選択します。
※ただし、このままでは、Clusterや、Discordなどのサービスで使用することができません。
仮想オーディオをインストールします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

3.仮想オーディーをインストールしよう

Discordやclusterで使う場合、仮想オーディーをインストールしないといけません。
→参考URLhttps://xrcloud.jp/blog/articles/business/4709/ 

VB-CABLE Virtual Audio Deviceダウンロード

下記サイトにアクセスします。
https://vb-audio.com/Cable/

Windowsの方は、下記画像のWindowsのアイコンをクリックします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

ダウンロードできました。
これを解凍します。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

解凍したフォルダの中はこんな感じです。
お使いのOSが64bitの場合は、VBCABLE_Setup_x64を開いてインストールします。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

開くときに、ファイルを右クリックをして、管理者として実行で開きます。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

このアプリがデバイスに変更を与えることを許可します。

Install Driverをクリックしてインストールします。

 

VB-CABLE Virtual Audio Deviceがインストールができましたら、Realtime Voice Changer Clientを立ち上げます。
MMVCServerSIO
> start_http をダブルクリックで立ち上げます。
すると、AudioOutputに、CABLE Input(VB-Audio Virtual Cable)が現れますのでこれを選択します。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換

4.メタバースプラットフォームClusterでの設定

Realtime Voice Changer Clientを立ち上げたまま、
Clusterの設定から、サウンドのマイクのデバイスをCABLE Input(VB-Audio Virtual Cable)にするだけです。

AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換 cluster クラスター AIボイスチェンジャー RVC Realtime Voice Changer Client リアルタイム音声変換 cluster クラスター

最後までご覧いただきありがとうございました。
clusterでいろいろな声を聴くのを楽しみにしています。

ただし、本記事によって損害が起きても責任は負えませんので、自己責任でお願いいたします。