VC Clientを入れて簡単ボイチェンしてみない？

インターネット

導入した際の備忘録として残します。

今回の導入記事ではVC Client(v1.5.3.13)を使った場合の記事です。

過去バージョンと大きくUIが変わっており、先人の記事が少し参考になりにくいですが、ダウンロードして起動、カスタマイズして使えるようになるまでおよそ７分程度でした。

導入してしまえば、AIに学習させて「好きな声」でDiscordなどのボイスチャットで色々遊べそうです。

1 VC Clientとは？
- 1.1 VC Clientインストール全体の流れ
  - 1.1.1 『～通常～』
  - 1.1.2 『～応用～』
2 VC Clientのダウンロード
- 2.1 初回起動まで
3 VC Clientでリアルタイム音声変換をする
- 3.1 VC Clientの各項目の機能
- 3.2 VC Clientの負荷は？
4 まとめ

VC Clientとは？

VC Clientはリアルタイムに自分の音声を変換することが出来るソフトウェアです。

AIを活用した音声合成技術「RVC」に対応しており、AIによって学習済みのモデルを活用することでボイスチェンジをすることができます。

最近のAIスゴすぎません？
ChatGPTは仕事でもよく使いますが・・・

学習済みモデルは後述の、〜応用〜記事で備忘録を残しますのでまた後日。

VC Clientインストール全体の流れ

おおまかな流れを把握しておきましょう！

『～通常～』

VC Client本体をダウンロード
VC Clientを自分用の設定にカスタマイズ

『～応用～』

RVCで学習モデルを作る
色々な声の完成！

なお、本記事で記載するのは『～通常～』までです。

『〜応用〜』は後日記事化予定なので、気長にお待ちください。

今すぐ知りたい方は以下の参考サイト様からどうぞ。

Eヤツのブログ

「RVC」+「VC Client」で自分の声を任意の声にリアルタイム変換しよう！ - Eヤツのブログ

【導入】・この記事の最終目標は「リアルタイム変換でずんだもんボイスになってDiscordで通話する」です。・大まかな…

VC Clientのダウンロード

GitHub

GitHub - w-okada/voice-changer: リアルタイムボイスチェンジャー Realtime Voice Changer

リアルタイムボイスチェンジャー Realtime Voice Changer. Contribute to w-okad…

サイトの中段ほど、下記画像の部分を探してください。

私はNVIDIAのGPUを使っているため画像の赤丸部分「cuda」からダウンロードしています。

AMDのGPUを使っている方は一つ下の「DirectML」からどうぞ。

Google,huggingのどちらからでもダウンロード出来ます！

※googleでダウンロードする際に、たまに制限でダウンロード出来ないことがあります。

その際はhuggingからダウンロードを試してみてくださいね。

huggingのダウンロード画面① 1番下のリンクから

huggingのダウンロード画面②

ダウンロード容量は3.2GBほど。

解凍後は約8GBになるため、容量に余裕のあるドライブをオススメします。

初回起動まで

任意に場所にダウンロードした「MMVCServerSIO_win_onnxgpu-cuda_v.1.5.3.13」を解凍(展開ともいう)してください。

フォルダ内から下記画像のように、「start_http.bat」を探して、

「右クリック　→ 管理者で実行」

コマンドプロンプトが立ち上がり、VC Clientに必要な素材を自動ダウンロードしてくれます。

※start_https.batではないのでご注意下さい。
上記はリモート環境から起動する場合のbatです。

処理の完了まで数分かかります。

コーヒーブレイクタイムにどうぞ。

下記画像の画面が表示されれば導入完了です。

VC Clientでリアルタイム音声変換をする

公式クイックスタート

まずは最低限の設定をします。

下記画像(2)の「AUDIO」は音声の入力と出力先を指定する項目です。

「input」にマイク

「output」にイヤホン or ヘッドホン or スピーカー

で指定してあげてくださいね。

(2)の設定で入力と出力先を設定しましょう公式より引用

VC Clientの各項目の機能

以下の項目は公式サイトのチュートリアルから一部を要約したものです。

こちらのリンクから全文を確認いただけます。

VC Clientの起動・停止: start
→VC Clientを起動
stop
→VC Clientを停止TUNE
→ピッチの調整です。
　以下に目安をおいておきますね。
　男声　→　女声　：　+15
　女声　→　男声　：　-15

詳細設定(F0 Det,CHUNK,EXTRA): F0 Det (F0 Extractor)
→変換精度の高さと解釈しています。
　デフォルトのまま使用しても違和感なく聞こえますので問題ないと感じました。
CHUNK (Input Chunk Num)
→一度の変換でどれくらいの長さを切り取って変換するか。
　値を大きくすることで効率的に変換できるものの、変換を開始するまでが長くなります。
　こちらもデフォルトが一番バランスいいかもしれません。

EXTRA (Extra Data Length)
→音声を変換する際、入力にどれくらいの長さの過去の音声を入れるか。
　値が大きいほど変換精度は高くなるものの、変換にかかる時間が増えます。
　つまり変に聞こえるシーンが出るかもしれないってことで、こちらもデフォルトですね。GPU
→お使いのPCに搭載されているGPU(グラボ)を選択してください。
　CPUだとパワー不足すぎてまともに使えません。
　画像は私のPCにおける例です。

入力・出力: AUDIO
→clientとserverモードがあり、どちらも一長一短でしょうか。
　私はsereverモードで使っていますが、Discordのノイズ抑制機能が使えません…　client→ノイズ抑制機能使える◯、遅延普通
　server→ノイズ抑制機能使えない✕、遅延は限りなく低い

VC Clientの負荷は？

Discordのボイスチャットで話をしていた際の負荷率を1時間ほどウォッチしました。

およそ5〜15%程の負荷率で、ボイスチェンジの負荷はほぼほぼ無視して問題ないでしょう。

※当環境はRTX3070 Ti

まとめ

これにて導入は完了です、お疲れさまでした！

今回はVC ClientをPCに導入してみました。

よく分からない箇所があれば可能な限りサポートしますので、コメントいただければと思います。

次回の備忘で記載予定のAI学習を使えば、推しの声を学習して自分で喋ることで色々捗りそうですねぇ…

次回は以下を記事化予定です。

VC ClientをDiscordで使う場合
AIに声を学習させて理想の声を使う

9/12記

DiscordとVC Clientを接続するための手順も記事化しました！

以下の記事まで設定すれば、ボイチャでネカマできちゃう。

VC ClientをDiscordに設定する『VB-CABLE Virtual Audio Device』を導入する

前回の記事でVC Clientを導入することに成功しました。 VC Clientを入れる理由はただ一つ、ネカマしたい(遊びたい)からです。ただVC Clientを入れただけでは、DiscordとVC Clientを繋ぐための『[…]