colabを使用してAIによる歌唱を実現する

乌梅子酱

孙燕姿AI

！！！説明：

本チュートリアルは AI の学習と交流のためのものです。
著作権侵害を防ぐため、このプロジェクトのすべてのデータとモデルは自己解決する必要があります。
技術自体には善悪はありませんが、技術を違法行為に利用することは禁止されています。

イントロ#

おそらくこの数日間、さまざまなビデオプラットフォームで「マイナーな歌手」である孫燕姿が目立っていることでしょう。AI が孫燕姿の声をリアルに合成し、他の曲を歌っています。そうです、上記の音痴バージョンの「乌梅子酱」は、この技術を利用して実現されています。今日は、その背後にある技術を簡単に紹介し、どのようにして翻唱を実現するかを教えます。

プロジェクトの紹介#

Sovits（So-vits-svc）は、中国の民間の歌声合成愛好家である Rcell が、VITS、soft-vc、VISinger2 などの一連のプロジェクトを基に開発したオープンソースの無料の AI 音声変換ソフトウェアです。音色の再現が可能であり、非常に優れたボイスチェンジャーと言えます。

colab の紹介#

colab を使う理由#

パソコンの性能が良い方は、自分のパソコンでトレーニングを行うことができます（NVIDIA のグラフィックスカードが必要です）。私のパソコンは薄型ノートパソコンなので、このプロジェクトを実行することはできません。そのため、Google の colab を使用して翻唱デモを行っています。

colab とは#

簡単に言えば、colab は Google が開発者に提供するオンラインの計算リソースプラットフォームです。私のように学習時に計算リソースが必要な場合、個人のパソコンでは要件を満たすことができないため、colab を使用することができます。

colab は無料で使用することもできますし、有料で使用することもできます。無料の場合は性能がやや劣りますが、有料の場合は計算リソースに応じて料金が発生します。以前は、私は「stable diffusion」を実行するためにこれを使用していましたが、無料ユーザーが colab で stable diffusion を実行することを禁止されたため、いつ制限されるかわかりません。

データとモデルの準備#

このプロジェクトは AI の翻唱だけでなく、AI に自分の言葉を再述させることもできます。それをボイスチェンジャーとして使用することができます。皆さんは自分自身のモデルをトレーニングすることができますが、ここではデモとして、李荣浩の「乌梅子酱」を翻唱する方法だけを教えます。

1. まず、翻唱したい曲を準備する必要があります。このプロジェクトは翻唱のためのものなので、ボーカルの分離が必要です。オンラインツールを使用して分離操作を行うことができます。
2. 分離されたボーカルとバックグラウンドミュージックをダウンロードし、翻唱が完了したらボーカルとバックグラウンドミュージックを組み合わせます。
3. 1 曲は通常 3〜4 分ですが、グラフィックスカードの性能が不足していることが多いため、ボーカルを 1 分未満のセグメントに分割して個別にトレーニングし、最後に組み合わせます。

他の人がトレーニングした孫燕姿の音声モデルをダウンロードする

ボーカルの分離

データとモデルは自分でダウンロードしてください

さて、では colab を使用して AI 翻唱を行う方法を正式に学んでいきましょう。

プロジェクトを開く#

まず、GitHub のプロジェクトのアドレスを開き、ページの一番下にスクロールして「Colab notebook scripts」を見つけ、翻唱の矢印が指しているリンクをクリックします。もう一つはトレーニングのプロジェクトです。

プロジェクトのアドレス

colab のノートページが開かれ、先ほど説明した jupyter と非常に似ていることがわかります。これは他の人のノートブックですので、自分の Google ドライブにコピーして保存する必要があります。

コピーを保存

コピーを保存 2

設定#

保存が完了したら、プロジェクトが GPU で実行されているかどうかを確認する必要があります。まず、リンクをクリックして接続し、実行することでサーバーを実行します。または、最初の実行を直接クリックすることもできます。ここでの「Tesla T4」は GPU のモデルですが、他のグラフィックスカードの場合もあります。Google はこの時点での計算リソースの要件に応じて自動的に割り当てます。

GPU の確認

GPU

次に、これらの 2 つの設定コードを順番に実行します。無料のマシンでは実行が非常に遅いため、忍耐強く待つ必要があります。Setup 1が完了したらSetup 2を実行します。その後、以下のコードを実行して ContentVec と hugging face をダウンロードします。ダウンロード速度が非常に速いことがわかります。

ContenVec

HF モデルのダウンロードが完了したら、特定のモデルをダウンロードするためにリストをクリックすることができます。私は孫燕姿のモデルを使用しているので、他のモデルをアップロードする必要があります。

クラウドストレージの接続とデータのアップロード#

左上のクラウドストレージボタンをクリックすると、クラウドストレージに接続するためのコードが表示され、指示に従って実行して許可を与えることで、このプロジェクトをクラウドストレージに接続します。これは、このプロジェクトを第三者に許可するのではなく、自分のクラウドストレージと接続するものですので、安心して使用することができます。

次に、自分の Google ドライブを開き、自分のモデルをアップロードし、共有ボタンをクリックしてアクセス権を開き、この共有リンクを受け取ったすべての人が使用できるようにします。共有リンクをコピーして下のボックスに貼り付け、実行すると自動的にモデルがダウンロードされます。

共有リンク

共有リンク 2

次に、下の行の解凍プログラムを実行して、モデルを解凍します。

モデルの解凍

トレーニング#

スライスされたボーカルオーディオファイルを raw フォルダにアップロードし、パラメータを設定してConvertをクリックしてトレーニングを開始します。

パラメータ

トレーニングを開始

ヒント：

オーディオはできるだけ小さくし、1 分を超えないようにしてください。おすすめは約 40 秒です。

1 回につき 1 つのオーディオファイルのみをアップロードし、トレーニングが完了したら次のファイルをアップロードしてトレーニングします。

パラメータは最初はデフォルトのままにして、トレーニングの効果に応じてゆっくりと調整してください。

まとめ#

今日は、Sovitsプロジェクトを簡単に紹介し、colab を使用して自分の好きな曲を翻唱する方法を学びました。皆さんは自分で実際に体験してみることができます。興味がある場合は、GitHub プロジェクトを使用して自分の好きなモデルをトレーニングすることもできます。チュートリアルは bilibili にもありますが、違法行為を禁止し、著作権を侵害しないように注意してください。AI を楽しんだり学んだりするだけで十分です。