いなくなった推し(VTuber)の声は作れるので、作るとよい

5W1H+Then状況説明

Who(誰が)	筆者が
When(いつ)	so-vits-svcがGitHubにリリースされてしばらく経って、それらに関する技術ブログがポツポツと出てきたころ
Where(どこで)	家で
Why(なぜ)	推しの声が聞きたかった、推しの歌ってみたが欲しかった等々ため
What(何を)	引退したVTuberの雑談配信(転生先も含む)を使って
How(どのように)	声を再現した。
Then(どうなった)	自作の推しの声ができて満足している。

前提条件

そのVTuberは別の事務所に転生している。前世(某C社所属だった)も今世もそこそこ有名な女性の方である。

なぜやってよかったのか

推しの声がいつでも聞き放題になった。
機械学習の経験を積めた。

やらなかったらどうなっていたか

MMDを作るときに、曲の歌唱している人とモデルが違うというもやもやが解消されなかった。

備考

元の学習データ：10秒×約3500ファイル、エポック数：1500Epoch、かかった時間：約9日(ローカルで実施)
音声はずんだもんを経由させると綺麗に掃き出せる。また、歌唱はDemucsとAudacityを使って変換元音声のデータを整えてから変換、その後mixの要領で声を色々と弄ると歌ってみた風のwavが出来上がる。
モデルは、公開すると(あらゆる権利が絡まり合っていて)かなり面倒くさいことになりそうなので、インターネット上にアップロードしていない。

長風呂はやりすぎてはいけない〈ミネラルの異常にはご注意を〉

許可なく勝手に射精してはいけない

コメントを投稿する

Anonymous

記事の趣旨とは関係ないけど、1500Epochで9日間ってすごいな…。自環境でずんだもんの学習をした時、30Epochで12時間かかってびっくりした事がある。そう思うと筆者の情熱がかなり強いということなのだろう。

Anonymous

筆者です。バッチサイズをVRAMの限界ギリギリで学習させてました(学習中は他の作業は事前にデータの引っ越しをしてサブPCでしてました)。 1ヶ月は覚悟していたので、cmdの最初の方のログを見て、「なんだ、私の環境でもだいたい10日で終わるじゃん。」なんて思ってました。「情熱が強い」とのことですが、そのVTuberへの愛は自分が思っているよりも強かったのかもしれません。

Anonymous

執念がすごい

いなくなった推し(VTuber)の声は作れるので、作るとよい

5W1H+Then状況説明

前提条件

なぜやってよかったのか

やらなかったらどうなっていたか

備考

関連記事

コメントを投稿する