5W1H+Then状況説明
Who(誰が) | 筆者が |
When(いつ) | so-vits-svcがGitHubにリリースされてしばらく経って、それらに関する技術ブログがポツポツと出てきたころ |
Where(どこで) | 家で |
Why(なぜ) | 推しの声が聞きたかった、推しの歌ってみたが欲しかった等々ため |
What(何を) | 引退したVTuberの雑談配信(転生先も含む)を使って |
How(どのように) | 声を再現した。 |
Then(どうな った) | 自作の推しの声ができて満足している。 |
前提条件
- そのVTuberは別の事務所に転生している。前世(某C社所属だった)も今世もそこそこ有名な女性の方である。
なぜやってよかったのか
- 推しの声がいつでも聞き放題になった。
- 機械学習の経験を積めた。
やらなかったらどうなっていたか
- MMDを作るときに、曲の歌唱している人とモデルが違うというもやもやが解消されなかった。
備考
- 元の学習データ:10秒×約3500ファイル、エポック数:1500Epoch、かかった時間:約9日(ローカルで実施)
- 音声はずんだもんを経由させると綺麗に掃き出せる。また、歌唱はDemucsとAudacityを使って変換元音声のデータを整えてから変換、その後mixの要領で声を色々と弄ると歌ってみた風のwavが出来上がる。
- モデルは、公開すると(あらゆる権利が絡まり合っていて)かなり面倒くさいことになりそうなので、インターネット上にアップロードしていない。