財産目録

読書記録や思考記録、勉強記録として使います。

3.20 paper雑読

Vtuberの表情って演者がコントローラーで操作してるらしいときいてめちゃめちゃ大変だなと思いました。視線とかも自分で動かしてるんですって、あとから編集するのじゃダメなのかな。

 

 

[1803.05428] A Hierarchical Latent Vector Model for Learning Long-Term Structure in Music

/What? - 教師なし学習のモデルとして有名なVAEに関する研究です。深層潜在変数モデルを長い連続データに応用できることを示し、MusicVAEを公開しています。

/Next? - いやーこれねー、音楽系だしちゃんと読みたいんですけどいかんせん知識が足りないですね。これとかこれとか読んで式を追う時間を取るべき。

 

 

[1709.03658] End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks

/What? - 音声強調分野の研究です。人間の音声認識機能で大きな特徴と言える「聴こうと思ったものが聴こえてくる」現象に近づこうというのが目標です。本研究では目的関数の更新が主な成果のようで発話単位での音声強調を実現しています。

/Next? - 先行研究のupdateという形の研究なのでこれを読む必要がありそうです。

 

 

たくさん読んできたおかげで自分の興味範囲もわかってきてしっかり読む必要のある論文も絞れるようになりました。よかった。

ただ詳細を追う必要のある論文もたまってきているのでしっかりタスク管理して消化していきたいですね。