3.13 paper雑読 - 財産目録

/より.のほうが見た目イイですね。

新しいものも読んでましたが忙しくて書き残す時間なく...

昔というか影響力の強いものも読んだのでそれも含めて。

[1703.10135] Tacotron: Towards End-to-End Speech Synthesis

Tacotronです。HPが絶妙にダサい。

/What? - googleのEnd-to-End音声合成の試みの一つ。テキストと音声のペアがあればタコは完璧になるとのこと。

/Superior? - ここ結構この論文の一番いいところな気がします。今までのGoogleの音声合成の試みを概観し、それぞれの特徴がよくまとまっています。またちゃんと1本で書きたい。

/Next? - Ryuichi Yamamotoさんのpytorch実装一択ですね。動かすのが今年度の目標(あと何日なの...？)。

github.com

[1802.05910] Pattern Localization in Time Series through Signal-To-Model Alignment in Latent Space

/What? - 時系列データからパターンを認識することについて。タスクとしてははsignalをmodelに変換する(S2M)。

/Superior? - 従来法は入手可能なモデルから時系列データを合成し、ターゲットの時系列データを当てはめていくものだが、最初の合成の困難さと同じモデルに複数のパターンが属しているという困難さが欠点だった。本研究で機械学習により時系列データを潜在相関空間(latent correlation space)にマッピングして、変換を行う実験をした。

/Next? - 音声関連を基本的に追っていたので、音にかかわらない時系列データはネタの宝庫なのでは？関連研究をしっかり追いたい。