3.15 paper雑読 - 財産目録

トポロジー関連の教科書を買っておいてあります。いつやるのだろうか...ファインマンのⅤも読まなきゃだし...岩波ファインマンのページの端を空けて「メモってね」と言いたげなつくりは好みです。

CHAR2WAV: END-TO-END SPEECH SYNTHESIS

arxivじゃないですが、タコトロンからの流れです。

/What? - End-to-End音声合成の一つの形です。今までの音声合成はfrontend/backendに分かれており、それぞれがテキストを言語特徴量に変換/言語特徴量から音声に変換という分担をしていました。が、今回のChar2Wavは分けずに一つのモデルでやってしまおうという欲張りセットになっています。

/Superior? - 2つのモデルを使う従来法と比べて、言語的な知識が不要となり新しい言語への応用が簡単になります。

/Next? - Gravesのこれの応用とのことなのでこれを読みます。

[1803.03916] Deep reinforcement learning for time series: playing idealized trading games

時系列データ系の論文を今日も。

/What? - 強化学習において時系列データは扱いづらいものの一つです。前後の相関が強いためQ-learningにおけるQ値の更新が自然に行われません。そのための手法がexperience replayです。この論文ではdeep Q-learningの構造にRNNやCNNとその亜種を採用して時系列データを訓練データとして扱えるようにしたという実験です。

/Superior? - 比較実験の結果、1変数ゲームではGRUが、2変数ゲームではMLPが最も良い結果を示した。

/Next? - 強化学習系も最初から一度やらねばと毎回いってますがやらねば。

[1803.03759] Speech Recognition: Keyword Spotting Through Image Recognition

音声系です。

/What? - kaggleで開催されていたTensorFlow Speech Recognition Challengeに参加したグループの論文です。発話の中からキーワードのみをテキストに落としていくことで実際人間がやっている音声処理に近いことを実現するとともに、マシンパワーに制限がある状態でも動作するようなモデルを目指しています。

/Superior? - キーワードのみの境界検出ともいえるタスク設定なのでCNNを用いています。しかし音声ファイルというのは長い1次元ベクトルであるため、従来からある画像界隈で使われているCNNに対応していません。そこで、スペクトログラムを計算し、2次元に変換して訓練データにしています。その結果最大92％の正答率を得ています。

/Next? - kaggle実装とか見てみたいんですが...と思ったらありましたね、ありがたく読ませていただきます。

github.com

毎日やってると溜まりに溜まりますね...しょうがないか