Frustratingly Short Attention Spans in Neural Language Modeling #215

icoxfog417 · 2017-02-17T07:25:55Z

一言でいうと

Attentionを行う場合、隠れ層のベクトルは次の単語の予測・Attentionの算出・将来の単語に有用な情報の格納、という3つの役割を担っていることになる。なので出力を3つにして役割分担させるアイデア。併せて、単純に過去の隠れ層を結合して入力するだけでも高精度になることを確認

Michał Daniluk, Tim Rocktäschel, Johannes Welbl, Sebastian Riedel

Department of Computer Science
University College London

icoxfog417 · 2017-06-30T00:14:49Z

解説ブログが登場

icoxfog417 added the NLP label Feb 17, 2017

icoxfog417 added ICLR and removed ICLR-2017 labels Dec 8, 2017