Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Transformer Memory as a Differentiable Search Index #33

Closed
nogawanogawa opened this issue Feb 20, 2022 · 5 comments
Closed

Transformer Memory as a Differentiable Search Index #33

nogawanogawa opened this issue Feb 20, 2022 · 5 comments

Comments

@nogawanogawa
Copy link
Owner

nogawanogawa commented Feb 20, 2022

論文URL

https://arxiv.org/abs/2202.06991

著者

Yi Tay Vinh Q. Tran Mostafa Dehghani Jianmo Ni Dara Bahri, Harsh Mehta Zhen Qin Kai Hui Zhe Zhao Jai Gupta Tal Schuster, William W. Cohen Donald Metzler

会議

(arxiv見る限りはまだ提出されて無さそう)

背景

情報検索ではユーザーのクエリに対して、関連する文書についてランク付けされたリストを応答する。
このとき、転置インデックスや最近傍探索によるアプローチが主流になっている。

目的

クエリに対して直接文書をマッピングする新しい代替アーキテクチャの提案

アプローチ

  • DSI (Differentiable Search Index)
    • 文字列で構成される問い合わせを直接Doc id に対応付ける
@nogawanogawa
Copy link
Owner Author

nogawanogawa commented Mar 16, 2022

背景

情報検索ではユーザーのクエリに対して、関連する文書についてランク付けされたリストを応答する。
このとき、転置インデックスや最近傍探索によるアプローチが主流になっている。

この研究では、こうした距離に基づいて最も関連する文書を見つけるのではなく、クエリに対して直接文書をマッピングする代替アーキテクチャを提案する。

@nogawanogawa
Copy link
Owner Author

nogawanogawa commented Mar 16, 2022

目的

アプローチ

  • DSI (Differentiable Search Index)
    • クエリから直接doc idを生成
    • 復号時にビームサーチによって組み込まれた文書のランク付けされたリストを応答

@nogawanogawa
Copy link
Owner Author

nogawanogawa commented Mar 16, 2022

DSI (Differentiable Search Index, 微分可能検索インデックス)

概要

image

既存手法のDE(Dual Encoder)での検索を上段、DSIによる検索を下段に示している。
上段では、Encode時に文書とクエリを共通のベクトル空間にマッピングし、検索時のクエリのベクトルを用いてMIPS(最大内積探索)を行うことで検索を可能にしている。

DSIではSeq2Seqのモデルを使用して、クエリから直接Docidを生成する。
復号時にビームサーチを組み込んだ文書のランク付けリストを応答する。

  • インデックス作成
    • 文書を入力にdoc idを生成するseq2seqを学習させる
  • ドキュメント表現
    • doc tokenはどうやって表現すべきか検討した結果、Direct indexingを採用した
    • 冒頭Lトークンを順番に並べてドキュメントとして表現する
  • 検索
    • 候補となるdoc idのランク付けリストを返す

@nogawanogawa
Copy link
Owner Author

nogawanogawa commented Mar 16, 2022

Semantically Structured Identifiers

image

doc idをどのようにして表現するかもポイントになる。

ここの研究ではいくつかdoc idの表現方法を検討しているが、中でもSemantically Structured Identifiersがある。
これは、文書の階層化クラスタリングによって、似た特徴の文書を同じクラスタに分類される。

この研究では、このdoc idの表現と、doc token -> doc idのseq2seqを同時に解くマルチタスク学習を採用している。

@nogawanogawa
Copy link
Owner Author

nogawanogawa commented Mar 16, 2022

評価

  • データセット:Natural Questions (NQ)
    • クエリを与えたときに回答に値するwikipediaの記事を応答するデータセット
  • モデル構成
    • Seq2Seq : 事前学習済みT5
    • doc idの作成:8層のBERT
    • k-means: sklearnのデフォルト

結果

image

DEよりは良さそう。

ゼロショット評価

image

インデックスのみを行い、検索タスクを行われていないケースについての評価。
少なくともBM25やDEよりは良い値を出している。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant