Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2023/06/21]Machine Learning 輪講 #200

Open
nogawanogawa opened this issue Jun 21, 2023 · 3 comments
Open

[2023/06/21]Machine Learning 輪講 #200

nogawanogawa opened this issue Jun 21, 2023 · 3 comments

Comments

@nogawanogawa
Copy link
Contributor

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #197

What

話したいことがある人はここにコメントしましょう!
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

@Hayashi-Yudai
Copy link

Hayashi-Yudai commented Jun 21, 2023

Debiased Offline Evaluation of Recommender Systems: A Weighted-Sampling Approach

推薦システムの評価をするときに、データにバイアスがあるとモデルの性能を正確に測ることができないという課題をデータ品質側から解決しようとした論文。ここでフォーカスしているバイアスは、「データ欠損の非ランダム性」。例えばECサイトでいうと人気アイテムにはユーザは良くインタラクションするが、そうではないアイテムにはあまりインタラクションしないのでアイテムの人気度でデータセットの欠損パターンにバイアスがかかる。

この論文では、データセット全体から評価に使うデータセットをサンプリングする方法について提案している。

image

アイデア自体は非常にシンプルで、理想的な状態(MAR; Missing At Random)よりもあるユーザ or アイテムがサンプリングされにくい状態(MNAR; Missing Not At Random)になっていればウェイトを掛けてサンプリング確率を上げる、逆なら下げるということをしている。

MARとMNARデータが両方あるデータセットを使って提案手法(WTD, WTD_H)を評価。評価値がMARでの値(Y^gt)とどれだけ乖離するかまとめている(Recall@10)。

image
  • バイアスが掛かった状態のデータを使うと、モデルが特定のセグメントについて良く学習していてそれを拾ってきてしまい性能が過剰評価されている(FULL, REG)。
  • アイテムの人気度でウェイトを掛けるSKEWと比べて、より包括的にバイアスを扱える提案手法のほうがモデルの性能をより正確に評価できている

@hakubishin3
Copy link
Collaborator

hakubishin3 commented Jun 21, 2023

A First Look at LLM-Powered Generative News Recommendation

大規模言語モデルのセマンティック知識を活用するニュース推薦用のフレームワーク GENRE を提案。

このフレームワークはプロンプトデザインが肝となっており、LLMによるデータ生成・更新を反復的に行って品質の高いデータを生成し、ニュース推薦モデルの性能を向上させる。

スクリーンショット 2023-06-21 17 29 22

使い方の例

スクリーンショット 2023-06-21 17 33 36
  • LLM as News Summarizer
    • ニュースのタイトル、アブストラクト、カテゴリーを入力として与えることで、大規模言語モデルでより情報量の多いニュースのタイトルを出力として生成、強化されたコンテンツの特徴として使う
  • LLM as User Profiler
    • ユーザープロファイルモデリングのためのプロンプトを設計する。ユーザの履歴が与えられると、大規模言語モデルは、そのユーザが興味を持っているトピックと地域を含むユーザープロファイルを作成する。要約されたユーザープロファイルは interest vector として扱う
  • LLM as Personalized News Generator
    • ユーザーが興味を持つ可能性のあるニュースを生成してユーザーの履歴を強化することで、ユーザーエンコーダに効果的なユーザー表現を学習させる

@nogawanogawa
Copy link
Contributor Author

nogawanogawa commented Jun 21, 2023

Improving Content Retrievability in Search with Controllable Query Generation

論文URL

https://arxiv.org/abs/2303.11648

著者

Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang, Hugues Bouchard

会議

World Wide Web Conference 2023

背景

特定のアイテムを見つけたいというケースとは対称的に、探索的にアイテムを検索したいことがある。
しかし、検索ではクエリは特定の特定のアイテムを上位に表示してしまう傾向があり、検索バイアスがかかってしまう。

目的

  • 探索的検索に対応する

アプローチ

  • CtrlQGen
    • クエリを裏で生成する
    • 生成したクエリを使用してRankerを調整したり、query suggestionで検索可能性を向上させる
image

memo

nogawanogawa/paper_memo#90

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

3 participants