[2023/05/24]Machine Learning 輪講 #197

nogawanogawa · 2023-05-23T02:05:41Z

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #195

What

話したいことがある人はここにコメントしましょう！
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう！

zerebom · 2023-05-24T09:25:01Z

LIMA: Less Is More for Alignment

LLMは生テキストの教師なし学習→RLHFと2段階で学習されるが、その2段階目に学習データセットは量よりも質が重要であると主張している論文。２段目のアラインはユーザーとの対話のスタイルやフォーマットを学ぶシンプルなプロセスであり、事前訓練中にすでに獲得された知識と能力を以下に引き出せるか、が重要という仮説を立てている。

この論文では1000件の高品質なデータでLLaMa 65Bをファインチューンしたモデルと、GPT4やAlpaca 65Bと比較している。
主張通り、Alpacaのほうが大量にデータでRLHFをしているのにもかかわらず、LLaMAをファインチューンしたモデルのほうが人間、GPT4を用いた評価でどちらも回答が好まれるという結果がでた。

高品質なデータは、WikiHowやStack Exchangeなどのサイトでいいねがたくさんついている回答を利用したり、手作業で作成している。

この論文の結果は注目すべきものだが、注意深くキュレーションされた高品質なデータを用意するのは難しく、スケールアップさせるのは難しいとも述べている。

nogawanogawa · 2023-05-24T09:28:34Z

Learning Item-Interaction Embeddings for User Recommendations

論文URL

https://arxiv.org/abs/1812.04407

著者

Xiaoting Zhao*, Raphael Louca*, Diane Hu, Liangjie Hong

会議

DAPA ’19

背景

オンラインショッピングにおいて、ユーザーは様々な形で商品とインタラクションする。
クリックやお気に入り、カートに入れる、購入など。

この行動次第で、おすすめすべきアイテムは変化すると考えられる。

目的

ユーザーとアイテムのインタラクションの種類を考慮して、文脈を考慮した推薦を行う

アプローチ

ユーザーとアイテムのインタラクションの種類ごとの共起パターンを符号化・embeddingする
- インタラクションの種類ごとにembeddingを定義する事で、ユーザーの行動に応じて推薦するアイテムを切り替える

memo

nogawanogawa/paper_memo#83

nogawanogawa added the Machine Learning 輪講 label May 23, 2023

hakubishin3 mentioned this issue Jun 12, 2023

[2023/06/14]推薦・機械学習勉強会 #199

Open

nogawanogawa mentioned this issue Jun 21, 2023

[2023/06/21]Machine Learning 輪講 #200

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[2023/05/24]Machine Learning 輪講 #197

[2023/05/24]Machine Learning 輪講 #197

nogawanogawa commented May 23, 2023

zerebom commented May 24, 2023 •

edited

Loading

nogawanogawa commented May 24, 2023

[2023/05/24]Machine Learning 輪講 #197

[2023/05/24]Machine Learning 輪講 #197

Comments

nogawanogawa commented May 23, 2023

Why

What

zerebom commented May 24, 2023 • edited Loading

LIMA: Less Is More for Alignment

nogawanogawa commented May 24, 2023

Learning Item-Interaction Embeddings for User Recommendations

論文URL

著者

会議

背景

目的

アプローチ

memo

zerebom commented May 24, 2023 •

edited

Loading