Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[2023/05/24]Machine Learning 輪講 #197

Open
nogawanogawa opened this issue May 23, 2023 · 2 comments
Open

[2023/05/24]Machine Learning 輪講 #197

nogawanogawa opened this issue May 23, 2023 · 2 comments

Comments

@nogawanogawa
Copy link
Contributor

Why

Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。

prev. #195

What

話したいことがある人はここにコメントしましょう!
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!

@zerebom
Copy link
Contributor

zerebom commented May 24, 2023

LIMA: Less Is More for Alignment

LLMは生テキストの教師なし学習→RLHFと2段階で学習されるが、その2段階目に学習データセットは量よりも質が重要であると主張している論文。2段目のアラインはユーザーとの対話のスタイルやフォーマットを学ぶシンプルなプロセスであり、事前訓練中にすでに獲得された知識と能力を以下に引き出せるか、が重要という仮説を立てている。

この論文では1000件の高品質なデータでLLaMa 65Bをファインチューンしたモデルと、GPT4やAlpaca 65Bと比較している。
主張通り、Alpacaのほうが大量にデータでRLHFをしているのにもかかわらず、LLaMAをファインチューンしたモデルのほうが人間、GPT4を用いた評価でどちらも回答が好まれるという結果がでた。
image

高品質なデータは、WikiHowやStack Exchangeなどのサイトでいいねがたくさんついている回答を利用したり、手作業で作成している。

この論文の結果は注目すべきものだが、注意深くキュレーションされた高品質なデータを用意するのは難しく、スケールアップさせるのは難しいとも述べている。

@nogawanogawa
Copy link
Contributor Author

Learning Item-Interaction Embeddings for User Recommendations

論文URL

https://arxiv.org/abs/1812.04407

著者

Xiaoting Zhao*, Raphael Louca*, Diane Hu, Liangjie Hong

会議

DAPA ’19

背景

オンラインショッピングにおいて、ユーザーは様々な形で商品とインタラクションする。
クリックやお気に入り、カートに入れる、購入など。

この行動次第で、おすすめすべきアイテムは変化すると考えられる。

目的

  • ユーザーとアイテムのインタラクションの種類を考慮して、文脈を考慮した推薦を行う

アプローチ

  • ユーザーとアイテムのインタラクションの種類ごとの共起パターンを符号化・embeddingする
    • インタラクションの種類ごとにembeddingを定義する事で、ユーザーの行動に応じて推薦するアイテムを切り替える
image

memo

nogawanogawa/paper_memo#83

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants