We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #195
話したいことがある人はここにコメントしましょう! 面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!
The text was updated successfully, but these errors were encountered:
LLMは生テキストの教師なし学習→RLHFと2段階で学習されるが、その2段階目に学習データセットは量よりも質が重要であると主張している論文。2段目のアラインはユーザーとの対話のスタイルやフォーマットを学ぶシンプルなプロセスであり、事前訓練中にすでに獲得された知識と能力を以下に引き出せるか、が重要という仮説を立てている。
この論文では1000件の高品質なデータでLLaMa 65Bをファインチューンしたモデルと、GPT4やAlpaca 65Bと比較している。 主張通り、Alpacaのほうが大量にデータでRLHFをしているのにもかかわらず、LLaMAをファインチューンしたモデルのほうが人間、GPT4を用いた評価でどちらも回答が好まれるという結果がでた。
高品質なデータは、WikiHowやStack Exchangeなどのサイトでいいねがたくさんついている回答を利用したり、手作業で作成している。
この論文の結果は注目すべきものだが、注意深くキュレーションされた高品質なデータを用意するのは難しく、スケールアップさせるのは難しいとも述べている。
Sorry, something went wrong.
https://arxiv.org/abs/1812.04407
Xiaoting Zhao*, Raphael Louca*, Diane Hu, Liangjie Hong
DAPA ’19
オンラインショッピングにおいて、ユーザーは様々な形で商品とインタラクションする。 クリックやお気に入り、カートに入れる、購入など。
この行動次第で、おすすめすべきアイテムは変化すると考えられる。
nogawanogawa/paper_memo#83
No branches or pull requests
Why
Machine Learning 輪講は最新の技術や論文を追うことで、エンジニアが「技術で解決できること」のレベルをあげていくことを目的にした会です。
prev. #195
What
話したいことがある人はここにコメントしましょう!
面白いものを見つけた時点でとりあえず話すという宣言だけでもしましょう!
The text was updated successfully, but these errors were encountered: