Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N/A, arXiv'23 #888

Open
AkihikoWatanabe opened this issue Jul 22, 2023 · 2 comments

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Jul 22, 2023

URL

Affiliations

  • Hugo Touvron, N/A
  • Louis Martin, N/A
  • Kevin Stone, N/A
  • Peter Albert, N/A
  • Amjad Almahairi, N/A
  • Yasmine Babaei, N/A
  • Nikolay Bashlykov, N/A
  • Soumya Batra, N/A
  • Prajjwal Bhargava, N/A
  • Shruti Bhosale, N/A
  • Dan Bikel, N/A
  • Lukas Blecher, N/A
  • Cristian Canton Ferrer, N/A
  • Moya Chen, N/A
  • Guillem Cucurull, N/A
  • David Esiobu, N/A
  • Jude Fernandes, N/A
  • Jeremy Fu, N/A
  • Wenyin Fu, N/A
  • Brian Fuller, N/A
  • Cynthia Gao, N/A
  • Vedanuj Goswami, N/A
  • Naman Goyal, N/A
  • Anthony Hartshorn, N/A
  • Saghar Hosseini, N/A
  • Rui Hou, N/A
  • Hakan Inan, N/A
  • Marcin Kardas, N/A
  • Viktor Kerkez, N/A
  • Madian Khabsa, N/A
  • Isabel Kloumann, N/A
  • Artem Korenev, N/A
  • Punit Singh Koura, N/A
  • Marie-Anne Lachaux, N/A
  • Thibaut Lavril, N/A
  • Jenya Lee, N/A
  • Diana Liskovich, N/A
  • Yinghai Lu, N/A
  • Yuning Mao, N/A
  • Xavier Martinet, N/A
  • Todor Mihaylov, N/A
  • Pushkar Mishra, N/A
  • Igor Molybog, N/A
  • Yixin Nie, N/A
  • Andrew Poulton, N/A
  • Jeremy Reizenstein, N/A
  • Rashi Rungta, N/A
  • Kalyan Saladi, N/A
  • Alan Schelten, N/A
  • Ruan Silva, N/A
  • Eric Michael Smith, N/A
  • Ranjan Subramanian, N/A
  • Xiaoqing Ellen Tan, N/A
  • Binh Tang, N/A
  • Ross Taylor, N/A
  • Adina Williams, N/A
  • Jian Xiang Kuan, N/A
  • Puxin Xu, N/A
  • Zheng Yan, N/A
  • Iliyan Zarov, N/A
  • Yuchen Zhang, N/A
  • Angela Fan, N/A
  • Melanie Kambadur, N/A
  • Sharan Narang, N/A
  • Aurelien Rodriguez, N/A
  • Robert Stojnic, N/A
  • Sergey Edunov, N/A
  • Thomas Scialom, N/A

Abstract

  • In this work, we develop and release Llama 2, a collection of pretrained andfine-tuned large language models (LLMs) ranging in scale from 7 billion to 70billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized fordialogue use cases. Our models outperform open-source chat models on mostbenchmarks we tested, and based on our human evaluations for helpfulness andsafety, may be a suitable substitute for closed-source models. We provide adetailed description of our approach to fine-tuning and safety improvements ofLlama 2-Chat in order to enable the community to build on our work andcontribute to the responsible development of LLMs.

Translation (by gpt-3.5-turbo)

  • この研究では、7億から70億のパラメータを持つ事前学習済みおよび微調整済みの大規模言語モデル(LLMs)のコレクションであるLlama 2を開発および公開します。
    Llama 2-Chatと呼ばれる私たちの微調整済みLLMsは、対話の使用例に最適化されています。
    私たちのモデルは、私たちがテストしたほとんどのベンチマークでオープンソースのチャットモデルを上回り、有用性と安全性の人間による評価に基づいて、クローズドソースのモデルの代替として適している可能性があります。
    私たちは、Llama 2-Chatの微調整と安全性の改善に関するアプローチの詳細な説明を提供し、コミュニティが私たちの研究を基にして作業を進め、LLMsの責任ある開発に貢献できるようにしています。

Summary (by gpt-3.5-turbo)

  • この研究では、大規模な言語モデルであるLlama 2を開発し、微調整しています。Llama 2-Chatは対話に特化しており、オープンソースのチャットモデルを上回る性能を示しています。安全性の改善にも取り組んでおり、責任ある開発に貢献することを目指しています。
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Jul 22, 2023

@AkihikoWatanabe AkihikoWatanabe changed the title Llama 2: Open Foundation and Fine-Tuned Chat Models, Hugo Touvron+, N/A, arXiv'23 Jul 22, 2023
@AkihikoWatanabe
Copy link
Owner Author

Llama, およびLlama2では、一般的なTransformer Decoderとは異なり、linear layerの”前に”RMSPropをかませている点が異なる。
また、Llama2では、Llamaと比較して

出典:https://cameronrwolfe.substack.com/p/llama-2-from-the-ground-up

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant