Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 #1293

Open
AkihikoWatanabe opened this issue Apr 23, 2024 · 1 comment

Comments

@AkihikoWatanabe
Copy link
Owner

AkihikoWatanabe commented Apr 23, 2024

URL

Affiliations

  • Marah Abdin, N/A
  • Sam Ade Jacobs, N/A
  • Ammar Ahmad Awan, N/A
  • Jyoti Aneja, N/A
  • Ahmed Awadallah, N/A
  • Hany Awadalla, N/A
  • Nguyen Bach, N/A
  • Amit Bahree, N/A
  • Arash Bakhtiari, N/A
  • Harkirat Behl, N/A
  • Alon Benhaim, N/A
  • Misha Bilenko, N/A
  • Johan Bjorck, N/A
  • Sébastien Bubeck, N/A
  • Martin Cai, N/A
  • Caio César Teodoro Mendes, N/A
  • Weizhu Chen, N/A
  • Vishrav Chaudhary, N/A
  • Parul Chopra, N/A
  • Allie Del Giorno, N/A
  • Gustavo de Rosa, N/A
  • Matthew Dixon, N/A
  • Ronen Eldan, N/A
  • Dan Iter, N/A
  • Abhishek Goswami, N/A
  • Suriya Gunasekar, N/A
  • Emman Haider, N/A
  • Junheng Hao, N/A
  • Russell J. Hewett, N/A
  • Jamie Huynh, N/A
  • Mojan Javaheripi, N/A
  • Xin Jin, N/A
  • Piero Kauffmann, N/A
  • Nikos Karampatziakis, N/A
  • Dongwoo Kim, N/A
  • Mahoud Khademi, N/A
  • Lev Kurilenko, N/A
  • James R. Lee, N/A
  • Yin Tat Lee, N/A
  • Yuanzhi Li, N/A
  • Chen Liang, N/A
  • Weishung Liu, N/A
  • Eric Lin, N/A
  • Zeqi Lin, N/A
  • Piyush Madan, N/A
  • Arindam Mitra, N/A
  • Hardik Modi, N/A
  • Anh Nguyen, N/A
  • Brandon Norick, N/A
  • Barun Patra, N/A
  • Daniel Perez-Becker, N/A
  • Thomas Portet, N/A
  • Reid Pryzant, N/A
  • Heyang Qin, N/A
  • Marko Radmilac, N/A
  • Corby Rosset, N/A
  • Sambudha Roy, N/A
  • Olli Saarikivi, N/A
  • Amin Saied, N/A
  • Adil Salim, N/A
  • Michael Santacroce, N/A
  • Shital Shah, N/A
  • Ning Shang, N/A
  • Hiteshi Sharma, N/A
  • Xia Song, N/A
  • Olatunji Ruwase, N/A
  • Xin Wang, N/A
  • Rachel Ward, N/A
  • Guanhua Wang, N/A
  • Philipp Witte, N/A
  • Michael Wyatt, N/A
  • Can Xu, N/A
  • Jiahang Xu, N/A
  • Sonali Yadav, N/A
  • Fan Yang, N/A
  • Ziyi Yang, N/A
  • Donghan Yu, N/A
  • Chengruidong Zhang, N/A
  • Cyril Zhang, N/A
  • Jianwen Zhang, N/A
  • Li Lyna Zhang, N/A
  • Yi Zhang, N/A
  • Yunan Zhang, N/A
  • Xiren Zhou, N/A

Abstract

  • We introduce phi-3-mini, a 3.8 billion parameter language model trained on3.3 trillion tokens, whose overall performance, as measured by both academicbenchmarks and internal testing, rivals that of models such as Mixtral 8x7B andGPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despitebeing small enough to be deployed on a phone. The innovation lies entirely inour dataset for training, a scaled-up version of the one used for phi-2,composed of heavily filtered web data and synthetic data. The model is alsofurther aligned for robustness, safety, and chat format. We also provide someinitial parameter-scaling results with a 7B and 14B models trained for 4.8Ttokens, called phi-3-small and phi-3-medium, both significantly more capablethan phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 onMT-bench).

Translation (by gpt-3.5-turbo)

  • phi-3-miniという38億パラメータの言語モデルを紹介します。このモデルは3.3兆トークンで訓練されており、学術的なベンチマークと内部テストの両方で測定された総合的なパフォーマンスは、Mixtral 8x7BやGPT-3.5などのモデルに匹敵します(たとえば、MMLUで69%、MT-benchで8.38)。これは、スマートフォンにデプロイできるほど小さなモデルです。この革新は、完全に訓練用のデータセットにあります。phi-2用に使用されたデータのスケールアップ版であり、厳密にフィルタリングされたWebデータと合成データで構成されています。このモデルは、堅牢性、安全性、およびチャット形式にもさらに適合しています。また、初期のパラメータスケーリング結果も提供しており、4.8兆トークンで訓練された7Bおよび14Bモデルであるphi-3-smallとphi-3-mediumを紹介しています。これらはphi-3-miniよりもはるかに優れています(たとえば、それぞれMMLUで75%と78%、MT-benchで8.7と8.9)。

Summary (by gpt-3.5-turbo)

  • phi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。
@AkihikoWatanabe AkihikoWatanabe changed the title Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 Apr 23, 2024
@AkihikoWatanabe
Copy link
Owner Author

AkihikoWatanabe commented Apr 23, 2024

#1039 の次の次(Phi2.0についてはメモってなかった)。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしい

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant