Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 #1293

AkihikoWatanabe · 2024-04-23T08:44:27Z

URL

https://arxiv.org/abs/2404.14219

Affiliations

Marah Abdin, N/A
Sam Ade Jacobs, N/A
Ammar Ahmad Awan, N/A
Jyoti Aneja, N/A
Ahmed Awadallah, N/A
Hany Awadalla, N/A
Nguyen Bach, N/A
Amit Bahree, N/A
Arash Bakhtiari, N/A
Harkirat Behl, N/A
Alon Benhaim, N/A
Misha Bilenko, N/A
Johan Bjorck, N/A
Sébastien Bubeck, N/A
Martin Cai, N/A
Caio César Teodoro Mendes, N/A
Weizhu Chen, N/A
Vishrav Chaudhary, N/A
Parul Chopra, N/A
Allie Del Giorno, N/A
Gustavo de Rosa, N/A
Matthew Dixon, N/A
Ronen Eldan, N/A
Dan Iter, N/A
Abhishek Goswami, N/A
Suriya Gunasekar, N/A
Emman Haider, N/A
Junheng Hao, N/A
Russell J. Hewett, N/A
Jamie Huynh, N/A
Mojan Javaheripi, N/A
Xin Jin, N/A
Piero Kauffmann, N/A
Nikos Karampatziakis, N/A
Dongwoo Kim, N/A
Mahoud Khademi, N/A
Lev Kurilenko, N/A
James R. Lee, N/A
Yin Tat Lee, N/A
Yuanzhi Li, N/A
Chen Liang, N/A
Weishung Liu, N/A
Eric Lin, N/A
Zeqi Lin, N/A
Piyush Madan, N/A
Arindam Mitra, N/A
Hardik Modi, N/A
Anh Nguyen, N/A
Brandon Norick, N/A
Barun Patra, N/A
Daniel Perez-Becker, N/A
Thomas Portet, N/A
Reid Pryzant, N/A
Heyang Qin, N/A
Marko Radmilac, N/A
Corby Rosset, N/A
Sambudha Roy, N/A
Olli Saarikivi, N/A
Amin Saied, N/A
Adil Salim, N/A
Michael Santacroce, N/A
Shital Shah, N/A
Ning Shang, N/A
Hiteshi Sharma, N/A
Xia Song, N/A
Olatunji Ruwase, N/A
Xin Wang, N/A
Rachel Ward, N/A
Guanhua Wang, N/A
Philipp Witte, N/A
Michael Wyatt, N/A
Can Xu, N/A
Jiahang Xu, N/A
Sonali Yadav, N/A
Fan Yang, N/A
Ziyi Yang, N/A
Donghan Yu, N/A
Chengruidong Zhang, N/A
Cyril Zhang, N/A
Jianwen Zhang, N/A
Li Lyna Zhang, N/A
Yi Zhang, N/A
Yunan Zhang, N/A
Xiren Zhou, N/A

Abstract

We introduce phi-3-mini, a 3.8 billion parameter language model trained on3.3 trillion tokens, whose overall performance, as measured by both academicbenchmarks and internal testing, rivals that of models such as Mixtral 8x7B andGPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despitebeing small enough to be deployed on a phone. The innovation lies entirely inour dataset for training, a scaled-up version of the one used for phi-2,composed of heavily filtered web data and synthetic data. The model is alsofurther aligned for robustness, safety, and chat format. We also provide someinitial parameter-scaling results with a 7B and 14B models trained for 4.8Ttokens, called phi-3-small and phi-3-medium, both significantly more capablethan phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 onMT-bench).

Translation (by gpt-3.5-turbo)

phi-3-miniという38億パラメータの言語モデルを紹介します。このモデルは3.3兆トークンで訓練されており、学術的なベンチマークと内部テストの両方で測定された総合的なパフォーマンスは、Mixtral 8x7BやGPT-3.5などのモデルに匹敵します（たとえば、MMLUで69％、MT-benchで8.38）。これは、スマートフォンにデプロイできるほど小さなモデルです。この革新は、完全に訓練用のデータセットにあります。phi-2用に使用されたデータのスケールアップ版であり、厳密にフィルタリングされたWebデータと合成データで構成されています。このモデルは、堅牢性、安全性、およびチャット形式にもさらに適合しています。また、初期のパラメータスケーリング結果も提供しており、4.8兆トークンで訓練された7Bおよび14Bモデルであるphi-3-smallとphi-3-mediumを紹介しています。これらはphi-3-miniよりもはるかに優れています（たとえば、それぞれMMLUで75％と78％、MT-benchで8.7と8.9）。

Summary (by gpt-3.5-turbo)

phi-3-miniは38億パラメータの言語モデルであり、3.3兆トークンで訓練されています。Mixtral 8x7BやGPT-3.5などの大規模モデルに匹敵する総合的なパフォーマンスを持ちながら、スマートフォンにデプロイ可能なサイズです。このモデルは、厳密にフィルタリングされたWebデータと合成データで構成されており、堅牢性、安全性、およびチャット形式に適合しています。また、phi-3-smallとphi-3-mediumというより大規模なモデルも紹介されています。

AkihikoWatanabe · 2024-04-23T12:23:04Z

#1039 の次の次（Phi2.0についてはメモってなかった）。スマホにデプロイできるレベルのサイズで、GPT3.5Turbo程度の性能を実現したらしい

AkihikoWatanabe added the Pocket label Apr 23, 2024

AkihikoWatanabe changed the title あ Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 Apr 23, 2024

AkihikoWatanabe added Efficiency/SpeedUp NLP LanguageModel OpenSource labels Apr 23, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 #1293

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 #1293

AkihikoWatanabe commented Apr 23, 2024 •

edited

AkihikoWatanabe commented Apr 23, 2024 •

edited

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 #1293

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone, Marah Abdin+, N/A, arXiv'24 #1293

Comments

AkihikoWatanabe commented Apr 23, 2024 • edited

URL

Affiliations

Abstract

Translation (by gpt-3.5-turbo)

Summary (by gpt-3.5-turbo)

AkihikoWatanabe commented Apr 23, 2024 • edited

AkihikoWatanabe commented Apr 23, 2024 •

edited

AkihikoWatanabe commented Apr 23, 2024 •

edited