You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
The introduction of large language models has significantly advanced code generation. However, open-source models often lack the execution capabilities and iterative refinement of advanced systems like the GPT-4 Code Interpreter. To address this, we introduce OpenCodeInterpreter, a family of open-source code systems designed for generating, executing, and iteratively refining code. Supported by Code-Feedback, a dataset featuring 68K multi-turn interactions, OpenCodeInterpreter integrates execution and human feedback for dynamic code refinement. Our comprehensive evaluation of OpenCodeInterpreter across key benchmarks such as HumanEval, MBPP, and their enhanced versions from EvalPlus reveals its exceptional performance. Notably, OpenCodeInterpreter-33B achieves an accuracy of 83.2 (76.4) on the average (and plus versions) of HumanEval and MBPP, closely rivaling GPT-4's 84.2 (76.2) and further elevates to 91.6 (84.6) with synthesized human feedback from GPT-4. OpenCodeInterpreter brings the gap between open-source code generation models and proprietary systems like GPT-4 Code Interpreter.
OpenCodeInterpreter Zheng et al., arXiv 2024
Zheng, Tianyu, et al. “OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement.” arXiv [cs.SE], 22 Feb. 2024, http://arxiv.org/abs/2402.14658. arXiv.
Abstract
(DeepL翻訳)
大規模な言語モデルの導入により、コード生成が大幅に進歩した。しかし、オープンソースのモデルは、GPT-4コード・インタープリタのような先進的なシステムの実行機能や反復的な改良に欠けていることが多い。この問題に対処するために、我々はOpenCodeInterpreterを紹介する。OpenCodeInterpreterは、コードの生成、実行、反復的な改良のために設計されたオープンソースのコードシステム・ファミリーである。OpenCodeInterpreterは、6万8千のマルチターン相互作用を含むデータセットであるCode-Feedbackによってサポートされ、実行と人間のフィードバックを統合して、ダイナミックなコード改良を行う。OpenCodeInterpreterをHumanEval、MBPP、およびEvalPlusの強化バージョンなどの主要なベンチマークで包括的に評価したところ、その卓越した性能が明らかになりました。特に、OpenCodeInterpreter-33Bは、HumanEvalとMBPPの平均(およびプラスバージョン)で83.2 (76.4)の精度を達成し、GPT-4の84.2 (76.2)に匹敵し、GPT-4から合成された人間のフィードバックでさらに91.6 (84.6)まで上昇しました。OpenCodeInterpreterは、オープンソースのコード生成モデルとGPT-4 Code Interpreterのようなプロプライエタリなシステムとの間のギャップを解消します。
コード
https://opencodeinterpreter.github.io/
解決した課題/先行研究との比較
技術・手法のポイント
評価指標
上記のデータセットを用いて特定の言語モデルをfine-tuning
下図はTable 1 より一部を抜粋。実際は下にスケールの大きなモデルの結果が続く。
![Image from Gyazo](https://camo.githubusercontent.com/eb812165cf7cd399041e6f47fb4bc354e2efe053324d962358149ae76fff489b/68747470733a2f2f692e6779617a6f2e636f6d2f63326162303934626630316539666533393237633163663835303437323138392e706e67)
プログラミングタスクであるHumanEval及びMBPP (Mostly Basic Python Problems) で性能を評価
4パターンの評価
フィードバックを加えた場合にGPT-3.5 Turbo並み〜GPT-4 Turboに迫る性能を発揮
残された課題・議論・感想
The text was updated successfully, but these errors were encountered: