CodeGen

Overview

CodeGen モデルは、A Conversational Paradigm for Program Synthesis で Erik Nijkamp、Bo Pang、林宏明、Lifu Tu、Huan Wang、Yingbo Zhou、Silvio Savarese、Caiming Xiong およびカイミン・ションさん。

CodeGen は、The Pile、BigQuery、BigPython で順次トレーニングされたプログラム合成用の自己回帰言語モデルです。

論文の要約は次のとおりです。

プログラム合成は、与えられた問題仕様の解決策としてコンピュータープログラムを生成することを目的としています。我々は、大規模な言語モデルを介した会話型プログラム合成アプローチを提案します。これは、従来のアプローチで直面した広大なプログラム空間とユーザーの意図の仕様を検索するという課題に対処します。私たちの新しいアプローチでは、仕様とプログラムを作成するプロセスを、ユーザーとシステムの間の複数回の対話として捉えます。これはプログラム合成をシーケンス予測問題として扱い、仕様が自然言語で表現され、目的のプログラムが条件付きでサンプリングされます。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGen と呼ばれる大規模な言語モデルのファミリーをトレーニングします。データの監視が弱く、データサイズとモデルサイズが拡大すると、単純な自己回帰言語モデリングから会話能力が生まれます。会話型プログラム合成におけるモデルの動作を研究するために、マルチターンプログラミングベンチマーク (MTPB) を開発します。このベンチマークでは、各問題を解決するには、ユーザーとモデル間のマルチターン会話を介したマルチステップ合成が必要です。私たちの調査結果は、会話機能の出現と、提案されている会話プログラム合成パラダイムの有効性を示しています。さらに、私たちのモデル CodeGen (TPU-v4 でトレーニングされた最大 16B パラメーターを含む) は、HumanEval ベンチマークで OpenAI の Codex を上回ります。私たちはチェックポイントを含むトレーニングライブラリ JaxFormer をオープンソースのコントリビューションとして利用できるようにしています: この https URL。

このモデルは林宏明によって寄稿されました。元のコードはここにあります。

Checkpoint Naming

CodeGen モデルチェックポイントは、可変サイズのさまざまな事前トレーニングデータで利用できます。
形式は「Salesforce/codegen-{size}-{data}」です。ここで、
- size: 350M、2B、6B、16B
- data:
  - nl: パイルで事前トレーニング済み
  - multi: nl で初期化され、複数のプログラミング言語データでさらに事前トレーニングされます。
  - mono: multi で初期化され、Python データでさらに事前トレーニングされます。
たとえば、Salesforce/codegen-350M-mono は、Pile、複数のプログラミング言語、および Python で順次事前トレーニングされた 3 億 5,000 万のパラメーターのチェックポイントを提供します。

Usage example

>>> from transformers import AutoModelForCausalLM, AutoTokenizer

>>> checkpoint = "Salesforce/codegen-350M-mono"
>>> model = AutoModelForCausalLM.from_pretrained(checkpoint)
>>> tokenizer = AutoTokenizer.from_pretrained(checkpoint)

>>> text = "def hello_world():"

>>> completion = model.generate(**tokenizer(text, return_tensors="pt"))

>>> print(tokenizer.decode(completion[0]))
def hello_world():
    print("Hello World")

hello_world()

Resources

因果言語モデリングタスクガイド

CodeGenConfig

[[autodoc]] CodeGenConfig - all

CodeGenTokenizer

[[autodoc]] CodeGenTokenizer - save_vocabulary

CodeGenTokenizerFast

[[autodoc]] CodeGenTokenizerFast

CodeGenModel

[[autodoc]] CodeGenModel - forward

CodeGenForCausalLM

[[autodoc]] CodeGenForCausalLM - forward

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

codegen.md

codegen.md

CodeGen

Overview

Checkpoint Naming

Usage example

Resources

CodeGenConfig

CodeGenTokenizer

CodeGenTokenizerFast

CodeGenModel

CodeGenForCausalLM

Files

codegen.md

Latest commit

History

codegen.md

File metadata and controls

CodeGen

Overview

Checkpoint Naming

Usage example

Resources

CodeGenConfig

CodeGenTokenizer

CodeGenTokenizerFast

CodeGenModel

CodeGenForCausalLM