# GPT-2 (aitextgen)

Options: Train a model, Load a pretrained model

In [1]:
''' Install libraries. '''
# !python3 -m pip install aitextgen

## Training

In [2]:
from aitextgen.TokenDataset import TokenDataset
from aitextgen.tokenizers import train_tokenizer
from aitextgen.utils import GPT2ConfigCPU
from aitextgen.utils import build_gpt2_config
from aitextgen import aitextgen

In [3]:
file_name = "../dataset.txt"

In [None]:
''' Tokenize dataset (Byte-Pair-Encoding). '''
train_tokenizer(file_name, vocab_size=10000)
vocab_file = "gpt-2_aitextgen/aitextgen-vocab.json"
merges_file = "gpt-2_aitextgen/aitextgen-merges.txt"

In [6]:
''' Custom configuration. '''
config = build_gpt2_config(n_embd=128,
                           n_head=4,
                           n_layer=2,
                           vocab_size=10000,
                           max_length=256
                          )

print(config)

''' Model. '''
ai = aitextgen(vocab_file=vocab_file, merges_file=merges_file, config=config)
''' Dataset for training. '''
data = TokenDataset(file_name, vocab_file=vocab_file, merges_file=merges_file, block_size=256)

INFO:aitextgen:Constructing GPT-2 model from provided config.
INFO:aitextgen:Using a custom tokenizer.


GPT2Config {
  "activation_function": "gelu_new",
  "attn_pdrop": 0.0,
  "bos_token_id": 0,
  "embd_pdrop": 0.0,
  "eos_token_id": 0,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 256,
  "n_embd": 128,
  "n_head": 4,
  "n_layer": 2,
  "n_positions": 256,
  "resid_pdrop": 0.0,
  "summary_activation": null,
  "summary_first_dropout": 0.0,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary_use_proj": true,
  "vocab_size": 10000
}



HBox(children=(FloatProgress(value=0.0, layout=Layout(flex='2'), max=2533.0), HTML(value='')), layout=Layout(d…

INFO:aitextgen.TokenDataset:Encoding 2,533 sets of tokens from ../dataset/dataset.txt.





In [None]:
''' Training. '''
ai.train(data, batch_size=128, num_steps=5000)

## Load a trained model

In [1]:
from aitextgen import aitextgen
ai = aitextgen(model="gpt-2_aitextgen/trained_model/pytorch_model.bin",
               config="gpt-2_aitextgen/trained_model/config.json",
               vocab_file="gpt-2_aitextgen/aitextgen-vocab.json",
               merges_file="gpt-2_aitextgen/aitextgen-merges.txt",
               to_gpu=False)

INFO:aitextgen:Loading GPT-2 model from provided gpt-2_aitextgen/trained_model/pytorch_model.bin.
INFO:aitextgen:Using a custom tokenizer.


## Generate text

In [2]:
inp = '''
Die Lernfähigkeit des Gehirns wird ermöglicht durch das selbständige Verknüpfen von Synapsen.
'''.replace('\n','')
for temp in [0.5, 1.0, 1.5]:
    print(ai.generate(prompt=inp, temperature=temp))

[1mDie Lernfähigkeit des Gehirns wird ermöglicht durch das selbständige Verknüpfen von Synapsen.[0m
Die Entwicklung von Nervenzellen.
In sequenziellen Umgebungen.
Wir entstehen unser Gehirn stehen somit Repräsentationen von Symbolen; die Gesamtheit der Außenwelt (und damit auch Aspekte des jeweiligen Registrieren also von einem bestimmten Handlungen.
Die Geschichte des Gehirns.
In sequenziellen Umgebungen kann das materielle Darstellung eines Netzwerks ist das fundamentalen Bindung zwischen einem Prozess von denen sich im Gegensatz zu einem gewissen Maß.
Die Entwicklung von denen in diesem Moment im Gegensatz zu einem gewissen Stellen menschlichen Denkens in einem gewissen Grad von die Reflexion weist die Großhirnrinde werden, nur noch offen für die Bereiche der Spiegel seiner Umwelt aufgegestaucht seit es noch Muster lassen.
Die formalen Logik zu im Gehirn nur in einer besonderen Gotph wie Kunst Unbegewororingen ist.
Wie würde, nur zugänglichsparten, Bereicheironolinem.
Bei den Unbe

## Sources
https://docs.aitextgen.io/