In [1]:
import torch
import transformers
import warnings 

from aitextgen.TokenDataset import TokenDataset
from aitextgen.aitextgen import aitextgen

model_source = "yhavinga/gpt2-medium-dutch"
filepath_dataset = r"../evaluation_training_data/lyrics_2500.csv"
num_steps = 7500

warnings.filterwarnings("ignore")

In [2]:
gpu_available = torch.cuda.is_available()

if gpu_available:
    torch.set_float32_matmul_precision('medium')

In [3]:
model = aitextgen(
    model=model_source,
    verbose=True,
    to_gpu=gpu_available,
)

tokenizer = transformers.AutoTokenizer.from_pretrained(model_source)

model.tokenizer = tokenizer

loading configuration file config.json from cache at aitextgen\models--yhavinga--gpt2-medium-dutch\snapshots\b22286e498f82d4906dc06a617dea2d0b3b10fa3\config.json
Model config GPT2Config {
  "_name_or_path": "yhavinga/gpt2-medium-dutch",
  "activation_function": "gelu_new",
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.0,
  "bos_token_id": 50256,
  "embd_pdrop": 0.0,
  "eos_token_id": 50256,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 1024,
  "n_embd": 1024,
  "n_head": 16,
  "n_inner": null,
  "n_layer": 24,
  "n_positions": 1024,
  "n_special": 0,
  "predict_special_tokens": true,
  "reorder_and_upcast_attn": false,
  "resid_pdrop": 0.0,
  "scale_attn_by_inverse_layer_idx": false,
  "scale_attn_weights": true,
  "summary_activation": null,
  "summary_first_dropout": 0.1,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary_use_proj": true,
  "task_specific_params": {
    "text-generation": {


In [4]:
model.model

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 1024)
    (wpe): Embedding(1024, 1024)
    (drop): Dropout(p=0.0, inplace=False)
    (h): ModuleList(
      (0-23): 24 x GPT2Block(
        (ln_1): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.0, inplace=False)
          (resid_dropout): Dropout(p=0.0, inplace=False)
        )
        (ln_2): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.0, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((1024,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=1024, out_features=50257, bias=False)
)

In [5]:
train_data = TokenDataset(
    file_path=filepath_dataset,
    tokenizer=tokenizer,
    line_by_line=True
)

  0%|          | 0/2507 [00:00<?, ?it/s]

In [6]:
model.train(
    train_data=train_data,
    seed=27,
    num_steps=num_steps,
    generate_every=750,
    output_dir=r"./output",
    freeze_layers=True,
    num_layers_freeze=10
)

Windows does not support multi-GPU training. Setting to 1 GPU.
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


  0%|          | 0/7500 [00:00<?, ?it/s]

Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.27.4"
}

A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


[1m750 steps reached: generating sample texts.[0m
niemand die nog buiten staat
ik heb de deur voor het raam
maar ik ben bang dat ik nu blijf

en wat ik nu ook doe
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten staat
niemand die nog buiten 

Configuration saved in ./output\config.json
Configuration saved in ./output\generation_config.json


[1m1,000 steps reached: saving model to /./output[0m


Model weights saved in ./output\pytorch_model.bin
Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.27.4"
}

A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


[1m1,500 steps reached: generating sample texts.[0m
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug

ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug

ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug

ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug

ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug

ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga terug
ik ga


Configuration saved in ./output\config.json
Configuration saved in ./output\generation_config.json


[1m2,000 steps reached: saving model to /./output[0m


Model weights saved in ./output\pytorch_model.bin
Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.27.4"
}

A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


[1m2,250 steps reached: generating sample texts.[0m
je bent mn baby
je bent mn beste vriend
en ik wil dat je blijft

geef me je handen en laat me je dromen
zeg me dat je van me houdt

geef me je ogen
en laat me je dromen
zeg me dat je van me houdt

jij en ik
wij zijn een ja en een kruisje
jij en ik
wij zijn een ja en een kruisje
jij en ik
wij zijn een ja en een kruisje
jij en ik

jij en ik
wij zijn een ja en een kruisje
jij en ik

wij zijn een ja en een kruisje
jij en ik
wij zijn een ja en een kruisje
jij en ik

jij en ik
wij zijn een ja en een kruisje
jij en ik
jij en ik
wij zijn een ja en een kruisje
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik

jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en ik
jij en wij


Configuration saved in ./output\config.json
Configuration saved in ./output\generation_config.json


[1m3,000 steps reached: saving model to /./output[0m


Model weights saved in ./output\pytorch_model.bin
Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.27.4"
}

A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


[1m3,000 steps reached: generating sample texts.[0m

songtekst van maan  wat jij wilt


jij hoeft niets meer te vragen
ik sta naast je
wat heb jij mij gebracht
wat hoef ik nou zonder jou te beginnen

een nieuwe dag
morgen weer vroeg opgestaan
een nieuwe morgen

morgen ben jij m weer vergeten
maar de dag daarna
morgen ben jij er weer
en wat heb ik dan zonder jou
nog geen zin
ik ga gewoon mijn eigen gang
morgen ben jij weer vroeg opgestaan
morgen ben jij weer vroeg opgestaan

ik weet wat jij wilt
ik weet wat ik voelen moet
het is nu echt nog niet te laat
toe luister nu wat ik zeg
dit is wat ik jou nu zeg
wat jij nog niet had

morgen ben jij m weer vergeten
maar de dag daarna
morgen ben jij er weer
en wat heb ik dan zonder jou
nog geen zin
ik ga gewoon mijn eigen gang
morgen ben jij m weer vergeten
morgen ben jij er weer
en wat heb ik dan zonder jou
nog geen zin
ik ga gewoon mijn eigen gang
morgen ben jij m weer vergeten
maar de dag erna
morgen ben jij er weer
en wat heb ik dan zonder j

Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.27.4"
}

A decoder-only architecture is being used, but right-padding was detected! For correct generation results, please set `padding_side='left'` when initializing the tokenizer.


[1m3,750 steps reached: generating sample texts.[0m

want ik zag je naar me kijken en toen wist ik al het is me gelukt oh yeah
want ik ga straks naar huis met het meisje van de hockeyclub

annefleur of willemijn
is dit waar we willen zijn ahah ahah
want ik heb shotjes op de tafel staan hier
en deze nacht die is van mij
hoe lang sta je al op mn lijstje

je hebt me al zo vaak gezien laten zien
waarom ben je niet meer hier
je hebt een lovely body
je bent het mooiste dat er is
je bent het helemaal waar kan alles zijn
ja ik ben zo van streek maar weet je

je hebt me al zo vaak gezien laten zien
waarom ben je niet meer hier
je hebt een lovely body
je bent het mooiste dat er is
je bent het helemaal waar kan alles zijn
ja ik ben zo van streek maar weet je

je hebt me al zo vaak gezien laten zien
waarom ben je niet meer hier
je hebt een lovely body
je bent het mooiste dat er is
je bent het helemaal waar kan alles zijn
ja ik ben zo van streek maar weet je

je hebt me al zo vaak gezien laten zi

Configuration saved in ./output\config.json
Configuration saved in ./output\generation_config.json


[1m4,000 steps reached: saving model to /./output[0m


Model weights saved in ./output\pytorch_model.bin
Configuration saved in ./output\config.json
Configuration saved in ./output\generation_config.json
Model weights saved in ./output\pytorch_model.bin
