In [1]:
import torch
import transformers
import warnings 

from aitextgen.TokenDataset import TokenDataset
from aitextgen.aitextgen import aitextgen

model_source = "GroNLP/gpt2-small-dutch-embeddings"
filepath_dataset = r"../evaluation_training_data/lyrics_400.csv"
num_steps = 200

warnings.filterwarnings("ignore")

In [2]:
gpu_available = torch.cuda.is_available()

if gpu_available:
    torch.set_float32_matmul_precision('medium')

In [3]:
model = aitextgen(
    model=model_source,
    verbose=True,
    to_gpu=gpu_available,
)

tokenizer = transformers.AutoTokenizer.from_pretrained(model_source)

model.tokenizer = tokenizer

loading configuration file config.json from cache at aitextgen\models--GroNLP--gpt2-small-dutch-embeddings\snapshots\845a4c7cdae998c888f6ed5932a0a2a1732d0104\config.json
Model config GPT2Config {
  "_name_or_path": "GroNLP/gpt2-small-dutch-embeddings",
  "activation_function": "gelu_new",
  "architectures": [
    "GPT2LMHeadModel"
  ],
  "attn_pdrop": 0.1,
  "bos_token_id": 1,
  "embd_pdrop": 0.1,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "initializer_range": 0.02,
  "layer_norm_epsilon": 1e-05,
  "model_type": "gpt2",
  "n_ctx": 1024,
  "n_embd": 768,
  "n_head": 12,
  "n_inner": null,
  "n_layer": 12,
  "n_positions": 1024,
  "pad_token_id": 0,
  "reorder_and_upcast_attn": false,
  "resid_pdrop": 0.1,
  "scale_attn_by_inverse_layer_idx": false,
  "scale_attn_weights": true,
  "summary_activation": null,
  "summary_first_dropout": 0.1,
  "summary_proj_to_labels": true,
  "summary_type": "cls_index",
  "summary_use_proj": true,
  "task_specific_params": {
    "text-gene

In [4]:
model.model

GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(40000, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2Attention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=40000, bias=False)
)

In [5]:
train_data = TokenDataset(
    file_path=filepath_dataset,
    tokenizer=tokenizer,
    line_by_line=True
)

  0%|          | 0/396 [00:00<?, ?it/s]

In [6]:
model.train(
    train_data=train_data,
    seed=27,
    num_steps=num_steps,
    generate_every=100,
    output_dir=r"./output",
    freeze_layers=True,
    num_layers_freeze=10
)

Windows does not support multi-GPU training. Setting to 1 GPU.
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
IPU available: False, using: 0 IPUs
HPU available: False, using: 0 HPUs
LOCAL_RANK: 0 - CUDA_VISIBLE_DEVICES: [0]


  0%|          | 0/200 [00:00<?, ?it/s]

Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "pad_token_id": 0,
  "transformers_version": "4.27.4"
}



[1m100 steps reached: generating sample texts.[0m

t is vaak te laat en je zult altijd blijven

de hele maand is een groot feest
de hele week een groot feest
in een ander jaar valt alles wat je wil

ik heb al jaren geen spijt


jij zei je wou ik je dat ik zou helpen zijn er al jaren
als je een ander
laat ze mij gaan

niets kan ik niet schelen

ja geen ander
voor mij kan ik niet schelen
nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee nee n

Generate config GenerationConfig {
  "_from_model_config": true,
  "bos_token_id": 1,
  "eos_token_id": 2,
  "pad_token_id": 0,
  "transformers_version": "4.27.4"
}



[1m200 steps reached: generating sample texts.[0m


`Trainer.fit` stopped: `max_steps=200` reached.



kijk de gordijnen en de gordijnen
ik denk aan haar een huis
maar ik kan niet zonder jou
want dan is ze wat ik zo alleen en dwaalt
en laat mij nu alleen


ik kan niet zonder jou
want ik kan niet zonder jou

want ik kan niet zonder jou

want ik kan niet zonder jou

want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou

want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou
want ik kan niet zonder jou<|endoftext|>ik zei dat ik wil het niet
trouw niet voor haar
liefde en


Configuration saved in ./output\config.json
Configuration saved in ./output\generation_config.json
Model weights saved in ./output\pytorch_model.bin
