In [1]:
import warnings
def ignore_warn(*args, **kwargs):
    pass
warnings.warn = ignore_warn #ignore annoying warning (from sklearn and seaborn)

In [2]:
# [Credits to: https://www.kaggle.com/code/rkuo2000/gpt2-german-recipes]
# Anpassungen durch T. Ekert 2024

import os
import sys
from tempfile import NamedTemporaryFile
from urllib.request import urlopen
from urllib.parse import unquote, urlparse
from urllib.error import HTTPError
from zipfile import ZipFile
import tarfile
import shutil

CHUNK_SIZE = 40960
DATA_SOURCE_MAPPING = 'german-recipes-dataset:https%3A%2F%2Fstorage.googleapis.com%2Fkaggle-data-sets%2F132879%2F316218%2Fbundle%2Farchive.zip%3FX-Goog-Algorithm%3DGOOG4-RSA-SHA256%26X-Goog-Credential%3Dgcp-kaggle-com%2540kaggle-161607.iam.gserviceaccount.com%252F20240409%252Fauto%252Fstorage%252Fgoog4_request%26X-Goog-Date%3D20240409T104015Z%26X-Goog-Expires%3D259200%26X-Goog-SignedHeaders%3Dhost%26X-Goog-Signature%3D3ee6decec57dfa418d371e3b0735425fe856936811feddee964e6364e44bc9caa3654c51a519cc606c52d8946b8b28380c33e252561b45b52e87c2f439c043ca7006f1557950ad2a5ba3dbcf700dd725896da2febb24584d0d4ca4a106872a508b612e0223423132c6d5667552cde4c26bfcecf93576f36513bdfbb5229e488ead0832f655a9c76ed5ea4d20397ac7e5be8b7aea25477bab460b2ff370f19135a799ee61f3a33bfc9c65d00df602823da178cc49e930ddd8d4e4b16db8930599b0d2ddf622d8da6d0102a191ac8446e7ab6aa417d8e26db25ae725cf8d7c431cdf4e25432b9a2e3d6ea1796faf8032aeaf5899895015d8845fd50a815c722bdf'

KAGGLE_INPUT_PATH='../data/kaggle/input'
KAGGLE_WORKING_PATH='../data/kaggle/working'
#KAGGLE_SYMLINK='kaggle'

# shutil.rmtree(KAGGLE_INPUT_PATH, ignore_errors=True)
os.makedirs(KAGGLE_INPUT_PATH, 0o777, exist_ok=True)
os.makedirs(KAGGLE_WORKING_PATH, 0o777, exist_ok=True)


In [3]:
import torch
torch.cuda.is_available()

True

In [4]:
for data_source_mapping in DATA_SOURCE_MAPPING.split(','):
    directory, download_url_encoded = data_source_mapping.split(':')
    download_url = unquote(download_url_encoded)
    filename = urlparse(download_url).path
    destination_path = os.path.join(KAGGLE_INPUT_PATH, directory)
    try:
        with urlopen(download_url) as fileres, NamedTemporaryFile() as tfile:
            total_length = fileres.headers['content-length']
            print(f'Downloading {directory}, {total_length} bytes compressed')
            dl = 0
            data = fileres.read(CHUNK_SIZE)
            while len(data) > 0:
                dl += len(data)
                tfile.write(data)
                done = int(50 * dl / int(total_length))
                sys.stdout.write(f"\r[{'=' * done}{' ' * (50-done)}] {dl} bytes downloaded")
                sys.stdout.flush()
                data = fileres.read(CHUNK_SIZE)
            if filename.endswith('.zip'):
              with ZipFile(tfile) as zfile:
                zfile.extractall(destination_path)
            else:
              with tarfile.open(tfile.name) as tarfile:
                tarfile.extractall(destination_path)
            print(f'\nDownloaded and uncompressed: {directory}')
    except HTTPError as e:
        print(f'Failed to load (likely expired) {download_url} to path {destination_path}')
        continue
    except OSError as e:
        print(e)
        print(f'Failed to load {download_url} to path {destination_path}')
        continue

print('Data source import complete.')

Failed to load (likely expired) https://storage.googleapis.com/kaggle-data-sets/132879/316218/bundle/archive.zip?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=gcp-kaggle-com%40kaggle-161607.iam.gserviceaccount.com%2F20240409%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20240409T104015Z&X-Goog-Expires=259200&X-Goog-SignedHeaders=host&X-Goog-Signature=3ee6decec57dfa418d371e3b0735425fe856936811feddee964e6364e44bc9caa3654c51a519cc606c52d8946b8b28380c33e252561b45b52e87c2f439c043ca7006f1557950ad2a5ba3dbcf700dd725896da2febb24584d0d4ca4a106872a508b612e0223423132c6d5667552cde4c26bfcecf93576f36513bdfbb5229e488ead0832f655a9c76ed5ea4d20397ac7e5be8b7aea25477bab460b2ff370f19135a799ee61f3a33bfc9c65d00df602823da178cc49e930ddd8d4e4b16db8930599b0d2ddf622d8da6d0102a191ac8446e7ab6aa417d8e26db25ae725cf8d7c431cdf4e25432b9a2e3d6ea1796faf8032aeaf5899895015d8845fd50a815c722bdf to path ../data/kaggle/input\german-recipes-dataset
Data source import complete.


# GPT-2 fine tuning with German Recipes

## Dataset: [German Recipes](https://www.kaggle.com/sterby/german-recipes-dataset)

## Read Dataset

In [5]:
import re
import json
from sklearn.model_selection import train_test_split

In [6]:
data_path = KAGGLE_INPUT_PATH + '/german-recipes-dataset/'

with open(data_path + 'recipes.json', encoding="utf-8") as f:
    data = json.load(f)

def build_text_files(data_json, dest_path):
    f = open(dest_path, 'w', encoding="utf-8")
    data = ''
    for texts in data_json:
        summary = str(texts['Instructions']).strip()
        summary = re.sub(r"\s", " ", summary)
        data += summary + "  "
    f.write(data)

In [7]:
print(data[0].keys())

dict_keys(['Url', 'Instructions', 'Ingredients', 'Day', 'Name', 'Year', 'Month', 'Weekday'])


In [8]:
print(data[0])

{'Url': 'https://www.chefkoch.de/rezepte/185441079701305/', 'Instructions': 'Die Eier hart kochen. Dann pellen und mit einem Eierschneider in Scheiben schneiden. Den Reis halbgar kochen und zur Seite stellen. Die Wurst (Kolbász) in dünne Scheiben schneiden.Den Knoblauch abziehen und fein würfeln. Die Zwiebel schälen, fein hacken und in etwas Fett glasig braten. Knoblauch und Hackfleisch dazu geben und so lange braten, bis das Hackfleisch schön krümelig wird. Den eigenen Saft nicht ganz verkochen lassen. Die Fleischmasse mit Salz, Pfeffer und Paprikapulver würzen.Das Sauerkraut kurz durchspülen, ausdrücken und abtropfen lassen (damit es nicht zu sauer wird). Das Sauerkraut in einen Topf geben und mit dem Kümmel und den Lorbeerblättern vermischen. Ca. 30 Minuten unter Zugabe von wenig Wasser bei niedriger Stufe dünsten.Eine feuerfeste Form mit etwas Öl einfetten und den Boden dünn mit Sauerkraut belegen. Darauf Kolbász und die Hälfte der in Scheiben geschnittene Eier verteilen, dann eine

### Split Dataset

In [9]:
train_path = KAGGLE_WORKING_PATH + '/train_dataset.txt'
test_path = KAGGLE_WORKING_PATH + '/test_dataset.txt'

train, test = train_test_split(data,test_size=0.15)

build_text_files(train, train_path)
build_text_files(test, test_path)

print("Train dataset length: "+str(len(train)))
print("Test dataset length: "+ str(len(test)))

Train dataset length: 10361
Test dataset length: 1829


## Tokenize Input Text

In [10]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("anonymous-german-nlp/german-gpt2", clean_up_tokenization_spaces='true')



## Load Dataset

In [11]:
from transformers import TextDataset,DataCollatorForLanguageModeling

def load_dataset(train_path,test_path,tokenizer):
    train_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=train_path,
          block_size=128)

    test_dataset = TextDataset(
          tokenizer=tokenizer,
          file_path=test_path,
          block_size=128)

    data_collator = DataCollatorForLanguageModeling(
        tokenizer=tokenizer, mlm=False,
    )
    return train_dataset,test_dataset,data_collator

train_dataset,test_dataset,data_collator = load_dataset(train_path,test_path,tokenizer)

## Train Model
### Initialize Trainer with TrainingArguments with German-GPT2 model

In [12]:
torch.cuda.is_available()

True

In [13]:
from transformers import Trainer, TrainingArguments,AutoModelWithLMHead

model = AutoModelWithLMHead.from_pretrained("anonymous-german-nlp/german-gpt2")
model_name = KAGGLE_WORKING_PATH + "/gpt2-gerchef"

training_args = TrainingArguments(
    output_dir= model_name, #The output directory
    overwrite_output_dir=True, #overwrite the content of the output directory
    num_train_epochs=3, # number of training epochs
    per_device_train_batch_size=32, # batch size for training
    per_device_eval_batch_size=64,  # batch size for evaluation
    eval_steps = 400, # Number of update steps between two evaluations.
    save_steps=800, # after # steps model is saved
    warmup_steps=500,# number of warmup steps for learning rate scheduler
    prediction_loss_only=True,
    report_to="tensorboard"
    )


trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
)

In [14]:
from transformers import pipeline
import os
os.environ["WANDB_DISABLED"] = "true"

# Nun trainieren wir das Netz für das Fine-Tuning

In [15]:
## uncomment the following line to re-train the model!

# trainer.train()

In [16]:
## uncomment the folling line to save a re-trained model
#trainer.save_model()

# Abschließender Test des Modells

In [27]:
if torch.cuda.is_available():
    chef = pipeline('text-generation',model=model_name, tokenizer='anonymous-german-nlp/german-gpt2', device=0, pad_token_id=tokenizer.eos_token_id)
else:
    chef = pipeline('text-generation',model=model_name, tokenizer='anonymous-german-nlp/german-gpt2', pad_token_id=tokenizer.eos_token_id)


In [28]:
chef('Die Nudeln Kochen, Fleisch anbraten')

[{'generated_text': 'Die Nudeln Kochen, Fleisch anbraten und die gehackten Zwiebeln und den gehackten Knoblauch anbraten. Dann die Paprikaschoten dazugeben und alles mit Sambal Olek oder Senf bestreichen. Nach gut zwei Stunden ist das'}]

In [29]:
chef('Zuerst Hähnchen')

[{'generated_text': 'Zuerst Hähnchen abtropfen lassen.Die Butter zerlassen und die Hähnchenschenkel darin ringsherum rundherum anbraten. Wenn die Hähnchenschenkel eine helle Farbe bekommen haben, aus dem Topf nehmen und das Hähnchen salzen. Die Tomaten'}]

In [30]:
chef('Der beste Weg, um einen Schokoladenkuchen zuzubereiten, ist')

[{'generated_text': 'Der beste Weg, um einen Schokoladenkuchen zuzubereiten, ist, die Form zunächst etwas befeuchten, dann ein bisschen ruhen lassen. Dann die Form mit einem Teil des Weins ablöschen und etwas einkochen lassen.Die Champignons'}]

In [31]:
chef('Zuerst Hähnchen')[0]['generated_text']

'Zuerst Hähnchenbrötchen mit Butter und Mehl und der Bratensahne mischen und mit Senf bestreichen um das Schweinefilet die Temperatur zu erhöhen. Die zweite Schicht Fleisch aufschneiden und die Oberfläche mit etwas Salz und Pfeffer bestreichen. Dann'

In [32]:
chef('Zuerst Hähnchenfleisch (Knoblauch, Lauchsprossen, Paprikapulver,')

[{'generated_text': 'Zuerst Hähnchenfleisch (Knoblauch, Lauchsprossen, Paprikapulver, Thymian) und Zwiebeln klein schneiden und leicht salzen. Zwiebel und Knoblauchzehen pellen und ebenso wie den Sellerie klein schneiden, danach Knoblauch'}]