In [1]:
!pip install torch transformers datasets wandb huggingface_hub



In [2]:
import os
import torch
import json
import torch.nn.functional as F
import torch.nn as nn
import torch.optim as optim
from transformers import AutoTokenizer
import wandb


In [None]:
# WANDB SETUP
os.environ['WANDB_API_KEY'] = "xxx"
wandb.login()
run = wandb.init(
    project="my-mini-gpt",
    config={
        "learning_rate": 0.001,
        "epochs": 5,
        "batch_size": 16
    }
)


In [4]:
# CONFIGURATION
# ---------------------------
config = wandb.config

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")



In [5]:
# LOAD DATA
file_path = "C:/Users/hshakademie9/Desktop/Projekt_Hussam/GenerativeAI-Project/data/tiny_shakespeare.txt"
with open(file_path, "r", encoding="utf-8") as f:
    raw_text = f.read()


In [6]:
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokenizer.pad_token = tokenizer.eos_token  # Важно для паддинга

In [None]:
# Tokenisierung
encoded = tokenizer(raw_text, return_tensors="pt", truncation=True, padding=True, max_length=512)
input_ids = encoded["input_ids"]

 #Teilt die Daten in Trainingsfragmente auf
encoded_dataset = [
    {"input_ids": input_ids[:, i:i+128]}
    for i in range(0, input_ids.shape[1] - 128, 128)
]

In [None]:
# Funktion zur Erstellung einer Maske

def generate_square_subsequent_mask(sz):
    mask = torch.triu(torch.ones(sz, sz), diagonal=1)
    mask = mask == 0
    return mask



In [None]:
# MiniGPT Klasse
class MiniGPT(nn.Module):
    def __init__(self, vocab_size, emb_size=128, nhead=4, num_layers=2):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, emb_size)
        decoder_layer = nn.TransformerDecoderLayer(d_model=emb_size, nhead=nhead)
        self.decoder = nn.TransformerDecoder(decoder_layer, num_layers=num_layers)
        self.fc_out = nn.Linear(emb_size, vocab_size)

    def forward(self, x):
        emb = self.embedding(x)  # [batch_size, seq_len, emb_size]
        emb = emb.permute(1, 0, 2)  # [seq_len, batch_size, emb_size]
        tgt_mask = generate_square_subsequent_mask(x.size(1)).to(device)
        out = self.decoder(emb, emb, tgt_mask=tgt_mask)
        return self.fc_out(out.permute(1, 0, 2))  # [batch_size, seq_len, vocab_size]


In [10]:
# Modell erstellen
vocab_size = tokenizer.vocab_size  # Größe des Vokabulars
model = MiniGPT(vocab_size=vocab_size).to(device)  # Modell initialisieren
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)  # Optimierer


In [11]:
# Trainingsfunktion
def train(model, optimizer, epochs, encoded_dataset, batch_size):
    model.train()  # Setzt das Modell in den Trainingsmodus
    global_step = 0  # Zählt die Gesamtzahl der Schritte

    for epoch in range(epochs):
        total_loss = 0  # Gesamtverlust für diese Epoche

        for i in range(0, len(encoded_dataset), batch_size):
            batch = encoded_dataset[i:i+batch_size]  # Erhält das aktuelle Batch
            input_ids = [b['input_ids'].squeeze(0) for b in batch]  # Holt die Eingabetokens
            max_len = max([x.size(0) for x in input_ids])  # Bestimmt die maximale Länge im Batch
            input_ids = [F.pad(x, (0, max_len - x.size(0)), value=tokenizer.pad_token_id) for x in input_ids]  # Padding
            inputs = torch.stack(input_ids).to(device)  # Stapelt die Eingaben und schickt sie an das Gerät

            # Erzeugt Labels für die autoregressive Aufgabe (verschiebt die Eingaben um 1 nach rechts)
            labels = inputs.clone()
            labels[:, :-1] = inputs[:, 1:]  # Verschiebt die Eingaben um eine Position nach rechts
            labels[:, -1] = tokenizer.pad_token_id  # Das letzte Token wird als Padding markiert

            optimizer.zero_grad()  # Setzt die Gradienten auf null

            # Modellvorhersage
            outputs = model(inputs)
            logits = outputs.view(-1, outputs.size(-1))  # Flatten der Ausgaben
            labels = labels.view(-1)  # Flatten der Labels

            # Verlustberechnung
            loss = nn.CrossEntropyLoss(ignore_index=tokenizer.pad_token_id)(logits, labels)
            loss.backward()  # Backpropagation
            optimizer.step()  # Optimierer Schritt

            total_loss += loss.item()  # Hinzufügen des Verlustes zur Gesamtzahl

            # Loggt die Iteration mit W&B
            wandb.log({
                "epoch": epoch,
                "iteration": global_step,
                "loss": loss.item()
            }, step=global_step)

            global_step += 1  # Erhöht den Zähler für die Schritte

        avg_loss = total_loss / max(1, (len(encoded_dataset) // batch_size))  # Durchschnittlicher Verlust der Epoche
        wandb.log({"epoch_loss": avg_loss, "epoch": epoch}, step=global_step)  # Loggt den durchschnittlichen Verlust
        print(f"Epoch {epoch+1}/{epochs}, Loss: {avg_loss:.4f}")  # Gibt den Verlust für die Epoche aus

In [12]:
# W&B initialisieren (vor dem Training)
wandb.init(project="mini-gpt", name="run-1")


In [13]:
# Training starten
train(model, optimizer, epochs=5, encoded_dataset=encoded_dataset, batch_size=4)


Epoch 1/5, Loss: 10.9481
Epoch 2/5, Loss: 9.9774
Epoch 3/5, Loss: 9.5425
Epoch 4/5, Loss: 9.2681
Epoch 5/5, Loss: 8.9877


In [14]:
# Sicherstellen, dass das Verzeichnis existiert
model_path = "my-mini-gpt-model"
tokenizer_path = "my-mini-gpt-tokenizer"
os.makedirs(model_path, exist_ok=True)  # Verzeichnis für das Modell
os.makedirs(tokenizer_path, exist_ok=True)  # Verzeichnis für den Tokenizer


In [15]:
# Speichern der Modellgewichte
torch.save(model.state_dict(), f"{model_path}/pytorch_model.bin")

In [16]:
# Speichern der Modellkonfiguration
config = {
    "vocab_size": tokenizer.vocab_size,
    "d_model": model.embedding.embedding_dim,
    "nhead": model.decoder.layers[0].self_attn.num_heads,
    "num_layers": len(model.decoder.layers)
}
with open(f"{model_path}/config.json", "w") as f:
    json.dump(config, f)  # Speichern der Konfiguration im JSON-Format

In [17]:
# Speichern des Tokenizers
tokenizer.save_pretrained(tokenizer_path)

('my-mini-gpt-tokenizer\\tokenizer_config.json',
 'my-mini-gpt-tokenizer\\special_tokens_map.json',
 'my-mini-gpt-tokenizer\\vocab.json',
 'my-mini-gpt-tokenizer\\merges.txt',
 'my-mini-gpt-tokenizer\\added_tokens.json',
 'my-mini-gpt-tokenizer\\tokenizer.json')

In [18]:
from huggingface_hub import login, create_repo, HfApi, upload_folder

# 🔑 Einloggen mit Token (ersetze mit deinem Token, falls noch nicht eingeloggt)
login(token="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")  # Token kann auf huggingface.co/settings/tokens erhalten werden

# 📂 Repositoryname
repo_id = "altkachenko11/my-mini-gpt"
# 🗃️ Repository erstellen, falls noch nicht vorhanden
create_repo(repo_id, exist_ok=True)

# ⬆️ Modell und Tokenizer in das Repository hochladen
upload_folder(folder_path=model_path, repo_id=repo_id)
upload_folder(folder_path=tokenizer_path, repo_id=repo_id)

# 📄 Tags hinzufügen und öffentlich machen
api = HfApi()
api.update_repo_visibility(repo_id=repo_id, private=False)

pytorch_model.bin:   0%|          | 0.00/57.0M [00:00<?, ?B/s]

No files have been modified since last commit. Skipping to prevent empty commit.


{'private': False}

In [19]:
# Beendet das Logging
wandb.finish()


0,1
epoch,▁▃▅▆██
epoch_loss,█▅▃▂▁
iteration,▁▃▅▆█
loss,█▅▃▂▁

0,1
epoch,4.0
epoch_loss,8.98775
iteration,4.0
loss,8.98775


In [None]:
# Test
from transformers import AutoTokenizer, AutoModelForCausalLM

print("\n=== Testen des Modells ===")

# Laden des Modells und des Tokenizers (lokal oder von Hugging Face)
model = AutoModelForCausalLM.from_pretrained("altkachenko11/my-mini-gpt")
tokenizer = AutoTokenizer.from_pretrained("altkachenko11/my-mini-gpt")

# Textgenerierung
prompt = "Hallo, mein Name ist"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(
    **inputs,
    max_length=50,
    do_sample=True,
    top_k=50,
    temperature=0.9
)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"\nInput: {prompt}\nOutput: {generated_text}")