# 🤖 Fine-tuning Babišova stylu - Zjednodušená verze

Tento notebook používá externí moduly pro lepší organizaci kódu.

## 📁 Struktura modulů:
- `colab_config.py` - Konfigurace
- `colab_dataset_loader.py` - Načítání datasetu
- `colab_model_setup.py` - Nastavení modelu a LoRA
- `colab_training.py` - Trénování
- `colab_utils.py` - Pomocné funkce

## 📦 Instalace a setup

In [None]:
# Import modulů
from colab_config import create_config
from colab_dataset_loader import create_babis_dataset, tokenize_dataset
from colab_model_setup import load_tokenizer, load_model, setup_lora
from colab_training import setup_wandb, create_training_args, create_trainer, train_model
from colab_utils import setup_environment, check_gpu, install_requirements, save_model, generate_sample

print("✅ Všechny moduly načteny!")

In [None]:
# Nastavení prostředí
setup_environment()
check_gpu()

In [None]:
# Instalace knihoven
install_requirements()

## ⚙️ Konfigurace

In [None]:
# Vytvoření konfigurace
config = create_config()

## 📊 Příprava datasetu

In [None]:
# Načtení datasetu
dataset = create_babis_dataset()
print(f"\nDataset načten:")
print(f"Train samples: {len(dataset['train'])}")
print(f"Validation samples: {len(dataset['validation'])}")
print(f"\nPříklad dat:")
print(dataset['train'][0])

## 🤖 Načtení modelu a tokenizeru

In [None]:
# Načtení tokenizeru
tokenizer = load_tokenizer(config)

In [None]:
# Načtení modelu
model = load_model(config)

## 🎯 Nastavení LoRA

In [None]:
# Nastavení LoRA
model = setup_lora(model, config)

## 🔤 Tokenizace datasetu

In [None]:
# Tokenizace datasetu
tokenized_dataset = tokenize_dataset(dataset, tokenizer, config)

## 🏋️ Fine-tuning

In [None]:
# Nastavení Weights & Biases
wandb_available = setup_wandb(config)

In [None]:
# Vytvoření training arguments
training_args = create_training_args(config, wandb_available)

In [None]:
# Vytvoření traineru
trainer = create_trainer(model, tokenized_dataset, training_args)

In [None]:
# Spuštění trénování
trainer = train_model(trainer)

## 💾 Uložení modelu

In [None]:
# Uložení modelu
save_model(trainer, config)

## 🧪 Testování modelu

In [None]:
# Testovací prompty
test_prompts = [
    "Uživatel: Jaký je váš názor na inflaci?\nAndrej Babiš:",
    "Uživatel: Co si myslíte o opozici?\nAndrej Babiš:",
    "Uživatel: Jak hodnotíte současnou situaci v Bruselu?\nAndrej Babiš:"
]

print("🧪 Testování natrénovaného modelu:")
for prompt in test_prompts:
    generate_sample(model, tokenizer, prompt)
    print("-" * 50)