# Dzie≈Ñ 2 - Modu≈Ç 4: Nowoczesne modele NLP

## Cele modu≈Çu:
- Zrozumienie architektury Transformer√≥w
- Poznanie modeli BERT, GPT, T5
- Fine-tuning gotowych modeli na w≈Çasnych danych
- Praktyczne zastosowanie nowoczesnych modeli

In [None]:
# Import bibliotek
import torch
import numpy as np
import pandas as pd
from transformers import (
    AutoTokenizer, 
    AutoModel, 
    AutoModelForSequenceClassification,
    pipeline,
    Trainer,
    TrainingArguments
)
from datasets import Dataset
import matplotlib.pyplot as plt
import seaborn as sns

print("‚úÖ Biblioteki za≈Çadowane!")
print(f"PyTorch version: {torch.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")

## 4.1 Architektura Transformer√≥w i ich wp≈Çyw na NLP

### Rewolucja w NLP (2017)
Paper "Attention is All You Need" przedstawi≈Ç architekturƒô Transformer, kt√≥ra:
- ZastƒÖpi≈Ça rekurencyjne sieci (RNN/LSTM)
- Wprowadzi≈Ç mechanizm uwagi (attention)
- Umo≈ºliwi≈Ç przetwarzanie r√≥wnoleg≈Çe
- Skaluje siƒô do miliard√≥w parametr√≥w

### Kluczowe komponenty:

#### 1. Self-Attention (Samo-uwaga)
- Ka≈ºde s≈Çowo "patrzy" na wszystkie inne s≈Çowa
- Oblicza wa≈ºno≈õƒá (attention score) ka≈ºdego s≈Çowa wzglƒôdem innych
- Pozwala modelowaƒá d≈Çugodystansowe zale≈ºno≈õci

#### 2. Multi-Head Attention
- Wiele r√≥wnoleg≈Çych mechanizm√≥w uwagi
- Ka≈ºda "g≈Çowa" uczy siƒô innych aspekt√≥w relacji

#### 3. Positional Encoding
- Koduje pozycjƒô s≈Çowa w sekwencji
- Brak tego w oryginalnej architekturze (przetwarzanie r√≥wnoleg≈Çe)

#### 4. Feed-Forward Networks
- Warstwy liniowe z aktywacjƒÖ
- Przetwarzanie ka≈ºdej pozycji niezale≈ºnie

### Dlaczego Transformery wygra≈Çy?
- ‚úÖ **R√≥wnoleg≈Ço≈õƒá** - szybszy trening
- ‚úÖ **D≈Çugi kontekst** - lepsze rozumienie
- ‚úÖ **Skalowalno≈õƒá** - wiƒôksze modele = lepsza jako≈õƒá
- ‚úÖ **Transfer learning** - pre-training + fine-tuning

In [None]:
# Wizualizacja: Jak dzia≈Ça attention?
# Prosty przyk≈Çad ilustrujƒÖcy mechanizm uwagi

def simple_attention_visualization():
    """
    Prosta wizualizacja mechanizmu uwagi.
    """
    # Przyk≈Çadowe zdanie
    words = ["Kot", "siedzi", "na", "macie"]
    
    # Symulowana macierz uwagi (attention matrix)
    # Ka≈ºdy wiersz pokazuje jak dane s≈Çowo "zwraca uwagƒô" na inne s≈Çowa
    attention_matrix = np.array([
        [0.7, 0.1, 0.1, 0.1],  # "Kot" zwraca uwagƒô g≈Ç√≥wnie na siebie
        [0.3, 0.5, 0.1, 0.1],  # "siedzi" zwraca uwagƒô na "Kot" i siebie
        [0.1, 0.2, 0.4, 0.3],  # "na" ≈ÇƒÖczy "siedzi" z "macie"
        [0.2, 0.1, 0.2, 0.5],  # "macie" zwraca uwagƒô g≈Ç√≥wnie na siebie
    ])
    
    # Wizualizacja
    plt.figure(figsize=(8, 6))
    sns.heatmap(attention_matrix, 
                xticklabels=words, 
                yticklabels=words,
                annot=True, 
                fmt='.2f',
                cmap='YlOrRd',
                cbar_kws={'label': 'Attention Score'})
    plt.title('Attention Matrix - "Kot siedzi na macie"', fontsize=14)
    plt.xlabel('S≈Çowa (Key)')
    plt.ylabel('S≈Çowa (Query)')
    plt.tight_layout()
    plt.show()
    
    print("\nüìä Interpretacja:")
    print("- Ja≈õniejsze kolory = silniejsza uwaga")
    print("- 'siedzi' zwraca du≈ºƒÖ uwagƒô na 'Kot' (podmiot czasownika)")
    print("- 'na' ≈ÇƒÖczy czasownik z dope≈Çnieniem")

simple_attention_visualization()

## 4.2 Model BERT (Bidirectional Encoder Representations from Transformers)

### Charakterystyka BERT:
- **Bidirectional** - czyta tekst w obu kierunkach jednocze≈õnie
- **Encoder-only** - tylko czƒô≈õƒá enkoder z Transformera
- **Pre-training** - uczony na ogromnych korpusach tekstu
- **Fine-tuning** - ≈Çatwo adaptowaƒá do konkretnych zada≈Ñ

### Pre-training BERT:
1. **Masked Language Modeling (MLM)**
   - 15% s≈Ç√≥w jest maskowanych [MASK]
   - Model pr√≥buje odgadnƒÖƒá zamaskowane s≈Çowa
   - Przyk≈Çad: "Kot siedzi na [MASK]" ‚Üí "macie"

2. **Next Sentence Prediction (NSP)**
   - Czy zdanie B nastƒôpuje po zdaniu A?
   - Pomaga w zadaniach wymagajƒÖcych rozumienia relacji miƒôdzy zdaniami

### Warianty BERT:
- **BERT-base**: 110M parametr√≥w
- **BERT-large**: 340M parametr√≥w
- **RoBERTa**: Ulepszona wersja BERT
- **DistilBERT**: Mniejsza, szybsza wersja
- **HerBERT**: Specjalnie dla jƒôzyka polskiego

In [None]:
# Przyk≈Çad 1: BERT - Fill-Mask (uzupe≈Çnianie brakujƒÖcych s≈Ç√≥w)
print("=== BERT: FILL-MASK ===")

# Model angielski
fill_mask = pipeline("fill-mask", model="bert-base-uncased")

# Przyk≈Çady
examples = [
    "Paris is the [MASK] of France.",
    "The [MASK] is shining brightly in the sky.",
    "I love to [MASK] music.",
]

for example in examples:
    print(f"\nZdanie: {example}")
    results = fill_mask(example, top_k=3)
    print("Top 3 predykcje:")
    for i, result in enumerate(results, 1):
        print(f"  {i}. {result['token_str']:15} (score: {result['score']:.4f})")

In [None]:
# Przyk≈Çad 2: BERT Embeddings - reprezentacja wektorowa tekstu
print("\n=== BERT: EMBEDDINGS ===")

model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)

# Tekst do zakodowania
texts = [
    "I love natural language processing.",
    "I enjoy working with NLP.",
    "The weather is nice today."
]

# Funkcja do uzyskania embedding√≥w
def get_bert_embeddings(text):
    # Tokenizacja
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    
    # Forward pass
    with torch.no_grad():
        outputs = model(**inputs)
    
    # U≈ºyj [CLS] token embedding jako reprezentacji ca≈Çego zdania
    cls_embedding = outputs.last_hidden_state[:, 0, :]
    return cls_embedding

# Uzyskaj embeddingi
embeddings = [get_bert_embeddings(text) for text in texts]

print(f"\nShape embeddingu: {embeddings[0].shape}")
print(f"Ka≈ºdy tekst reprezentowany przez wektor {embeddings[0].shape[1]} liczb")

# Oblicz podobie≈Ñstwo cosinusowe
from torch.nn.functional import cosine_similarity

print("\n=== PODOBIE≈ÉSTWA ===")
sim_1_2 = cosine_similarity(embeddings[0], embeddings[1]).item()
sim_1_3 = cosine_similarity(embeddings[0], embeddings[2]).item()
sim_2_3 = cosine_similarity(embeddings[1], embeddings[2]).item()

print(f"Tekst 1 <-> Tekst 2: {sim_1_2:.4f}")
print(f"Tekst 1 <-> Tekst 3: {sim_1_3:.4f}")
print(f"Tekst 2 <-> Tekst 3: {sim_2_3:.4f}")
print("\nüí° Teksty 1 i 2 sƒÖ najbardziej podobne (oba o NLP)!")

## 4.3 Model GPT (Generative Pre-trained Transformer)

### Charakterystyka GPT:
- **Autoregressive** - generuje tekst s≈Çowo po s≈Çowie
- **Decoder-only** - tylko czƒô≈õƒá dekoder z Transformera
- **Causal attention** - ka≈ºde s≈Çowo widzi tylko poprzednie s≈Çowa
- **Few-shot learning** - mo≈ºe uczyƒá siƒô z kilku przyk≈Çad√≥w

### Ewolucja GPT:
- **GPT-1** (2018): 117M parametr√≥w
- **GPT-2** (2019): 1.5B parametr√≥w
- **GPT-3** (2020): 175B parametr√≥w
- **GPT-3.5** (2022): Podstawa ChatGPT
- **GPT-4** (2023): Multimodal, jeszcze potƒô≈ºniejszy

### Pre-training GPT:
- **Causal Language Modeling**
- Przewidywanie nastƒôpnego s≈Çowa
- Przyk≈Çad: "Kot siedzi na" ‚Üí "macie"

### BERT vs GPT:

| Aspekt | BERT | GPT |
|--------|------|-----|
| Architektura | Encoder | Decoder |
| Kierunek | Bidirectional | Unidirectional (left-to-right) |
| Pre-training | MLM, NSP | Causal LM |
| G≈Ç√≥wne zastosowanie | Rozumienie | Generowanie |
| Kontekst | Ca≈Çe zdanie | Poprzednie s≈Çowa |

In [None]:
# Przyk≈Çad: GPT-2 - generowanie tekstu
print("=== GPT-2: GENEROWANIE TEKSTU ===")

generator = pipeline("text-generation", model="gpt2")

prompts = [
    "Artificial intelligence will",
    "In the future, technology",
    "Natural language processing is",
]

for prompt in prompts:
    print(f"\n{'='*60}")
    print(f"Prompt: {prompt}")
    print("-" * 60)
    
    results = generator(
        prompt,
        max_length=50,
        num_return_sequences=2,
        temperature=0.8,  # Kontrola "kreatywno≈õci" (0 = deterministyczne, 1+ = kreatywne)
        do_sample=True
    )
    
    for i, result in enumerate(results, 1):
        print(f"\nWersja {i}:")
        print(result['generated_text'])

## 4.4 Model T5 (Text-to-Text Transfer Transformer)

### Filozofia T5:
- **Wszystko jako Text-to-Text**
- Ka≈ºde zadanie NLP to przekszta≈Çcenie tekstu na tekst
- Uniwersalny format treningowy

### Przyk≈Çady zada≈Ñ:
- **T≈Çumaczenie**: "translate English to German: Hello" ‚Üí "Hallo"
- **Podsumowanie**: "summarize: [d≈Çugi tekst]" ‚Üí [kr√≥tki tekst]
- **Klasyfikacja**: "sentiment: This is great!" ‚Üí "positive"

### Architektura:
- **Encoder-Decoder** (pe≈Çny Transformer)
- Po≈ÇƒÖczenie zalet BERT i GPT
- Encoder rozumie, Decoder generuje

### Warianty:
- **T5-small**: 60M parametr√≥w
- **T5-base**: 220M parametr√≥w
- **T5-large**: 770M parametr√≥w
- **T5-3B/11B**: Najwiƒôksze wersje

In [None]:
# Przyk≈Çad: T5 - r√≥≈ºne zadania
print("=== T5: TEXT-TO-TEXT ===")

# Podsumowanie
summarizer = pipeline("summarization", model="t5-small")

long_text = """
Natural language processing (NLP) is a subfield of linguistics, computer science, 
and artificial intelligence concerned with the interactions between computers and 
human language. It involves programming computers to process and analyze large 
amounts of natural language data. Challenges in NLP frequently involve speech 
recognition, natural language understanding, and natural language generation. 
Modern NLP techniques are based on machine learning, especially deep learning.
"""

print("\n--- PODSUMOWANIE ---")
summary = summarizer(long_text, max_length=50, min_length=20)
print(f"Orygina≈Ç ({len(long_text.split())} s≈Ç√≥w):")
print(long_text.strip())
print(f"\nPodsumowanie:")
print(summary[0]['summary_text'])

In [None]:
# T5 - T≈Çumaczenie (je≈õli dostƒôpny model)
try:
    translator = pipeline("translation_en_to_de", model="t5-small")
    
    print("\n--- T≈ÅUMACZENIE (EN -> DE) ---")
    english_text = "Hello, how are you today?"
    translation = translator(english_text)
    print(f"English: {english_text}")
    print(f"German: {translation[0]['translation_text']}")
except Exception as e:
    print(f"\n‚ö†Ô∏è T≈Çumaczenie niedostƒôpne: {e}")

## 4.5 Fine-tuning gotowych modeli na w≈Çasnych danych

### Co to jest Fine-tuning?
- Dostosowanie pre-trenowanego modelu do konkretnego zadania
- Du≈ºo szybsze i ta≈Ñsze ni≈º trening od zera
- Wymaga mniej danych ni≈º trening od podstaw

### Kroki fine-tuningu:
1. Wyb√≥r pre-trenowanego modelu
2. Przygotowanie danych treningowych
3. Konfiguracja parametr√≥w treningu
4. Trening (fine-tuning)
5. Ewaluacja
6. Zapisanie i wdro≈ºenie modelu

### Kiedy fine-tunowaƒá?
- ‚úÖ Masz specyficznƒÖ domenƒô (medycyna, prawo, finanse)
- ‚úÖ Masz etykietowane dane treningowe
- ‚úÖ Og√≥lne modele nie dajƒÖ wystarczajƒÖcej jako≈õci
- ‚úÖ Potrzebujesz specyficznego formatu wyj≈õcia

In [None]:
# Przyk≈Çad: Fine-tuning BERT do klasyfikacji sentymentu
print("=== FINE-TUNING: KLASYFIKACJA SENTYMENTU ===")

# 1. Przygotowanie danych
train_data = [
    {"text": "This product is amazing! I love it!", "label": 1},
    {"text": "Terrible experience. Never buying again.", "label": 0},
    {"text": "Great quality and fast shipping.", "label": 1},
    {"text": "Worst purchase ever. Completely broken.", "label": 0},
    {"text": "Absolutely fantastic! Highly recommend!", "label": 1},
    {"text": "Poor quality. Very disappointed.", "label": 0},
    {"text": "Excellent product. Worth every penny.", "label": 1},
    {"text": "Waste of money. Don't buy this.", "label": 0},
]

# Konwersja do Dataset
dataset = Dataset.from_list(train_data)

print("Dataset:")
print(dataset)
print(f"\nPrzyk≈Çad: {dataset[0]}")

In [None]:
# 2. Przygotowanie modelu i tokenizera
model_name = "distilbert-base-uncased"  # Mniejszy, szybszy BERT
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name, 
    num_labels=2  # binary classification
)

print(f"\n‚úÖ Model za≈Çadowany: {model_name}")
print(f"Parametry: {sum(p.numel() for p in model.parameters()):,}")

In [None]:
# 3. Tokenizacja danych
def tokenize_function(examples):
    return tokenizer(
        examples["text"], 
        padding="max_length", 
        truncation=True,
        max_length=128
    )

tokenized_dataset = dataset.map(tokenize_function, batched=True)

print("\n‚úÖ Dane ztokenizowane")
print(f"Kolumny: {tokenized_dataset.column_names}")

In [None]:
# 4. Konfiguracja treningu
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    warmup_steps=10,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    save_strategy="no",  # Nie zapisuj checkpoint√≥w (dla demonstracji)
)

# 5. Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset,
)

print("\n‚úÖ Trainer skonfigurowany")
print("\n‚ö†Ô∏è W prawdziwym projekcie teraz uruchomiliby≈õmy: trainer.train()")
print("(Pomijamy trening w demonstracji ze wzglƒôdu na czas)")

# W prawdziwym scenariuszu:
# trainer.train()
# model.save_pretrained("./my_finetuned_model")

In [None]:
# 6. Testowanie (z pre-trenowanym modelem)
# U≈ºyjmy gotowego fine-tunowanego modelu do sentymentu
print("\n=== TESTOWANIE FINE-TUNOWANEGO MODELU ===")

sentiment_pipeline = pipeline(
    "sentiment-analysis",
    model="distilbert-base-uncased-finetuned-sst-2-english"
)

test_texts = [
    "This is absolutely wonderful!",
    "I hate this product.",
    "It's okay, nothing special.",
]

for text in test_texts:
    result = sentiment_pipeline(text)[0]
    print(f"\nText: {text}")
    print(f"  ‚Üí {result['label']}: {result['score']:.4f}")

## ƒÜwiczenie praktyczne

### Zadanie:
1. Wybierz pre-trenowany model (BERT, GPT, T5)
2. U≈ºyj go do konkretnego zadania:
   - BERT: Klasyfikacja lub ekstrakcja informacji
   - GPT: Generowanie tekstu
   - T5: Podsumowanie lub t≈Çumaczenie
3. Eksperymentuj z r√≥≈ºnymi parametrami
4. Por√≥wnaj wyniki r√≥≈ºnych modeli

In [None]:
# MIEJSCE NA TW√ìJ KOD
# Eksperymentuj z r√≥≈ºnymi modelami!

print("üí° Wskaz√≥wki:")
print("- U≈ºyj Hugging Face Model Hub: https://huggingface.co/models")
print("- Szukaj modeli dla swojego jƒôzyka (np. 'polish bert')")
print("- Sprawd≈∫ dokumentacjƒô modelu przed u≈ºyciem")
print("- Eksperymentuj z parametrami (temperature, max_length, etc.)")

## Podsumowanie Modu≈Çu 4

‚úÖ Zrozumieli≈õmy architekturƒô Transformer√≥w i mechanizm attention

‚úÖ Poznali≈õmy g≈Ç√≥wne modele: BERT (rozumienie), GPT (generowanie), T5 (text-to-text)

‚úÖ Nauczyli≈õmy siƒô u≈ºywaƒá pre-trenowanych modeli

‚úÖ Poznali≈õmy proces fine-tuningu w≈Çasnych modeli

‚úÖ Wykonali≈õmy praktyczne przyk≈Çady z ka≈ºdym typem modelu

### Kluczowe r√≥≈ºnice:

| Model | Architektura | Zastosowanie | Kierunek |
|-------|-------------|--------------|----------|
| BERT | Encoder | Rozumienie, klasyfikacja | Bidirectional |
| GPT | Decoder | Generowanie | Unidirectional |
| T5 | Encoder-Decoder | Uniwersalne | Both |

---

**Nastƒôpny krok**: Modu≈Ç 5 - Generowanie i rozumienie tekstu w praktyce