# Mini-projekt NLP w PyTorch
Ten notatnik pokazuje najważniejsze koncepcje związane z przetwarzaniem języka naturalnego (NLP) w PyTorch na bardzo małym, sztucznym zbiorze danych. Przechodzimy przez cały proces: od przygotowania tekstu i budowy słownika, przez kodowanie sekwencji, aż po trenowanie prostej sieci RNN i wykonywanie prognoz.

## 1. Importy i ustawienia
Zaczynamy od zaimportowania PyTorcha i kilku pomocniczych bibliotek. Ustawiamy także ziarno losowe, aby wyniki były powtarzalne.

In [None]:
import torch
from torch import nn, optim
from torch.utils.data import Dataset, DataLoader

import numpy as np
import random

SEED = 42
random.seed(SEED)
np.random.seed(SEED)
torch.manual_seed(SEED)


## 2. Mini zbiór danych
Dla przejrzystości wykorzystamy niewielki, ręcznie przygotowany zbiór zdań oznaczonych etykietami `1` (pozytywne) lub `0` (negatywne). Dzięki temu możemy szybko podejrzeć cały zbiór i łatwiej zrozumieć każdy krok przygotowania danych.

In [None]:
samples = [
    ("kocham ten film", 1),
    ("uwielbiam tę książkę", 1),
    ("ten kurs jest świetny", 1),
    ("co za wspaniały dzień", 1),
    ("jestem zachwycony", 1),
    ("nienawidzę tej gry", 0),
    ("to był stracony czas", 0),
    ("film był okropny", 0),
    ("jestem rozczarowany", 0),
    ("fatalna obsługa", 0)
]

for text, label in samples:
    print(f"{label} -> {text}")


## 3. Budowa słownika (vocabulary)
Modelom NLP trudno pracować bezpośrednio na surowych słowach. Potrzebujemy mapowania słów na liczby całkowite. Budujemy słownik zawierający:

- `PAD` – specjalny token wypełniający (używany przy wyrównywaniu długości sekwencji),
- `UNK` – token dla słów nieznanych (gdyby pojawiły się inne słowa w nowych zdaniach),
- wszystkie słowa z naszego mini zbioru.

Tokenizacja będzie bardzo prosta – rozdzielamy słowa po spacjach i zamieniamy na małe litery.

In [None]:
from collections import Counter

def tokenize(text):
    return text.lower().split()

counter = Counter()
for text, _ in samples:
    counter.update(tokenize(text))

vocab = {"<PAD>": 0, "<UNK>": 1}
for word in counter:
    vocab[word] = len(vocab)

inverse_vocab = {idx: word for word, idx in vocab.items()}

print("Rozmiar słownika:", len(vocab))
print(vocab)


## 4. Kodowanie i wyrównywanie sekwencji
Każde zdanie zamieniamy na listę indeksów słów. Następnie wyrównujemy długość sekwencji do stałej wartości `MAX_LEN`, dopełniając krótsze zdania tokenem `<PAD>`. Dzięki temu możemy umieścić dane w jednej macierzy tensora.

W razie napotkania nieznanego słowa skorzystamy z `UNK`, choć w tym przykładzie wszystkie słowa są znane.

In [None]:
MAX_LEN = 5

def encode(text, vocab, max_len):
    tokens = tokenize(text)
    ids = [vocab.get(tok, vocab["<UNK>"]) for tok in tokens]
    if len(ids) < max_len:
        ids += [vocab["<PAD>"]] * (max_len - len(ids))
    else:
        ids = ids[:max_len]
    return ids

encoded_texts = [encode(text, vocab, MAX_LEN) for text, _ in samples]
labels = [label for _, label in samples]

print("Przykładowa sekwencja:", encoded_texts[0], "=", [inverse_vocab[idx] for idx in encoded_texts[0]])


## 5. Dataset i DataLoader
Korzystamy ze standardowej struktury PyTorch: tworzymy klasę `Dataset`, która zwraca pary `(tensor_wejściowy, etykieta)`. Następnie pakujemy dane w `DataLoader`, aby łatwo iterować po mini-batchach podczas treningu.

In [None]:
class SentimentDataset(Dataset):
    def __init__(self, encoded_texts, labels):
        self.encoded = torch.tensor(encoded_texts, dtype=torch.long)
        self.labels = torch.tensor(labels, dtype=torch.float32)

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        return self.encoded[idx], self.labels[idx]

full_dataset = SentimentDataset(encoded_texts, labels)

# Prosty podział: 8 przykładów treningowych, 2 testowe
train_dataset, test_dataset = torch.utils.data.random_split(full_dataset, [8, 2], generator=torch.Generator().manual_seed(SEED))

train_loader = DataLoader(train_dataset, batch_size=4, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=2)

print('Rozmiar zbioru treningowego:', len(train_dataset))
print('Rozmiar zbioru testowego:', len(test_dataset))


## 6. Model RNN
Model składa się z trzech elementów:
1. `nn.Embedding` – zamienia indeksy słów na gęste wektory (embeddingi).
2. `nn.RNN` – przetwarza sekwencję i zwraca stany ukryte.
3. `nn.Linear` + `nn.Sigmoid` – mapuje ostatni stan ukryty na prawdopodobieństwo klasy `1`.

Utrzymujemy model możliwie prosty, aby skupić się na przepływie danych i interpretacji wyników.

In [None]:
class SimpleSentimentRNN(nn.Module):
    def __init__(self, vocab_size, embed_dim=16, hidden_size=32):
        super().__init__()
        self.embedding = nn.Embedding(num_embeddings=vocab_size, embedding_dim=embed_dim, padding_idx=0)
        self.rnn = nn.RNN(input_size=embed_dim, hidden_size=hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        embedded = self.embedding(x)
        output, hidden = self.rnn(embedded)
        # hidden ma kształt (num_layers, batch, hidden_size)
        last_hidden = hidden[-1]
        logits = self.fc(last_hidden)
        probs = self.sigmoid(logits)
        return probs.squeeze(1)

model = SimpleSentimentRNN(vocab_size=len(vocab))
model


## 7. Trening
Używamy binarnej funkcji straty (`BCELoss`) oraz optymalizatora Adam. Ponieważ danych jest mało, wystarczy kilkanaście epok, aby model nauczył się prostych reguł. W każdej epoce wypisujemy stratę i dokładność na zbiorze treningowym.

In [None]:
criterion = nn.BCELoss()
optimizer = optim.Adam(model.parameters(), lr=0.01)

EPOCHS = 20
for epoch in range(1, EPOCHS + 1):
    model.train()
    epoch_loss = 0.0
    correct = 0
    total = 0

    for inputs, targets in train_loader:
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs, targets)
        loss.backward()
        optimizer.step()

        epoch_loss += loss.item() * inputs.size(0)
        preds = (outputs >= 0.5).float()
        correct += (preds == targets).sum().item()
        total += targets.size(0)

    avg_loss = epoch_loss / total
    acc = correct / total
    print(f"Epoka {epoch:02d} | Strata: {avg_loss:.4f} | Dokładność: {acc:.2f}")


## 8. Ewaluacja na zbiorze testowym
Sprawdzamy, jak model radzi sobie na dwóch przykładach testowych, które nie brały udziału w treningu.

In [None]:
model.eval()
test_correct = 0
test_total = 0

with torch.no_grad():
    for inputs, targets in test_loader:
        outputs = model(inputs)
        preds = (outputs >= 0.5).float()
        test_correct += (preds == targets).sum().item()
        test_total += targets.size(0)

print(f'Dokładność na teście: {test_correct / test_total:.2f} ({test_correct}/{test_total})')


## 9. Predykcje dla nowych zdań
Przygotowujemy pomocniczą funkcję, która przyjmuje tekst, koduje go tak jak wcześniej, a następnie zwraca prawdopodobieństwo klasy pozytywnej. Dzięki temu możemy szybko sprawdzić, jak model reaguje na nowe wypowiedzi.

In [None]:
def predict_sentiment(model, text):
    model.eval()
    encoded = torch.tensor([encode(text, vocab, MAX_LEN)], dtype=torch.long)
    with torch.no_grad():
        prob = model(encoded).item()
    return prob

examples = [
    "kocham tę grę",
    "co za fatalny dzień",
    "jestem bardzo zadowolony",
    "strasznie nudny film"
]

for sentence in examples:
    prob = predict_sentiment(model, sentence)
    print(f"{sentence!r} -> prawdopodobieństwo klasy pozytywnej: {prob:.2f}")


## 10. Podsumowanie
W tym mini-projekcie omówiliśmy podstawowy przepływ pracy w NLP z użyciem PyTorcha:

1. **Przygotowanie danych** – tokenizacja, budowa słownika, kodowanie i wyrównanie sekwencji.
2. **Struktura danych w PyTorch** – `Dataset` i `DataLoader` ułatwiają iterację po mini-batchach.
3. **Model** – `Embedding` + `RNN` + warstwa gęsta generująca prawdopodobieństwo klasy.
4. **Trening i ewaluacja** – klasyczna pętla treningowa z funkcją straty `BCELoss` oraz pomiarem dokładności.
5. **Predykcje** – prosty interfejs do oceniania nowych zdań.

Chociaż przykład jest niewielki, przedstawia wszystkie najważniejsze elementy pipeline'u NLP. Przy większych projektach wystarczy wymienić zbiór danych, rozszerzyć preprocessing (np. usuwanie znaków, stemming), zastosować bogatszą architekturę (GRU/LSTM/Transformer) i zwiększyć rozmiar embeddingów.