# Cross Validation z PyTorch

Ten krótki przykład pokazuje, jak przeprowadzić walidację krzyżową na prostym zbiorze danych i modelu w PyTorch.

## Co będziemy robić?
1. Wygenerujemy syntetyczny zbiór danych binarnej klasyfikacji.
2. Zbudujemy małą sieć neuronową w PyTorch.
3. Użyjemy `KFold` i pętli treningowej, aby policzyć wyniki dla każdego folda.

In [1]:
import math
import numpy as np
import torch
from torch import nn
from torch.utils.data import TensorDataset, DataLoader, Subset
from sklearn.datasets import make_classification
from sklearn.model_selection import KFold

torch.manual_seed(42)
np.random.seed(42)

## Przygotowanie danych
Tworzymy prosty zbiór danych 2D i konwertujemy go do tensora, aby móc korzystać z `DataLoader`.

In [2]:
X, y = make_classification(
    n_samples=1000,
    n_features=4,
    n_informative=3,
    n_redundant=0,
    n_clusters_per_class=1,
    class_sep=1.5,
    random_state=42,
)

tensor_x = torch.from_numpy(X).float()
tensor_y = torch.from_numpy(y).float().unsqueeze(1)

dataset = TensorDataset(tensor_x, tensor_y)
print(f"Liczba przykładów: {len(dataset)}")

Liczba przykładów: 1000


## Model i funkcje pomocnicze
Definiujemy prostą sieć z dwoma warstwami w pełni połączonymi oraz pętlę uczącą jednego folda.

In [3]:
def create_model(input_dim: int) -> nn.Module:
    return nn.Sequential(
        nn.Linear(input_dim, 16),
        nn.ReLU(),
        nn.Linear(16, 1),
    )


def train_one_fold(train_loader: DataLoader, val_loader: DataLoader, epochs: int = 15, lr: float = 1e-2):
    model = create_model(train_loader.dataset[0][0].shape[0])
    criterion = nn.BCEWithLogitsLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)

    for epoch in range(epochs):
        model.train()
        for xb, yb in train_loader:
            optimizer.zero_grad()
            logits = model(xb)
            loss = criterion(logits, yb)
            loss.backward()
            optimizer.step()

    model.eval()
    total, correct = 0, 0
    with torch.no_grad():
        for xb, yb in val_loader:
            logits = model(xb)
            preds = (torch.sigmoid(logits) > 0.5).float()
            correct += (preds == yb).sum().item()
            total += yb.size(0)

    accuracy = correct / total
    return accuracy

## Walidacja krzyżowa
Dzielimy zbiór danych na 5 foldów i zapisujemy wyniki dla każdej iteracji.

In [5]:
k = 5
batch_size = 64
kfold = KFold(n_splits=k, shuffle=True, random_state=42)

fold_scores = []
for fold, (train_idx, val_idx) in enumerate(kfold.split(np.arange(len(dataset))), start=1):
    train_subset = Subset(dataset, train_idx.tolist())
    val_subset = Subset(dataset, val_idx.tolist())

    train_loader = DataLoader(train_subset, batch_size=batch_size, shuffle=True)
    val_loader = DataLoader(val_subset, batch_size=batch_size)

    acc = train_one_fold(train_loader, val_loader)
    fold_scores.append(acc)
    print(f"Fold {fold}: accuracy = {acc:.3f}")

mean_acc = sum(fold_scores) / len(fold_scores)
print(f"Średnia dokładność z {k} foldów: {mean_acc:.3f}")

Fold 1: accuracy = 0.965
Fold 2: accuracy = 0.990
Fold 3: accuracy = 0.975
Fold 4: accuracy = 0.995
Fold 5: accuracy = 0.985
Średnia dokładność z 5 foldów: 0.982
