In [37]:
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, TensorDataset
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
import pandas as pd
import numpy as np
import plotly.graph_objs as go
import plotly.express as px

<a id="model-def"></a>
# <a id='toc10_'></a>[<b><span style='color:darkorange'>Step 1.1 |</span><span style='color:#1E3A8A'> Preparing Data</span></b>](#toc0_)

In [3]:
# Wczytanie i przygotowanie danych (Boston Housing Dataset)
housing = fetch_california_housing()
X = pd.DataFrame(housing.data, columns=housing.feature_names)
y = pd.Series(housing.target, name='PRICE')

# Skalowanie danych
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Podzia≈Ç na zbi√≥r treningowy i testowy
X_train, X_val, y_train, y_val = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

In [None]:
# Konwersja do tensor√≥w
X_train_tensor = torch.tensor(X_train, dtype=torch.float32)
# view(-1,1) zamienia tensor [N] mna [N,1] bo mse_loss potrzebuje 2D
# -1 m√≥wi - nie martw siƒô ile jest wiersz, zr√≥b z tego kolumnƒô
y_train_tensor = torch.tensor(y_train.values, dtype=torch.float32).view(-1, 1)
X_val_tensor = torch.tensor(X_val, dtype=torch.float32)
y_val_tensor = torch.tensor(y_val.values, dtype=torch.float32).view(-1, 1)

train_ds = TensorDataset(X_train_tensor, y_train_tensor)
val_ds = TensorDataset(X_val_tensor,y_val_tensor)

batch_size = 64
train_loader = DataLoader(train_ds, batch_size, shuffle=True)
val_loader = DataLoader(val_ds, batch_size)


In [None]:
train_ds[3] # Zwraca X i y dla 3 pr√≥bki train_ds[3] -> (X[3], y[3])

(tensor([-1.0149,  0.5849, -0.5764, -0.1327, -0.0066,  0.0889, -1.3773,  1.2277]),
 tensor([0.9340]))



## üß† Co to jest **batch**?

### üëâ **Batch** = porcja danych przetwarzana naraz przez model

Gdy uczysz sieƒá neuronowƒÖ, mo≈ºesz:
- trenowaƒá na **ca≈Çym zbiorze danych na raz** (‚Üí _batch gradient descent_) ‚ùå NIEOPTYMALNE
- trenowaƒá na **pojedynczych przyk≈Çadach** (‚Üí _stochastic gradient descent_) ‚ùå niestabilne
- trenowaƒá na **ma≈Çych grupach (batchach)** danych (‚Üí _mini-batch gradient descent_) ‚úÖ NAJCZƒòSTSZE


## üî¢ Przyk≈Çad

Masz 1000 pr√≥bek (np. mieszka≈Ñ):  
Je≈õli `batch_size = 64`, to dane bƒôdƒÖ dzielone tak:

| Nr batcha | Indeksy pr√≥bek       |
|-----------|-----------------------|
| 1         | 0‚Äì63                  |
| 2         | 64‚Äì127                |
| ...       | ...                   |
| 16        | 960‚Äì999 (ostatni)     |

‚û°Ô∏è **Model widzi po 64 pr√≥bki na raz, a potem aktualizuje wagi.**


## üì¶ Co robi ten kod?

```python
train_ds = TensorDataset(X_train_tensor, y_train_tensor)
val_ds = TensorDataset(X_val_tensor, y_val_tensor)
```

### ‚úÖ `TensorDataset(...)`

To prosty kontener, kt√≥ry przechowuje:
- dane wej≈õciowe (X)
- etykiety wyj≈õciowe (y)

Ka≈ºdy element `train_ds[i]` to tuple `(X[i], y[i])`.


```python
train_loader = DataLoader(train_ds, batch_size=64, shuffle=True)
val_loader = DataLoader(val_ds, batch_size=64)
```

### ‚úÖ `DataLoader(...)`

To **automat do dzielenia danych na batch'e**.   
- dzieli dane na batch'e

- mo≈ºe je przemieszaƒá (shuffle=True)

- daje kolejne porcje (mini-batche) do treningu

| Parametr | Znaczenie |
|----------|-----------|
| `train_ds` | Z jakiego zbioru ma braƒá dane |
| `batch_size=64` | Ile pr√≥bek w jednym batchu |
| `shuffle=True` | Czy losowaƒá kolejno≈õƒá przed ka≈ºdƒÖ epokƒÖ (wa≈ºne dla treningu) |


## üîÑ Co siƒô dzieje w `train_loop(...)`

```python
for batch in train_loader:
    X, y = batch
    pred = model(X)
    ...
```

Tutaj **ka≈ºdy `batch` to tuple (X, y)** z rozmiarem:

```python
X.shape = [64, liczba_cech]
y.shape = [64, 1]
```

Dlatego model trenuje siƒô szybciej, stabilniej i wykorzystuje lepiej GPU/CPU.


## üîç Por√≥wnanie r√≥≈ºnych `batch_size`:

| `batch_size` | Czas uczenia | Stabilno≈õƒá | Wymagania RAM/GPU |
|--------------|--------------|------------|--------------------|
| 1 (SGD)      | wolny        | chaotyczny | niski              |
| 16‚Äì64        | szybki       | stabilny   | ≈õredni             |
| 512‚Äì1024     | szybki       | mniej stabilny | wysoki         |

üß† **64** to typowa warto≈õƒá startowa.







### ‚úÖ batch = tuple dw√≥ch tensor√≥w:

| Nazwa | Typ | Rozmiar |
|-------|-----|---------|
| `X`   | `torch.Tensor` | `[batch_size, liczba_cech]` |
| `y`   | `torch.Tensor` | `[batch_size, 1]` lub `[batch_size]` |


### üß† Analogicznie:

| Kod | Co zwraca |
|-----|-----------|
| `train_ds[0]` | `(X[0], y[0])` ‚Äî pojedyncza pr√≥bka |
| `next(iter(train_loader))` | `(X_batch, y_batch)` ‚Äî batch danych (np. 64 pr√≥bek) |



> Czyli X to jest jeden tensor kt√≥ry zawiera dane dla 64 pr√≥bek i 8 cech (pojedyncza warto≈õƒá w ka≈ºdej tablicy tensora)

In [25]:
for batch in train_loader:
    X, y = batch
    print(len(batch))
    print(X)
    print('----')
    print(y)
    break  # dla pierwszego batcha

2
tensor([[ 4.9107e-01,  5.8485e-01,  8.7154e-02, -3.7258e-01, -2.8300e-01,
         -2.5591e-03, -7.8742e-01,  7.2858e-01],
        [ 1.3629e+00, -1.0838e+00,  9.6338e-01, -1.5745e-01, -5.0200e-01,
          7.7105e-03,  1.1415e+00, -1.2979e+00],
        [ 1.6386e-02,  5.0539e-01,  8.9874e-02, -1.9519e-01,  1.4970e-01,
          2.4957e-02, -6.8911e-01,  1.1578e+00],
        [-1.0536e+00,  1.1411e+00,  2.1742e-01, -3.3325e-02, -5.6911e-01,
         -1.9193e-02,  5.2818e-01, -9.9974e-02],
        [ 1.1592e-01,  1.8562e+00, -2.8303e-02,  2.0721e-01, -1.8233e-01,
          5.2943e-03, -6.9847e-01,  6.8366e-01],
        [-1.0680e+00, -1.2427e+00, -2.6610e-01, -8.7844e-02, -1.0389e+00,
         -7.5704e-02,  1.5395e+00, -1.5225e+00],
        [-7.8292e-01, -3.6864e-01,  8.6650e-02, -1.4969e-01, -6.1768e-01,
         -3.8662e-02,  1.8531e+00, -1.0833e+00],
        [ 1.0081e+00, -1.5605e+00,  2.8017e-02, -2.1821e-01, -4.3930e-01,
          5.1921e-03, -9.1384e-01,  8.8831e-01],
        [-5.16

Dla ka≈ºdej epoki:
  üîÅ Trenuj na ka≈ºdym batchu:
     - Oblicz stratƒô
     - Wyzeruj gradienty
     - Propagacja wsteczna
     - Aktualizacja wag
  ‚úÖ Oblicz ≈õredniƒÖ stratƒô treningowƒÖ

  üîÅ Walidacja na ka≈ºdym batchu:
     - Predykcja
     - Strata walidacyjna
  ‚úÖ Oblicz ≈õredniƒÖ stratƒô walidacyjnƒÖ

  üßæ Zapisz train_loss i val_loss do history

  üñ®Ô∏è Co 10 epok ‚Äì wypisz wynik


<a id="model-def-cnn"></a>
# <a id='toc10_'></a>[<b><span style='color:darkorange'>Step 1.2 |</span><span style='color:#1E3A8A'> Model definition</span></b>](#toc0_)

To nasz **g≈Ç√≥wny model regresyjny** ‚Äì czyli sieƒá neuronowa do przewidywania cen mieszka≈Ñ.  
Dziedziczy po `nn.Module`, czyli bazowej klasie PyTorch do budowy modeli.



#### ‚úÖ Co robi `__init__()`?

-   Tworzy warstwy modelu
    
-   Tworzy i zapisuje funkcjƒô straty (domy≈õlnie `nn.MSELoss()`)



‚úÖ `forward()` jest wywo≈Çywana **automatycznie**, kiedy wywo≈Çasz model jak funkcjƒô: `output = model(input)`


In [26]:
class CaliforniaHousingMLP(nn.Module):
    def __init__(self, input_size):
        super().__init__()
        self.model = nn.Sequential(
            nn.Linear(input_size, 64),
            nn.ReLU(),
            nn.Linear(64, 32),
            nn.ReLU(),
            nn.Linear(32, 1)
        )

    def forward(self, x):
        return self.model(x)


    def epoch_end(self, epoch, train_loss, val_loss, max_epochs):
        if (epoch + 1) % 10 == 0 or epoch == max_epochs - 1:
            print(
                f"Epoch [{epoch+1}/{max_epochs}], | " 
                f"train_loss: {train_loss:.4f}, | " 
                f"val_loss: {val_loss:.4f}"
            )


### ‚úÖ 1. **Czym jest graf obliczeniowy i dlaczego `validation_step()` nie oblicza gradient√≥w?**

W PyTorch:

-   **ka≈ºda operacja matematyczna** na tensorkach (np. dodawanie, mno≈ºenie) jest zapisywana jako **wƒôze≈Ç** w tzw. **grafie obliczeniowym**.
    
-   ten graf s≈Çu≈ºy do obliczania gradient√≥w (czyli tzw. **backpropagation**).
    
```python
x = torch.tensor(2.0, requires_grad=True)
y = x * 3 + 1
```

Tu PyTorch:

-   zapamiƒôtuje, ≈ºe `y` zale≈ºy od `x`
    
-   tworzy graf obliczeniowy:  
    `x ‚Üí (x * 3) ‚Üí (+1) ‚Üí y`
    

Teraz:

`y.backward()  # oblicza ‚àÇy/‚àÇx`

I masz gradient! üéØ



### RozwiƒÖzanie: `.detach()`

üëâ **Od≈ÇƒÖcza tensor od grafu**:


`loss = self.loss_fn(pred, y) return loss.detach()  # ‚Üê nie jest ju≈º czƒô≈õciƒÖ grafu`

**lub**:

`with torch.no_grad():     ...`

Obie metody m√≥wiƒÖ:  
üßº "Nie tw√≥rz grafu obliczeniowego ‚Äî tylko przelicz wynik."



### ‚úÖ 2. **Czemu u≈ºywamy `torch.stack()` w `validation_epoch_end()`?**


`torch.stack()` Zamienia listƒô tensor√≥w w jeden wiƒôkszy tensor.


`val_losses = [tensor(0.3), tensor(0.4), tensor(0.5)]  # to sƒÖ oddzielne tensory ‚Äî nie mo≈ºesz obliczyƒá na nich .mean()`

A wiƒôc robimy:

`torch.stack(val_losses) # => tensor([0.3, 0.4, 0.5])`

Dziƒôki temu mo≈ºna:

`torch.stack(val_losses).mean()`

Czyli obliczyƒá **≈õredniƒÖ stratƒô walidacyjnƒÖ z epoki**.



### ‚úÖ 3. **Dlaczego w `epoch_end()` mamy taki warunek:**

Wydrukuj tylko:

-   co **10 epok**
    
-   oraz **na sam koniec** treningu (ostatnia epoka)
    

≈ªeby nie spamowaƒá terminala:

-   Je≈õli masz np. `100 epok`, nie chcesz widzieƒá 100 linijek
    
-   Wystarczy co 10 epok + na ko≈Ñcu



<a id="training-both-models"></a>
# <a id='toc10_'></a>[<b><span style='color:darkorange'>Step 1.3 |</span><span style='color:#1E3A8A'> Training model</span></b>](#toc0_)

## üéì **Co to jest epoka (epoch)?**

> ‚úÖ **Epoka to jeden pe≈Çny ‚ÄûprzeglƒÖd‚Äù ca≈Çego zbioru treningowego przez model.**

Czyli: üëâ Model widzi **ka≈ºdy przyk≈Çad raz**  
üëâ Liczy stratƒô  
üëâ Uczy siƒô i aktualizuje wagi


## üß† **Analogia: nauka z podrƒôcznika**

Wyobra≈∫ sobie, ≈ºe uczysz siƒô z podrƒôcznika z 1000 pyta≈Ñ.

-   ‚úÖ **Epoka** = przeczyta≈Çe≈õ i przeƒáwiczy≈Çe≈õ **wszystkie 1000 pyta≈Ñ raz**
    
-   üîÅ **Druga epoka** = znowu przeczyta≈Çe≈õ te same pytania (bo chcesz siƒô poprawiƒá)
    
-   üîÅ Trzecia epoka = kolejna powt√≥rka itd.
    

Im wiƒôcej epok:

-   tym lepiej zapamiƒôtujesz
    
-   ale... mo≈ºesz te≈º zaczƒÖƒá **uczyƒá siƒô na pamiƒôƒá (overfitting)** ‚ùó



### `train_loop(...)`


Trenuje model przez **jednƒÖ epokƒô** na wszystkich batchach z `train_loader`.


1.  `model.train()` ‚Äì m√≥wi PyTorchowi: ‚Äûjestem w trybie treningu‚Äù (np. dropout dzia≈Ça)
    
2.  Dla ka≈ºdego `batch`:
    
    -   liczy stratƒô: `loss = model.training_step(batch)`
        -   pred = model(x)      <---> forward
        
        - loss = loss_fn(pred, y)  <---> oblicz stratƒô
        
    -   oblicza gradienty: `loss.backward()`
        
    -   aktualizuje wagi: `optimizer.step()`
        
    -   zeruje gradienty: `optimizer.zero_grad()` Czy≈õci gradienty z poprzedniego kroku, zanim obliczysz nowe gradienty dla aktualnego batcha.
        
3.  Zwraca ≈õredniƒÖ stratƒô



In [None]:
# przyk≈Çad bez zero_grad
# iteracja 1
loss1.backward()  # ‚àÇL1/‚àÇW ‚Üí zapisuje gradient
# iteracja 2
loss2.backward()  # ‚àÇL2/‚àÇW ‚Üí DODAJE siƒô do poprzedniego!


### `train_model_flexible(...)`


To **g≈Ç√≥wna funkcja treningowa**.  
Steruje ca≈ÇƒÖ naukƒÖ modelu przez wiele epok, z opcjami jak:

-   early stopping
    
-   weight decay
    
-   scheduler
    

1.  Inicjalizuje optimizer (np. Adam)
    
2.  (Opcjonalnie) scheduler
    
3.  Dla ka≈ºdej epoki:
    
    -   `train_loop(...)`
        
    -   `model.validation_step(...)`
        
    -   `model.validation_epoch_end(...)`
        
    -   logowanie `epoch_end(...)`
        
    -   (opcjonalnie) early stopping
        
    -   (opcjonalnie) scheduler.step()
        

üì¶ Na ko≈Ñcu zwraca `history` (dane do wykres√≥w: train/val loss)



In [38]:
# Pƒôtle treningowe
def train_loop(dataloader, model, loss_fn, optimizer):
    model.train()
    total_loss = []
    for batch in dataloader:        #  for batch, (X, y) in enumerate(dataloader):
        X, y = batch                #   X, y = X.to(device), y.to(device)

        # Compute prediction error
        pred = model(X)
        loss = loss_fn(pred, y)

        # Backpropagation
        optimizer.zero_grad()
        loss.backward()

        # Gradient diagnostyka (1. batch)
        if batch == 0:
            for name, param in model.named_parameters():
                if param.requires_grad and param.grad is not None:
                    print(f"[{name}] grad mean: {param.grad.mean():.6f}, std: {param.grad.std():.6f}")
                    break

        optimizer.step()
        total_loss.append(loss.item())
    return np.mean(total_loss)

def test_loop(dataloader, model, loss_fn):
    model.eval()
    total_loss = []
    with torch.no_grad():
        for X, y in dataloader:
            pred = model(X)
            loss = loss_fn(pred, y)
            total_loss.append(loss.item())
    return np.mean(total_loss)

In [39]:
def train_model_flexible(model, name, train_loader, val_loader, loss_fn,
                         lr=1e-3, weight_decay=False, early_stopping=False,
                         scheduler=False, patience=3, max_epochs=50):

    # ‚ûï Regularyzacja
    wd = 1e-2 if weight_decay else 0.0
    optimizer = torch.optim.Adam(model.parameters(), lr=lr, weight_decay=wd)

    # ‚ûï Scheduler
    sched = None
    if scheduler:
        sched = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.5, patience=2, verbose=True)

    history = {'train_loss': [], 'val_loss': []}
    best_loss = float('inf')
    stop_counter = 0

    print(f"\nüß† Training {name}...\n" + "-" * 50)

    for epoch in range(max_epochs):
        train_loss = train_loop(train_loader, model, loss_fn, optimizer)
        val_loss = test_loop(val_loader, model, loss_fn)

        if sched:
            sched.step(val_loss)

        history['train_loss'].append(train_loss)
        history['val_loss'].append(val_loss)

        model.epoch_end(epoch, train_loss, val_loss, max_epochs)

        if early_stopping:
            if val_loss < best_loss:
                best_loss = val_loss
                stop_counter = 0
            else:
                stop_counter += 1
                if stop_counter >= patience:
                    print("‚èπÔ∏è Early stopping triggered.")
                    break

    return history


In [40]:
# Trening modelu
epochs = 100
learning_rate = 1e-3
loss_fn = nn.MSELoss()


model = CaliforniaHousingMLP(input_size=X.shape[1])
history = train_model_flexible(
    model,
    name="CaliforniaHousingMLP",
    train_loader=train_loader,
    val_loader=val_loader,
    loss_fn=loss_fn,
    lr=learning_rate,
    early_stopping=False,
    scheduler=False,
    max_epochs=epochs
)


üß† Training CaliforniaHousingMLP...
--------------------------------------------------
Epoch [10/100], | train_loss: 0.3226, | val_loss: 0.3324
Epoch [20/100], | train_loss: 0.2908, | val_loss: 0.3012
Epoch [30/100], | train_loss: 0.2778, | val_loss: 0.2894
Epoch [40/100], | train_loss: 0.2713, | val_loss: 0.2926
Epoch [50/100], | train_loss: 0.2655, | val_loss: 0.2838
Epoch [60/100], | train_loss: 0.2615, | val_loss: 0.2906
Epoch [70/100], | train_loss: 0.2564, | val_loss: 0.2847
Epoch [80/100], | train_loss: 0.2531, | val_loss: 0.2806
Epoch [90/100], | train_loss: 0.2506, | val_loss: 0.2733
Epoch [100/100], | train_loss: 0.2467, | val_loss: 0.2743


<a id="plots-loss-accuracy"></a>
# <a id='toc10_'></a>[<b><span style='color:darkorange'>Step 1.4 |</span><span style='color:#1E3A8A'> Loss & Accuracy</span></b>](#toc0_)

Wykres strat treningowych i walidacyjnych (loss vs epoch) ‚Äì w Plotly.



In [33]:
# Wykresy
def plot_training_curves_regression(history):
    epochs_range = list(range(1, len(history['train_loss']) + 1))
    fig = go.Figure()
    fig.add_trace(go.Scatter(x=epochs_range, y=history['train_loss'], mode='lines+markers', name='Train Loss'))
    fig.add_trace(go.Scatter(x=epochs_range, y=history['val_loss'], mode='lines+markers', name='Validation Loss'))
    fig.update_layout(
        title="üìâ Loss during Training (Regression)",
        xaxis_title="Epoch",
        yaxis_title="MSE Loss",
        template="plotly_white"
    )
    fig.show()

In [41]:
# Wykres strat
plot_training_curves_regression(history)

# Wykres predykcji vs rzeczywisto≈õƒá
model.eval()
with torch.no_grad():
    predictions = model(X_val_tensor).squeeze().numpy()
    actuals = y_val_tensor.squeeze().numpy()

scatter_fig = go.Figure()
scatter_fig.add_trace(go.Scatter(
    x=actuals, y=predictions, mode='markers', name='Predictions'
))
scatter_fig.add_trace(go.Scatter(
    x=[actuals.min(), actuals.max()],
    y=[actuals.min(), actuals.max()],
    mode='lines', name='Ideal', line=dict(dash='dash', color='red')
))
scatter_fig.update_layout(
    title="üè° Actual vs Predicted House Prices",
    xaxis_title="Actual Price",
    yaxis_title="Predicted Price",
    template="plotly_white"
)
scatter_fig.show()