# **Sieci Neuronowe** (laboratorium 2/5)

# **Cel**

Celem laboratorium jest zrozumienie wpływu wybranych parametrów sieci neuronowej na uzyskany wynik. W tym celu wykorzystaj biblioteke **PyTorch** i dowolna bibliotekę pozwalająca na rysowanie wykresów.

W sprawozdaniu odpowiedz na poniższe pytania opierając się o uzyskane wyniki w trakcie wykonywania eksperymentów:

- Wykorzystaj stworzone tydzień temu modele dla dowolnego datasetu z poprzednich zajęć:
    - Wykorzystaj trzy [optymalizatory](https://pytorch.org/docs/stable/optim.html)
    - Podobnie zrób to z [funkcjami straty](https://pytorch.org/docs/stable/nn.html#loss-functions) tylko tym razem wybierz dwie.
    - I na podstawie dokumentacji przygotuj konfiguracje danego optymalizatora oraz funkcji straty.
    - Zmodyfikuj zmienną `batch size`. Zaproponuj 3 wartosci.
    - Skompiluj, wytrenuj i przetestuj model dla każdego parametru, wyniki zapisz w formie `Dataframe` w ktorych przedstawisz informacje o pramaetrach, osiągnięte `accuracy` i `loss`. Dodaj też informacje ile trwał proces uczenia (bibliteka `time`)
    - Przedstaw tabelkę posrotowaną względem `time`, `loss` oraz `acc`. Który zestaw parametrów okazał się najlepszy?


- Wykorzystaj jeszcze raz wybrany, inny model (`MNIST`, `CIFAR100`, `FashionMNIST`) które przygotowaliście w ramach poprzednich zajęć laboratoryjnych i przeprowadz proces hiperparametryzacje z wykorzystaniem `ParameterGrid` .**Pamiętaj że zajmie to więcej czasu!**. Wcześniej spróbuj wykorzystać 'Sequential` w celu przebudowania swojego modelu.

- Dla każdego modelu narysuj przebieg `funkcji straty`, metryki `accuracy` oraz `f1-score`.

- Jak wyniki porównaj z tym co udało się osiągnąć dla ręcznych poszukiwań. Jak oceniasz swoje wyniki? Czy człowiek ma szanse jeszce 'z palca' odnaleść najlepsze parametry dla sieci neuronowej czy jednak to już zadanie dla algorytmów optymalizacyjnych? Zaprezentuj wyniki przebiegu funkcji strat dla twojego modelu z dzis, modelu z poprzednich zajec oraz modelu z wykorzystniem `ParameterGrid`.


# **Dla ambitniejszych:**
To co wyzej, ale nie wykorzystuj modeli z poprzednich zajec, zaimplementuj 2 modele dla ponizyszch dwoch datasetow. Wykorzystaj `Sequential`. Potem ręcznie zmień parametry, a następnie wykorzystaj `ParameterGrid`. Finalnie w sposob tabelaryczny i z wykorzystaniem wykresów przedstaw analizę osiągniętych wyników. Pownienieś/Powinnaś porównać mimimum 5 modeli na 1 dataset.

- Dataset: [Food101](https://pytorch.org/vision/stable/generated/torchvision.datasets.Food101.html#torchvision.datasets.Food101)

```
import torchvision.datasets as datasets
from torch.utils.data import DataLoader
from torchvision.datasets import Food101


# Używamy Food101 dataset z torchvision
train_data = Food101(root='food-101', split='train', transform=transform, download=True)
train_loader = DataLoader(train_data, batch_size=64, shuffle=True)

test_data = Food101(root='food-101', split='test', transform=transform, download=True)
test_loader = DataLoader(test_data, batch_size=64, shuffle=False)
```

- Dataset [Place365](https://pytorch.org/vision/stable/generated/torchvision.datasets.Places365.html#torchvision.datasets.Places365)

```python
import torchvision.datasets as datasets
from torch.utils.data import DataLoader
from torchvision.datasets import Places365

# Przygotowanie danych
transform = transforms.Compose([
    transforms.Resize((128, 128)),
    transforms.ToTensor(),
])

# Używamy Places365 dataset z torchvision
train_data = Places365(root='places365', split='train-standard', download=True, transform=transform)
train_loader = DataLoader(train_data, batch_size=64, shuffle=True)

test_data = Places365(root='places365', split='val', download=True, transform=transform)
test_loader = DataLoader(test_data, batch_size=64, shuffle=False)

```

1. **Kernel Size**: Jest to rozmiar okna konwolucji. W zależności od problemu, możesz wybrać różne rozmiary. Ogólnie rzecz biorąc, mniejsze jądra są bardziej skuteczne w wykrywaniu drobnych cech, podczas gdy większe jądra mogą pomóc w wykrywaniu cech o większej skali. Często stosowane rozmiary to (3x3) lub (5x5), ale to może się różnić w zależności od problemu.

```python

# Kernel Size: Rozmiar jądra konwolucyjnego
conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)

```

2. **Max Pooling Size**: Max pooling służy do zmniejszania wymiarowości przestrzennej map cech. Popularne rozmiary to (2x2) lub (3x3). Max pooling pozwala zmniejszyć liczbę parametrów sieci.

```python
# Max Pooling Size: Rozmiar okna max pooling
pool = nn.MaxPool2d(kernel_size=2, stride=2)
```

3. **Liczba cech (Feature Maps)**: Jest to liczba wyjściowych map cech po przejściu przez warstwy konwolucyjne. Możesz zacząć od mniejszej liczby map cech i stopniowo ją zwiększać w kolejnych warstwach, ale zawsze ważne jest unikanie zbytniego zwiększania liczby cech, co może prowadzić do nadmiernego dopasowania (overfitting).

```python
# Liczba cech (Feature Maps): Liczba wyjściowych map cech
conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1)
```

4. **Stride**: Jest to liczba pikseli, o które przesuwa się okno konwolucji przy każdym kroku. Domyślnie jest to 1, ale można zwiększyć ten parametr, aby zmniejszyć wymiarowość mapy cech wyjściowej.

```python
# Stride: Rozmiar kroku podczas konwolucji
conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=2, padding=1)

```

5. **Padding**: Pozwala na kontrolę rozmiaru wyjściowego mapy cech. 'Valid' oznacza brak dopełnienia (padding), co prowadzi do zmniejszenia rozmiaru mapy cech, a 'Same' oznacza dodanie dopełnienia w taki sposób, aby wyjściowa mapa miała ten sam rozmiar co wejściowa.

```python
# Padding: Wartość dopełnienia
conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1)
```
Wartość padding=1 w warstwie **nn.Conv2d** w bibliotece PyTorch oznacza, że na wejściu do warstwy zostaną dodane 1 pikselowe ramki (zerowe wartości pikseli) na krawędziach obrazu, zarówno z góry i z dołu, jak i z prawej i z lewej strony. Ten rodzaj wypełnienia jest nazywany "same" padding. Dzięki temu, rozmiar wyjściowy obrazu po konwolucji będzie taki sam jak rozmiar obrazu wejściowego. Jeśli nie ma paddingu (padding=0), to obraz wejściowy jest traktowany jako "brzegowy", co oznacza, że rozmiar obrazu wyjściowego jest mniejszy niż obrazu wejściowego, ponieważ piksele brzegowe nie są rozszerzane.

6. **Liczba warstw**: Możesz eksperymentować z różnymi głębokościami sieci. Jednak należy unikać zbyt dużych sieci, które mogą prowadzić do nadmiernego do

Dobieranie tych parametrów często wymaga eksperymentów i dostosowania do konkretnego problemu. Możesz także korzystać z technik takich jak krzywe uczenia czy wizualizacje cech, aby lepiej zrozumieć działanie Twojej sieci i dostosować jej parametry.


# Parametry procesu uczenia

# `batch size`
jest jednym z kluczowych hiperparametrów w uczeniu maszynowym, szczególnie podczas treningu modeli za pomocą metod gradientowych. Oznacza on liczbę przykładów danych, która jest przetwarzana w jednej iteracji podczas treningu. Wybór odpowiedniego batch size ma wpływ na szybkość uczenia, stabilność modelu oraz wykorzystanie zasobów obliczeniowych.

Mała wartość `batch size` - może prowadzić do bardziej losowych aktualizacji wag modelu, co może przyspieszyć proces uczenia, ale może również sprawić, że proces ten będzie mniej stabilny.

Duży `Batch Size`może przyspieszyć obliczenia, szczególnie na sprzętach z GPU, ale może prowadzić do mniejszej dokładności, ponieważ aktualizacje wag są mniej losowe.

W PyTorch, batch size jest jednym z parametrów przekazywanych do DataLoadera podczas ładowania danych treningowych. DataLoader automatycznie dzieli zbiór danych na partie (batches) o określonym rozmiarze. Podczas iteracji po DataLoaderze, model przetwarza dane w batchach, a gradienty są obliczane na podstawie tych batchy.

```python
from torch.utils.data import DataLoader
# Tworzenie DataLoadera z określonym batch size
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
```



# `optymalizator` i jego parametry

Optymalizator jest algorytmem używanym do aktualizacji wag modelu w trakcie treningu w celu minimalizacji funkcji straty. Istnieje wiele rodzajów optymalizatorów, takich jak SGD (Stochastic Gradient Descent), Adam, RMSprop, czy Adagrad. Każdy z tych optymalizatorów ma swoje własne parametry, które należy dostosować do konkretnego problemu i zestawu danych.

- Learning Rate: Jest to jeden z najważniejszych parametrów optymalizatora, który określa krok aktualizacji wag w kierunku minimalizacji funkcji straty. Niewłaściwy learning rate może prowadzić do problemów z uczeniem się, takich jak zbyt wolne lub zbyt szybkie zmniejszanie funkcji straty.

- Momentum: To parametr wprowadzony w niektórych optymalizatorach, który pomaga uniknąć zbyt szybkiego zatrzymywania się w lokalnych minimach poprzez akumulację poprzednich kroków aktualizacji wag.

- Decay: Parametr ten kontroluje tempo zmniejszania się learning rate w trakcie treningu, co może pomóc w osiągnięciu lepszej konwergencji.

Dobór optymalizatora i jego parametrów jest kwestią doświadczalną i wymaga przeprowadzenia odpowiednich eksperymentów w celu znalezienia najlepszej konfiguracji.

# `Funkcja straty`
określa jak bardzo predykcje modelu różnią się od rzeczywistych etykiet (labeli) danych treningowych. Wybór odpowiedniej funkcji straty zależy od rodzaju problemu uczenia maszynowego, takiego jak klasyfikacja binarna, wieloklasowa, czy regresja.

- Mean Squared Error (MSE): Jest często stosowaną funkcją straty w problemach regresji, gdzie chcemy minimalizować średnią kwadratową różnicę pomiędzy przewidywanymi a rzeczywistymi wartościami.

- Cross-Entropy Loss: Jest powszechnie używana w problemach klasyfikacji, ponieważ penalizuje model za pewność swoich przewidywań. W przypadku klasyfikacji binarnej jest to Binary Cross-Entropy Loss, a w przypadku klasyfikacji wieloklasowej jest to Categorical Cross-Entropy Loss.

Dobór odpowiedniej funkcji straty zależy od specyfiki problemu oraz typu danych, z którymi mamy do czynienia. W niektórych przypadkach istnieje również możliwość zdefiniowania niestandardowych funkcji straty, aby lepiej dopasować model do konkretnego zadania.

W sumie, odpowiedni dobór batch size, optymalizatora i funkcji straty jest kluczowy dla skutecznego treningu modeli uczenia maszynowego. Wymaga to eksperymentowania i dostosowywania tych hiperparametrów w oparciu o charakterystykę danych oraz cel końcowy modelu.

# Trochę technikali które mogą pomóc

`Sequential` w bibliotece PyTorch jest po prostu sekwencyjnym kontenerem modułów. Oznacza to, że umożliwia on definiowanie sekwencji warstw lub modułów, które zostaną wykonane jeden po drugim. Jest to przydatne, gdy chcemy zdefiniować prosty model, który składa się z sekwencji warstw, bez konieczności definiowania osobnej klasy dla każdej warstwy.

W modelu Sequential moduły są przekazywane jako argumenty konstruktora w kolejności, w jakiej mają być wykonane. Każdy moduł musi mieć pojedynczy wejściowy i pojedynczy wyjściowy tensor, chyba że jest to pierwszy lub ostatni moduł w sekwencji, w którym wejście lub wyjście może mieć dowolny rozmiar.

``` python
import torch
import torch.nn as nn

# Definicja prostego modelu Sequential
model = nn.Sequential(
    nn.Linear(784, 128),  # Warstwa fully connected z 784 wejściami i 128 wyjściami
    nn.ReLU(),  # Funkcja aktywacji ReLU
    nn.Linear(128, 10)  # Druga warstwa fully connected z 128 wejściami i 10 wyjściami
)

# Generowanie przykładowych danych wejściowych
input_data = torch.randn(64, 784)  # Losowe dane wejściowe dla 64 przykładów, każdy o rozmiarze 784 (28x28)

# Przekazanie danych przez model
output = model(input_data)

# Wyświetlenie kształtu wyjścia
print("Shape of output:", output.shape)


```

Inny większy przykład:

```python
def sequentialConv(in, out):
    # Funkcja convBlock tworzy blok konwolucyjny, który składa się z dwóch warstw konwolucyjnych, ReLU i BatchNormalization,
    # zakończonych warstwą MaxPooling.
    return nn.Sequential(
        nn.Conv2d(ni, no, kernel_size=3, padding=1),  # Pierwsza warstwa konwolucyjna, ni to liczba kanałów wejściowych, no to liczba kanałów wyjściowych
        nn.ReLU(inplace=True),  # Funkcja aktywacji ReLU
        nn.BatchNorm2d(no),  # Warstwa BatchNormalization
        nn.Conv2d(no, no, kernel_size=3, padding=1),  # Druga warstwa konwolucyjna, no to liczba kanałów wyjściowych
        nn.ReLU(inplace=True),  # Funkcja aktywacji ReLU
        nn.BatchNorm2d(no),  # Warstwa BatchNormalization
        nn.MaxPool2d(2),  # Warstwa MaxPooling
    )


class Net(nn.Module):
    def __init__(self):
        super().__init__()
        # Inicjalizacja klasyfikatora, składającego się z pięciu bloków konwolucyjnych, adaptacyjnej warstwy AvgPool, warstw dropout oraz dwóch warstw fully connected.
        self.conv1 = sequentialConv(1, 32)  # Pierwszy blok konwolucyjny, wejście: 1 kanał (czarno-biały obraz), wyjście: 32 kanały
        self.conv2 = sequentialConv(32, 64)  # Drugi blok konwolucyjny, wejście: 32 kanały, wyjście: 64 kanały
        self.conv3 = sequentialConv(64, 128)  # Trzeci blok konwolucyjny, wejście: 64 kanały, wyjście: 128 kanałów
        self.conv4 = sequentialConv(128, 256)  # Czwarty blok konwolucyjny, wejście: 128 kanałów, wyjście: 256 kanałów
        self.conv5 = sequentialConv(256, 512)  # Piąty blok konwolucyjny, wejście: 256 kanałów, wyjście: 512 kanałów
        self.avgpool = nn.AdaptiveAvgPool2d((1, 1))  # Warstwa adaptacyjnego AvgPool, zmniejsza rozmiar przestrzeni konwolucyjnej do (1, 1)
        self.dropout = nn.Dropout(0.5)  # Warstwa dropout z prawdopodobieństwem 0.5
        self.fc1 = nn.Linear(512, 256)  # Pierwsza warstwa fully connected, wejście: 512 cech, wyjście: 256 cech
        self.relu = nn.ReLU(inplace=True)  # Funkcja aktywacji ReLU
        self.fc2 = nn.Linear(256, 2)  # Druga warstwa fully connected, wejście: 256 cech, wyjście: 2 klasy
    
    def forward(self, x):
        # Przekazanie danych przez kolejne warstwy modelu
        x = self.conv1(x)
        x = self.conv2(x)
        x = self.conv3(x)
        x = self.conv4(x)
        x = self.conv5(x)
        x = self.avgpool(x)
        x = x.view(x.size(0), -1)  # Spłaszczenie tensora do postaci wektora
        x = self.dropout(x)
        x = self.fc1(x)
        x = self.relu(x)
        x = self.dropout(x)
        x = self.fc2(x)
        return x  # Zwrócenie wyników klasyfikacji

```



Żeby wykorzystac GPU potrzebne jest wykonanie operacji `to(device)`

Wcześniej należy zdefiniować to urządzenie np.
`device = torch.device("cuda" if torch.cuda.is_available() else "cpu")`

a potem po stworzenie modelu należy uzupełnić o 'mapowanie' na ustalony `device`
`np. model = Net().to(device)`

Trzeba pamiętać też o wykorzystaniu operacji `to(device)` w pętli uczącej:

```python
num_epochs = 20
for epoch in range(num_epochs):
    total_loss = 0
    total_correct = 0
    total_samples = 0
    for images, labels in dataloader:
        images = images.to(device)
        labels = labels.to(device)
        outputs = model(images)
        loss = criterion(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
        _, predicted = torch.max(outputs.data, 1)
        total_correct += (predicted == labels).sum().item()
        total_samples += labels.size(0)
    accuracy = total_correct / total_samples
    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {total_loss/len(dataloader):.4f}, Accuracy: {accuracy:.4f}")
```


Zapis modelu do pliku `torch.save(model.state_dict(), "model.pth")`

# Hiperparametryzacja

Przykladowy model sieci CNN dla klasyfikacji cyfr ze zbioru `MNIST`
```python
import torch
import torch.nn as nn
import torch.optim as optim
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import DataLoader
import numpy as np

transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.5,), (0.5,))
])

train_dataset = torchvision.datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = torchvision.datasets.MNIST(root='./data', train=False, download=True, transform=transform)

train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=False)

# Definicja modelu CNN
class CNN(nn.Module):
    def __init__(self):
        super(CNN, self).__init__()
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.pool = nn.MaxPool2d(2, 2)
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        x = self.pool(torch.relu(self.conv1(x)))
        x = self.pool(torch.relu(self.conv2(x)))
        x = torch.flatten(x, 1)
        x = torch.relu(self.fc1(x))
        x = self.fc2(x)
        return x

def train_model(batch_size, learning_rate, num_epochs):
    model = CNN()
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    for epoch in range(num_epochs):
        for i, (images, labels) in enumerate(train_loader):
            outputs = model(images)
            loss = criterion(outputs, labels)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

    model.eval()
    with torch.no_grad():
        correct = 0
        total = 0
        for images, labels in test_loader:
            outputs = model(images)
            _, predicted = torch.max(outputs.data, 1)
            total += labels.size(0)
            correct += (predicted == labels).sum().item()

    accuracy = 100 * correct / total
    return accuracy
```


**Hiperparametryzacja** odnosi się do procesu dostosowywania parametrów modelu, które nie są uczane podczas procesu trenowania, ale muszą być wybrane przed rozpoczęciem procesu uczenia. Parametry te wpływają na sposób, w jaki model jest uczony i jak zachowuje się podczas predykcji. Przykładowymi hiperparametrami mogą być współczynniki uczenia, liczba warstw w sieci neuronowej, rozmiar partii, liczba drzew w metodzie lasów losowych itp.

W praktyce hiperparametryzacja polega na przeszukiwaniu przestrzeni hiperparametrów w celu znalezienia zestawu optymalnych wartości, które prowadzą do najlepszych wyników modelu.

```python
from sklearn.model_selection import ParameterGrid

# Przestrzeń hiperparametrów do przeszukania
# Tutaj można dodać więcej, np. funkcje straty, rodzaj optymalizatora itd.
param_grid = {
    'batch_size': [32, 64, 128],
    'learning_rate': [0.001, 0.01, 0.1],
    'num_epochs': [5, 10, 15]
}

results = []
for params in ParameterGrid(param_grid):
    accuracy = train_model(params['batch_size'], params['learning_rate'], params['num_epochs'])
    results.append((params, accuracy))

best_params, best_accuracy = max(results, key=lambda x: x[1])
print("Best parameters:", best_params)
print("Best accuracy:", best_accuracy)

```
W tym przykładzie przeszukujemy przestrzeń hiperparametrów, a następnie oceniamy model dla każdej kombinacji hiperparametrów. Ostatecznie wybieramy zestaw, który osiągnął najwyższą dokładność na zestawie testowym.