# Lab. 2 Multi Layered Networks

### Ładowanie danych

PyTroch, a właściwie pakiet `torchvision` udostępnia parę przydatnych rzeczy, z których skorzystamy na dzisiejszych zajęciach.

Zacznijmy od ściąganie i ładowania danych, w [`torchvision.datasets`](https://pytorch.org/docs/stable/torchvision/datasets.html) znajdziemy popularne datasety, zajmiemy się dzisiaj MNISTem.

In [None]:
import torch
from torchvision.datasets import MNIST

train_data = MNIST(root='.', download=True, train=True)
test_data = MNIST(root='.', download=True, train=False)

train_data

Oprócz tego z samego `torcha` możemy skorzystać z [`DataLoadera`](https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader), który załatwia za nas sporo przydatnych rzeczy typu shufflowanie i batchowanie danych.

In [None]:
from torch.utils.data import DataLoader

train_loader = torch.utils.data.DataLoader(train_data, batch_size=10)

for x, y in train_loader:
    print(x.shape)
    print(x.dtype)
    print(y)
    break

Wygląda na to, że aż tak bardzo za darmo wszystkiego nie dostaniemy, klasa `MNIST` zwraca nam dane w postaci obiektów [PILa](https://pillow.readthedocs.io/en/stable/). Musimy coś z tym zrobić.

## Zadanie 1.
1. Za pomocą [`transformerów`](https://pytorch.org/docs/stable/torchvision/transforms.html) przerobić powyższy kod tak aby zadziałał.  
**HINT**: sprawdzić jakie argumenty przyjmuje klasa `MNIST`.
2. Policzyć średnią i odchylenie standardowe wartości pojedynczego piksela dla całego zbioru trenującego i użyć ich do znormalizowania danych trenujących.  
**HINT**: Tutaj torchvision też powinien nam to ułatwić.
3. Zmienić "kształt" jednego przykładu z `28x28` na `784`.  
**HINT**: [`Lambda`](https://pytorch.org/docs/stable/torchvision/transforms.html#torchvision.transforms.Lambda)

Uwaga: zwrócić uwagę co dokładnie robią używane _transformery_!

## Zadanie 2.

Ręcznie zaimplementować prostą sieć z jedną warstwą ukrtyą. Sieć ma mieć:
1. Jedną warstwę ukrytą z wagami zainicjalizowanymi ze standardowego rozkładu normalnego.
2. Warstwa przy obu operacjach ma mieć uczone _biasy_ zainicjalizowane na 0.

**HINT**: Do rozkładu normalnego najlepiej użyć [`torch.randn`](https://pytorch.org/docs/stable/torch.html#torch.randn). Sprawdzić jakie ważne argumenty ta funkcja przyjmuje!

Należy oprócz tego zaimplementować pętlę uczenia z użyciem PyTorchowej funkcji kosztu _cross entropy_ i optymalizatora SGD.

In [None]:
from typing import List

class CustomNetwork(object):
    """
    Simple 1-hidden layer linear neural network
    """
    def __init__(self, ???):
        """
        Initialize network's weights 
        """
        
        self.weight_1: torch.Tensor = ???
        self.bias_1: torch.Tensor = ???
        
        self.weight_2: torch.Tensor = ???
        self.bias_2: torch.Tensor = ???
        
    def __call__(self, x: torch.Tensor) -> torch.Tensor:
        """
        Forward pass through the network
        """
        
        ???
        
        return ???
    
    def parameters(self) -> List[torch.Tensor]:
        """
        Returns all trainable parameters 
        """
        return [self.weight_1, self.bias_1, self.weight_2, self.bias_2]

In [None]:
from torch.optim import SGD
from torch.nn.functional import cross_entropy

# some hyperparams
batch_size: int = 64
epoch: int = 3
lr: float = 0.01
momentum: float = 0.9

# prepare data loaders, base don the already loaded datasets
train_loader = torch.utils.data.DataLoader(train_data, batch_size=batch_size)
test_loader = torch.utils.data.DataLoader(test_data, batch_size=batch_size)

# initialize the model
model: CustomNetwork = ???

# initialize the optimizer
optimizer: torch.optim.Optimizer = ???

# training loop
for e in range(epoch):
    for i, (x, y) in enumerate(train_loader):
        
        # reset the gradients from previouis iteration
        optimizer.zero_grad()
        # pass through the network
        output: torch.Tensor = ???
        # calculate loss
        loss: torch.Tensor = ???
        # backward pass thorught the network
        loss.backward()
        # apply the gradients
        optimizer.step()
        
        # log the loss value
        if (i + 1) % 100 == 0:
            print(f"Epoch {e} iter {i+1}/{len(train_data) // batch_size} loss: {loss.item()}", end="\r")
            
    # at the end of an epoch run evaluation on the test set
    with torch.no_grad():
        # initialize the number of correct predictions
        correct: int = 0 
        for i, (x, y) in enumerate(test_loader):
            # pass through the network
            output: torch.Tensor = ???
            # update the number of correctly predicted examples
            correct += ???

        print(f"\nTest accuracy: {correct / len(test_data)}")

        
# this is your test
assert correct / len(test_data) > 0.8, "Subject to random seed you should be able to get >80% accuracy"

## Zadanie 3.

1. Przepisać całą sieć do PyTorcha używając [`torch.nn.Module`](https://pytorch.org/docs/stable/nn.html#torch.nn.Module), [`torch.nn.Linear`](https://pytorch.org/docs/stable/nn.html#torch.nn.Linear).
2. Dodać [nieliniowe aktywacje](https://pytorch.org/docs/stable/nn.html#non-linear-activations-weighted-sum-nonlinearity) i dodatkową warstwę, tak aby wyciągnąć przynajmniej 95% testowego accuracy w 3 epoki.

In [None]:
class TorchNetwork(torch.nn.Module):
    """
    Simple 2-hidden layer non-linear neural network
    """
    
    ???
    

In [None]:
from torch.optim import SGD
from torch.nn.functional import cross_entropy

# some hyperparams
batch_size: int = 64
epoch: int = 3
lr: float = 0.01
momentum: float = 0.9

# prepare data loaders, base don the already loaded datasets
train_loader = torch.utils.data.DataLoader(train_data, batch_size=batch_size)
test_loader = torch.utils.data.DataLoader(test_data, batch_size=batch_size)

# initialize the model
model: TorchNetwork = ???

# initialize the optimizer
optimizer: torch.optim.Optimizer = ???

# training loop
for e in range(epoch):
    for i, (x, y) in enumerate(train_loader):
        
        ???
        
    # at the end of an epoch run evaluation on the test set
    with torch.no_grad():
        correct: int = 0
        for i, (x, y) in enumerate(test_loader):

            ???
            
            
# this is your test       
assert correct / len(test_data) > 0.95, "Subject to random seed you should be able to get >95% accuracy"