In [2]:
from typing import List, Tuple

import numpy as np
import torch
import torchvision
from torch import nn
from torch.nn.functional import cross_entropy
from torch.optim import SGD
from torchvision.datasets import MNIST

# Sieci neuronowe

## MNIST
Popularnym "prostym" datasetem, na którym można przetestować nasz model zanim zajmiemy się trudniejszymi problemami, jest MNIST, zbiór danych zawierających ręcznie rysowane cyfry. Poniżej kilka przykładowych cyfr:

<img width="400" src="https://miro.medium.com/proxy/0*At0wJRULTXvyA3EK.png" />


Zadanie naszego modelu polega na tym, by na podstawie obrazka narysowanej ręcznie cyfry określić, jaka to jest cyfra.

Czyli nasz model, widząc taki obrazek:
<img width="200" src="https://machinelearningmastery.com/wp-content/uploads/2019/02/sample_image-768x763.png" />

powinien odpowiedzieć, że to cyfra "7".


**Pytanie: Czy w takim sformułowaniu MNIST służy do regresji czy do klasyfikacji?**

## Praca na obrazkach
Nasze modele jak dotąd przyjmowały wyłącznie wektory - w jaki sposób możemy w takich modelach przetwarzać obrazki?

Obrazek to tak naprawdę trójwymiarowa tablica pikseli o wymiarach: `[H, W, C]`, gdzie `H` to wysokość, `W` to szerokość, a `C` to liczba kanałów (klasycznie: red, green, blue).

Najprostsze co możemy zrobić, to spłaszczyć naszą tablicę do jednego wymiaru, wektora o kształcie `[H * W * C]`. W przypadku MNIST-a nasze obrazki mają wymiar `28x28` pikseli i jest tylko jeden kanał (odcienie szarości), więc każdy z naszych wektorów będzie miał kształt `[28 * 28] = [784]`.

W przyszłości poznamy też sprytniejsze sposoby działania na obrazkach, np. za pomocą sieci konwolucyjnych.

## Stochastic gradient descent

Dotychczas kiedy chcieliśmy minimalizować funkcję kosztu $L(X; \theta)$ dla całego naszego zbioru $X \in \mathbb{R}^{NxD}$, liczyliśmy średni koszt dla wszystkich elementów $x \in X$, tzn.

$$L(X; \theta) = \frac{1}{N} \sum_i L(x_i; \theta) $$

Następnie liczyliśmy gradient tego kosztu, żeby zminimalizować funkcję.

W praktyce może się okazać, że nasz dataset jest gigantyczny, np. kiedy mamy miliony przykładów. Niepraktyczne wtedy jest liczenie całego tego kosztu a tym bardziej gradientu. W praktyce w każdym kroku liczymy funkcję kosztu (i jej gradient) z innego podzbioru elementów w naszym zbiorze, czyli z tzw. **batcha**:

$$L_{\mathrm{batch}} (X;\theta) = \frac{1}{|B|} \sum_{x \in B} L(x; \theta) $$

Gradient po koszcie policzonym z batcha będzie inny niż gradient liczony po koszcie policzonym z całego zbioru, ale powinny być w miarę podobne, tzn:

$$ \nabla_\theta L_{\mathrm{batch}} (X; \theta) \approx \nabla_\theta L(X; \theta) $$

Metodę spadku gradientu zaimplementowaną w ten sposób (batchowo) nazywamy metodą **stochastycznego spadku gradientu** (*Stochastic Gradient Descent, SGD*).


## Torchvision
PyTorch, a także pakiet `torchvision` udostępnia parę przydatnych narzędzi, z których skorzystamy na dzisiejszych zajęciach. Dla przykładu znacznie uproszczone jest pobieranie i ładowanie danych. W pakiecie [`torchvision.datasets`](https://pytorch.org/docs/stable/torchvision/datasets.html) znajdziemy popularne datasety, m.in. właśnie MNIST-a.

Oprócz tego z samego `torcha` możemy skorzystać z [`DataLoadera`](https://pytorch.org/docs/stable/data.html#torch.utils.data.DataLoader), który implementuje wiele przydatnych operacji do ładowania danych, np. dzielenie datasetu w batche i shufflowanie.

## Zadanie 1 (2 pkt.)
Klasa `MNIST` zwraca nam dane w postaci obiektów [PIL](https://pillow.readthedocs.io/en/stable/). Należy je odpowiednio przetworzyć, zanim będziemy mogli na nich pracować.

Za pomocą [`transformacji`](https://pytorch.org/vision/stable/transforms.html) podawanych do klasy MNIST należy:
1. Zamienić obiekty `PIL` na Tensory.
2. Policzyć średnią i odchylenie standardowe pikseli dla **całego zbioru trenującego** i użyć ich później do znormalizowania danych trenujących i testowych. Do liczenia średniej i odchylenia standardowego wykorzystać funkcję  `calculate_mean_and_std` (proszę zwrócić uwagę na to w jakim przedziale znajdują się dane przed normalizacją – chcemy aby były w przedziale 0-1). **HINT**: Tutaj torchvision powinien nam to ułatwić.
3. Zmienić "kształt" każdego przykładu z `28x28` na `784`.
    **HINT**: [`Lambda`](https://pytorch.org/vision/stable/generated/torchvision.transforms.Lambda.html)

Uwaga: proszę zwrócić uwagę co dokładnie robią używane_transformacje!

In [3]:
from torchvision.transforms import v2



def calculate_mean_and_std() -> Tuple[float, float]:
    data = MNIST(root=".", download=True, train=True).data
    data = data.float() / 255.0
    return data.mean().item(), data.std().item()

mean, std = calculate_mean_and_std()

transforms = v2.Compose([
    v2.ToImage(),
    v2.ToDtype(torch.float32, scale=True),
    v2.Normalize(mean=[mean], std=[std]),
    v2.Lambda(lambda x: x.view(-1)),
])

train_data = MNIST(
    root=".",
    download=True,
    train=True,
    transform=transforms,
)

test_data = MNIST(
    root=".",
    download=True,
    train=False,
    transform=transforms
)

100%|██████████| 9.91M/9.91M [00:00<00:00, 18.7MB/s]
100%|██████████| 28.9k/28.9k [00:00<00:00, 500kB/s]
100%|██████████| 1.65M/1.65M [00:00<00:00, 4.58MB/s]
100%|██████████| 4.54k/4.54k [00:00<00:00, 7.02MB/s]


In [4]:
mean, std = calculate_mean_and_std()
assert np.isclose(mean, 0.1306, atol=1e-4)
assert np.isclose(std, 0.3081, atol=1e-4)

In [5]:
train_loader = torch.utils.data.DataLoader(train_data, batch_size=10)

x, y = next(iter(train_loader))
assert len(x.shape) == 2
assert x.shape == (10, 784)

# Sieci neuronowe

### Modele liniowe

Jak dotąd omawialiśmy wyłącznie modele liniowe, tzn. takie, które dla zadanego $x$ potrafiły modelować funkcję rodzaju $$f(x) = g(w^T x + b) $$
gdzie $x \in \mathbb{R}^D, w \in \mathbb{R}^D$, $b \in \mathbb{R}$ a $g$ to funkcja aktywacji, np. sigmoid.

Możemy też stworzyć podobny model, który na wyjściu nie będzie podawał jednej liczby, ale cały wektor o wymiarze $K$, tzn:
$$f(x) = g(W^T x + \mathbf{b}), $$
gdzie $W$ jest teraz macierzą a $\mathbf{b}$ wektorem, tzn. $W \in \mathbb{R}^{DxK}, \mathbf{b} \in \mathbb{R}^{K}$.

### Zanurzenia

Jeżeli chcieliśmy, żeby takie modele mogły zajmować się problemami nieliniowymi, musieliśmy znaleźć odpowiednią reprezentację danych (zanurzenia wielomianowe, kernele dla SVM-ów), które sprawi, że w nowej przestrzeni problem będzie liniowy. W tym celu trzeba "zgadnąć", jakie przekształcenie jest właściwe - co w przypadku bardziej skomplikowanych problemów jest niezwykle trudne.

Ważne pytanie: **czy jesteśmy w stanie zbudować model, który znajdzie nam odpowiednią reprezentację dla danych?**

### Nakładanie warstw liniowych

**Rozwiązanie:** Nałóżmy na siebie kilka warstw modeli liniowych, np:
$$
f(x) = g_2(W_2^T (g_1(W_1^T x + \mathbf{b_1})) + \mathbf{b_2}),
$$
czyli, rozpisując czytelniej:
$$
f(x) = f^{(2)}(f^{(1)}(x)) \\
f^{(1)}(x) = g_1(W_1^T x + \mathbf{b_1}) \\
f^{(2)}(x) = g_2(W_2^T x + \mathbf{b_2})
$$

Powstały model nazywamy **sztuczną siecią neuronową** (*artificial neural network*).

Każdą funkcję $f^{(i)}$ nazywamy **warstwą** (*layer*). W naszej sieci możemy umieścić dowolnie wiele warstw, ale na razie będziemy zajmować się modelami nieszczególnie głębokimi (mniej niż 10 warstw).

Warstwy $f^{(i)}$ mogą implementować dowolną funkcję, ale jeśli mają postać $g(W^Tx +\mathbf{b})$, to nazywamy je warstwami liniowymi lub warstwami *fully connected*. Na tych zajęciach będziemy zajmować się wyłącznie sieciami o takiej postaci.


### Uczenie się reprezentacji

Jeśli nasz model jest postaci
$$
f(x) = f^{(n)}(f^{(n-1)}(\ldots f^{1}(x) \ldots )),
$$
to możemy przyjąć, że warstwa $f^{(n)}$ rozwiązuje problem liniowy na reprezentacji zadanej przez warstwy $f^{(1)}, f^{(2)}, \ldots, f^{(n-1)}$.



<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/46/Colored_neural_network.svg/1200px-Colored_neural_network.svg.png" width=300 />  

Źródło: [Wikipedia](https://en.wikipedia.org/wiki/Artificial_neural_network).

### Neurony

**Neuron** w tym kontekście to fragment warstwy, który łączy się ze wszystkimi neuronami w poprzedniej warstwie i na ich podstawie produkuje jedno z wyjść warstwy.

Jeśli nasza warstwa ma postać $g(W^T x + \mathbf{b})$, to $i$-ty neuron implementuje funkcję:
$$ f(x) = g(w_i^T x + b_i), $$
gdzie wektor $w_i$ jest $i$-tą kolumną macierzy $W$ a $b_i$ jest $i$-tym elementem wektora $\mathbf{b}$.

## Zadanie 2 (3 pkt.)
Za pomocą przygotowanego przez TensorFlow [narzędzia do zabawy z sieciami neuronowymi](http://playground.tensorflow.org) proszę przeprowadzić poniższe eksperymenty i opisać rezultaty.

Kilka uwag:
* Każda odpowiedź powinna być zawarta w jednym/dwóch zdaniach.
* Punktowane będą nie tylko prawidłowe odpowiedzi, ale też sensowne hipotezy/przypuszczenia.
* Jeżeli proszeni są Państwo o podanie architektury sieci, to najlepiej zapisać ją w skrótowe postaci `n_1-n_2-...-n_k`, gdzie `n_i` to liczba neuronów w `i`-tej warstwie. Czyli jeśli sieć ma pięć neuronów w pierwszej warstwie, trzy neurony w drugiej warstwie oraz sześć neuronów w trzeciej warstwie, to można ją opisać jako `5-3-6`.
* Proszę nie zmieniać opcji noise/ratio of training to test data. Proszę nie zmieniać feature'ów wejściowych, o ile nie będzie to wyraźnie podane w zadaniu.
* Można użyć opcji "show test data", żeby sprawdzić, dlaczego koszt na datasecie treningowym i testowym się różni.

1) **Eksperymenty na zbiorze Gaussian**
* Czy ten dataset można rozwiązać metodami płytkimi, których uczyliśmy się na wcześniejszych zajęciach?
* Co sprawia, że ten zbiór danych jest łatwiejszy niż pozostałe?
* Porównaj na tym zbiorze dwa modele: sieć neuronową z kilkoma warstwami i kilkudziesięcioma neuronami oraz sieć z jednym neuronem. Który z tych modeli bardziej nadaje się do zadania?

In [6]:
# W zbiorze danych Gaussian można wyszczególnić na płaszczyźnie dwie nienachodzące
# się na siebie grupy punktów. Moją hipotezą jest, że jest liniowo separowalny (sprawia to, że
# rozwiązanie problemu jest łatwe).
# Można rozwiązać ten problem metodami płytkimi (sieć z jednym neuronem działa jak regresja liniowa).
# Więc przypuszczam, że będzie wystarczająca.

# Sieć neuronowa o strukturze: 8-8-8-8-8-1 - poprawnie odseparowała dane o różnych klasach (loss < 0.001)
# po ok. 200 iteracjach.

# Sieć z jednym neuronem: - poprawnie odseparowała dane o różnych klasach (loss < 0.001)
# również po ok 200 iteracjach.

# Uważam, że sieć z jednym neuronem lepiej nadaje się do tego zadania gdyż jest
# mniej kosztowna obliczeniowo.

2) **Eksperymenty na zbiorze Circle**
* Załóżmy, że mamy sieć z jednym neuronem. Ile najmniej potrzeba feature'ów wejściowych, żeby model osiągał na datasecie testowym koszt $\leq 0.001$? Jakie to feature'y?
* Załóżmy, że na wejściu mamy tylko niezanurzone feature'y (tzn. $x_1$ oraz $x_2$). Stwórz najmniejszą sieć neuronową (pod względem liczby neuronów), która osiąga na datasecie testowym koszt $\leq 0.001$. Opisz architekturę tej sieci.
* Spróbuj rozwiązać ten problem za pomocą dowolnie dużej sieci neuronowej **z aktywacjami liniowymi** (nie zmieniając feature'ów wejściowych). Czy udało się osiągnąć wynik $\leq 0.001$? Jeśli tak, podaj architekturę sieci. Jeśli nie, podaj hipotezę, dlaczego się nie udało.

In [7]:
# Klasy w datasecie Circle można odseparować za pomocą równania okręgu (x^2 + y^2 <= N)
# Tak więc w przypadku sieci z jednym neuronem potrzebujemy dwóch feature'ów (x i y podniesione do kwadratu).
# Po ok. 500 iteracjach uzyskałem loss < 0.001

# Moja hipoteza jest taka, że 2 warstwy + nieliniowa aktywacja powinny wystarczyć
# W pierwszej próbie, dla architektury 8-8 i funkcji aktywacji tanh udało się osiągnąć założony koszt.
# Myślę, że dla tego problemu można zmniejszyć liczbę neuronów.

# Hipoteza: Jeżeli odpowiednio liniowo podzielę przestrzeń za pomocą neuronów w pierwszej warstwie
# to jeden neuron w warstwie wystarczy do reprezentacji nieliniowej granicy decyzyjnej.
# Dla sieci 4-1, aktywacja tanh Udało się osiągnąć loss <= 0.001 tak więc moja hipoteza była słuszna.
# Im więcej neuronów w 1 warstwie tym jesteśmy w stanie osiągnąć dokładniejszą aproksymację okręgu.

# Hipoteza - nie da się podzielić tej przestrzeni wyłącznie za pomocą złożenia funkcji liniowych
# Nie udało mi się osiągnąć separacji, przetestowałem dla dużej (jak na problem) architektury 8-8-8-8-8
# Sieć po chwili przestaje się uczyć. Jest to spowodowane tym, że jeżeli złożymy dowolną ilość
# funkcji liniowych to w wyniku powstanie funkcja liniowa. Granica decyzyjna jest równaniem okręgu
# które jest niemożliwe do opisania za pomocą funkcji liniowych.


3) **Eksperymenty na zbiorze Spiral**
* Osiągnij (stabilny) koszt $\leq 0.1$ na zbiorze testowym, podaj wykorzystaną architekturę, rodzaj aktywacji, regularyzację  oraz learning rate.
* Co odróżnia rozwiązania które dobrze generalizują od rozwiązań, które overfitują pod względem wizualnym? Popatrz na płaszczyznę z danymi po wytrenowaniu modelu.

In [8]:
# Tutaj należy opisać wyniki eksperymentów na zbiorze Spiral.
# Hipoteza - Zbiór danych Spiral posiada dużo bardziej złożoną granicę decyzyjną
# niż poprzednie zbiory więc potrzebne będzie więcej niż 16 neuronów aby wytrenować model który dobrze generalizuje.

# Sieć 8-8, lr 0.01, brak regularyzacji - Umożliwiła nauczenie się przez model danych treningowych, lecz pojawił
# się overfitting (granica decyzyjna nie ma kształtu spirali, jest dopasowana do danych treningowych i nie generalizuje dobrze).

# Dodanie do powyższej sieci regularyzacji L2 (tak aby zmniejszyć overfitting) w przypadku powyższej sieci nie umożliwiło
# wytrenowania modelu, który dobrze generalizuje (0.001 / 0.003 dalej overfitting) 0.01 - za wolny trening.

# Zwiększenie rozmiaru sieci + dodanie regularyzacji pozwoli mi wytrenować model który dobrze generalizuje
# Sieć 8-8-8-8, lr 0.01 -> 0.003, regularyzacja L2 0.001. Model znalazł granicę decyzyjną w kształcie spirali bez żadnych
# zniekształceń pomiędzy pustymi przestrzeniami między punktami na krzywej, które znajdują się w datasecie testowym. Loss testowy <= 0.01
# Ten brak zniekształceń jest właśnie wizualną cechą, która odróżnia model overfitujące od generalizujących.

## Zadanie 3 (2 pkt.)

Ręcznie zaimplementować prostą sieć z jedną warstwą ukrytą. Sieć:
1. Na wejściu będzie przyjmować dane o wymiarze `input_dim`
2. Pierwsza warstwa ma je przetwarzać na wymiar `hidden_dim`.
3. Druga warstwa ma przetwarzać wyjście pierwszej warstwy na wymiar `output_dim`.

W tym celu trzeba stworzyć odpowiednie tensory reprezentujące wagi i biasy w poszczególnych warstwach
1. Macierze wag należy zainicjalizować za pomocą wartości wylosowanych ze standardowego rozkładu normalnego.
2. Dla obu warstw należy stworzyć _biasy_ zainicjalizowane na 0.
3. Funkcją aktywacji dla pierwszej warstwy ma być `torch.tanh`. W drugiej warstwie ma być aktywacja liniowa (czyli brak aktywacji).

Następnie należy zaimplementować pętlę uczenia z użyciem PyTorchowej funkcji kosztu `nn.CrossEntropyLoss` i optymalizatora SGD. Jeśli wszystko zostało zaimplementowane poprawne, to sieć powinna zazwyczaj osiagać accuracy większe niż `0.82` na zbiorze testowym (chociaż czasami może nie osiągać tej wartości z powodu pechowej inicjalizacji).

**HINT** Proszę nie zapomnieć o `requires_grad=True` przy definiowaniu parametrów sieci.

In [9]:
class CustomNetwork(object):
    """
    Simple 1-hidden layer linear neural network
    """

    def __init__(self, input_dim: int, hidden_dim: int, output_dim: int):
        """
        Initialize network's weights
        """

        device = "cuda" if torch.cuda.is_available() else "cpu"
        self.weight_1: torch.Tensor = torch.randn((input_dim, hidden_dim), requires_grad=True, device=device)
        self.bias_1: torch.Tensor = torch.zeros(hidden_dim, requires_grad=True, device=device)
        self.activation_1 = nn.Tanh()

        self.weight_2: torch.Tensor = torch.randn((hidden_dim, output_dim), requires_grad=True, device=device)
        self.bias_2: torch.Tensor = torch.zeros(output_dim, requires_grad=True, device=device)

    def __call__(self, x: torch.Tensor) -> torch.Tensor:
        """
        Forward pass through the network
        """
        x = x @ self.weight_1 + self.bias_1
        x = self.activation_1(x)
        x = x @ self.weight_2 + self.bias_2
        return x

    def parameters(self) -> List[torch.Tensor]:
        """
        Returns all trainable parameters
        """
        return [self.weight_1, self.bias_1, self.weight_2, self.bias_2]

In [10]:
def pytorch_backward(loss: torch.Tensor, model: CustomNetwork):
    loss.backward()

In [11]:
def train(model: CustomNetwork, epoch: int, batch_size: int, lr: float, momentum: float, backward_fn=pytorch_backward):

    # prepare data loaders, based on the already loaded datasets
    train_loader = torch.utils.data.DataLoader(train_data, batch_size=batch_size, shuffle=True)
    test_loader = torch.utils.data.DataLoader(test_data, batch_size=batch_size)

    # initialize the optimizer using the hyperparams
    parameters = model.parameters()
    optimizer: torch.optim.Optimizer = SGD(parameters, lr=lr, momentum=momentum)

    criterion = nn.CrossEntropyLoss()
    device = "cuda" if torch.cuda.is_available() else "cpu"

    # training loop
    for e in range(epoch):
        for i, (x, y) in enumerate(train_loader):
            x = x.to(device)
            y = y.to(device)
            # reset the gradients from previouis iteration
            optimizer.zero_grad()
            # pass through the network
            output = model(x)
            # calculate loss
            loss = criterion(output, y)  # type: torch.Tensor
            # backward pass thorught the network
            backward_fn(loss, model)
            # apply the gradients
            optimizer.step()

            # log the loss value
            if (i + 1) % 100 == 0:
                print(
                    f"Epoch {e} iter {i + 1}/{len(train_data) // batch_size} loss: {loss.item()}",
                )

        # at the end of an epoch run evaluation on the test set
        with torch.no_grad():
            # initialize the number of correct predictions
            correct: int = 0
            for i, (x, y) in enumerate(test_loader):
                x = x.to(device)
                y = y.to(device)
                # pass through the network
                output = model(x)  # type: torch.Tensor
                # update the number of correctly predicted examples
                y_pred = output.argmax(dim=1)
                correct += (y == y_pred).sum()  # type: ignore

            print(f"\nTest accuracy: {correct / len(test_data)}")
    return correct

In [12]:
# hyperparams
batch_size: int = 64
epoch: int = 3
lr: float = 0.01
momentum: float = 0.9
input_size = 28 * 28
hidden_dim = 128
output_dim = 10

# initialize the model
model: CustomNetwork = CustomNetwork(input_size, hidden_dim, output_dim)  # type: ignore

correct = train(model, epoch, batch_size, lr, momentum)

# this is your test
assert (
    correct / len(test_data) > 0.82
), "Subject to random seed you should be able to get >82% accuracy"

Epoch 0 iter 100/937 loss: 3.2210114002227783
Epoch 0 iter 200/937 loss: 1.8707308769226074
Epoch 0 iter 300/937 loss: 2.271113872528076
Epoch 0 iter 400/937 loss: 1.9163975715637207
Epoch 0 iter 500/937 loss: 1.1919970512390137
Epoch 0 iter 600/937 loss: 1.7391173839569092
Epoch 0 iter 700/937 loss: 1.0534604787826538
Epoch 0 iter 800/937 loss: 0.8600257039070129
Epoch 0 iter 900/937 loss: 1.0361273288726807

Test accuracy: 0.8194000124931335
Epoch 1 iter 100/937 loss: 1.2708370685577393
Epoch 1 iter 200/937 loss: 1.155853033065796
Epoch 1 iter 300/937 loss: 0.8563973307609558
Epoch 1 iter 400/937 loss: 0.5867698192596436
Epoch 1 iter 500/937 loss: 0.5960996747016907
Epoch 1 iter 600/937 loss: 0.8127822279930115
Epoch 1 iter 700/937 loss: 0.7921037673950195
Epoch 1 iter 800/937 loss: 0.8739862442016602
Epoch 1 iter 900/937 loss: 1.0689129829406738

Test accuracy: 0.8504999876022339
Epoch 2 iter 100/937 loss: 0.3184608519077301
Epoch 2 iter 200/937 loss: 1.161980152130127
Epoch 2 iter 

## Zadanie 4 (2 pkt.)

Ręcznie zaimplementować backward pass do sieci z poprzedniego zadania

In [13]:
def my_manual_backward(loss: torch.Tensor, model: CustomNetwork):
    with torch.no_grad():
        device = "cuda" if torch.cuda.is_available() else "cpu"
        # Note: CrossEntropyLoss = LogSoftmax + NLLLoss
        out_grad = torch.ones_like(loss, device=device)
        nll_grad_fn = loss.grad_fn
        log_softmax_grad_fn = nll_grad_fn.next_functions[0][0]

        add_grad_fn = log_softmax_grad_fn.next_functions[0][0]

        x_times_w2_grad_fn = add_grad_fn.next_functions[0][0]
        tanh_grad_fn = x_times_w2_grad_fn.next_functions[0][0]
        x_times_w1_grad_fn = tanh_grad_fn.next_functions[0][0].next_functions[0][0]

        nll_grad = nll_grad_fn(out_grad)

        log_softmax_grad = log_softmax_grad_fn(nll_grad)

        w2_times_x_grad, b2_grad = add_grad_fn(log_softmax_grad)
        b2_grad = b2_grad.sum(0)

        x_grad, w2_grad = x_times_w2_grad_fn(w2_times_x_grad)

        tanh_grad = tanh_grad_fn(x_grad)

        w1_times_x_grad, b1_grad = add_grad_fn(tanh_grad)
        b1_grad = b1_grad.sum(0)

        _, w1_grad = x_times_w1_grad_fn(w1_times_x_grad)

        model.weight_1.grad = w1_grad
        model.bias_1.grad = b1_grad
        model.weight_2.grad = w2_grad
        model.bias_2.grad = b2_grad

In [14]:
model: CustomNetwork = CustomNetwork(784, 64, 10)
(x, y) = next(iter(train_loader))
output = model(x)
loss = torch.nn.functional.cross_entropy(output, y)


my_manual_backward(loss, model)

w1g = model.weight_1.grad.clone().detach()
b1g = model.bias_1.grad.clone().detach()
w2g = model.weight_2.grad.clone().detach()
b2g = model.bias_2.grad.clone().detach()

model.weight_1.grad = None
model.bias_1.grad = None
model.weight_2.grad = None
model.bias_2.grad = None

loss.backward()

assert torch.allclose(w1g, model.weight_1.grad)
assert torch.allclose(b1g, model.bias_1.grad)
assert torch.allclose(w2g, model.weight_2.grad)
assert torch.allclose(b2g, model.bias_2.grad)

In [16]:
# initialize the model
model: CustomNetwork = CustomNetwork(input_size, hidden_dim, output_dim) # type: ignore

correct = train(model, epoch, batch_size, lr, momentum, backward_fn=my_manual_backward)

# this is your test
assert (
    correct / len(test_data) > 0.82
), "Subject to random seed you should be able to get >82% accuracy"

Epoch 0 iter 100/937 loss: 5.418475151062012
Epoch 0 iter 200/937 loss: 2.077592134475708
Epoch 0 iter 300/937 loss: 2.2700843811035156
Epoch 0 iter 400/937 loss: 1.4442265033721924
Epoch 0 iter 500/937 loss: 1.233262300491333
Epoch 0 iter 600/937 loss: 1.8796467781066895
Epoch 0 iter 700/937 loss: 1.2523422241210938
Epoch 0 iter 800/937 loss: 1.7468163967132568
Epoch 0 iter 900/937 loss: 1.3944978713989258

Test accuracy: 0.8177000284194946
Epoch 1 iter 100/937 loss: 1.2427126169204712
Epoch 1 iter 200/937 loss: 0.8111684322357178
Epoch 1 iter 300/937 loss: 0.9952529668807983
Epoch 1 iter 400/937 loss: 1.01725435256958
Epoch 1 iter 500/937 loss: 0.7952735424041748
Epoch 1 iter 600/937 loss: 1.5496265888214111
Epoch 1 iter 700/937 loss: 0.3262270390987396
Epoch 1 iter 800/937 loss: 0.7880440950393677
Epoch 1 iter 900/937 loss: 0.8400958776473999

Test accuracy: 0.8511000275611877
Epoch 2 iter 100/937 loss: 0.9040847420692444
Epoch 2 iter 200/937 loss: 0.12849606573581696
Epoch 2 iter 3