# Biblioteki Pythona w analizie danych
### Tomasz Rodak

Lab 7

---



## Sieci neuronowe - problem regresji

Celem tego ćwiczenia jest:
- zdefiniowanie w Numpy własnej klasy `NeuralNetwork`, która będzie implementować sieć neuronową z jedną warstwą ukrytą w architekturze MLP (Multi-Layer Perceptron)
- zaimplementowanie algorytmu optymalizacji SGD (w wersji mini-batch) dla tej sieci

Dla uproszczenia będziemy zakładali, że wejście i wyjście sieci są ciągłe i mają wymiar 1. 

### Architektura sieci neuronowej

Zaimplementuj sieć neuronową z jedną warstwą ukrytą o $n$ neuronach wg. wzoru:

\begin{equation*}
\begin{split}
z_1 &= a(w_1x + b_1) \\
z_2 &= a(w_2x + b_2) \\
&\vdots \\
z_n &= a(w_nx + b_n) \\
y &= v_1z_1 + v_2z_2 + \ldots + v_nz_n + b
\end{split}
\end{equation*}

Oznaczenia:
- $x$ - wejście sieci neuronowej,
- $z_i$ - wyjścia z neuronów warstwy ukrytej,
- $y$ - wyjście sieci neuronowej,
- $w_i$ - wagi wejść neuronów warstwy ukrytej,
- $b_i$ - przesunięcia neuronów warstwy ukrytej,
- $v_i$ - wagi wyjść neuronów warstwy ukrytej,
- $b$ - przesunięcie wyjścia sieci,
- $a$ - funkcja aktywacji (np. sigmoidalna).

Zapis macierzowy powyższego wzoru wygląda następująco.
Niech $X$ oznacza macierz obserwacji z dołączoną kolumną jedynek:

$$
X = \begin{bmatrix}
1 & x_1 \\
1 & x_2 \\
\vdots & \vdots \\
1 & x_N
\end{bmatrix}
$$

Jeśli $W$ oznacza macierz wag neuronów warstwy ukrytej postaci:

$$
W = \begin{bmatrix}
b_1 & b_2 & \ldots & b_n \\
w_1 & w_2 & \ldots & w_n
\end{bmatrix}
$$

to wyjścia neuronów warstwy ukrytej można zapisać jako:

$$
Z = a(XW)
$$

Podobnie, jeśli $V$ oznacza wektor wag wyjść neuronów warstwy ukrytej

$$
V = \begin{bmatrix}
b\\
v_1 \\
v_2 \\
\vdots \\
v_n
\end{bmatrix}
$$

to wyjście sieci można zapisać jako:

$$
y = \widetilde{Z}V
$$
gdzie $\widetilde{Z}$ to macierz $Z$ z dołączoną kolumną jedynek:
$$
\widetilde{Z} = \begin{bmatrix}
1 & z_{11} & z_{12} & \ldots & z_{1n} \\
1 & z_{21} & z_{22} & \ldots & z_{2n} \\
\vdots & \vdots & \vdots & \vdots & \vdots \\
1 & z_{N1} & z_{N2} & \ldots & z_{Nn}
\end{bmatrix}
$$



### Funkcja straty

Jako funkcję straty przyjmij błąd średniokwadratowy (MSE - Mean Squared Error):

$$
L = \frac{1}{N} \sum_{i=1}^N (y_i - \hat{y}_i)^2
$$

gdzie $y_i$ to wartość rzeczywista, a $\hat{y}_i$ to wartość przewidziana przez sieć neuronową.

### Optymalizacja

Optymalizację sieci neuronowej wykonaj metodą SGD. Wagi sieci neuronowej zaktualizuj wg. wzoru:

$$
\begin{split}
W^{(t+1)} &= W^{(t)} - \eta \frac{\partial L}{\partial W} \\
V^{(t+1)} &= V^{(t)} - \eta \frac{\partial L}{\partial V} 
\end{split}
$$

gdzie $\eta$ to współczynnik uczenia.

### Kod

Wykorzystaj powyższe wyjaśnienia i dokończ definicję klasy `NeuralNetwork` podaną poniżej.

In [None]:
import numpy as np

def sigmoid(a):
    """Sigmoidalna funkcja aktywacji."""
    return 1 / (1 + np.exp(-a))

def tanh(a):
    """Tangens hiperboliczny."""
    return np.tanh(a)

def relu(a):
    """Funkcja ReLU."""
    return np.maximum(0, a)


class NeuralNetwork:
    """Sieć neuronowa z jedną warstwą ukrytą,
    przeznaczona do regresji y = f(x).
    
    Warstwy:
    - wejściowa: 1 neuron plus bias
    - ukryta: n neuronów plus bias
    - wyjściowa: 1 neuron
    """

    def __init__(self, n=3, activation_function=sigmoid, seed=None):
        rng = np.random.RandomState(seed)
        self.W = rng.normal(0, 2, (2, n))
        self.V = rng.normal(0, 2, (n + 1, 1))
        self.activation_function = activation_function
    
    def forward(self, X):
        # Propagacja sygnału w przód
        # X: macierz danych wejściowych kształtu (N, 2), gdzie N to liczba próbek
        # Pierwsza kolumna to jedynki (bias), druga to x
        # Zwraca: wektor przewidywanych wartości kształtu (N, 1)
        pass
    
    def loss(self, X, y):
        # Oblicza błąd średniokwadratowy
        # X: macierz danych wejściowych kształtu (N, 2)
        # y: wektor wartości docelowych kształtu (N, 1)
        # Zwraca: błąd średniokwadratowy
        pass
    
    def gradient(self, X, y, h=1e-10):
        # Oblicza gradient funkcji straty numerycznie
        # X: macierz danych wejściowych kształtu (N, 2)
        # y: wektor wartości docelowych kształtu (N, 1)
        # h: krok numeryczny
        # Zwraca: krotka (dW, dV, db) z gradientami
        # dW: gradient macierzy wag W
        # dV: gradient macierzy wag V
        # db: gradient biasu b
        pass

    def update(self, dW, dV, lr=0.01):
        # Aktualizuje wagi
        # dW: gradient macierzy wag W
        # dV: gradient macierzy wag V
        # lr: współczynnik uczenia
        self.W -= lr * dW
        self.V -= lr * dV

    def fit(self, X, y, epochs=1, lr=0.01, batch_size=1, verbose=False):
        # Uczy sieć
        # X: macierz danych wejściowych kształtu (N, 2)
        # y: wektor wartości docelowych kształtu (N, 1)
        # epochs: liczba epok
        # batch_size: rozmiar wsadu
        # lr: współczynnik uczenia
        # verbose: czy wypisywać wartości funkcji straty
        pass

### Testy

#### Zbiór danych treningowych

Na początek wygeneruj sztuczny zbiór danych treningowych z prostego modelu:

$$
y = \sin x + \varepsilon,\quad x \in [0, 10],\quad \varepsilon \sim N(0, 0.2).
$$

Wyświetl wykres funkcji odpowiadającej części deterministycznej modelu oraz wykres rozproszenia danych treningowych.

Dopasuj model sieci do danych treningowych dla różnych wartości hiperparametrów. Wyświetl uzyskane modele na wykresie wraz z danymi treningowymi. 

Trudniejsze zadanie to aproksymacja funkcji ze zbioru [`D1`](https://github.com/rodakt/BPwAD/tree/main/data/D1)

