# Plan na dziś

## Sprawy formalne

1. Regulamin laboratoriów
    * 3 nieusprawiedliwione nieobecności dozwolone,
    * 50 pkt: 25 pkt za aktywność, 25 za finalny projekt,
    * zaliczenie laboratoriów >= 25 pkt,
    * punkty za aktywność: 3-4 mini projekty w trakcie semestru po 5/10 pkt stricte związane z laboratorami. Każdy projekt to część podstawowa plus część bardziej zaawansowana.
    * finalny projekt: prezentacje na ostatnich laboratoriach, w połowie semestru ogłosimy szczegóły. Projekt: umiejętności z WDUM + ZMUM (praktyczne zadanie).

2. Środowisko programistyczne

* Google Colab i notebooki `ipynb`,
* alternatywy: Jupyter Notebooks na koncie PW, Kaggle notebooks,
* język i pakiety
    - Python3,
    - numpy, pandas, tensorflow (Keras),
    - pakiety mniej znane: konieczność użycia komendy `pip install`

## Ćwiczenia

1. Rozgrzewka programistyczna: generowanie liczb pseudolosowych, implementacja regresji.
2. Regresja liniowa jako prosta sieć neuronowa:
    * biblioteka `Keras`.
3. Ddtwarzalność wyników (research reproducibility).
4. Dopasowanie modelu i (nie)spodziewany problem.


# Rozgrzewka

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

import tensorflow as tf

from tensorflow import keras
from tensorflow.keras import layers

np.set_printoptions(suppress=True)
print(tf.__version__)

In [None]:
rng = np.random.default_rng(2023)

Wygeneruj $100$ obserwacji pseudolosowych takich, że

\begin{equation}
Y = \beta_0 + \beta_1 \cdot X_1 + \beta_2 \cdot X_2 + \beta_3 \cdot X_3 + \epsilon,
\end{equation}

gdzie

* $\beta = (150, -4, 2.5, 0)$,
* $X_1 \sim \mathcal{N}(100, 10)$,
* $X_2 \sim \mathcal{N}(50, 5)$,
* $X_3 \sim \mathcal{N}(200, 20)$,
* $\epsilon \sim \mathcal{N}(0, 5)$.


[Zapoznaj się z tym przewodnikiem po generowaniu liczb pseudolosowych w `Numpy`](https://numpy.org/doc/stable/reference/random/generator.html)

Szkielet rozwiązania:

```python
data = pd.DataFrame(
    data=...,
    columns=...
)

data["Y"] = ...
```

# Zadanie 1 Rozwiązanie

# Implementacja regresji liniowej jako problem ML

Cel: znalezienie optymalengo wektora parametrów
 $\beta = (\beta_0, \beta_1, \ldots, \beta_p)^T$.

W tym celu definiujemy funkcję ryzyka $L(\beta)$ i szukamy

$$
\begin{equation}
\hat{\beta} = \underset{\beta}{\text{arg min}} \quad
L(\beta)
\end{equation}
$$

Powszechnie stosowana funkcja ryzyka
([o przydatnych statystycznie właściwościach](https://en.wikipedia.org/wiki/Ordinary_least_squares#Properties)) to *Mean Squared Error* MSE

$$
\begin{align}
L(\beta) &= \text{MSE}(\beta; X, y)\\
&= \sum\limits_{i=1}^n (\hat{y}_i - y_i)^2 \\
&= \sum\limits_{i=1}^n ({\beta} \mathbf{x}_i - y_i)^2
\qquad \text{where }\mathbf{x}_i \in R^p
\\
&= {\lVert X {\beta} - Y \rVert}^2
= (X {\beta} - Y)^T (X {\beta} - Y)
\end{align}
$$


## Jak wyznaczyć $\hat{\beta}$?

Warunek konieczny pierwszego rzędu (*a first order necessary condition*)

\begin{equation}
\nabla_\beta L(\beta) = 0.
\end{equation}

Policzmy gradient

$$
\begin{equation}
\nabla_\beta L(\beta) = 
\nabla_\beta (X \beta - Y)^T (X \beta - Y) =
-2X^TY + 2X^TX\beta.
\end{equation}
$$

Przyrównująć gradient do $\mathbf{0}$, otrzymamy

\begin{equation}
\hat{\beta} = (X^T X)^{-1} X^T Y.
\end{equation}

Aby sprawdzić, że $\hat{\beta}$ to globalne minimum, musimy sprawdzić warunki drugiego rzędu (second-order conditions), tj. przeanalizować określoność Hesjanu (Hessian matrix). [(dla chętnych)](https://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem#Proof)

# Zadanie 2

Zaimplementuj klasę `Regression` z metodą `fit` i dopasuj model regresji liniowej do wysymulowanych danych `data`.

Użyj polecenia `print` żeby wyświetlić w konsoli wartości $\hat{\beta}$.

Szkielet rozwiązania

[dokumentacja dot. algebry liniowej w Numpy](https://numpy.org/doc/stable/reference/routines.linalg.html)

```python
class Regression:
    def __init__(self, ...)
        self.weights = None
        ...

    def fit(self, X, y):
        pass
```

# Wskazówka

Użyj `X @ Y` do pomnożenia macierzy, użyj `np.linalg.inv` do odwrócenia macierzy.

# Zadanie 2 Rozwiązanie

# Zadanie 3

Zmodyfikuj metody `__init__` oraz `fit` klasy `Regression` tak, żeby użytkownik miał wybór: użyć intercept lub nie.

Szkielet rozwiązania

```python
class Regression:
    def __init__(self, intercept=False)
        self.weights = None
        self.intercept = intercept

    def fit(self, X, y):
        if self.intercept:
            pass
        pass
```

# Wskazówka



Użyj `np.ones` oraz `np.c_` aby uzupełnić macierz $X$ (a *design matrix*) o wektor jednostkowy $\mathbf{1} = (1, \ldots, 1)^T$.

# Zadanie 3 rozwiązanie

---

# Reprezentacja regresji liniowej jako prostej sieci neuronowej

Biblioteka, której będziemy używać do trenowania sieci neuronowych, to `Keras`, aktualnie zintegrowana z `Tensorflow`.

## Zadanie 4

[Zapoznaj się z krótkim wprowadzeniem do `Keras`](https://keras.io/about/).


# Zadanie 5

Zapoznaj się z poniższym schematem prostej sieci neuronowej, implementującej regresją.

- [ ] TODO: CREATE A NEW PICTURE

![see](https://i.stack.imgur.com/75VU8.png)

Zauważmy, że w żargonie NN mówimy o "wagach" $w_j$, a nie współczynnikach $\beta_j$, zaś wyraz wolny $w_0$ to "bias" a nie "intercept".

Utwórz model `model1` korzystając z biblioteki `Keras`, korzystając ze szkieletu poniżej.

```python
model1 = ...

model1.add(tf.keras.Input(shape=...))

model1.add(
    tf.keras.layers.Dense(
        ..., 
        activation=...
    )
)
```

Następnie użyj metody `summary`, żeby wypisać podsumowanie modelu, oraz wypisz wartości atrybutu `weights`: zainicjowaną losowo przez Keras macierz wag $W$.

# Zadanie 5: Rozwiązanie.

# Reprodukowalność

Macierz wag $W$ jest generowana losowo, ale możemy proces ustalania wag wstępnych kontrolować (mniej lub bardziej) za pomocą modułu `tf.keras.initializers.<...>` [(link do dokumentacji Keras)](https://keras.io/api/layers/initializers/#creating-custom-initializers)

To jest ważne ze względu na:
- reprodukowalność wyników naukowych,
- analizę działania sieci neuronowych: będziemy porównywać nasze implementacje "od zera" z modelami stworzonymi przy użyciu Keras.



# Zadanie 6

Stwórz pseudolosowy wektor wag `random_tensor` w formie tensora za pomocą biblioteki Tensorflow.
Użyj ziarna losowania o wartości `2023`.

Wypisując tensor do konsoli, powinieneś otrzymać rezultat

```python
<tf.Tensor: shape=(3,), dtype=float32, numpy=array([ 0.3747068 ,  0.72808206, -0.7266839 ], dtype=float32)>
```

Następnie stwórz nowy `model2`, podobny do `model1`, z tą różnicą, że macierz wag $W$ ma zawierać wyraz wolny $w_0 = 0$ oraz resztę wag równą wartościom wektora `random_tensor`. Znajdź odpowiedni argument w klasie `tf.keras.layers.Dense`, za pomocą którego przekażesz wylosowany wektor wag.

Przekonaj się, że atrybut `model2.weights` jest równy wylosowanemu wektorowi `random_tensor`.

Schemat rozwiązania

```
random_tensor = tf.random.normal((3,), seed=2023)
random_tensor
```

```
model2 = tf.keras.Sequential()

model2.add(tf.keras.Input(shape=(3,)))

model2.add(
    tf.keras.layers.Dense(
        1, 
        activation=tf.keras.activations.linear,
        <odpowiedni_argument>=<odpowiednia_wartosc>
    )
)
```

# Zadanie 6 Rozwiązanie

# Trenowanie sieci neuronowej

# Training neural network - przypomnienie

* Liczba obserwacji: $N = 100$,

* an epoch: jedna iteracja po zbiorze danych (każda z obserwacji raz bierze udział w uczeniu),

* a batch: a fraction $M < N$ of the data used for a single gradient calculation and weights update, e.g. $M = 20$.

Schemat trenowania sieci neuronowej 3 epochs/5 batches może być opisany za pomoca takiego pseudokodu:

```python
for epoch in range(3):
    for batch in range(5):
        data_for_training = data.loc[batch_index, :]
        learning_process() # updating weights in current `batch` iteration
```

Importujemy odpowiedni *callback* żeby otrzymać *verbose log* (więcej informacji wypisanych do konsoli podczas procesu uczenia).

In [None]:
from keras.callbacks import LambdaCallback
print_weights = LambdaCallback(on_epoch_end=lambda batch, logs: print(model2.layers[0].get_weights()))

Kompilujemy model z użyciem klasycznego *optimizer*, ustawienia defaultowe: metoda SGD (Stochastic Gradient Descent).

In [None]:
model2.compile(optimizer='sgd', loss='mse')

Użyjmy ustawień:

* 5 epochs,
* batch size: 20,
* `shuffle=False`. Opcja `shuffle` zapewnia reprodukowalność, bo algorytm wybiera obserwacje do danego batchu według kolejności ze zbioru danych, a nie losowo.

In [None]:
history = model2.fit(
    data.loc[:, ["X1", "X2", "X3"]], 
    data.loc[:, ["Y"]], 
    epochs=5, 
    verbose=1, 
    callbacks = [print_weights], 
    batch_size=20, 
    shuffle=False
)

# Co się stało?


Od tego zaczniemy kolejne zajęcia.

---