# Cvičení 5 - Lineární regrese

V tomto cvičení se budeme zabývat modelem lineární regrese.

## Stručný úvod do lineární algebry v numpy

Než se pustíme do modelu lineární regrese, podívejme se na práci s poli, maticemi a vektory v [NumPy](https://numpy.org/).

NumPy je efektivní knihovna pro práci s numerickými daty ve formě tenzorů (vícerozměrných polí). 

NumPy používá homogenní pole –⁠ všechny položky mají stejný datový typ a také má pevnou velikost. 

Několik užitečných odkazů:

- Kompletní úvod do NumPy: https://towardsdatascience.com/the-ultimate-beginners-guide-to-numpy-f5a2f99aef54
- Vizuální ukázka práce s NumPy: https://medium.com/@yp7121/a-visual-intro-to-numpy-2903458d25ea
- Cheatsheet na jednotlivé funkce: https://pyvec.github.io/cheatsheets/numpy/numpy-cs.pdf

NumPy se standardně importuje jako `np`, (ale neomezuje vás to od toho si tento alias pojmenovat, jak chcete).

In [None]:
import numpy as np

### NumPy array

NumPy pole, `ndarray`, je N-dimenzionální tensor. 

Nejjednodušší cesta, jak vytvořit ndarray je vytvořit ho z listu.

In [None]:
# ndarray, n=1
a = np.array([1, 2, 3])
print(a)
print("="*80,'\n')

# ndarray, n=2
b = np.array([[1, 2], [5, 3], [4, 6]])
print(b)
print(type(b), b.dtype)
print("="*80,'\n')

# můžeme také nastavit datový typ, pokud potřebujeme
c = np.array(b, dtype=np.float64)
print(c)
print(type(b), b.dtype)

Další možností je vytvoření `ndarray` speciálních typů (např. samé nuly, jednotkové matice, atd.). 

Argumentem následujících funkcí býva shape nového `ndarray`.

In [None]:
# ndarray plné nul
print(np.zeros((2, 3))) 
print("="*80,'\n')

# ndarray plné jedniček
print(np.ones((2, 3))) 
print("="*80,'\n')

# ndarray plné logických true
a = np.ones((2, 3), dtype = bool)
print(a) 
print(a.dtype)
print("="*80,'\n')

# vytvoří ndarray s random čísly s rozsahem mezi 0 a 1
# pokud byste chtěli jiný rozsah, použijte google.
# např. se může hodit https://docs.scipy.org/doc/numpy-1.16.0/reference/generated/numpy.random.uniform.html
print(np.random.random((2, 3))) 
print("="*80,'\n')

# vytvoří ndarray s jedničkami na diagonále. Podívejte se na parametr k
print(np.eye(3, 4)) 

Pokud pracujeme s maticemi (odpovídající `ndarray` by bylo dvourozměrné), tak pro ulehčení práce může být výhodné je převést je na `np.matrix`.

V takovou chvíli je malinko snazší zápis maticových operací (s `ndarray` to ale lze udělat vše také).

Pozor, že NumPy matice `matrix` jsou striktně 2-dimenzionální!

In [None]:
# Normální numpy array
a1 = np.array([[1,2],[3,4]])
a2 = np.array([[2,3],[4,5]])

# NumPy matrix
m1 = np.matrix(a1)
m2 = np.matrix([[2,3],[4,5]])

print(m1)
print(type(m1), m1.dtype)
print("="*80, '\n')

# nasobeni skalarem je stejné u ndarray i u matrix
print('Násobení číslem')
print(a1 * 8)
print(m1 * 8)

U maticových operací již budou rozdíly.

**Operátor * se u `matrix` chová jako maticové násobení, u `ndarray` je to násobení po složkách!**

In [None]:
a1 = np.array([[1,2],[3,4]])
a2 = np.array([[2,3],[4,5]])
# nasobeni matic u np.matrix
print('Násobení matic pomocí *')
print(m1*m2)

# obyčejné násobení prvek krát prvek u ndarray
print('Násobení v ndarray po prvcích pomocí *')
print(a1*a2)
print("="*80, '\n')

# maticové násobení u ndarray
print('Maticové násobení v ndarray pomocí @')
print(a1@a2)
print("="*80, '\n')

# taktéž funguje pro np.matrix
print('Maticové násobení pomocí @ funguje i u matrix')
print(m1@m2)
print("="*80, '\n')

- Funkce maticového násobení, která funguje vždy je v numpy ve funkci `np.dot`. 
- Funkce násobení po složkách je ve funkci `np.multiply`.

In [None]:
# případně se dá násobit přes
print('Pro maticové násobení lze použít funkci np.dot')
print(np.dot(a1, a2))
print(np.dot(m1, m2))
print("="*80, '\n')

# případně se dá násobit přes
print('Pro maticové násobení lze použít funkci np.multiply')
print(np.multiply(a1, a2))
print(np.multiply(m1, m2))

Matice a ndarray se dají snadno transponovat.

In [None]:
print("Originální:\n", a1)
print("Transponované (.T):\n", a1.T)
print("Transponované (.transpose()):\n", a1.transpose())
print("Transponované (np.transpose()):\n", np.transpose(a1))
print("="*80, '\n')

print("Transponované (matrix, .T):\n", m1.T)
print("Transponované (matrix, .transpose()):\n", m1.transpose())
print("Transponované (matrix, np.transpose()):\n", np.transpose(m1))

Pro zjisštění velikosti v numpy existuje několik funkcí.

In [None]:
# rozměry (shape), dimenzi (ndim) a velikost (size)
a3 = np.random.random((2,2,3))

print(a3, '\n')

print('Shape', a3.shape)
print('ndim', a3.ndim)  
print('size', a3.size)

V numpy funguje dle očekávání slicing a indexing.

In [None]:
a5 = np.random.random((3,4))
print(a5.shape)
print("="*80, '\n')
print(a5)
print("="*80, '\n')
print(a5[1:, 2:]) # od řádku 1 a dál, sloupce 2 a dál (indexujeme od nuly)
print("="*80, '\n')
print(a5[:, :-1]) # všechny řádky, všechny sloupce kromě posledního

Další dvě šikovné funkce jsou `flatten` a `ravel`, které _zplošťují_ pole.

In [None]:
a4 = np.array([[1,2],[3,4],[5,6]])

print(a4)
print(a4.shape)
print("="*80)

# flatten nam vytvori novy objekt a "narovna" nam ndarray jako 1D pole. Deep copy.
f1 = a4.flatten()
print("a4 flatten:\n", f1)
print("="*80)

# ravel nam novy objekt nevytvari, ale funguje jako shallow copy. Jinak funguje stejne jako flatten
r1 = a4.ravel()
print("a4 ravel:\n", r1)
print("="*80)

a4[0,0] = 555
print("a4 se zmenilo:\n", a4)
print("f1 se nezmenilo:\n", f1)
print("r1 se zmenilo:\n", r1)

Dále si ukažme `reshape`, které se může hodit při přípravě dat. Všimněte si užití -1.

In [None]:
# to se může hodit, když někdy s tím chcete pracovat jak n-dimenzionální pole a někdy jako 1D pole.
# zpátky (nebo do jiného shape) si s tím můžete pohrát pomocí příkazu reshape (který dává smysl)
print('Originál:', r1, '\n')
for r in [(1,6), (2,3), (3,2), (6,1), (-1,1), (2,-1)]:
    print(f"Reshape {r}:")
    print(r1.reshape(r),'\n')


Spojování polí můžeme dělat pomocí `np.concatenate`.

In [None]:
a = np.array([[1,2],[3,4],[5,6]])
print('a = ', a,'\n')

b = np.ones((a.shape[0],1))
print('b = ', b,'\n')

c = np.concatenate((a,b), axis = 1)
print('Vektor b přilepený za matici a:')
print(c,'\n')

c = np.concatenate((a,b[:2].T), axis = 0)
print('První 2 prvky vektoru b, transponovány a přilepeny pod matici a:')
print(c)

## Lineární regrese

Pojďme se nyní konečně věnovat modelu lineární regrese. Nejprve si načteme další potřebné knihovny.

In [None]:
import pandas as pd

from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt
import matplotlib
%matplotlib inline

# nastavení počtu vypisovaných cifer z numpy
np.set_printoptions(precision=5, suppress=True)  # suppress scientific float notation (so 0.000 is printed as 0.)

### Dataset

Využijeme data ze serveru Kaggle o cenách domů v oblasti Bostonu v USA [více info zde](https://www.kaggle.com/c/boston-housing).

Data jsou již vyčištěná. Proměnná, kterou chceme predikovat je `medv`.

In [None]:
df = pd.read_csv('boston.csv')
print('Shape', df.shape)
df.head()

### Příprava trénovací a validační množiny

Opět použijeme [train_test_split](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) ze `scikit-learn`.

Testovací množinu nebudeme vytvářet, protože nás nyní finální chyba modelu nebude zajímat.

In [None]:
random_seed = 42

Xtrain, Xval, ytrain, yval = train_test_split(df.drop(columns = ['medv']), df['medv'], test_size=0.4, random_state=random_seed)
Xval, Xtest, yval, ytest = train_test_split(Xval, yval, test_size=0.3, random_state=random_seed)

print(f"Train rozměry, X: {Xtrain.shape}, y: {ytrain.shape}")
print(f"Val rozměry, X: {Xval.shape}, y: {yval.shape}")
print(f"Test rozměry, X: {Xtest.shape}, y: {ytest.shape}")

## Úkol - proveďte metodu nejmenších čtverců ručně

Používejte pouze maticové operace v [numpy.linalg](https://numpy.org/doc/stable/reference/routines.linalg.html).

* Vypočtěte odhad $\hat{\boldsymbol w}_{OLS} = (\mathbf{X}^T \mathbf X)^{-1} \mathbf X^T \boldsymbol Y$, uložte ho do proměnné `w_hat` a vypište jednotlivé koeficienty. Který z nich je intercept? 
* Spočtěte hodnotu $\text{RSS}(\hat{\boldsymbol w}_{OLS}) = \lVert \boldsymbol Y - \mathbf X \boldsymbol w \rVert^2$.
* Nakreslete scatter plot hodnot $Y_i$ a $\hat Y_i$ pro validační množinu.
* Pro validační data proveďte predikce $\hat Y_i$ a porovnejte je se skutečnými hodnotami $Y_i$.
Jako míru porovnání použijte RMSE - root mean squared error definovanou pomocí vztahu $\text{RMSE} = \sqrt{\sum_{i}(Y_i - \hat Y_i)^2}$. Opět použijeme implementaci [sklearn.metrics.mean_squared_error](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error)


In [None]:
# Váš kód zde




## Úkol - zopakujte metodu nejmenších čtverců s využitím scikit-learn

* Zopakujte postup z předchozího bodu s využitím třídy [LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression) ze `scikit-learn`.
* Porovnejte výsledky s předchozím manuálním přístupem.

In [None]:
# Váš kód zde

clf = ...




In [None]:
print('Rozdíl koeficientů:')
print(np.array(w_hat[1:]).flatten() - clf.coef_, '\n')

print('Rozdíl interceptů:')
print(np.array(w_hat[0:])[0][0] - clf.intercept_)

**Vidíme, že je výsledek stejný!**

## Úkol - sledujte vliv lineárních transformací příznaků 

Nejprve si teoreticky ukažte, že lineární regrese je (teoreticky) invariantní vůči lineárním transformacím příznaků.

Lineární transformací příznaku $X_i$ myslíme vytvoření nového příznaku $\tilde X_i = a_i + b_i X_i$, kde $a_i$ a $b_i \neq 0$ jsou nějaké konstanty.

Jestliže pro každé $i = 1, \dotsc, p$ označíme $a_i$ a $b_i$ koeficienty použité při transformaci $i$ tého příznaku, dokažte, že vztah pro přepočet odpovídajícího vektoru koeficientů $\boldsymbol w$ je 
$$
\tilde{\boldsymbol w} = \begin{pmatrix}
1&-\frac{a_1}{b_1} & \dotsi & -\frac{a_p}{b_p}\\
0 & \frac{1}{b_1}& 0 & \dotsi\\
\vdots & \vdots & \ddots  & \vdots\\
0 & \dotsi & 0 & \frac{1}{b_p}
\end{pmatrix}
\boldsymbol w.
$$

Odvoďte dále vztah 
$$
\tilde{\mathbf{X}} = 
\mathbf{X}
\begin{pmatrix}
0 & 0 & 0 & \dotsc\\
0 & b_1 & 0 & \dotsc\\
\vdots & \vdots & \ddots  & \vdots\\
\dots & 0 & 0 & b_p
\end{pmatrix}
+
\begin{pmatrix}
1 & a_1 & \dotsi & a_p\\
1 & a_1 & \dotsi & a_p\\
\vdots & \vdots & \ddots  & \vdots\\
1 & a_1 & \dotsi & a_p
\end{pmatrix},
$$
kde $\mathbf{X} \in \mathbb R^{N, p+1}$ je matice příznaků pro trénovací množinu a $\tilde{\mathbf{X}} \in \mathbb R^{N, p+1}$ je matice transformovaných příznaků pro trénovací množinu (v obou případech je první sloupec konstantně roven $1$).

Nakonec ukažte $\tilde{\mathbf{X}} \tilde{\boldsymbol w} = \mathbf{X} \boldsymbol{w}$ a rozmyslete si, že z toho plyne, že pro každé $\boldsymbol{w}$, které minimalizuje $\text{RSS}_{\mathbf{X}}(\boldsymbol{w})$, odpovídající $\tilde{\boldsymbol w}$ minimalizuje $\text{RSS}_{\tilde{\mathbf{X}}}(\boldsymbol{w})$.

Na aktuálním datasetu dále zkuste u vybraných příznaků provést lineární transformaci (můžete udělat třeba Standardizaci) a ověřte, že po natrénování dostanete vektor koeficientů stejný, jako výše odvozeným výpočtem s pomocí koeficientů z provedené lineární transformace.

In [None]:
# Váš kód zde




## Úkol - zkoumejte vliv lineární nezávislosti slopců matice Xtrain na model

* Vytvořte nový příznak, který bude lineární kombinací ostatních (např. součtem _age_ a _tax_).
  Tím vytvoříme problém kolinearity.
* Podívejte se, jaký odhad $\hat{\boldsymbol w}$ vám vrátí `LinearRegression` ze `sklearn`.
* Podívejte se, jaké je pro toto řešení RSS a jaké je RMSE na validační množině.
* Ověřte, zda je tento vektor (když ho spojíte s interceptem) řešením normální rovnice $\mathbf{X}^T\mathbf X \boldsymbol w - \mathbf X^T \boldsymbol Y = \boldsymbol 0$.
* Pokud ne, najděte alespoň jedno řešení s využitím `numpy.linalg.pinv`.
* Podívejte se, jaké je pro toto řešení RSS a jaké je RMSE na validační množině.
* Zkuste nalézt nějaké další řešení normální rovnice $\hat{\boldsymbol  w}^*$ (využijte `scipy.linalg.null_space`). Podívejte se jaké je pro toto řešení RSS a jaké je RMSE na validační množině.

In [None]:
# Váš kód zde


wn_hat = ...

In [None]:
# Váš kód pro nalezení dalších řešení normální rovnice
# Jedno řešení máme uložené ve wn_hat



## Poučení! 
U lineární regrese se vyplatí zkoumat regularitu/kolinearitu. V případě, že jsou sloupce matice $\mathbf X$ lineárně závislé, je potřeba být opatrný a nevěřit 100% cizím implementacím. V takovém případě je ideální pustit se do nějaké regularizace např. pomocí hřebenové regrese, kterou budeme dělat na příštím cvičení.

**Zkuste nyní nastavit `random_seed = 1` při počátečním dělení na trénovací a validační množinu a spusťe znovu svůj kód!**