Sveučilište u Zagrebu<br>
Fakultet elektrotehnike i računarstva

# Strojno učenje

<a href="http://www.fer.unizg.hr/predmet/su">http://www.fer.unizg.hr/predmet/su</a>

Ak. god. 2015./2016.

# Bilježnica 5: Regresija

(c) 2015 Jan Šnajder

<i>Verzija: 0.1 (2015-11-04)</i>

In [1]:
import scipy as sp
import scipy.stats as stats
import matplotlib.pyplot as plt
import pandas as pd
%pylab inline

Populating the interactive namespace from numpy and matplotlib


### Sadržaj:

* Uvod

* Osnovni pojmovi

* Model, funkcija gubitka i optimizacijski postupak

* Postupak najmanjih kvadrata

* Poopćeni linearan model regresije

* Odabir modela

* Regularizirana regresija

* Sažetak

# Osnovni pojmovi

* Označen skup podataka: $\mathcal{D}=\{(\mathbf{x}^{(i)},y^{(i)})\},\quad \mathbf{x}\in\mathbb{R}^n,\quad y\in\mathbb{R}$


* Hipoteza $h$ aproksimira nepoznatu  funkciju $f:\mathbb{R}^n\to\mathbb{R}$


* Idealno, $y^{(i)}=f(\mathbf{x}^{(i)})$, ali zbog šuma: $$y^{(i)}=f(\mathbf{x}^{(i)})+\varepsilon$$


* $\mathbf{x}$ - **ulazna varijabla** (nezavisna, prediktorska)


* $y$ - **izlazna varijabla** (zavisna, kriterijska)


### Vrste regresije

* Broj ulaznih (nezavisnih) varijabli:
  * Univarijatna (jednostavna, jednostruka) regresija: $n=1$
  * Multivarijatna (višestruka, multipla) regresija: $n>1$


* Broj izlaznih (zavisnih) varijabli:
  * Jednoizlazna regresija: $f(\mathbf{x}) = y$
  * Višeizlazna regresija: $f(\mathbf{x})=\mathbf{y}$
 

# Model, funkcija gubitka i optimizacijski postupak


### (1) Model

* **Linearan model regresije**: $h$ je linearna funkcija <u>parametara</u>
$\mathbf{w} = (w_0,\dots,w_n)$


* Linearna regresija:
    $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n$$


* Polinomijalna regresija:
    * Univarijatna: $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x + w_2 x^2 + \dots + w_d x^d\quad (n=1)$$
    * Multivarijatna: $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + w_3 x_1 x_2 + w_4 x_1^2 + w_5 x_2^2\quad (n=2, d=2)$$
      * Modelira međuovisnost značajki (*cross-terms* $x_1 x_2, \dots$) 


* Općenite **bazne funkcije**:
    $$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1\phi_1(\mathbf{x}) + \dots + w_m\phi_m(\mathbf{x})$$

### (2) Funkcija gubitka (funkcija pogreške)

* Kvadratni gubitak (engl. *quadratic loss*)

$$
L(y^{(i)},h(\mathbf{x}^{(i)})) = \big(y^{(i)}-h(\mathbf{x}^{(i)})\big)^2
$$

* Funkcija pogreške (proporcionalna s empirijskim očekivanjem gubitka):
$$
E(h|\mathcal{D})=\frac{1}{2}
\sum_{i=1}^N\big(y^{(i)}-h(\mathbf{x}^{(i)})\big)^2
$$

### (3) Optimizacijski postupak

* Postupak **najmanjih kvadrata** (engl. *least squares*)

$$
\mathrm{argmin}_{\mathbf{w}} E(\mathbf{w}|\mathcal{D})
$$


* Rješenje ovog optimizacijskog problema postoji u zatvorenoj formi


# Postupak najmanjih kvadrata


* Razmotrimo najprije linearan model
$$h(\mathbf{x}|\mathbf{w}) = w_0 + w_1 x_1 + w_2 x_2 + \dots + w_n x_n = \sum_{i=1}^n w_i x_i + w_0$$


* Izračun je jednostavniji ako pređemo u matrični račun
  * Svaki vektor primjera $\mathbf{x}^{(i)}$ proširujemo *dummy* značajkom $x^{(i)}_0 = 1$, pa je model onda:

$$h(\mathbf{x}|\mathbf{w}) = \mathbf{w}^\intercal \mathbf{x}$$


* Skup primjera:

$$
\mathbf{X} = 
\begin{pmatrix}
1 & x^{(1)}_1 & x^{(1)}_2 \dots & x^{(1)}_n\\
1 & x^{(2)}_1 & x^{(2)}_2 \dots & x^{(2)}_n\\
\vdots\\
1 & x^{(N)}_1 & x^{(N)}_2 \dots & x^{(N)}_n\\
\end{pmatrix}_{N\times (n+1)}
=
\begin{pmatrix}
1 & (\mathbf{x}^{(1)})^\intercal \\
1 & (\mathbf{x}^{(2)})^\intercal \\
\vdots\\
1 & (\mathbf{x}^{(N)})^\intercal \\
1 & \end{pmatrix}_{N\times (n+1)}
$$
* Matricu primjera $\mathbf{X}$ zovemo **dizajn-matrica**


* Vektor izlaznih vrijednosti:
$$
\mathbf{y} = 
\begin{pmatrix}
y^{(1)}\\
y^{(2)}\\
\vdots\\
y^{(N)}\\
\end{pmatrix}_{N\times 1}
$$

### Egzaktno rješenje

* Idealno, tražimo egzaktno rješenje, tj. rješenje za koje vrijedi
$$
(\mathbf{x}^{(i)}, y^{(i)})\in\mathcal{D}.\ h(\mathbf{x}^{(i)}) = y^{(i)}
$$
odnosno
$$
(\mathbf{x}^{(i)}, y^{(i)})\in\mathcal{D}.\ \mathbf{w}^\intercal \mathbf{x} = y^{(i)}
$$


* Možemo napisati kao matričnu jednadžbu ($N$ jednadžbi s $(n+1)$ nepoznanica):

$$
    \mathbf{X}\mathbf{w} = \mathbf{y}
$$

$$
\mathbf{X} = 
\begin{pmatrix}
1 & x^{(1)}_1 & x^{(1)}_2 \dots & x^{(1)}_n\\
1 & x^{(2)}_1 & x^{(2)}_2 \dots & x^{(2)}_n\\
\vdots\\
1 & x^{(N)}_1 & x^{(N)}_2 \dots & x^{(N)}_n\\
\end{pmatrix}
\cdot
\begin{pmatrix}
w_0\\
w_1\\
\vdots\\
w_n\\
\end{pmatrix}
=
\begin{pmatrix}
y^{(1)}\\
y^{(2)}\\
\vdots\\
y^{(N)}\\
\end{pmatrix}
$$

* Egzaktno rješenje ovog sustava jednadžbi je

$$
\mathbf{w} = \mathbf{X}^{-1}\mathbf{y}
$$

Međutim, rješenja <u>nema</u> ili ono <u>nije jedinstveno</u> ako:

* (1) $\mathbf{X}$ nije kvadratna, pa nema inverz. U pravilu:
    * $N>(n+1)$ <br>
      $\Rightarrow$ sustav je **preodređen** (engl. *overdetermined*) i nema rješenja
    * $N<(n+1)$ <br>
      $\Rightarrow$ sustav je **pododređen** (engl. *underdetermined*) i ima višestruka rješenja
      
* (2) $X$ jest kvadratna (tj. $N=(n+1)$), ali ipak nema inverz <br> $\Rightarrow$ sustav je **nekonzistentan**


### Rješenje najmanjih kvadrata


* <u>Približno</u> rješenje sustava $\mathbf{X}\mathbf{w}=\mathbf{y}$


* Funkcija pogreške:    
$$
E(\mathbf{w}|\mathcal{D})=\frac{1}{2}
\sum_{i=1}^N\big(\mathbf{w}^\intercal\mathbf{x}^{(i)} - y^{(i)}\big)^2
$$


* Matrični oblik:
\begin{align*}
E(\mathbf{w}|\mathcal{D}) 
=& 
\frac{1}{2} (\mathbf{X}\mathbf{w} - \mathbf{y})^\intercal (\mathbf{X}\mathbf{w} - \mathbf{y})\\
=&
\frac{1}{2}
(\mathbf{w}^\intercal\mathbf{X}^\intercal\mathbf{X}\mathbf{w} - \mathbf{w}^\intercal\mathbf{X}^\intercal\mathbf{y} - \mathbf{y}^\intercal\mathbf{X}\mathbf{w} + \mathbf{y}^\intercal\mathbf{y})\\
=&
\frac{1}{2}
(\mathbf{w}^\intercal\mathbf{X}^\intercal\mathbf{X}\mathbf{w} - 2\mathbf{y}^\intercal\mathbf{X}\mathbf{w} + \mathbf{y}^\intercal\mathbf{y})
\end{align*}

> Jednakosti linearne algebre:
> * $(A^\intercal)^\intercal = A$
> * $(AB)^\intercal = B^\intercal A\intercal$

* Minimizacija pogreške:
$$
\begin{align*}
\nabla_{\mathbf{w}}E &= 
\frac{1}{2}\Big(\mathbf{w}^\intercal\big(\mathbf{X}^\intercal\mathbf{X}+(\mathbf{X}^\intercal\mathbf{X})^\intercal\big) -
2\mathbf{y}^\intercal\mathbf{X}\Big) = 
\mathbf{X}^\intercal\mathbf{X}\mathbf{w} - \mathbf{X}^\intercal\mathbf{y} = \mathbf{0}
\end{align*}
$$


> Jednakosti linearne algebre:
> * $\frac{\mathrm{d}}{\mathrm{d}x}x^\intercal A x=x^\intercal(A+A^\intercal)$
> * $\frac{\mathrm{d}}{\mathrm{d}x}A x=A$


* Dobivamo sustav tzv. **normalnih jednadžbi**:
$$
\mathbf{X}^\intercal\mathbf{X}\mathbf{w} = \mathbf{X}^\intercal\mathbf{y}
$$


* Rješenje:
$$
\mathbf{w} = (\mathbf{X}^\intercal\mathbf{X})^{-1}\mathbf{X}^\intercal\mathbf{y} = \color{red}{\mathbf{X}^{+}}\mathbf{y}
$$


* Matrica $\mathbf{X}^{+}=(\mathbf{X}^\intercal\mathbf{X})^{-1}\mathbf{X}^\intercal$ je **pseudoinverz** (Moore-Penroseov inverz) matrice $\mathbf{X}$


* Q: Kojih je dimenzija matrica $(\mathbf{X}^\intercal\mathbf{X})^{-1}$?
* Q: Što utječe na složenost izračuna inverza matrice: broj primjera $N$ ili broj dimenzija $n$?

# Sažetak


* **Linearan model regresije** linearan je u parametrima


* Parametri linearnog modela uz kvadratnu funkciju gubitka imaju rješenje u zatvorenoj formi u obliku **pseudoinverza dizajn-matrice**


* ** Nelinearnost regresijske funkcije ostvaruje se uporabom nelinearnih **baznih funkcija** (preslikavanjem ulaznog prostora u prostor značajki


* Uz pretpostavku normalno distribuiranog šuma, **MLE je istovjetan postupku najmanjih kvadrata**, što daje probabilističko opravdanje za uporabu kvadratne funkcije gubitka


* **Regularizacija smanjuje prenaučenost** ugradnjom dodatnog izraza u funkciju pogreške kojim se kažnjava složenost modela


* **L2-regularizirana regresija istovjetna je MAP-procjeni** parametara (uz pretpostavku Gaussovog šuma) te ima rješenje u zatvorenoj formi
