# Vježbe 7 - prvi dio
## Priprema za kolokvij
---

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Zadatak 1 - Linearna regresija

1. Zapišite kako izgleda optimizacijski problem kod modela linearne regresije. Taj optimizacijski problem se može riješiti gradijentnom metodom. Napišite pseudokod gradijentne metode.

2. Raspolažemo s podacima o stanovima - površina, broj soba i cijena. Želimo pomoću modela linearne regresije predviđati cijenu stanova na temelju površine i broja soba.  
    1. Za zadana četiri podatka napišite kako bi izgledala matrica dizajna.Podaci: 
        - $(x^{(1)}) = (120m^2, 3),  y^{(1)}=( 140000)$, 
        - $(x^{(2)}) = (60m^2, 2), y^{(2)}=( 70000),$
        - $( x^{(3)}) = (200m^2, 5),  y^{(3)}=( 19000),$
        - $(x^{(4)}) = (130m^2, 5), y^{(4)}=( 100000)$
    2. Napišite kako bi za ovaj primjer izgledala model funkcija $h_{\theta}(x)$
    3. Neka su zadana dva seta parametara $\theta_1 = [129e3, -561, 643e1]$ i $\theta_2 = [-50e2, 561, 100]$. Koji od ta dva seta parametara bolje opisuje naše podatke. 
    
3. Zadani su vam podaci `z1.txt` i kod za učitavanje te grafički prikaz podataka. Očito je model funkcija za ove podatke polinom višeg stupnja. Zapišite tu model funkciju te zapišite kako izgleda kada ju svedemo na polinom prvog stupnja.

4. Napravite odgovarajuću matricu dizajna za prethodno navedeni model linearne regresije. Koristeći ugrađenu linearnu regresiju `LinearRegression()` iz paketa `scikit-learn` naučite taj model. Ispišite dobivene koeficijente. 

Napomena: Pazite na parametar `fit_intercept`. 

## Rješenje

### Podzadatak 1
U modelu linearne regresije su zadani podaci $(x^{(i)}, y^{(i)}), i=1,\dots,m$, gdje je $x^{(i)} \in \mathbb{R}^n$ i $y^{(i)} \in \mathbb{R}$ za $i=1,\dots,m$. 

Model funkcija $h_{\theta} : \mathbb{R}^n \to \mathbb{R}$ je zadana s $h_{\theta}(x) = \theta_0 + \theta_1x_1 + \theta_2x_2 + \dots + \theta_nx_n$. 

Funkcija cilja koju je potrebno minimizirati je zadana s
$$
J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)} - h_{\theta}(x^{(i)}))^2,
$$

Pseudokod gradijentne metode je sljedeći:

ULAZ: podaci $x^{(i)}, y^{(i)}, i=1,\dots,m$
1. odaberi proizvoljan $\theta^{(0)} \in \mathbb{R}^{n+1}$
2. odaberi proizvoljnu duljinu koraka $\alpha > 0$.
3. postavi $k=0$
4. ukoliko je model konvergirao, **vrati** $\theta^k$ (npr. $||\nabla{}J(\theta^{(k)})|| < \epsilon$ ili $k \geq k_{max}$)
5. postavi $\theta^{(k+1)} = \theta^{(k)} - \alpha{}\nabla{}J(\theta^{(k)})$
6. postavi $k = k + 1$
7. idi na korak 2.

### Podzadatak 2

In [None]:
# A)
# Matrica dizajna X je dana s
X = np.array([[1, 120, 3], [1, 60, 2], [1, 200, 5], [1, 130, 5]])
y = np.array([140000, 70000, 19000, 100000])

# B)
# h_theta(x) = x[0]*theta[0] + x[1]*theta[1] + x[2]*theta[2], gdje je x[0]==1
def h(theta, X):
    return np.dot(X, theta)

# C)
# Izracunat cemo J(theta_1) i J(theta_2)
def J(theta, X, y):
    m = X.shape[0]
    return np.sum(np.square(y - h(theta, X))) / (2 * m)

theta_1 = np.array([129e3, -561, 643e1])
theta_2 = np.array([-50e2, 561, 100])

print(f'J(theta_1) = {J(theta_1, X, y)}')
print(f'J(theta_2) = {J(theta_2, X, y)}')

### Podzadatak 3 i 4
Model funkcija (u smislu polinomne regresije) kvadratna funkcija zadana s $h_{\theta}(x) = \theta_0 + \theta_1x + \theta_2x^2$.

Umjesto člana $x^2$ uvodimo novu varijablu i dobivamo novu model funkciju
$$
h_{\theta}(x_1, x_2) = \theta_0 + \theta_1x_1 + \theta_2x_2,
$$
gdje je $x_2 = x_1^2$.

In [None]:
data = np.loadtxt('./Podaci/z1.txt')
X = data[:, 0]
y = data[:, 1]
plt.scatter(X,y)

# X_linear je matrica dizajna za linearni problem
X_linear = np.array([[1, x, x**2] for x in X])

model = LinearRegression(fit_intercept=False)
model.fit(X_linear, y)
print(f'Koeficijenti modela: {model.coef_}')

xx = np.linspace(np.min(X) - 1, np.max(X) + 1)
xx_matrica_dizajna = np.array([[1.0, x, x**2] for x in xx])
yy = model.predict(xx_matrica_dizajna)
plt.plot(xx, yy)
plt.show()

# Zadatak 2 - Perceptron

1. Zadan vam je model perceptrona sa parametrima $\theta =[\theta_0, \theta_1 ,\theta_2]^T = [-20, 1, -4]^T$.
Nacrtajte klasifikacijsku hiperravninu definiranu ovim parametrima i odredite klasificira li ispravno ovaj model podatke 
$$
X= [(5,-6), (3,-3), (2,-8), (4,-2), (3,-2), (3,-6),(1,-6),(1,-1)]
$$ 
sa pripadnim oznakama klasa
$$
y = [1,-1, 1, -1, 1, 1, 1, -1].
$$

2. Neka su zadani podaci $x^{(i)} \in \mathbb{R}^n, i=1, \cdots, m$ i njihove oznake $y^{(i)} \in \{-1,1\},  i=1, \cdots, m$. Pretpostavimo da su podaci linearno separabilni. Napišite kako izgleda jedan korak ažuriranja parametara $\theta$ u perceptron algoritmu. <br> Znamo kako perceptron algoritam iterira redom po podacima, hoće li u svakoj iteraciji ažurirati parametre? 

## Rješenje
### Podzadatak 1

In [None]:
theta = np.array([-20,1,-4])
X = np.array([[5,-6],[3,-3],[2,-8],[4,-2],[3,-2],[3,-6],[1,-6],[1,-1]])
y = np.array([1,-1,1,-1,1,1,1,-1])
# -------------------------------------------------------------

def h(theta, X):
    return np.sign(theta[0] + np.dot(X, theta[1:]))

print(f'h(x) = {h(theta, X)}')
print(f'y =    {y}')

# Uočavamo da model nije dobro klasificirao podatke
# h(X[4]) != y[4]
# Probajmo sve to nacrtati

xx = np.linspace(np.min(X[:, 0]) - 1, np.max(X[:, 0]) + 1)
yy = -(theta[0]/theta[2]) - (theta[1]/theta[2]) * xx
plt.plot(xx, yy)
plt.xlim([np.min(X[:, 0]) - 1, np.max(X[:, 0]) + 1])
plt.scatter(X[:, 0], X[:, 1], color=['r' if yy == 1 else 'b' for yy in y])

### Podzadatak 2
U perceptron algoritmu ažuriranje se radi ako vrijedi $y^{(i)}\theta^Tx^{(i)} < 0$ za neki $i$.

Ažuriranje je oblika $\theta^{(k)} = \theta^{(k-1)} + y^{(i)}x^{(i)}$.

Ažuriranje se **neće** raditi u svakoj iteraciji, nego samo za podatke za koje vrijedi $y^{(i)}\theta^Tx^{(i)} < 0$.

# Zadatak 3 - SVM

1. Neka su zadani podaci $x^{(i)} \in \mathbb{R}^n, i=1, \cdots, m$ i pripadne oznake $y^{(i)} \in \{-1,1\},  i=1, \cdots, m$. Podaci nisu nužno linearno separabilni. Napišite kako izgleda problem maksimizacije margine. 

2. Na slici (1) imate grafički prikaz linearno separabilnih podataka i dva pravca koja separiraju te podatke. "Plavi pravac" koji je definiran setom parametara $\theta_1$ i narančasti pravac definiran setom parametara $\theta_2$. Koji od ta dva seta parametara (koji od ta dva pravca) bi SVM algoritam pronašao?

1. Zadani su vam podaci `Podaci-z3-X` i `Podaci-z3-y` i kod za učitavanje te grafički prikaz podataka. <br> Podatke klasificiramo koristeći SVM algoritam. <br> U `scikit-learn` paketu je ugrađena klasa `LinearSVC` koja implementira SVM algoritam.  
    - Instancirajte četiri modela i naučite ih na zadanim podacima
    - Neka `max_iter` bude `12000` na svim modelima
    - `model_A` neka ima `C=3`
    - `model_B` neka ima `C=0.8`
    - `model_C` neka ima `C=0.5`
    - `model_D` neka ima `C=0.1`
    - Za svaki model ispišite koliko je koraka algoritmu trebalo prije nego izkonvergira. 
    - Interpretirajte što se događa kada u modelu smanjujete `C`
    
Pomoć:
- `LinearSVC` ima parametar `max_iter` koji definira koliko će najviše iteracija algoritam izvršiti. Pretpostavljane vrijednost je 100. Ukoliko je potrebno `max_iter` se stavi veću vrijednost kako bi algoritam konvergirao.  
- Parametar `C` je obrnuto proporcionalan regularizacijskom koeficijentu $\lambda$. 
    

## Rješenje
### Podzadatak 1
Problem maksimizacije margine je zadan s
$$
\textrm{argmin}_{\theta \in \mathbb{R}^{n}, \theta_0 \in \mathbb{R}}\frac{1}{2}||\theta||^2 + C\sum_{i=1}^m\zeta_i
$$
uz uvjete
$$
y^{(i)}(\theta^Tx^{(i)} + \theta_0) \geq 1 - \zeta_i \\
\zeta_i \geq 0, i = 1, \dots, m
$$

### Podzadatak 2
<img src="./zadatak_3.png">

### Podzadatak 3
Smanjivanjem parametra C jačamo regularizaciju, a model brže konvergira.

In [None]:
X = np.loadtxt('./Podaci/z3-X.txt')
y = np.loadtxt('./Podaci/z3-y.txt')
plt.scatter(X[:,0], X[:,1], c=y)
plt.show()
# -------------------------------------------------------------

model_A = LinearSVC(max_iter=12000, C=3)
model_A.fit(X, y)

model_B = LinearSVC(max_iter=12000, C=0.8)
model_B.fit(X, y)

model_C = LinearSVC(max_iter=12000, C=0.5)
model_C.fit(X, y)

model_D = LinearSVC(max_iter=12000, C=0.1)
model_D.fit(X, y)

print(f'Model A je konvergirao nakon {model_A.n_iter_} iteracija')
print(f'Model B je konvergirao nakon {model_B.n_iter_} iteracija')
print(f'Model C je konvergirao nakon {model_C.n_iter_} iteracija')
print(f'Model D je konvergirao nakon {model_D.n_iter_} iteracija')

print(f'Accuracy modela A na trening podacima je {accuracy_score(y, model_A.predict(X))}')
print(f'Accuracy modela B na trening podacima je {accuracy_score(y, model_B.predict(X))}')
print(f'Accuracy modela C na trening podacima je {accuracy_score(y, model_C.predict(X))}')
print(f'Accuracy modela D na trening podacima je {accuracy_score(y, model_D.predict(X))}')

print(f'Precision modela A na trening podacima je {precision_score(y, model_A.predict(X))}')
print(f'Precision modela B na trening podacima je {precision_score(y, model_B.predict(X))}')
print(f'Precision modela C na trening podacima je {precision_score(y, model_C.predict(X))}')
print(f'Precision modela D na trening podacima je {precision_score(y, model_D.predict(X))}')

# Zadatak 4 - Logistička regresija 
1. Promotrimo model logističke regresije u kojem podatke $x\in\mathbb{R}$ želimo svrstati u jednu od dvije klase $\{0,1\}$, a model funkcija je zadana sa $$ h_{\theta}(x) = \frac{1}{1+\exp{(-\theta^T x)}} $$ gdje su $\theta = [\theta_0, \theta_1]$, $x\in\mathbb{R}$. <br>
Neka su nam zadana tri podatka koja imaju jedno obilježje i pripadnu oznaku:
- $x^{(1)} = -1 ,y^{(1)}=0$,
- $x^{(2)}=0,y^{(2)}=1$,
- $x^{(3)}=1, y^{(3)}=0$.

Neka su nam zadana dva seta parametara $\theta^{(1)}$ i $\theta^{(2)}$ koji onda definiraju funkcije 
$  g_1(x) = \frac{1}{1+ \exp{(-{\theta^{(1)}}^T x)}} $ i
$  g_2(x) = \frac{1}{1+ \exp{(-{\theta^{(2)}}^T x)}} $. <br> Prikazan je graf funkcija $g_1,g_2$ u ovisnosti o $x$.  <br>
<br>
- Koliki je broj pogrešno klasificiranih podataka s obzirom na $\theta^{(1)}$, koliko s obzirom na $\theta^{(2)}$? 

<img src="./zadatak_4.png">

## Rješenje 
U modelu logističke regresije postavljamo $\hat{y} = 1$ ukoliko je $h_\theta(x) \geq 0.5$ i $\hat{y} = 0$ ukoliko je $h_\theta(x) < 0.5$.

Za $\theta^{(1)}$ vrijedi:
1. $h_{\theta}(x^{(1)}) = 0.3 \implies \hat{y}^{(1)} = 0$
2. $h_{\theta}(x^{(2)}) = 0.3 \implies \hat{y}^{(2)} = 0$
3. $h_{\theta}(x^{(3)}) = 0.3 \implies \hat{y}^{(3)} = 0$,

što znači da je su dva podatka dobro klasificirana i jedan pogrešno.

Za $\theta^{(2)}$ vrijedi:
1. $h_{\theta}(x^{(1)}) < 0.5 \implies \hat{y}^{(1)} = 0$
2. $h_{\theta}(x^{(2)}) = 0.5 \implies \hat{y}^{(2)} = 1$
3. $h_{\theta}(x^{(3)}) > 0.5 \implies \hat{y}^{(3)} = 1$,

što znači da je su dva podatka dobro klasificirana i jedan pogrešno.

# Zadatak 5 - Logistička regresija

Zadani su vam podaci`z5-X`, `z5-y` i kod za učitavanje te podjelu podataka u skupove za učenje i testiranje.

Podaci imaju $8$ značajki i pripadne oznake $y\in{0,1}$

Vaš je zadatak napraviti binarni klasifikator koristeći ugrađenu `sklearn.LogisticRegression()`. 
1. Napravite sljedeće:
    1. Napravite `model_A` kao `LogisticRegression(C=1)`
    2. Naučite ga na podacim `x_train, y_train`
    2. Ispišite `accuracy_score()` na `x_train` podacima
    4. Ispišite `accuracy_score(), recall_score(), precision_score()` na `x_test` podacima
    
2. Napravite sljedeće:
    1. Napravite `model_B` kao `LogisticRegression(C=0.2)`
    2. Naučite ga na podacim `x_train, y_train`
    2. Ispišite `accuracy_score()` na `x_train` podacima
    4. Ispišite `accuracy_score(), recall_score(), precision_score()` na `x_test` podacima
    
3. Odgovorite na sljedeća pitanja koja se odnose na metrike dobivene za `x_test`:
    1. Koji model ima veći broj točno klaficiranih podataka? 
    2. Koji model ima veću sklonost negativne (0) podatke klasificirati kao pozitivne (1)?

In [None]:
# -------------------------------------------------------------
# Kod za ucitavanje 
X = np.loadtxt('./Podaci/z5-X.txt')
y = np.loadtxt('./Podaci/z5-y.txt')

X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.1, random_state=2)
# -------------------------------------------------------------
# scaler = StandardScaler()
# scaler.fit(X_train)
# X_train = scaler.transform(X_train)
# X_test = scaler.transform(X_test)

## Rješenje
### Podzadatak 1

In [None]:
model_A = LogisticRegression(C=1)
model_A.fit(X_train, y_train)

print('--- MODEL A ---')
pred_train = model_A.predict(X_train)
print(f'Accuracy na train podatcima: {accuracy_score(y_train, pred_train)}')

pred_test = model_A.predict(X_test)
print(f'Accuracy na test podatcima: {accuracy_score(y_test, pred_test)}')
print(f'Recall na test podatcima: {recall_score(y_test, pred_test)}')
print(f'Precision na test podatcima: {precision_score(y_test, pred_test)}')
print(f'Matrica zabune:\n{confusion_matrix(y_test, pred_test)}')

### Podzadatak 2

In [None]:
model_B = LogisticRegression(C=0.2)
model_B.fit(X_train, y_train)

print('--- MODEL B ---')
pred_train = model_B.predict(X_train)
print(f'Accuracy na train podatcima: {accuracy_score(y_train, pred_train)}')

pred_test = model_B.predict(X_test)
print(f'Accuracy na test podatcima: {accuracy_score(y_test, pred_test)}')
print(f'Recall na test podatcima: {recall_score(y_test, pred_test)}')
print(f'Precision na test podatcima: {precision_score(y_test, pred_test)}')
print(f'Matrica zabune:\n{confusion_matrix(y_test, pred_test)}')

### Podzadatak 3

Modeli daju jednake rezultate i jednako su skloni negativne podatke klasificirati kao pozitivne.