# Regularizacija

In [None]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [None]:
from sklearn import linear_model

In [None]:
np.random.seed(23)

Posmatrajmo jedan sintetički skup podataka u kojem su atributi korelisani. Proverimo kako ovo svojstvo skupa podata utiču na koeficijente regresionog modela ukoliko se koriste različite regularizacije. 

Skup koji ćemo generisati će imati 100 instanci.

In [None]:
N = 100

Dalje ćemo generisati vrednosti atributa. Između prvog i drugog atributa će postojati linearna zavisnost, između prvog i trećeg atributa će postojati mala razlika u vidu šuma iz normalne raspodele $N(0, 1)$.

In [None]:
X1 = np.random.uniform(-1, 1, N)
X2 = np.random.uniform(-1, 1, N)

X = np.vstack([X1, 4*X1, X1 + np.random.normal(0, 1, N), X2]).transpose()

Korelacije između atributa možemo prikazati i toplotnom mapom. 

In [None]:
plt.imshow(np.corrcoef(X), cmap='ocean')
plt.colorbar()
plt.show()

Vrednost ciljne promenljive je linearna kombinacija atributa X1 i X2.

In [None]:
y = (2 + np.random.normal(size=N))*X1 + (3 + np.random.normal(size=N))*X2

Pošto nas zanima kako se ponašaju koeficijenti modela, za treniranje ćemo koristiti ceo skup. Posmatraćemo linearni model, model grebene regresije, linearni model sa laso regularizacijom i linearni model sa ElasticNet regularizacijom. Nećemo se baviti ni određivanjem optimalnih vrednosti hiperparametara ovih modela jer nas prevashodno zanima ponašanje koeficijenata.

### 1. Linearna regresija

### 2. Grebena linearna regresija (linearna regresija sa l2 regularizacijom)

### 3. Linearna regresija sa Laso regularizacijom (l1 regularizacijom)

### 4. Linearna regresija sa  ElasticNet regularizacijom (kombinacija l1 i l2 regularizacije)

### Grafički prikaz vrednosti koeficijenata

Razlike u vrednostima koeficijenata ćemo prikazati grafički.

In [None]:
number_of_features = X.shape[1]
plt.xlabel('Atributi')
plt.xticks(np.arange(0, number_of_features), ['A1', 'A2', 'A3', 'A4'])
plt.ylabel('Vrednosti koeficijenata modela')
plt.scatter(np.arange(0, number_of_features), model.coef_, color='red', marker='o', label='bez regularizacije' )
plt.scatter(np.arange(0, number_of_features), ridge_model.coef_, color='blue', marker='x', label='l2 regularizacija')
plt.scatter(np.arange(0, number_of_features), lasso_model.coef_, color='orange', marker='v', label='l1 regularizacija')
plt.scatter(np.arange(0, number_of_features), elastic_model.coef_, color='green', marker='^', label='l1 + l2 regularizacija')
plt.legend(loc='best')
plt.show()