## Regularizált modellek
### Lasso, Ridge, Elastic net

In [None]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Modellezési eljárások
from sklearn.linear_model import Ridge
from sklearn.linear_model import Lasso
from sklearn.linear_model import ElasticNetCV
from sklearn.linear_model import MultiTaskElasticNetCV # Többváltozós elasztikus háló
from sklearn.linear_model import SGDRegressor

# Adatátalakítási könyvtárak
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
from sklearn.base import clone
from sklearn.metrics import mean_squared_error
from sklearn import linear_model

### Random adatok

In [None]:
np.random.seed(42)
m = 20
X = 3 * np.random.rand(m, 1)
y = 1 + 0.5 * X + np.random.randn(m, 1) / 1.5
X_new = np.linspace(0, 3, 100).reshape(100, 1)

plt.figure(figsize=(10, 8))
plt.title("Véletlen adatok", size=15)
plt.plot(X, y, "b.")
plt.show()

### Ridge

In [None]:
# Próbáljuk meg állítgatni a hiperparamétereket! Milyen változást figyelhetünk meg? 
ridge_alpha = 0.00001
poly_deg = 10

reg = Ridge(alpha=ridge_alpha, solver="cholesky", random_state=42) 

# Transzformációs csővezeték
model = Pipeline([
    ("poly_features", PolynomialFeatures(degree=poly_deg, include_bias=False)), # Polinomikus jellemzők hozzáadása
    ("std_scaler", StandardScaler()), # Sztenderdizálás és normalizálás
    ("regul_reg", reg)]) # Regresszor ráküldése

model.fit(X, y)
y_new_regul = model.predict(X_new)

plt.figure(figsize=(10,8))
plt.title("Ridge modell véletlen adatokon. Alpha="+str(ridge_alpha)+", Poly="+str(poly_deg), size=15)
plt.plot(X_new, y_new_regul)
plt.plot(X, y, "b.", linewidth=3)
plt.show()

### Lasso

In [None]:
# Hiperparaméterek felvétele. Milyen változásokat tapasztalunk?
lasso_alpha = 0.001
poly_deg = 4

reg = Lasso(alpha=lasso_alpha) # Próbáljuk meg állítgatni az alpha hiperparamétert!

model = Pipeline([ # Mi hiányzik a modell csővezetékből?
    ("poly_features", PolynomialFeatures(degree=poly_deg, include_bias=False)), 
    ("regul_reg", reg)])

model.fit(X, y)

y_new_regul = model.predict(X_new)

plt.figure(figsize=(10,8))
plt.title("Lasso modell véletlen adatokon. Alpha="+str(lasso_alpha)+", Poly="+str(poly_deg), size=15)
plt.plot(X_new, y_new_regul)
plt.plot(X, y, "b.", linewidth=3)
plt.show()

### Early stopping

In [None]:
np.random.seed(42)
m = 100
X = 6 * np.random.rand(m, 1) - 3
y = 2 + X + 0.5 * X**2 + np.random.randn(m, 1)

X_train, X_val, y_train, y_val = train_test_split(X[:50], y[:50].ravel(), test_size=0.5, random_state=10)

### Egy egyszerű Early Stopping implementáció

In [None]:
poly_scaler = Pipeline([ # Jellemzők szerkesztése
        ("poly_features", PolynomialFeatures(degree=90, include_bias=False)),
        ("std_scaler", StandardScaler())])

X_train_poly_scaled = poly_scaler.fit_transform(X_train)
X_val_poly_scaled = poly_scaler.transform(X_val)

# Egy regresszor definiálása az early stopping demonstrálására
sgd_reg = SGDRegressor(max_iter=1, # A modell: ez lehet bármi aminek kiszámolható a hibája
                       tol=-np.infty, # Megállítási kritérium
                       warm_start=True, # Megtartja az előző modellt, és azt tanítja tovább
                       penalty=None, # Büntetés: Próbáljuk meg regularizálni!
                       learning_rate="constant", # Van-e adaptív tanulási sebesség
                       eta0=0.0005, # Kezdeti tanulási sebesség
                       random_state=42) # Véletlenszám-generáló bázisértéke

# Tanítás és early stopping futtatása
minimum_val_error = float("inf")
best_epoch = None
best_model = None
error_track = []
for epoch in range(1000):
    sgd_reg.fit(X_train_poly_scaled, y_train)  # Folytassa ott, ahol abbahagyta
    y_val_predict = sgd_reg.predict(X_val_poly_scaled)
    val_error = mean_squared_error(y_val, y_val_predict)
    error_track.append(val_error)
    
    if val_error < minimum_val_error: # Early Stopping kritérium
        minimum_val_error = val_error
        best_epoch = epoch
        best_model = clone(sgd_reg)

In [None]:
plt.figure(figsize=(10, 8))
plt.title("Early stopping hibakövetés", size=20)
plt.plot(error_track)
plt.plot(best_epoch, error_track[best_epoch], color='red', marker='x', markersize=15, markeredgewidth='2')
plt.annotate('Early Stop', xy = (best_epoch, error_track[best_epoch]+0.5), size=15)
plt.xlabel("Iteráció", size=15)
plt.ylabel("Hiba", size=15)
plt.show()

### Elasztikus háló a halas adatokon
Adatok előkészítése

In [None]:
df = pd.read_csv('halak.csv', header=0, sep=';', encoding='ISO-8859-2')

df = df[['Suly', 'Hossz1', 'Hossz2', 'Hossz3', 'Magassag', 'Szelesseg']]

# df_X = df[['Hossz1']]

df_X = df[['Magassag']] # Próbáljuk ki ezzel is! 

poly_scaler = Pipeline([("std_scaler", StandardScaler())])

X = poly_scaler.fit_transform(df_X)
Y = df['Hossz1']

X_train, X_val, y_train, y_val = train_test_split(X, Y, test_size=0.5, random_state=420)

#### Korrelációs mátrix

In [None]:
corr = df.corr() 

plt.figure(figsize=(8,8))
sns.heatmap(corr, xticklabels=corr.columns.values, yticklabels=corr.columns.values,  annot = True, annot_kws={'size':12})
heat_map=plt.gcf()
heat_map.set_size_inches(8,8)

plt.xticks(fontsize=10)
plt.yticks(fontsize=10)
plt.show()

#### Nézzük meg az adatokat

In [None]:
display(df.head())

print('x_train')
display(pd.DataFrame(X_train).head())
print()

print('y_train')
display(pd.DataFrame(y_train).head())
print()

print('x_train méret')
print(len(X_train))

print('x_test méret')
print(len(X_val))

### Elasztikus háló 

In [None]:
errorlog = {}
for i in range(1, 10, 1):
    alpha = i/10
    model = ElasticNetCV(l1_ratio=alpha, fit_intercept=True, normalize=True)
    
    model.fit(X_train, y_train)
    
    y_pred =  model.predict(np.array(X_val).reshape(-1,1))
    
    errorlog[alpha] = mean_squared_error(y_val, y_pred)
    
    fig, ax = plt.subplots(figsize=(8,5))
    
    ax.set_title("Elastic net, alpha="+str(alpha)+", hiba="+str(errorlog[alpha]))
    
    ax.scatter(X_val[:,0], y_pred, alpha=0.8, label='Becsült értékek')
    ax.scatter(X_val[:,0], y_val, alpha=0.8, label='Megfigyelt értékek')
    
    ax.legend()
    plt.show()

In [None]:
plt.figure(figsize=(10,8))
plt.title("Hiba mértéke az alpha hiperparaméter függvényében", size=20)
plt.xlabel("Lasso arány", size=15)
plt.ylabel("Hiba", size=15)
plt.plot(errorlog.keys(), errorlog.values())
plt.show()

### Multitask Elastic Net
Az elasztikus hálózat többváltozós verziója

In [None]:
df_X = df[['Hossz2', 'Hossz3', 'Magassag', 'Szelesseg']]

poly_scaler = Pipeline([("std_scaler", StandardScaler())]) # X átalakítója 

X = poly_scaler.fit_transform(df_X) # X sztenderdizálása

Y = np.array(df['Hossz1']).reshape(-1,1) # Y definiálás

X_train, X_val, y_train, y_val = train_test_split(X, Y, test_size=0.5, random_state=420) # train-test kettécsapás

display(df_X)

print('x_train')
display(pd.DataFrame(X_train).head())
print()

print('y_train')
display(pd.DataFrame(y_train).head())
print()

print('x_train méret')
print(len(X_train))

print('x_test méret')
print(len(X_val))

In [None]:
# MultitaskElasticNet futtatása, hiba követése
errorlog_multi = {}
for i in range(1, 10, 1):
    alpha = i/10
    model = MultiTaskElasticNetCV(l1_ratio=alpha, fit_intercept=True)
    
    model.fit(X_train, y_train)
    
    y_pred =  model.predict(X_val)
    
    errorlog_multi[alpha] = mean_squared_error(y_val, y_pred)
    
    fig, ax = plt.subplots(figsize=(8,5))
    ax.set_title("Multitask Elastic net, alpha="+str(alpha)+", hiba="+str(errorlog_multi[alpha]))
    
    ax.scatter(X_val[:,0], y_pred, alpha=0.8, label='Becsült értékek')
    ax.scatter(X_val[:,0], y_val, alpha=0.8, label='Megfigyelt értékek')
    
    ax.legend()
    plt.show()

In [None]:
plt.figure(figsize=(10,8))
plt.title("Multitask hiba mértéke az alpha hiperparaméter függvényében", size=20)
plt.xlabel("Lasso arány", size=15)
plt.ylabel("Hiba", size=15)
plt.plot(errorlog_multi.keys(), errorlog_multi.values())
plt.show()

In [None]:
plt.figure(figsize=(10,8))
plt.title("Multitask és CV hiba összehasnolítása", size=20)
plt.xlabel("Lasso arány", size=15)
plt.ylabel("Hiba", size=15)
plt.plot(errorlog_multi.keys(), errorlog_multi.values(), label="Multitask")
plt.plot(errorlog.keys(), errorlog.values(), label="CV")
plt.legend()
plt.show()