# Cross validation

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import model_selection
import scipy.stats as stats
import sklearn.linear_model as lm
from sklearn import datasets, linear_model
from sklearn.preprocessing import PolynomialFeatures,StandardScaler
from sklearn.pipeline import make_pipeline

Rozważmy następujący zbiór punktów:

In [None]:
np.random.seed(123)
f = lambda x: ((-0.7*x-1)*(0.1*x**2-2)**2*(3*x-2)) 
x = stats.uniform(0,5).rvs(100)
y = f(x) + stats.norm(0,0.5).rvs(len(x))
x=np.vstack(x)
plt.plot(x, y, 'ok');
plt.show()

# Utworzenie listy modeli

In [None]:
# prepare models
models = []
models.append(('LR', linear_model.LinearRegression()))
models.append(('PR2', make_pipeline(PolynomialFeatures(2), linear_model.LinearRegression()) ))
models.append(('PR3', make_pipeline(PolynomialFeatures(3), linear_model.LinearRegression()) ))
models.append(('PR4', make_pipeline(PolynomialFeatures(4), linear_model.LinearRegression()) ))
models.append(('PR5', make_pipeline(PolynomialFeatures(5), linear_model.LinearRegression()) ))
models.append(('PR6', make_pipeline(PolynomialFeatures(6), linear_model.LinearRegression()) ))
models.append(('PR7', make_pipeline(PolynomialFeatures(7), linear_model.LinearRegression()) ))
models.append(('PR8', make_pipeline(PolynomialFeatures(8), linear_model.LinearRegression()) ))
models.append(('PR9', make_pipeline(PolynomialFeatures(9), linear_model.LinearRegression()) ))
models.append(('PR10', make_pipeline(PolynomialFeatures(10), linear_model.LinearRegression()) ))
# evaluate each model in turn


In [None]:
seed=123
kfold = model_selection.KFold(n_splits=10, random_state=seed, shuffle=True)
scoring = 'neg_mean_absolute_error'
#scoring = 'r2'

In [None]:
results = []
names = []
for name, model in models:
    cv_results = model_selection.cross_val_score(model, x, y, cv=kfold, scoring=scoring)
    results.append(cv_results)
    names.append(name)
    msg = "%s: %f (%f)" % (name, cv_results.mean(), cv_results.std())
    print(msg)

# Wizualne porównanie wyników

In [None]:
# boxplot algorithm comparison
fig = plt.figure()
plt.title('Algorithm Comparison')
plt.boxplot(results)
ax=plt.gca()
ax.set_xticklabels(names)
plt.show()

### Dobierz optymalny stopień wielomianu za pomocą metody GridSearchCV.
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

In [None]:
from sklearn.model_selection import GridSearchCV
pipeline = make_pipeline(PolynomialFeatures(), StandardScaler(), linear_model.LinearRegression())

In [None]:
pipeline

param_grid ustawiamy jako słownik zawierający:
 - klucz: nazwę kroku następnie dwa "_" oraz nazwę parametru
 - wartość: listę (obiekt iterowalny) wartości które chcemy sprawdzić

In [None]:
grid = GridSearchCV(pipeline,
                    param_grid={'polynomialfeatures__degree': [1, 2, 3, 4, 5, 6, 7,8,9,10]},
                    cv=kfold,
                    scoring=scoring,
                    refit=False)
grid.fit(x, y)
grid.best_params_

# Zadanie 1
Zmień pipeline w taki sposób, aby zastosować regularyzację L2 i oprócz najlepszego stopnia wielominanu znaleźć rózniez nalepszy parametr alfa z następującego zbioru: 0.001,0.01, 0.1, 1, 10, 100

# Zadanie 2
Dla podanych danych wykonaj 5-fold cross-validation dla regresji liniowej i wielomianowej o stopniach 2,3,4,5,10,15,20,25 oraz podaj uśrednione wartości dla każdej z nich oraz wykonaj barplot.

In [None]:
f1 = lambda x: 2*(x-2)*(x-1)*(x-5)
x = stats.uniform(0,6).rvs(100)
y = f1(x) + stats.norm(0,1).rvs(len(x))
x=np.vstack(x)
plt.plot(x, y, 'ok');
plt.show()

# Zadanie 3
Dla podanych danych znajdź model o najlepszych parametrach spośród modelu regresji liniowej i wielomianowej o stopniach 2,3,4,5,10,15,20,25 przy zastosowaniu regularyzacji L2 z parametrem alfa równym 0.0001, 0.001,0.01, 0.1, 1, 10, lub 100 przy zastosowaniu 5-fold cross-validation oraz podaj najlepszy uzyskany wynik.