# Eksperyment i porównanie modeli regresji liniowej, regularyzacji Ridge (grzbietowa), Lasso oraz SVM
W celu przeprowadzenia poprawnie eksperymentu należy wykonać walidację krzyżową, czyli dokonać kilkukrotnego podziału na zbiór uczący i treningowy. Zbadane zostaną cztery modele w imprementacji `sklearn`:
regresja liniowa, regularyzacja Lasso, regularyzacja grzbietowa (Ridge) oraz SVM dla przypadku regresji czyli Support Vector Regression. Początkowo wykonano implementacje wszystkich modeli z parametrami domyślnymi.


In [24]:
import pandas as pd
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.svm import SVR
from sklearn.model_selection import KFold
import copy
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_absolute_error
from Goal import goal_function

In [21]:
df = pd.read_excel('data.xlsx')
np.random.seed(1410)

clfs = {
    'LinReg   ': LinearRegression(),
    'Ridge    ': Ridge(),
    'Lasso    ': Lasso(),
    'SVR      ': SVR()
}

# Walidacja krzyżowa
times_cross_validation = 3
kf = KFold(n_splits=times_cross_validation, shuffle=True, random_state=1410)


scaler = MinMaxScaler()


X = df.drop(columns=['AT'])
y = df['AT']
result = np.zeros((times_cross_validation, len(clfs)))
for i, (train_index, test_index) in enumerate(kf.split(X)):
    X_train, X_test = X.iloc[train_index], X.iloc[test_index]
    y_train, y_test = y[train_index], y[test_index]
    for j, clf_key in enumerate(clfs):
        clf = copy.deepcopy(clfs[clf_key])
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.transform(X_test)
        clf.fit(X_train, y_train)
        y_pred = clf.predict(X_test)
        result[i, j] = mean_absolute_error(y_pred, y_test)
result

array([[1.4343158 , 1.43429004, 4.34835749, 1.30417859],
       [1.4178495 , 1.41813992, 4.04847204, 1.29666209],
       [1.45047724, 1.45093785, 4.27445007, 1.32204367]])

In [22]:
for i, clf_key in enumerate(clfs):
    print(f'MAE dla {clf_key} wynosi {round(result[:,i].mean(),3)}')

MAE dla LinReg    wynosi 1.434
MAE dla Ridge     wynosi 1.434
MAE dla Lasso     wynosi 4.224
MAE dla SVR       wynosi 1.308


In [25]:
goal_function(LinearRegression(), X, y, seed=1410, times_cross_validation=3)

1.43421418

In [None]:
params = { "alpha": list(np.arange(-4, 10, 0.005)), 
          "solver": ["auto", "svd", "cholesky"], 
         'random_state':[46]} 
ridge_gs = MyGridSearch(params, Ridge(), X_data, y_data)
ridge_gs.get_best()