# Cross Validation - Train Test

În cadrul acestei secțiuni o să ne uităm mai mult peste partea de Cross Validation, la final o să aruncăm o privire și peste partea de Grid Search, iar ca ultimă parte o să finalizăm secțiunea cu proiectul pentru algoritmul de Linear Regression

După ce am terminat cu partea de curățare de date și pregătirea setului de date putem să creem un model de predicție de tip Linear Regression. Pentru a putea crea însă cel mai bun model mai trebuie să ne uităm peste două concepte teoretice și anume Cross Validation și Grid Search. Am discutat deja despre modele care au partea de Cross Validation implementate, cum ar fi RidgeCV și LassoCV. Modele respective au implementată partea de Cross Validation. Din păcate nu orice model din Scikit-Learn are partea de Cross Validation implementată automat în model, dar pentru a ne asigura că putem să realizăm etapa aceasta, Scikit-Learn are o metodă specifică de Cross Validation care se poate aplica la orice model. Această etapă ne permite ca după să facem partea de Grid Search pentru a găsi hyperparametrii optimi pentru modelul respectiv 

Pentru a parcuge secșiunea complet o să începem din nou cu partea de Train-Test split pentru a ne putea aminit la ce anume se folosește și de ce este utilă această metodă. După cum știm, partea de train-test split se aplică pe un set de date (pregătit pentru algoritmul de machine learning) iar ca și output se împarte setul de date într-un set de date de antrenare și un set de date de testare. Se dorește să se facă acest lucru deoarece pentru a verifica performața unui model de Machine Learning trebuie să verificăm această performanșă pe un set de date neatins, pe care algoritmul nu l-a văzut.

Pe baza acestei performanțe a modelului (eroarea rezultată) putem să modificăm hyperparametrii modelului pentru a îl îmbunătăți. Să recapitulăm toate aceste operațiuni în Python și Scikit-Learn

In [1]:
# importing the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# read the file into a DataFrame
df = pd.read_csv('../data/DATA/Advertising.csv')

In [3]:
# print the head of the DataFrame
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


Mai jos o să scriem care sunt pașii care trebuie urmați pentru a crea un model de Machine Learning în Python utilizând Scikit-Learn

1.  Curățarea setului de date

2.  Împărțirea setului de date în train-test (pentru Features și Labels)

3.  Antrenarea scalării datelor pentru setul de train(fit pe setul de antrenare)

4.  Transformarea datelor utilizân acel Scaler creat și antrenat (fit pe setul de antrenare și testare)

5.  Crearea/Alegerea unui model

6.  Antrenarea modelului pe setul de date de antrenare

7. Măsurarea performanței modelului

8. Ajustarea parametrilor și rularea pașilor 6 și 7

In [5]:
# split the data into Features and Labels
X = df.drop('sales', axis=1)
y = df['sales']

In [6]:
# importing the train_test_spli method
from sklearn.model_selection import train_test_split

In [7]:
# split the data into train-test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=101)

In [8]:
# import the Standard Scaler from Scikit-Learn
from sklearn.preprocessing import StandardScaler

In [9]:
# creating a StandardScaler instance
scaler = StandardScaler()

In [10]:
# fit the scaler to the test data
scaler.fit(X_train)

StandardScaler()

In [11]:
# transform the train and test sets using the scaler
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

In [20]:
# importing a Ridge Regression model from sklearn
from sklearn.linear_model import Ridge

In [27]:
# creating an instance of the Linear model
linear_model = Ridge(alpha=100)

In [28]:
# training the model
linear_model.fit(X_train, y_train)

Ridge(alpha=100)

In [29]:
# making prediction
y_pred = linear_model.predict(X_test)

In [30]:
# importing the error metrics
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [31]:
# calculating the errors
MAE = mean_absolute_error(y_test, y_pred)
RMSE = np.sqrt(mean_squared_error(y_test, y_pred))

In [32]:
print(f'MAE = {MAE}')
print(f'RMSE = {RMSE}')

MAE = 2.1631741364394363
RMSE = 2.709571144855608


Am ales o valoare pentru parametrul de alpha destul de mare pentru a vedea că putem să facem partea de yperparameters tunning în funcție de performața unui model (pentru a putea face și ultimul pas din lista de mai sus)

In [33]:
linear_model2 = Ridge(alpha=1)
linear_model2.fit(X_train, y_train)

y_pred = linear_model2.predict(X_test)
MAE = mean_absolute_error(y_test, y_pred)
RMSE = np.sqrt(mean_squared_error(y_test, y_pred))

print(f'MAE = {MAE}')
print(f'RMSE = {RMSE}')

MAE = 1.2168768443580582
RMSE = 1.5228334050147283


Am reușit să îmbunătățim modelul prin modificare hyperparametrului alpha. Utilizând însă partea de Train-Test split, metoda clasică și cea mai simplă este destul de greu să aflăm care model este cel mai bun deoarece după fiecare rulare ar trebuie să verificăm performanța modelului după care să alegem o nouă valore pentru parametrul de alpha și procesul ar tot trebui repetat. Avantajul metodei respective este faptul că este extrem de intuitivă, se poate înțelege ce anume se face prin cadrul acestei metode, iar partea de computație nu este una deloc solicitantă pentru mașina pe care se rulează