# Polynomial Regression - Training and Evaluation

După ce am reșit să creem anumite date utilizând partea de PolynomialFeatures putem să împărțim setul de date care a rezultat, să antrenăm un model, să evaluăm modelul și să îl comparăm cu modelul precedent (cel de Linear Regression)

In [1]:
# importing the librearies
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# read the date into a DataFrame
df = pd.read_csv('../data/08-Linear-Regression-Models/Advertising.csv')

In [5]:
# printing the head of the DataFrame
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [6]:
# Separating Features from labels
X = df.drop('sales', axis=1)
y = df['sales']

In [8]:
# importing the libraries from Scikit-Learn
from sklearn.preprocessing import PolynomialFeatures

In [9]:
# creating a PolynomialFeatures instance
polynomial_converter = PolynomialFeatures(degree=2, include_bias=False)

In [10]:
# Fitting and transforming the data
polynomial_features = polynomial_converter.fit_transform(X)

In [12]:
# printing the values returned
polynomial_features

array([[ 230.1 ,   37.8 ,   69.2 , ..., 1428.84, 2615.76, 4788.64],
       [  44.5 ,   39.3 ,   45.1 , ..., 1544.49, 1772.43, 2034.01],
       [  17.2 ,   45.9 ,   69.3 , ..., 2106.81, 3180.87, 4802.49],
       ...,
       [ 177.  ,    9.3 ,    6.4 , ...,   86.49,   59.52,   40.96],
       [ 283.6 ,   42.  ,   66.2 , ..., 1764.  , 2780.4 , 4382.44],
       [ 232.1 ,    8.6 ,    8.7 , ...,   73.96,   74.82,   75.69]])

După ce am pregătit datele respective trebuie să împărțim setul de date în train-test sets. Împărțirea în seturile de date trebuie făcută după datele pe care le-am creat, adică după polynomial_features.

In [14]:
from sklearn.model_selection import train_test_split

In [15]:
X_train, X_test, y_train, y_test = train_test_split(polynomial_features, y, test_size=0.3, random_state=101)

Un model de PolynomialRegression este defapt un simplu model de LinearRegression, dar pentru care s-a aplicat o funcție de gradul doi pentru datele pe care dorim să antrenăm un model. Aceasta este singura diferență dintre un model de tip PolynomialRegression și LinearRegression. Prin urmare o să importăm un model de LinearRegression, o să îl antrenăm pe setul de date de antrenare, o să facem predicții, evaluăm modelul după care îl comparăm cu modelul anterior

In [19]:
# importing the model
from sklearn.linear_model import LinearRegression

In [20]:
# create an sintance of the model
model = LinearRegression()

In [21]:
# training the model
model.fit(X_train, y_train)

LinearRegression()

In [22]:
# making predictions
predictions = model.predict(X_test)

In [23]:
model.coef_

array([ 5.17095811e-02,  1.30848864e-02,  1.20000085e-02, -1.10892474e-04,
        1.14212673e-03, -5.24100082e-05,  3.34919737e-05,  1.46380310e-04,
       -3.04715806e-05])

Din moment ce am antrenat un model pe un set de date care are 9 features, acuma există un număr de 9 coeficienți pentru acest model. Nu putem să facem predicții pe un set de date care nu are un număr de 9 features. După ce am salvat predicțiile putem să evaluăm modelul folosind RMSE sau Mean Absolute Error

In [24]:
# importing the metrics functions from sklearn
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [25]:
# calculating the errors metrics
mean_absolute_error(y_test, predictions)

0.48967980448037

In [26]:
mean_squared_error(y_test, predictions)

0.4417505510403648

In [27]:
np.sqrt(mean_squared_error(y_test, predictions))

0.6646431757269196

Din evaluarea perfomanței acestui model putem observa că acest model se comportă mult mai bine ca și un model de LinearRegression. Pentru modelul anterior am avut un MAE de 1.21 și un RMSE de 1.51. Din ce se poate observa, acuratețea modelului a crescut aproape cu un punct, o unitate de sales ceea ce este extrem de bine. Pentru a putea compara două modele trebuie să ne asigurăm că avem același set de date pentru partea de antrenare și testare, de aceea trebuie să avem aceleași valori la metoda train_test_split() pentru parametrii test_size și random_state (test_size=0.3, random_state=101)

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. Un model de PolynomialRegression este defapt tot un model de LinearRegression, dar pentru care features s-au transformat utilizând un PolynomialRegression

    2. Diferența apare la partea în care se creează seturile de date pentru train și test, acolo trebuie specificate features care au fost transformate

        from sklearn.preprocessing import PolynomialFeatures
        
        from sklearn.model_selection import train_test_split

        polynomial_converter = PolynomialFeatures(degree=2, include_bias=False)

        polynomial_features = polynomial_converter(X)

        X_train, X_test, y_train, y_test = train_test_split(polynomial_features, y, test_size=0.3, random_state=101)

    2. Modul de a crea, antrena și evalua un astfel de model este la fel precum un model de LinearRegression

        from sklearn.linear_model import LinearRegression

        from sklearn.metrics import mean_absolute_error, mean_squared_error

        model = LinearRegression()

        model.fit(X_train, y_train)

        y_pred = model.predict(X_test)

        mean_absolute_error(y_test, y_pred)

        mean_squared_error(y_test, y_pred)

        np.sqrt(mean_squared_error(y_test, y_pred))