# Regularization - Data Setup

În partea anterioară am discutat depsre partea de Regulariza, ce înseamnă asta, cum se realizează și care sunt cele trei tipuri de regularizare:

- Lasso Regresion

- Ridge Regression

- Elastic Net

Înainte de a executa partea aceasta de regularizare trebuie să ne asigurăm că fiecare dintre acestea este rulată pe același set de date. Pentru asta o să lucrăm în Jupyter Notebook

In [1]:
# importing the libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# reading the data into a DataFrame
df = pd.read_csv('../data/08-Linear-Regression-Models/Advertising.csv')

In [3]:
# printing the head of the data
df.head()

Unnamed: 0,TV,radio,newspaper,sales
0,230.1,37.8,69.2,22.1
1,44.5,39.3,45.1,10.4
2,17.2,45.9,69.3,9.3
3,151.5,41.3,58.5,18.5
4,180.8,10.8,58.4,12.9


In [13]:
# Splitting the data into train-test set
X = df.drop('sales', axis=1)
y = df['sales']

După ce am împărțit setul de date în labels și features urmează partea în care transformăm features utilizând Polynomial Regression (PolynomialFeatures)

In [14]:
# importing the PolynomialFeatures instance
from sklearn.preprocessing import PolynomialFeatures

In [15]:
# creating a polynomial converter
polynomial_converter = PolynomialFeatures(degree=3, include_bias=False)

In [16]:
# creating polynomial features using the polynomial converter
polynomial_features = polynomial_converter.fit_transform(X)

In [17]:
# printing the polynomial features array
polynomial_features

array([[2.30100000e+02, 3.78000000e+01, 6.92000000e+01, ...,
        9.88757280e+04, 1.81010592e+05, 3.31373888e+05],
       [4.45000000e+01, 3.93000000e+01, 4.51000000e+01, ...,
        6.96564990e+04, 7.99365930e+04, 9.17338510e+04],
       [1.72000000e+01, 4.59000000e+01, 6.93000000e+01, ...,
        1.46001933e+05, 2.20434291e+05, 3.32812557e+05],
       ...,
       [1.77000000e+02, 9.30000000e+00, 6.40000000e+00, ...,
        5.53536000e+02, 3.80928000e+02, 2.62144000e+02],
       [2.83600000e+02, 4.20000000e+01, 6.62000000e+01, ...,
        1.16776800e+05, 1.84062480e+05, 2.90117528e+05],
       [2.32100000e+02, 8.60000000e+00, 8.70000000e+00, ...,
        6.43452000e+02, 6.50934000e+02, 6.58503000e+02]])

Pasul care urmează este acela de a împărți setul de date în train-test

In [18]:
# importing the train-test-split method
from sklearn.model_selection import train_test_split

In [19]:
# splitting the data
X_train, X_test, y_train, y_test = train_test_split(polynomial_features, y, test_size=0.3, random_state=101)

Până în acest moment am realizat operațiuni pe care le-am mai folosit anterior. Din acest moment începe procestul prin care se scalează datele respective. Pentru partea de scalare se va folosit tot o instanță din cadrul modulului de preprocesare (skleanr.preprocessing) denumit StandardScaler(). Să importăm acest modul

In [20]:
# importing the StandarScaler
from sklearn.preprocessing import StandardScaler

După ce s-a creat acest scaler, procestul este asemănător cu cel în care se creează features Polynomial. Se creează o instanță pentru un scaler, se oferă un set de date pentru partea de vizualizare (metoda .fit()) după care se transformă un set de date. FOARTE IMPORTANT de reținut însă pentru partea de scalare este faptul că aici nu trebuie să oferim tot setul de date (polynomial_features) pentru partea de vizualizare, deoarece în cadrul acelui set de date se găsesc și datele care o să se utilizeze pentru partea de testare. Nu dorim acest lucru deoarece prin acest procedeul modelul poate să vadă dinainte date care ar trebui utilizate doar pentru partea de testare. Acest concept poartă denumirea de data leakeage. Aici foarte mulți începători fac greșeala să ofere spre vizualizare tot setul de date, dar trebuie oferit doar setul de antrenare (.fit(X_train)). După, pentru partea de transformare se va folosi și setul de antrenare și cel de testare.

In [21]:
# creating an instance of StandardScaler()
scaler = StandardScaler()


In [22]:
# fitting the data to the scaler
scaler.fit(X_train)

StandardScaler()

In [23]:
# transform the data sets
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

Ce anume face acest scaler și de nu este bine să îi oferim date de vizualizare pentru întreg setul de date? Acest scaler calculează anumite medii și deviații standard pentru datele peste care se uită, din acest motiv nu este bine să îi oferim pentru vizualizare și datele pentru partea de testare, deoarece acesta poate sî creeze aceste medii sau deviații standard pentru datele respective și să le țină undeva în memorie până ce se fac predicții și să se folosească de acele valori pentru a face predicții, ceea ce nu este recomandat.

Să aruncăm acuma o privire peste setul de date care era înanite și peste setul de date care a fost transformat

In [24]:
polynomial_features[0]

array([2.30100000e+02, 3.78000000e+01, 6.92000000e+01, 5.29460100e+04,
       8.69778000e+03, 1.59229200e+04, 1.42884000e+03, 2.61576000e+03,
       4.78864000e+03, 1.21828769e+07, 2.00135918e+06, 3.66386389e+06,
       3.28776084e+05, 6.01886376e+05, 1.10186606e+06, 5.40101520e+04,
       9.88757280e+04, 1.81010592e+05, 3.31373888e+05])

În primul array din polynomial features putem observa faptul că avem următoarele date. 1.21828769e+07 reprezintă valorea 1.21 înmulțit cu 10 la puterea 7, ceea ce reprezintă 12_100_000, ceeea ce este o valoare extrem de mare. Să ne uiităm peste primul array din datele ce au fost transformate

In [25]:
X_test[0]

array([-0.91339472,  1.76259419,  0.68168558, -0.96397506,  0.01521221,
       -0.29304821,  2.31532893,  1.56001049,  0.36991011, -0.87527811,
       -0.53295016, -0.54312331,  0.43542739,  0.18669917, -0.2012045 ,
        2.77252075,  2.09516506,  0.89465642,  0.09868885])

În acest output se poate vedea că cel mai mare număr este 2.72, ceea ce nu se compară cu 12.000.000.

Acum că avem datele scalate putem să trecem la partea de regularizare, ceea ce o să facem în continuare

## Recapitulare

În cadrul acestui tutorial am învățat următoarele lucruri:

    1. De unde să importăm un scaler

        from sklearn.preprocessing import StandardScaler

    2. Cum să creem un scaler

        scaler = StandardScaler()

    3. Ce date să oferim pentru vizualizare la o instanță a unui scaler

        scaler.fit(X_train)

            Pentru partea de vizualizare de date, se oferă doar setul de date de antrenare

    4. Cum să transformăm datele utilizând un scaler

        X_train = scaler.transform(X_train)

        X_test = scaler.transform(X_test)

            Pentru partea de transformare de date se oferă atât setul de date de antrenare cât și cel de testare