# SCIKIT-LEARN 29/10 REGRESSION

In [1]:
import numpy as np

In [2]:
import pandas as pd

In [3]:
import matplotlib as plt

**REGRESSION**

In [5]:
from sklearn.datasets import load_diabetes
#Tipo: regressione
#Target: livello di progressione del diabete dopo un anno
#Feature: età, BMI, pressione, colesterolo ecc.
from sklearn.model_selection import train_test_split
X, y = load_diabetes(return_X_y=True)  
# divido in train e test set
X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.8, random_state=42)
# divido i dati in 80% train e 20% test
# stratify=y serve a mantenere la stessa proporzione di classi nei due insiemi
# random_state=42 rende la divisione riproducibile

In [6]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression() # instance of the regressor
reg.fit(X_train, y_train)  # addestro (fitto) il modello usando i dati di train
y_test_pred = reg.predict(X_test)  # predico i valori di y per i dati di test
# y_test_pred contiene le predizioni continue (numeriche) fatte dal modello sui campioni di test.

In [7]:
y_test_pred

array([139.5475584 , 179.51720835, 134.03875572, 291.41702925,
       123.78965872,  92.1723465 , 258.23238899, 181.33732057,
        90.22411311, 108.63375858,  94.13865744, 168.43486358,
        53.5047888 , 206.63081659, 100.12925869, 130.66657085,
       219.53071499, 250.7803234 , 196.3688346 , 218.57511815,
       207.35050182,  88.48340941,  70.43285917, 188.95914235,
       154.8868162 , 159.36170122, 188.31263363, 180.39094033,
        47.99046561, 108.97453871, 174.77897633,  86.36406656,
       132.95761215, 184.53819483, 173.83220911, 190.35858492,
       124.4156176 , 119.65110656, 147.95168682,  59.05405241,
        71.62331856, 107.68284704, 165.45365458, 155.00975931,
       171.04799096,  61.45761356,  71.66672581, 114.96732206,
        51.57975523, 167.57599528, 152.52291955,  62.95568515,
       103.49741722, 109.20751489, 175.64118426, 154.60296242,
        94.41704366, 210.74209145, 120.2566205 ,  77.61585399,
       187.93203995, 206.49337474, 140.63167076, 105.59

**Evaluation metrics for regression**

In [8]:
from sklearn.metrics import r2_score
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
# Compute R2, MAE and MSE:
r2 = r2_score(y_test, y_test_pred) # quanto bene il modello spiega i dati
mae = mean_absolute_error(y_test, y_test_pred) # errore medio in val assoluto
mse = mean_squared_error(y_test, y_test_pred) # penalizza di più gli errori grandi

**Evaluation with cross_val_score()**

In [10]:
from sklearn.model_selection import cross_val_score
reg = LinearRegression()
r2 = cross_val_score(reg, X, y, cv=5, scoring='r2')
r2

array([0.42955615, 0.52259939, 0.48268054, 0.42649776, 0.55024834])

**POlYNOMIAL REGRESSION**

In [13]:
from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(5) # costruisco polinomio con grado massimo a 5
X_poly = poly.fit_transform(X) # trasformiamo i dati ma devo prima aver fatto il fit del modello

**PIPELINE**

In [14]:
from sklearn.pipeline import make_pipeline # pipline --> catena di step consecutivi
reg = make_pipeline(PolynomialFeatures(5), LinearRegression())
reg.fit(X_train, y_train)
y_test_pred = reg.predict(X_test)

**RIDGE AND LASSO**

In [None]:
from sklearn.linear_model import Ridge
reg = Ridge(alpha=0.5) 
# creo un modello di Ridge Regression
# 'alpha' controlla l'intensità della penalità sui coefficienti (termine di regularizzazione)
# maggiore è alpha → più forte la penalizzazione → i coefficienti vengono "ristretti" verso 0
# alpha=0 → equivale alla regressione lineare normale (senza regularization)

# dopo aver creato reg, puoi addestrarlo come sempre

In [16]:
from sklearn.linear_model import Lasso
reg = Lasso(alpha=0.5)
# creo un modello Lasso con coefficiente di penalità alpha = 0.5
# alpha controlla quanto "forte" è la penalizzazione sui coefficienti
# maggiore è alpha → più i coefficienti vengono spinti verso 0

# dopo aver creato reg, puoi addestrarlo come sempre

**HYPERPARAMETERS SELECTION**

In [18]:
from sklearn.model_selection import ParameterGrid
# importo la classe che crea una "griglia" di tutte le combinazioni possibili
# tra i valori degli iperparametri che voglio testare
params = {"criterion": ['gini', 'entropy', 'log_loss'],
         "max_depth":list(range(1,100,20)), 
         "min_impurity_decrease": np.linspace(0.1, 1, 10)}

In [19]:
# definisco il dizionario dei parametri da esplorare:
# criterion → misura per scegliere le divisioni negli alberi decisionali:
#    'gini'        = indice di Gini
#    'entropy'     = basata sull’entropia (information gain)
#    'log_loss'    = versione probabilistica dell’entropia
# max_depth → profondità massima dell’albero
#    qui viene testata con valori [1, 21, 41, 61, 81]
# min_impurity_decrease → soglia minima per accettare una divisione
#    np.linspace(0.1, 1, 10) genera 10 valori da 0.1 a 1.0
#    più alto → l’albero è più “prudente” nel dividere → meno complesso

In [21]:
list(ParameterGrid(params)) # mi stampa tutte le combinazioni

[{'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.1)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.2)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.30000000000000004)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.4)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.5)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.6)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.7000000000000001)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.8)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(0.9)},
 {'criterion': 'gini',
  'max_depth': 1,
  'min_impurity_decrease': np.float64(1.0)},
 {'criterion': 'gini',
  'max_depth': 21,
  'min_impurity_decrease': np.float64(0.1)},
 {'criterion': 'gini',

In [23]:
params # quali sono gli iperparametri e i valori che voglio combinare

{'criterion': ['gini', 'entropy', 'log_loss'],
 'max_depth': [1, 21, 41, 61, 81],
 'min_impurity_decrease': array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ])}

In [24]:
# con paramgrid facciamo tutte le combinazioni --> 150
len(list(ParameterGrid(params))) # 3*5*10

150

In [25]:
# costruisco un dataset
X = np.random.random((1000, 10)) # 1000 campioni con 10 feature
y = np.random.randint(0,10, 1000) # 1000 etichette casuali

In [26]:
X_train_valid, X_test, y_train_valid, y_test = train_test_split(X, y, train_size=0.8)
# divido il dataset in:
# 80% per train+validation, 20% per test

In [27]:
X_train_valid.shape

(800, 10)

In [28]:
X_test.shape

(200, 10)

In [29]:
X_train, X_valid, y_train, y_valid = train_test_split(X_train_valid, y_train_valid, train_size=0.75)
# divido ulteriormente l’80% del train+valid in:
# 75% train e 25% validation
# → quindi alla fine: 60% train, 20% validation, 20% test

In [30]:
X_train.shape

(600, 10)

In [31]:
X_test.shape

(200, 10)

In [33]:
# importo l’albero decisionale e la funzione per calcolare l’accuratezza
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
accuracies = [] # creo una lista vuota per salvare l’accuratezza di ogni configurazione
for config in ParameterGrid(params):  # ciclo su tutte le combinazioni di parametri definite nella griglia
    #clf = DecisionTreeClassifier(criterion=config["criterion"],
                                # max_depth=config["max_depth"],
                                #min_impurity=config["min_impurity_decrease"])
    # creo il classificatore usando i parametri della configurazione corrente
    clf = DecisionTreeClassifier(**config) # same as previous lines
    clf.fit(X_train, y_train) # addestro il modello sui dati di train
    acc = accuracy_score(y_valid, clf.predict(X_valid)) # calcolo l’accuratezza sul validation set
    accuracies.append(acc) # aggiungo il punteggio alla lista delle accuratezze

In [35]:
np.argmax(accuracies) # restituisce l’indice della configurazione con la miglior accuratezza
# cerco la best performance

np.int64(0)