# **HOMEWORK 1 - Regressione Lineare**

In questo homework dovrete:

1. Scrivere una funzione di pipeline che deve gestire l' allenamento di un modello di regressione lineare al variare degli iperparametri forniti. Nello specifico:
    * Deve applicare la PCA, se presente.
    
    * Deve applicare la standardizzazione, se presente.

    * Deve applicare la regolarizzazione, se presente.

    * Deve allenare il modello di regressione lineare.

    * Deve calcolare la MAE.

2. Scrivere una funzione che utilizzi la `pipeline` definita al punto 1 e che testi tutte le configurazioni possibili presenti in `configs`. Nel dettaglio la funzione deve:
    * Dividere il dataset in train e validation.

    * Calcolare, grazie alla funzione `pipeline` definita al punto 1, quale configurazione ottiene il punteggio migliore (quale configurazione ha la MAE di validation più bassa).

3. Scrivere una funzione che utilizzi la configurazione migliore prodotta dalla funzione definita al punto 2 e la testi sul test set. 

4. Stampare:
    * La migliore configurazione

    * Il miglior MAE di validation 

    * Il migliore MAE di train

    * Il MAE di test 


Il codice che di seguito trovate già fornito deve essere utilizzato per la risoluzione dell' homework, **NON MODIFICATELO IN ALCUN MODO**.

## **Dataset Wine Quality White**

Il dataset da utilizzare è `wine-quality-white` della libreria `scikit-learn`. Il dataset contiene 11 variabili numeriche + 1 di target che classifica il vino in diverse categorie di qualità. Per il nostro obiettivo la variabile di target è considerata come `float`, permettendoci di applicare la regressione lineare. All' interno del dataset sono contenuti 4898 campioni. 

In [19]:
# Questa cella contiene tutte le librerie di cui necessitate per risolvere l' homework.
# Ricordate di eseguirla prima di iniziare.

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_openml
from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler

In [24]:
hyperparams = {
    # PCA
    'use_pca': [True, False],
    'pca_standardize': [True, False],
    'pca_components': [3, 5, 10],
    # Data standardization
    'data_standardize': [True, False],
    # Regularization l2
    'use_regularization': [True, False],
    'reg_lambda': [0.1, 1, 10],
}

# Calcoliamo tutte le possibili combinazioni di iperparametri
import itertools
combinations = list(itertools.product(*hyperparams.values()))
configs = [dict(zip(hyperparams.keys(), combination)) for combination in combinations]

# Evitiamo le combinazioni non valide
for config in configs:
    if not config['use_pca']:
        config['pca_standardize'] = None
        config['pca_components'] = None
    if not config['use_regularization']:
        config['reg_lambda'] = None
configs = set([tuple(config.items()) for config in configs])

# Convertiamo di nuovo in lista di dizionari
configs = [dict(config) for config in configs]
print(f'Numero di combinazioni: {len(configs)}')

Numero di combinazioni: 56


In `configs` avete una lista di dizionari, ogni dizionario contiene una possibile combinazione di hyperparametri da utilizzare nella fase di training. 

In [41]:
# Carica il dataset Wine Quality White
data = fetch_openml(name='wine-quality-white', version=1, as_frame=True)
X = data.data
y = data.target.astype(float)  # Assicura che il target sia float per la regressione

#1-----------------
def pipeline(X_train, y_train, X_val, y_val, hyperparams):
    """
    Addestra un modello di regressione lineare con eventuale PCA e regolarizzazione L2.
    """
    if hyperparams['use_pca']:
        # ...
        if hyperparams['pca_standardize']: 
            #standardizzo
            scaler = StandardScaler()
            X_train = scaler.fit_transform(X_train)
            X_val = scaler.transform(X_val)

        #applico pca
        n_components = hyperparams['pca_components']
        pca = PCA(n_components)
        X_train = pca.fit_transform(X_train)
        X_val = pca.transform(X_val)

    if hyperparams['data_standardize']:
        # standardizzo
        scaler = StandardScaler()
        X_train = scaler.fit_transform(X_train)
        X_val = scaler.transform(X_val)
    # Aggiunge il termine costante ai dati
    X_train = np.c_[np.ones(X_train.shape[0]), X_train]
    X_val = np.c_[np.ones(X_val.shape[0]), X_val]
    # Calcolo della soluzione di regressione lineare
    parametri = np.linalg.inv(X_train.T @ X_train) @ X_train.T @ y_train
        
    if hyperparams['use_regularization']:
        # regolarizzo
        lamda=hyperparams['reg_lambda']
        I=np.identity(X_train.shape[1]) #matrice identitá
        
        parametri = np.linalg.inv( (X_train.T @ X_train) + lamda * I) @ X_train.T @ y_train
    else:
        parametri = np.linalg.inv(X_train.T @ X_train) @ X_train.T @ y_train
        

    # Calcolo predizioni
    train_prediction = X_train @ parametri
    val_prediction = X_val @ parametri
    # Calcola il MAE
    mae_train = np.mean(np.abs(train_prediction - y_train))
    mae_val = np.mean(np.abs(val_prediction- y_val))
    
    return mae_train, mae_val

#2------------------
"""Nel notebook c'é scritto di creare una funzione, nel sito no, sto seguendo le indicazione del notebook"""
def try_pipeline(X, y, hyperparams):
    # Dividi il dataset in training e test set
    # ...
    train_fraction = 0.8  #assumo divisione 80/20
    #test_fraction = 0.2 giusto per esplicitare il fatto che sia 0.2

    num_train = int(train_fraction * X.shape[0])

    X_train_val = X[:num_train]
    y_train_val = y[:num_train]

    X_test = X[num_train:]
    y_test = y[num_train:]
    print("Divisione generale, train(train+validation) e test: ",X_train_val.shape, X_test.shape)
    
    

    # Dividi il training set in training set effettivo e validation set
    # ...
    #anche qui assumo divisione 80/20
    #val_fraction = 0.2 anche qui per esplicitare come sto suddividendo i set
    num_train = int(train_fraction * X_train_val.shape[0])

    X_train = X_train_val[:num_train]  
    y_train = y_train_val[:num_train]

    X_val = X_train_val[num_train:] 
    y_val = y_train_val[num_train:]
    #stampe di controllo, vedo se sto suddividendo per bene i vari set
    print("Shape del training set effettivo: ",X_train.shape)
    print("Shape del validation set effettivo: ",X_val.shape)
    print("Shape del test set effettivo: ",X_test.shape)

    print("Controllo che la somma mi dia l'intero X del dataset che deve essere 4898:",(X_test.shape[0]+X_train.shape[0]+X_val.shape[0]))
    
    # Trova la configurazione di iperparametri migliore
    top_mae_val=float(10000)    #inizializzazione ad un valore alto cosi sono sicuro che venga trovato un mae inferiore
    top_mae_train=0  
    top_config=  None  
    print("\n\nCERCO MIGLIORE CONFIGURAZIONE IPERPARAMETRI:")
    for config in hyperparams: #itero per ogni configurazione
        print("Provo configurazione :",config)

        #creo copia dei dati per ogni configurazione, sfrutto copy() da voi suggerito nell'homework 
        X_train_copy = X_train.copy()
        X_val_copy = X_val.copy()

        #richiamo la funzione pipeline
        mae_train, mae_val = pipeline(X_train_copy, y_train, X_val_copy, y_val, config)
        print("MAE di Train: ",mae_train)
        print("MAE di Val:",mae_val)

        #salvo il miglior mae tra le diverse configurazioni (mae minimo)
        if mae_val < top_mae_val:
            top_mae_val = mae_val
            top_mae_train = mae_train
            top_config = config

    print("\n\n--------Migliore configurazione trovata---------")
    print(top_config)

    return top_config, top_mae_train, top_mae_val

#3----------------
def pipeline_best_mae(X, y, hyperparams):
    # suddivido il dataset in training e test set
    train_fraction = 0.8
    num_train = int(train_fraction * X.shape[0])

    X_train = X[:num_train]
    y_train = y[:num_train]

    X_test = X[num_train:]
    y_test = y[num_train:]

    # Riallena il modello sul training set completo 
    top_config = None
    top_config, top_mae_train, top_mae_val = try_pipeline(X, y, hyperparams)
    # Calcola il MAE sul test set
    mae_train, mae_test = pipeline(X_train, y_train, X_test, y_test, top_config) 
    

    return top_config, top_mae_train, top_mae_val, mae_test


#chiamo la funzione per vedere cosa succede: 
config,mae_train,mae_val,mae_test=pipeline_best_mae(X,y,configs)

# Stampa  risultati
print("\n\n---Visualizzazione risultati---")
print("Migliore configurazione:",config)
print("Migliore MAE Train: ",mae_train)
print("Migliore MAE Validation :", mae_val)
print("Migliore MAE Test :", mae_test)

  warn(


Divisione generale, train(train+validation) e test:  (3918, 11) (980, 11)
Shape del training set effettivo:  (3134, 11)
Shape del validation set effettivo:  (784, 11)
Shape del test set effettivo:  (980, 11)
Controllo che la somma mi dia l'intero X del dataset che deve essere 4898: 4898


CERCO MIGLIORE CONFIGURAZIONE IPERPARAMETRI:
Provo configurazione : {'use_pca': True, 'pca_standardize': True, 'pca_components': 10, 'data_standardize': True, 'use_regularization': True, 'reg_lambda': 0.1}
MAE di Train:  0.6042864153812809
MAE di Val: 0.5751931589348114
Provo configurazione : {'use_pca': True, 'pca_standardize': False, 'pca_components': 5, 'data_standardize': True, 'use_regularization': True, 'reg_lambda': 1}
MAE di Train:  0.6327575089904057
MAE di Val: 0.6053428381901863
Provo configurazione : {'use_pca': True, 'pca_standardize': False, 'pca_components': 3, 'data_standardize': True, 'use_regularization': True, 'reg_lambda': 0.1}
MAE di Train:  0.6913086328858924
MAE di Val: 0.657669