# **Esercitazione 2 - Regressione Lineare**

## Boston Housing dataset

Questo dataset contiene informazioni raccolte dal U.S. Census Service riguardanti le abitazioni nell'area di Boston, Massachusetts. È stato ottenuto dall'archivio StatLib (http://lib.stat.cmu.edu/datasets/boston) ed è stato ampiamente utilizzato in letteratura per fare benchmark di algoritmi. 

Il dataset contiene informazioni su 506 case, divise in 14 variabili.

In [1]:
import numpy as np
import matplotlib.pyplot as plt

In [2]:
import pandas as pd 
from sklearn.utils import shuffle
from pandas import read_csv

from sklearn.datasets import fetch_openml
import pandas as pd

# Scarica il Boston Housing Dataset da OpenML
boston = fetch_openml(name="Boston", version=1, as_frame=True)

# Estrai i dati (features) e il target (valore mediano delle abitazioni)
X = boston.data
y = boston.target

X, y = shuffle(X, y, random_state=0)
print(f"Features shape: {X.shape}, targets shape:  {y.shape}")

  warn(


Features shape: (506, 13), targets shape:  (506,)


## `np.c_` in NumPy

L'oggetto `np.c_` in NumPy è una **scorciatoia** per concatenare array lungo il secondo asse (cioè, le colonne).

## Utilizzo
```python
np.c_[array1, array2, ...]


In [10]:
import numpy as np

# Generate two random 2x3 matrices
matrice1 = np.random.rand(2, 3)
matrice2 = np.random.rand(2, 3)

# Concatenate the matrices along columns
risultato = np.c_[matrice1, matrice2]

print("Matrice 1:",matrice1)

print("\nMatrice 2:",matrice2)

print("\nMatrice concatenata:",risultato)

Matrice 1: [[0.96440091 0.84642396 0.64916834]
 [0.91806668 0.06552914 0.20196529]]

Matrice 2: [[0.48531495 0.55668765 0.09790868]
 [0.61722423 0.50700631 0.84324182]]

Matrice concatenata: [[0.96440091 0.84642396 0.64916834 0.48531495 0.55668765 0.09790868]
 [0.91806668 0.06552914 0.20196529 0.61722423 0.50700631 0.84324182]]


**Divisione del dataset**

Il primo passaggio è quello di dividere i dati in train set, validation set e test set. Utilizza il 60% dei dati per il training set, il 20% per il validation e il restante 20% per il test set. Considerato che il nostro dataset possiede 506 osservazioni mi aspetto che:

- Il **training set** avrà 303 osservazioni.
- Il **validation set** avrà 101 osservazioni.
- Il **test set** avrà 101 osservazioni.

In reatà il test set avrà 102 osservazioni per via delle approssimazioni.



In [145]:
# Divisione del dataset

train_porzione = 0.6  
val_porzione = 0.2  
test_porzione = 0.2

num_train = int(train_porzione * X.shape[0])
num_validation = int(val_porzione * X.shape[0])
X_train = X[:num_train]
y_train = y[:num_train]

X_validation = X[num_train:num_train+num_validation]
y_validation = y[num_train:num_train+num_validation]
X_test = X[num_train+num_validation:]
y_test = y[num_train+num_validation:]

y_validation.shape 

# svolgimento...

(101,)

### **Esercizio 1: Costruisci una Pipeline di Regressione Lineare Standardizzata**

**Step 1:** Standardizza i dataset di addestramento, validazione e test. Usa `StandardScaler` di scikit-learn.  

**Step 2:** Aggiungi una feature costante (bias) ai dati concatenando una colonna di uno ad ogni dataset.  

**Step 3:** Implementa la soluzione in forma chiusa per l'addestramento di un modello di regressione lineare. 
 
**Step 4:** Valuta il modello calcolando il Mean Absolute Error (MAE) sui dataset di addestramento, validazione e test.


### **Guida**

1. **StandardScaler**:
   - Utilizza `StandardScaler` da `sklearn.preprocessing` per standardizzare i dati.
   - Il metodo `fit_transform` calcola la media e la varianza dei dati di addestramento e li scala di conseguenza.
   - Utilizza `transform` per standardizzare i dati di validazione e test utilizzando gli stessi parametri. Utilizziamo il metodo `transform` perchè non calcola i parametri di scaling (media e std). In questo modo ci assicuriamo che i dati di training e quelli di validation e test vengano scalati in modo uguale. Se usassimo `fit_transform` avremmo degli scaling diversi.

2. **Aggiunta di una Caratteristica Costante**:
   - Utilizza `np.c_` per concatenare una colonna di uno alle matrici delle caratteristiche. Questo è importante per includere il termine di intercetta nella regressione lineare.

3. **Soluzione in Forma Chiusa per la Regressione Lineare**:
   - La soluzione in forma chiusa è:

     $$\theta = (X^T X)^{-1} X^T y$$

   - Per calcolare la trasposta di una matrice possiamo utilizzare l' attributo `.T` di cui ogni array è dotato.

   - Utilizza `np.linalg.inv` di NumPy per l'inversione della matrice e l'operatore `@` per la moltiplicazione matriciale.
  
   - Puoi utilizzare l'operatore @ per eseguire l'operazione np.dot (`A @ B` è equivalente a `np.dot(A, B)`).

4. **Mean Absolute Error (MAE)**:
   - L'MAE si calcola come:

     $$\text{MAE} = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|$$

   - Utilizza `np.mean` e `np.abs` per calcolarlo.


In [40]:
# Step 1 - Normalizzazione dei dati. Dobbiamo normalizzare le features 
# sia del training set, validation set e test set.

# Utilizziamo il metodo .fit_transform() dello scaler per normalizzare le feature di training.

# Per normalizzare le feature di validation e test utilizziamo il metodo .transform()

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train_normalized = scaler.fit_transform(X_train)
X_validation_normalized = scaler.transform(X_validation)
X_test_normalized = scaler.transform(X_test)

print(X_train_normalized.shape,
X_validation_normalized.shape,
X_test_normalized.shape)

# svolgimento...

(303, 13) (101, 13) (102, 13)


In [60]:
# Step 2 - Aggiunta di una feature costante

#risultato = np.c_[matrice1, matrice2]

array_train = np.ones((X_train_normalized.shape[0],1))
array_test = np.ones((X_test_normalized.shape[0],1))
array_validation = np.ones((X_validation_normalized.shape[0],1))

X_train_onesFeatured = np.c_[X_train_normalized,array_train]
X_test_onesFeatured = np.c_[X_test_normalized,array_test]
X_validation_onesFeatured = np.c_[X_validation_normalized,array_validation]


# creiamo un vettore di 1 da aggiungere come feature costante. 
# ATTENZIONE: questo vettore deve avere le stesse righe del set a cui viene aggiunto. 
# Uno uguale per tutti non va bene

# svolgimento...

array([[-0.41465286, -0.47722561, -0.20775013, ...,  0.41712829,
         0.7765586 ,  1.        ],
       [-0.40351297, -0.47722561, -0.20775013, ...,  0.46219166,
        -0.34994187,  1.        ],
       [-0.37322047, -0.47722561, -0.47231454, ...,  0.47907794,
        -0.64676132,  1.        ],
       ...,
       [-0.40213495, -0.47722561, -0.76393666, ...,  0.23107951,
        -0.91531224,  1.        ],
       [-0.14693384, -0.47722561,  1.24735409, ...,  0.08030206,
         2.1885711 ,  1.        ],
       [ 0.08802262, -0.47722561,  1.24735409, ...,  0.47907794,
         1.92002018,  1.        ]])

In [126]:
# Step 3 - Applichiamo la formula matematica della regressione lineare

# ATTENZIONE: stiamo per effettuare operazioni tra matrici e vettori, 
# non si tratta di una semplice formula matematica, stiamo attenti a quali operatori utilizzare e quanto
#Per calcolare la trasposta di una matrice possiamo utilizzare l' attributo .T di cui ogni array è dotato.

#Utilizza np.linalg.inv di NumPy per l'inversione della matrice e l'operatore @ per la moltiplicazione matriciale.

#Puoi utilizzare l'operatore @ per eseguire l'operazione np.dot (A @ B è equivalente a np.dot(A, B)).

theta = np.linalg.inv((X_train_onesFeatured.T @ X_train_onesFeatured))@X_train_onesFeatured.T@y_train

theta.shape
print(y_train.shape)
# svolgimento...

(303,)


In [67]:
# Step 4 - Calcolo MAE

# Calcoliamo l'errore medio assoluto (MAE) per il training set, validation set e test set.
# Utlizziamo la formula specificata nella guida.
MAE_X_train = np.mean(X_train_onesFeatured)
MAE_X_test = np.mean(X_test_onesFeatured)
MAE_X_validation= np.mean(X_validation_onesFeatured)

# svolgimento...

0.07142857142857133


### **Esercizio: Costruisci una pipeline di Regressione Lineare Standardizzata utilizzando `scikit-learn`** 

**Step 1 & 2:** Step 1 e 2 sono uguali a quanto fatto prima.

**Step 3:** Utilizza `LinearRegression()` di scikit-learn per addestrare un modello di regressione lineare.  

**Step 4:** Valuta il modello calcolando il Mean Absolute Error (MAE) sui dataset di addestramento, validazione e test, utilizzando `mean_absolute_error()` da `sklearn.metrics`.


## `LinearRegression` da Scikit-Learn

La classe `LinearRegression` in Scikit-Learn viene utilizzata per eseguire la **regressione lineare**, adattando un modello lineare al dataset.

## **Sintassi**
```python
from sklearn.linear_model import LinearRegression

model = LinearRegression()
# Dati di esempio
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.array([10, 15, 20, 25])

# Adatta il modello ai dati
model.fit(X, y)

# Predici nuovi valori
X_new = np.array([[3, 5], [5, 9]])
predictions = model.predict(X_new)


## `mean_absolute_error` da Scikit-Learn

La funzione `mean_absolute_error` calcola l'**errore assoluto medio** (MAE) tra i valori target reali e quelli predetti.

## **Sintassi**
```python
sklearn.metrics.mean_absolute_error(y_true, y_pred)


### **Guida**

1. **Istanziare e allenare un modello di regressione lineare**:
    
    - Istanziamo una classe `LinearRegression` per creare il modello.
    - Utilizziamo il metodo `.fit()` per allenare il modello con i dati di training.

2. **Effettuare predizioni con il modello**:

    - Utiliziamo il metodo `.predict()` del modello per effettuare le predizioni. Effettuiamo le predizioni per tutti i set che abbiamo (train, validation e test).

3. **Calcolo della MAE**: 

    - Calcolare MAE su tutti i set utilizzando la funzione `mean_abslute_error`


In [71]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

In [144]:
# Step 1 - Istanziare e allenare il modello di regressione lineare.
model = LinearRegression()

model.fit(X_train_onesFeatured, y_train)
print(y_validation.shape)
# svolgimento...

(101,)


In [143]:
# Step 2 - Effettuare predizioni

# svolgimento...
predictionsTest = model.predict(X_test_onesFeatured)
predictionsTrain = model.predict(X_train_onesFeatured)
predictionsValidation = model.predict(X_train_onesFeatured)


(101,)


In [142]:
y_validation.shape

(101,)

In [140]:
# Step 3 - Calcolo MAE
MAE_train = mean_absolute_error(y_train,predictionsTrain)
MAE_test = mean_absolute_error(y_test,predictionsTest)
MAE_validation = mean_absolute_error(y_validation,predictionsValidation)

print(MAE_train,MAE_test,MAE_validation)
# svolgimento...

ValueError: Found input variables with inconsistent numbers of samples: [101, 303]

### **Esercizio: Crea una funzione che esegua una pipeline di Regressione Lineare**

La funzione deve richiedere un parametro `hyperparams` per gestire i diversi casi. 

`hyperparams` deve essere un dizionario contenente diverse chiavi, in base al valore di queste chiavi devono essere eseguiti (oppure no) diversi pezzi di codice. 

In questo esercizio la chiave da utilizzare sarà `hyperparams['data_standardize']`. Se il valore di questa chiave sarà **True** allora eseguire la standardizzazione con `scikit-learn`, se invece è **False** non verrà eseguita alcuna standardizzazione.

**Step 1:** Controllare se eseguire o no la standardizzazione.

* **Step 1.1:** Scrivere il codice per eseguire la standardizzazione.

**Step 2:** Utilizza `np.c_` per concatenare una colonna di uno alle matrici delle caratteristiche.

**Step 3:** Applichiamo la formula matematica della regressione lineare.

**Step 4:** Calcolo MAE utilizzando la formula (NON con `scikit-learn`).

La funzione deve ritornare i valori della MAE.

Dopo aver testato i risultati con `hyperparams['data_standardize']` = **True**, provare anche i risultati ottenuti se `hyperparams['data_standardize']` = **False**.

In [148]:
# svolgimento...

def pipeline(X_train, y_train, X_val, y_val, hyperparams):

    X_train = np.array(X_train, dtype=float)
    y_train = np.array(y_train, dtype=float)
    X_val = np.array(X_val, dtype=float)
    y_val = np.array(y_val, dtype=float)
    
    # Step 1 - Controllo se è richiesta la standardizzazione dei dati
    if hyperparams['data_standardize']:
        # Step 1.1 - Scrivere il codice per standardizzare i dati 
        scaler = StandardScaler()
        X_train_normalized = scaler.fit_transform(X_train)
        X_validation_normalized = scaler.transform(X_validation)
        
    # Step 2 - Concatenare una colonna di uno alla matrice delle features
    array_train = np.ones((X_train_normalized.shape[0],1))
    array_validation = np.ones((X_validation_normalized.shape[0],1))

    X_train_onesFeatured = np.c_[X_train_normalized,array_train]
    X_validation_onesFeatured = np.c_[X_validation_normalized,array_validation]

    
    # Step 3 - Applicare formula della regressione lineare e calcolare predizioni
    model = LinearRegression()
    model.fit(X_train_onesFeatured,y_train)
    predictionsVali = model.predict(X_validation_onesFeatured)
    predictionsTrain = model.predict(X_train_onesFeatured)

    # Step 4 - Calcolare MAE 
    MAEVal = mean_absolute_error(y_val,predictionsVali)
    MAETrain = mean_absolute_error(y_train,predictionsTrain)

    print(MAEVal,MAETrain)

In [149]:
hyperparams = {'data_standardize': True}

train_fraction = 0.8
validation_fraction = 0.2

num_train = int(train_fraction * X.shape[0])

X_train = X[:num_train]
y_train = y[:num_train]

X_validation = X[num_train:]
y_validation = y[num_train:]

# Chiamare la funzione pipeline e stampare i risultati della MAE
pipeline(X_train,y_train,X_validation,y_validation,hyperparams)
# svolgimento...

3.0237510473360167 3.3692123106941234




### **Esercizio: Implementare alla funzione `pipeline` la possibilità di usare PCA**

Modifichiamo la funzione `pipeline` in modo da gestire anche la possibilità di effettuare la PCA. Dunque aggiungiamo al dizionario `hyperparams` la chiave `use_pca`. 

Se `hyperparams['use_pca']` = **True** verrà eseguita la PCA. 

Se `hyperparams['use_pca']` = **False** non verrà eseguita la PCA.

La gestione della standardizzazione deve essere mantenuta come prima.

In [150]:
# svolgimento...
from sklearn.decomposition import PCA

def pipeline(X_train, y_train, X_val, y_val, hyperparams):

    X_train = np.array(X_train, dtype=float)
    y_train = np.array(y_train, dtype=float)
    X_val = np.array(X_val, dtype=float)
    y_val = np.array(y_val, dtype=float)

    # Step 1 - Controllo se è richista la PCA
    if hyperparams['use_pca']:
        n_components = 2
        # Step 1.1 - Scrivere il codice per applicare PCA
        pca = PCA(n_components)
        data_pca = pca.fit_transform(X_train)
    
    # Step 2 - Controllo se è richiesta la standardizzazione dei dati
    if hyperparams['data_standardize']:
        scaler = StandardScaler()
        X_train_normalized = scaler.fit_transform(X_train)
        X_validation_normalized = scaler.transform(X_validation)
        
    # Step 2 - Concatenare una colonna di uno alla matrice delle features
    array_train = np.ones((X_train_normalized.shape[0],1))
    array_validation = np.ones((X_validation_normalized.shape[0],1))

    X_train_onesFeatured = np.c_[X_train_normalized,array_train]
    X_validation_onesFeatured = np.c_[X_validation_normalized,array_validation]

    
    # Step 3 - Applicare formula della regressione lineare e calcolare predizioni
    model = LinearRegression()
    model.fit(X_train_onesFeatured,y_train)
    predictionsVali = model.predict(X_validation_onesFeatured)
    predictionsTrain = model.predict(X_train_onesFeatured)

    # Step 4 - Calcolare MAE 
    MAEVal = mean_absolute_error(y_val,predictionsVali)
    MAETrain = mean_absolute_error(y_train,predictionsTrain)
    print(MAEVal,MAETrain)

In [151]:
hyperparams = {'data_standardize': True, 'use_pca': True}
train_fraction = 0.8
validation_fraction = 0.2

num_train = int(train_fraction * X.shape[0])

X_train = X[:num_train]
y_train = y[:num_train]

X_validation = X[num_train:]
y_validation = y[num_train:]

# Chiamare la funzione pipeline e stampare i risultati della MAE al variare dell' utilizzo della PCA.
pipeline(X_train,y_train,X_validation,y_validation,hyperparams)

# svolgimento...

3.0237510473360167 3.3692123106941234


