# Linear Regression

In questa lezione introduciamo la linear regression, uno dei modelli più fondamentali nel supervised
learning. Nonostante la sua apparente semplicità, la linear regression fornisce un framework unificante per
molte idee chiave nel Machine Learning, inclusa la loss minimisation, l'optimisation, la probabilistic
modelling, e la feature representation.  

Come tutti i modelli di unsupervised learning, Linear Regression si basa sul concetto che, dato un Training set costituito da $ n $ coppie input-output, al momento della predizione vogliamo calcolare una predizione  
$ \hat{y}^* = \hat{f}(x^*) $  
che approssimi l'output vero sconosciuto $ y^* $, ma un buon fit sul training set da solo non è sufficiente.  

Un'assunzione di modello comune è che l'output osservato sia generato secondo una funzione deterministica sconosciuta che vogliamo modellare $ f(x) $ e un termine di rumore casuale $ epsilon $ che è indipendente da $ x $.  

Per rendere il problema trattabile, restringiamo la classe di predittori ammissibili e assumiamo un modello che è *lineare nei parametri*.

### Predittore Affine

Definiamo il modello di linear regression come  
$ \hat{y}(x,\theta) = \theta^T x $  
dove $ x = [1, x_1 ... x_p] $ e $ \theta = [\theta_0 ... \theta_p] $  
La prima componente di $ x $ è 1 in modo che il modello possa imparare un termine di intercept $ \theta_0 $. Questo rende il predittore *affine* piuttosto che puramente lineare nei feature originali.  

### Modello di Misurazione
Adesso modelliamo il processo di generazione dei dati come una funzione che vede l'output osservato $ y $ come la somma di una componente lineare sistematica (vettore di parametri $ \theta^T $ moltiplicato per il vettore di input $ x $ ) più un termine di rumore casuale.

### Predizione
Per un nuovo input $ x^* $ dato, una predizione sarà $ \hat{y}^* = \hat{\theta}^T x^* $ .   
Possiamo adesso definire il *residual* $ r_i $ come la distanza tra il valore di output reale $ y_i $ per un campione dato e il suo valore preditto $ \hat{y}_i $  

Ricorda che per il *training* usiamo notazione a matrice sia per input che output, quindi:  
Modello di misurazione: $ Y = X\theta + \epsilon $  
Predittore affine: $ \hat{Y} = X\theta  $  
dove la prima colonna di $ X $ è tutta 1 per essere affine (l'intercept viene imparato insieme agli altri parametri).  

# Loss function $ L(\hat{y},y) $ e Cost function $J(\theta)$

Per addestrare un modello di linear regression abbiamo bisogno di definire cosa è una predizione *buona* o *cattiva*.  
Usiamo una **loss function** $ L(\hat{y},y) $ per misurare la discrepanza tra l'output *effettivo* $ y $ e l'output *predetto* $ \hat(y) $ per *un singolo esempio di addestramento*.  
Per problemi di regression una pratica comune è usare *squared error loss* come loss function:  
$ L(\hat{y},y) = (\hat{y},y)^2 = (\theta^{T}x - y)^2$  
Questa funzione è utile perché se il valore predetto è uguale al valore reale la loss è 0, e più la predizione è lontana dal valore osservato, più l'errore ha impatto sull'apprendimento.  

Tuttavia, quando addestriamo il nostro predictor, non addestriamo solo su un singolo campione, ma su l'intero dataset. Se la *loss function* è definita su un singolo campione, possiamo definire una **cost function** su l'intero dataset come l'aggregazione di tutta la *loss* su tutti i dati di addestramento.  
Quindi per un dataset fatto di $ n $ campioni, la cost function sarà:  
$ J(\theta) = \frac{1}{n} \sum_{i=1}^{n} L(\hat{y}(x_i,\theta),y_i) $  
e se $ L $ è la *squared error loss*:  
$   J(\theta) = \frac{1}{n} \sum_{i=1}^{n} L(\theta^{T}x_i - y_i)^2 = \frac{1}{n} || X\theta - y ||^2 $  

### Least squares  
Nota che la nostra cost function per una squared error loss dipende dalla *somma dei residui al quadrato*, poiché stiamo usando notazione a matrice, dove tutte le righe corrispondono al residuo del campione $i$-esimo: $ r_i = \theta^{T}x_i - y_i $  
Per costruire un predictor che predica valori il più possibile vicino agli output osservati, abbiamo bisogno di fondamentalmente minimizzare il vettore di parametri $ \theta $ , il che significa minimizzare la somma dei residui al quadrato: è per questo che per addestrare un regressore lineare in queste circostanze lavoriamo con il problema dei *least squares* (quadrati MINIMI). Il vettore di parametri minimo è: $ \hat{\theta} = \text{arg}\min_{\theta}||X\theta - Y||^2 $

### Soluzione
Per trovare un modo di calcolare un possibile $\hat{\theta}$ possiamo derivare la soluzione *closed-form* del problema dei least squares usando il calcolo.  
Prima espandiamo $ J(\theta) $ espandendo la norma al quadrato, poi calcoliamo il gradiente di $ J(\theta) $ rispetto a $ \theta $.  Otteniamo:  
$ \nabla_{\theta}J(\theta) = -2X^{T}Y + 2X^{T}X\theta $  
Possiamo osservare che esponendo il $ 2X^{T} $ termine otteniamo $  \nabla_{\theta}J(\theta) = 2X^{T}(X\theta - Y) $, e quindi interpretiamo il gradiente come un vettore che punta nella direzione dove la pendenza è ripida, a seconda del *residuale*.  
Impostando il gradiente a zero, otteniamo le *normal equations*:  
$X^{T}X\hat{\theta}=X^{T}Y$  

Possiamo ottenere la soluzione $ \hat{\theta} $ soltanto se il termine $ X^{T}X $ è invertibile, il che ha bisogno che le colonne di $ X $ siano indipendenti (per ammettere una soluzione unica). Inoltre, sappiamo che tale soluzione sarà ottimale poiché la matrice Hessiana di J $\nabla^{2}_{\theta}J = 2X^{T}X $ contiene il termine $ X^{T}X $ che è positivo semidefinito, e quindi la cost function di J è convessa. Grazie a questa proprietà, qualsiasi punto *stazionario* è un minimizzatore globale, poiché un punto stazionario è un $x_0$ per il quale $ f(x_0)' = 0 $. 

Le colonne di $ X $ sono indipendenti se: nessuna feature è la combinazione lineare esatta delle altre, e il numero di campioni $ n $ è più grande del numero di parametri $ p + 1 $.  
Se il termine $ X^{T}X $ non è invertibile, abbiamo bisogno di calcolare lo *pseudo-inverse* di tale termine usando metodi di algebra lineare numerica come *QR Decomposition* o *Singular Value Decomposition (SVD)*.  

È importante notare che lo *squared linear regression* è così popolare per tutte le osservazioni precedenti: soltanto questo metodo fornisce una **soluzione closed-form** il che significa che una soluzione esatta è data usando un numero finito di operazioni standard. Molte altre loss functions non ammettono tale soluzione esplicita, e richiedono invece metodi di *ottimizzazione iterativa*.  

Comunque, la **squared error loss** function è utile quando abbiamo a che fare con problemi di linear regression su dataset piccoli. Se un dataset è molto grande, o la funzione obiettivo non ammette un minimizzatore analitico, può essere computazionalmente costoso - quindi usiamo altri metodi, che non sono in forma chiusa.

In [None]:
"""
Applichiamo un regressore lineare al dataset sulla qualità dei vini rossi.

Passi:
1. caricare il dataset
2. esplorare il dataset
3. dividere il dataset in train e test set
4. normalizzare i dati
5. addestrare un modello di regressione lineare
6. valutare il modello
"""
import pandas as pd
whine_set = pd.read_csv("/workspaces/ml-foundations-cours-2026/whine-quality/winequality-red.csv", sep=';')
print(whine_set.info())
print(whine_set.describe())

<class 'pandas.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB
None
       fixed acidity  volatile acidity  citric acid  residual sugar  \
count    1599.000000       1599.000000  1599.000000     1599.

In [3]:
from sklearn.model_selection import train_test_split
train_set, test_set = train_test_split(whine_set, test_size=0.2, random_state=42)


In [4]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler() # standardizzazione: media 0, deviazione standard 1
train_set_scaled = scaler.fit_transform(train_set.drop("quality", axis=1))

In [5]:
from sklearn.linear_model import LinearRegression
model = LinearRegression() # come dice la documentazione "ordinary least squares Linear Regression"
model.fit(train_set_scaled, train_set["quality"])

test_set_scaled = scaler.transform(test_set.drop("quality", axis=1))
predictions = model.predict(test_set_scaled)

In [6]:
from sklearn.metrics import mean_squared_error, mean_absolute_error
mae = mean_absolute_error(test_set["quality"], predictions)
mse = mean_squared_error(test_set["quality"], predictions)
print(f"Mean Absolute Error: {mae}")
print(f"Mean Squared Error: {mse}")

Mean Absolute Error: 0.5035304415524374
Mean Squared Error: 0.39002514396395493


Possiamo osservare che la soluzione closed-form è computazionalmente costosa, poiché richiede l'inversione di una matrice $ (p+1) \times (p+1) $ che ha complessità $ O((p+1)^3) $.  
Ad ogni modo, i valori di MSE e MAE sono molto più piccoli rispetto a quelli ottenuti con i modelli precedenti (k-NN e Decision Tree).