# Regressione Lineare Semplice

Regressione: modello utilizzato per identificare un legame funzionale tra un *attributo target* e un
insieme di *attributi esplicativi*. Consente di effettuare previsioni circa i valori assunti dalla variabile target per determinati valori delle variabili esplicative.

- *Attributo target*: anche noto come *variabile di risposta*, *output*, *variabile dipendente*
- *Attributi esplicativi*: anche noti come *variabili indipendenti* o *predittori*.

Diciamo regressione lineare **semplice** perche' consideriamo un solo attributo esplicativo.

Diciamo regressione **lineare** semplice perche' cerchiamo un legame lineare tra la variabile target e quella esplicativa.

## Notazione

Chiamiamo $\boldsymbol{y}$ la variabile target; i suoi valori su ciascuna delle $m$ osservazioni saranno $y_1, y_2, \ldots, y_m$.

Chiamiamo $\boldsymbol{x}$ la variabile esplicativa; i suoi valori su ciascuna delle $m$ osservazioni saranno $x_1, x_2, \ldots, x_m$.

Cerchiamo una relazione $$\boldsymbol{y} = b + w \boldsymbol{x} + \boldsymbol{\epsilon}$$ dove $\epsilon$ e' noto come *scarto*, *errore* o *residuo*.  Vogliamo trovare due scalari $b$ e $w$ in modo che $\boldsymbol{\epsilon}$ sia il piu' piccolo possibile e che abbia valore atteso pari a $0$.

## Intuizione grafica

Graficamente, $y = f(x) = b + wx$ rappresenta una retta sul piano.
- $w$ e' il coefficiente angolare (pendenza della retta);
- $b$ l'intercetta (valore di $y$ per $x=0$).

Graficamente, cosa rappresenta $\boldsymbol{\epsilon}$?

## Esempio

In [1]:
# Setup
import numpy as np
np.set_printoptions(precision=2)
import plotly.offline as py
import plotly.graph_objs as go
py.init_notebook_mode(connected=True)
import pandas as pd

In [2]:
# Leggiamo il dataset
df = pd.read_csv("http://users.stat.ufl.edu/~winner/data/stature_hand_foot.dat",
                   delim_whitespace=True, names = ["id", "sex", "stature", "hand", "foot"])
x = df["hand"].values # Variabile esplicativa
y = df["stature"].values # Variabile target
print(f"Coefficiente di correlazione lineare: {np.corrcoef(x,y)[0,1]:.2f}")
df

Coefficiente di correlazione lineare: 0.87


Unnamed: 0,id,sex,stature,hand,foot
0,1,1,1743.8,208.6,272.9
1,2,1,1762.9,208.5,241.2
2,3,1,1909.5,206.8,254.8
3,4,1,1827.0,204.7,305.4
4,5,1,1641.2,200.6,246.1
5,6,1,1627.2,197.6,242.5
6,7,1,1701.4,204.2,255.6
7,8,1,1800.1,213.2,270.0
8,9,1,1828.0,215.5,277.9
9,10,1,1793.2,211.7,268.8


In [3]:
# Disegnamo lo scatter plot
data = [
    go.Scatter(x=x, y=y, mode="markers", name="data"),
]
layout = go.Layout(
    xaxis = dict(title="Hand length [mm]: variabile esplicativa"),
    yaxis = dict(title="Height [mm]: variabile target")
)
fig = go.Figure(data, layout)
py.iplot(fig)

### Esercizio: dati $b$ e $w$, disegna per ogni osservazione il valore $f(x)$

Estensione all'esercizio: disegna anche le linee verticali corrispondenti agli errori, e rappresenta la retta di regressione come una linea

In [18]:
# Soluzione all'esercizio
b = 650 # Scelto in modo arbitrario
w = 5 # Scelto in modo arbitrario: prova a cmabiarlo e assicurati che si comporti come ti aspetti

y_hat = b + w*x
x_line = np.array([np.min(x), np.max(x)]) # Prova a modificare gli estremi, per estrapolare la linea
y_line = b + w*x_line
print(x_line)
print(y_line)

data = [
    go.Scatter(x=x, y=y, mode="markers", name="data"),
    go.Scatter(x=x, y=y_hat, mode="markers", name="estimate"),
    go.Scatter(x=x_line, y=y_line, mode="lines", name="regression line"),
]

# Disegnamo le linee verticali corrispondenti agli errori (residui)
for i in range(len(x)):
    data.append(go.Scatter(x=[x[i], x[i]], y=[y[i], y_hat[i]], mode="lines",
        showlegend=False, line=dict(color="gray", width=0.5)),)

layout = go.Layout(
    xaxis = dict(title="Hand length [mm]: variabile esplicativa"),
    yaxis = dict(title="Height [mm]: variabile target")
)
fig = go.Figure(data, layout)
py.iplot(fig)

[168.1 234. ]
[1490.5 1820. ]


In [5]:
# E' utile anche disegnare il plot dei residui.  Nota che questo plot dovrebbe essere centrato su y=0
data = [
    go.Scatter(x=x, y=y-y_hat, mode="markers", name="residuals")
]
layout = go.Layout(
    xaxis = dict(title="Hand length [mm]: variabile esplicativa"),
    yaxis = dict(title="Residuo per height [mm]")
)
fig = go.Figure(data, layout)
py.iplot(fig)

Come facciamo a scegliere $b$ e $w$ in modo che la retta approssimi il meglio possibile i miei dati?

Definiamo il valore SSE (Sum of Squared Errors) come segue:
    $$\text{SSE} = \sum_{i=1}^m \epsilon_i^2 = \sum_{i=1}^m[y_i - f(x_i)]^2 = \sum_{i=1}^m[y_i - w x_i - b]^2 $$
    
Vogliamo scegliere $b$ e $w$ in modo che SSE sia il piu' piccolo possibile.

Nota che, una volta che ho i dati, i valori $x_i$ e $y_i$ (per $i=1 \ldots m$) siano fissati.
Il valore SSE dipende quindi solo da due variabili: $b$ e $w$.
In particolare, si tratta di una funzione quadratica in due variabili.  Possiamo trovare il minimo di questa funzione quadratica con metodi algebrici (in particolare imponendo che le derivate parziali di SSE rispetto a $b$ e $w$ siano entrambe nulle:
- la derivata parziale di SSE rispetto a $b$ e' un valore che dipende da $b$ e $w$, e mi indica quanto cambia SSE se $b$ cambia un pochino;
- la derivata parziale di SSE rispetto a $w$ e' un valore che dipende da $b$ e $w$, e mi indica quanto cambia SSE se $w$ cambia un pochino;

se trovo una coppia di valori $\hat{b}, \hat{w}$ in cui entrambe queste derivate parziali sono 0, ho trovato un punto in cui la mia funzione quadratica ha un minimo (oppure un massimo, oppure un punto di sella).  Ma in questo caso, per come e' strutturata la funzione, si tratta di un minimo.

La soluzione (non ci interessa in questo corso il modo di derivarla) si ottiene cosi':

$$\hat{w} = \frac{\sum_{i=1}^m (x_i-\bar{\mu}_x)(y_i-\bar{\mu}_y)}{\sum_{i=1}^m (x_i-\bar{\mu}_x)^2}$$

$$\hat{b} = \bar{\mu}_y-\hat{w} \bar{\mu}_x$$

Dove $\bar{\mu}_x$ e $\bar{\mu}_y$ rappresentano la media di $x$ e $y$ rispettivamente.

Questa e' la coppia di valori di $\hat{w},\hat{b}$ rappresenta la coppia di valori tale per cui l'SSE e' il minimo possibile.

A questo punto, se ho un valore $x$ posso calcolare il valore $y$ stimato tramite regressione lineare come $\hat{y} = \hat{b} + \hat{w} x $

### Esercizio: calcola $\hat{w}$ e $\hat{b}$ e disegna la retta corrispondente 

In [6]:
# Soluzione
w_hat = np.sum((x-np.mean(x))*(y-np.mean(y)))/np.sum((x-np.mean(x))**2)
b_hat = np.mean(y)-w_hat*np.mean(x)
print(w_hat, b_hat)

x_line = np.array([np.min(x), np.max(x)])
y_line = b_hat + w_hat*x_line
data = [
    go.Scatter(x=x, y=y, mode="markers", name="data"),
    go.Scatter(x=x_line, y=y_line, mode="lines", name="regression line"),
]
layout = go.Layout(xaxis = dict(title="Hand length [mm]: variabile esplicativa"), yaxis = dict(title="Height [mm]: variabile target"))
py.iplot(go.Figure(data, layout))

6.146013220700917 451.4775962062024


### Esercizio
- scrivi una funzione che dati $x,y,b,w$ calcoli l'SSE
- verifica empiricamente che l'SSE per $\hat{b}, \hat{w}$ e' il minimo (provando alcuni valori vicini) 

In [7]:
# Soluzione
def sse(x,y,b,w):
    y_hat = b + w * x
    e = y - y_hat
    return np.sum(e**2)

print(sse(x,y,b_hat,w_hat-0.01),  # Prova a esplorare dei punti vicino a b_hat, w_hat
      sse(x,y,b_hat,w_hat))

323376.1324858748 322756.5752788745


## Alcune proprieta' importanti

### Unita' di misura
$w$ si esprime con un'unita' di misura pari a:$$\frac{\text{unita' di misura della variabile target}}{\text{unita' di misura della variabile esplicativa}}$$

Nel nostro caso, $\frac{\text{mm}}{\text{mm}}$

$b$ si esprime con un'unita' di misura uguale a quella della variabile target.

Il coefficiente di correlazione lineare e' adimensionale, e **non dipende dall'unita' di misura**.

### Effetto di trasformazioni lineari dei valori delle variabili

E' importante sapere cosa succede a $w$, $b$ e al coefficiente di correlazione lineare quando le mie variabili vengono trasformate:
- moltiplicando una variabile per una costante (ad esempio, esprimendo una lunghezza in metri anziche' millimetri)
- sommando una costante a una variabile
- facendo una combinazione di queste due trasformazioni (ad esempio, esprimendo una temperatura in gradi Farenheit anziche' in gradi Centigradi)

### Puoi verificare le tue ipotesi con il codice sotto

In [8]:
def compute_regression(x,y):
    w_hat = np.sum((x-np.mean(x))*(y-np.mean(y)))/np.sum((x-np.mean(x))**2)
    b_hat = np.mean(y) - w_hat * np.mean(x)
    return b_hat, w_hat, np.corrcoef(x,y)[0,1]

print(compute_regression(x, y))
print(compute_regression(x, y+200))
print(compute_regression(x, y/1000))
print(compute_regression(x*2, y))

(451.4775962062024, 6.146013220700917, 0.8731317214867013)
(651.4775962062024, 6.146013220700917, 0.8731317214867013)
(0.4514775962062032, 0.0061460132207009155, 0.8731317214867012)
(451.4775962062024, 3.0730066103504585, 0.8731317214867013)


### Extra: disegnamo la superficie dell'SSE in funzione della scelta di $b$ e $w$

In [9]:
bs = np.linspace(0,1000,200)
ws = np.linspace(0,10,200)
z = np.full((len(bs), len(ws)), np.nan)
for bi,b in enumerate(bs):
    for wi,w in enumerate(ws):
        z[bi,wi] = sse(x,y,b,w)
data = [go.Surface(x=ws, y=bs, z=z)]
# Le righe di z corrispondono all'asse y
    
layout = go.Layout(scene=dict(
        xaxis = dict(title="value for w"),
        yaxis = dict(title="value for b"),
        zaxis = dict(title="SSE value")
    )
)
fig = go.Figure(data, layout)
py.iplot(fig)

## Un link per costruirsi l'intuizione sulla regressione lineare
http://setosa.io/ev/ordinary-least-squares-regression/