# Regressione Lineare Multipla


Regressione: modello utilizzato per identificare un legame funzionale tra un *attributo target* e un
insieme di *attributi esplicativi*. Consente di effettuare previsioni circa i valori assunti dalla variabile target per determinati valori delle variabili esplicative.

- *Attributo target*: anche noto come *variabile di risposta*, *output*, *variabile dipendente*
- *Attributi esplicativi*: anche noti come *variabili indipendenti* o *predittori*.

Diciamo regressione lineare **multipla** perche' oggi consideriamo uno **o piu'** attributi esplicativi.

Diciamo regressione **lineare** perche' cerchiamo un legame lineare tra la variabile target e quella esplicativa.

## Notazione

Chiamiamo $\boldsymbol{y}$ la variabile target; i suoi valori su ciascuna delle $m$ osservazioni saranno $y_1, y_2, \ldots, y_m$.

Chiamiamo $\boldsymbol{x}_1$, $\boldsymbol{x}_2$, $\boldsymbol{x}_n$ le variabili $n$ esplicative; i valori della $j$-esima variabile esplicativa su ciascuna delle $m$ osservazioni saranno $x_{j1}, x_{j2}, \ldots, x_{jm}$.

Cerchiamo una relazione $$\boldsymbol{y} = b + w_1 \boldsymbol{x}_1 + w_2 \boldsymbol{x}_2 \ldots + w_n \boldsymbol{x}_n + \boldsymbol{\epsilon}$$ dove $\epsilon$ e' noto come *scarto*, *errore* o *residuo*.  Vogliamo trovare $n+1$ scalari $b$ e $w_1, w_2, \ldots w_n$ in modo che $\boldsymbol{\epsilon}$ sia il piu' piccolo possibile e che abbia valore atteso pari a $0$.

Il singolo coefficiente $w_j$ rappresenta quanto varia la risposta $y$ al variare di $x_j$,
**mantenendo tutte le altre variabili fisse**.

## Intuizione grafica

Se $n=2$, graficamente, $y = f(x_1, x_2) = b + w_1 x_1 + w_2 x_2$ rappresenta un piano nello spazio.
- $w_1$ e $w_2$ identificano la pendenza nel piano (servono due numeri, non ne basta uno come nel caso della retta!);
- $b$ l'intercetta (valore di $y$ per $x_1 = x_2 = 0$).

Graficamente, cosa rappresenta $\boldsymbol{\epsilon}$?

## Esempio

In [None]:
# Setup
import numpy as np
np.set_printoptions(precision=2)
import plotly.offline as py
import plotly.graph_objs as go
py.init_notebook_mode()
import pandas as pd

In [None]:
# Leggiamo il dataset
df = pd.read_table("http://users.stat.ufl.edu/~winner/data/stature_hand_foot.dat",
                   delim_whitespace=True, names = ["id", "sex", "stature", "hand", "foot"])
x1 = df["hand"].values # Variabile esplicativa 1
x2 = df["foot"].values # Variabile esplicativa 2
y = df["stature"].values # Variabile target

In [None]:
# ... oppure generiamo un dataset sintetico
x1 = np.random.rand(100)
x2 = np.random.rand(100)
y = 3 + 1*x1 + 2*x2


In [None]:
# Disegnamo uno scatter plot in 3D
data = [go.Scatter3d(...)]
layout = go.Layout(
    scene = dict(
        xaxis = dict(title=""),
        yaxis = dict(title=""),
        zaxis = dict(title="")
    )
)
fig = go.Figure(data, layout)
py.iplot(fig)

In [None]:
# Disegnamo uno scatter plot in 3D
data = [
    go.Scatter3d(x=x1, y=x2, z=y, mode="markers", name="data",
                 marker=dict(size=3)),
]
layout = go.Layout(
    scene = dict(
        xaxis = dict(title="Hand length [mm]: variabile esplicativa"),
        yaxis = dict(title="Foot length [mm]: variabile esplicativa"),
        zaxis = dict(title="Height [mm]: variabile target")
    )
)
fig = go.Figure(data, layout)
py.iplot(fig)

### Esercizio: dati $b$, $w_1$ e $w_2$, disegna per ogni osservazione il valore $f(x)$

In [None]:
b = 650 # Scelto in modo arbitrario
w1 = 5 # Scelto in modo arbitrario: prova a cmabiarlo e assicurati che si comporti come ti aspetti
w2 = 0

y_hat = ...

data = [
    go.Scatter3d(...),
    go.Scatter3d(...)
]


layout = go.Layout(scene = dict(
        xaxis = dict(title=""),
        yaxis = dict(title=""),
        zaxis = dict(title="")
    ))
fig = go.Figure(data, layout)
py.iplot(fig)

In [None]:
# Soluzione all'esercizio
b = 650 # Scelto in modo arbitrario
w1 = 5 # Scelto in modo arbitrario: prova a cmabiarlo e assicurati che si comporti come ti aspetti
w2 = 0

y_hat = b + w1*x1 + w2*x2

#x1_line = np.array([np.min(x1), np.max(x1)]) # Prova a modificare gli estremi, per estrapolare la linea
#y_line = b + w*x_line

data = [
    go.Scatter3d(x=x1, y=x2, z=y, mode="markers", name="data",
                 marker=dict(size=3)),
    go.Scatter3d(x=x1, y=x2, z=y_hat, mode="markers", name="estimate",
                 marker=dict(size=3)),
]


layout = go.Layout(scene = dict(
        xaxis = dict(title="Hand length [mm]: variabile esplicativa"),
        yaxis = dict(title="Foot length [mm]: variabile esplicativa"),
        zaxis = dict(title="Height [mm]: variabile target")
    ))
fig = go.Figure(data, layout)
py.iplot(fig)

## Come si calcolano i coefficienti?

Utilizziamo l'oggetto `sklearn.linear_model.LinearRegression`

Documentazione:
- [Costruttore](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn-linear-model-linearregression)
- Metodo per stimare i parametri ([`fit`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression.fit))

![image.png](attachment:image.png)

In [None]:
# Come faccio ad ottenere X?
X = 

In [None]:
import sklearn
import sklearn.linear_model
reg = sklearn.linear_model.LinearRegression()
reg.fit(X,y)

In [None]:
# Come faccio a stimare y_hat?

In [None]:
y_hat = b + w1 * x1 + w2 * x2
y_hat_alternativo = reg.predict(x)

In [None]:
print(y_hat == y_hat_alternativo)
assert np.all(np.isclose(y_hat, y_hat_alternativo))

In [None]:
y_hat = b + w1*x1 + w2*x2

#x1_line = np.array([np.min(x1), np.max(x1)]) # Prova a modificare gli estremi, per estrapolare la linea
#y_line = b + w*x_line

data = [
    go.Scatter3d(x=x1, y=x2, z=y, mode="markers", name="data",
                 marker=dict(size=3)),
    go.Scatter3d(x=x1, y=x2, z=y_hat, mode="markers", name="estimate",
                 marker=dict(size=3)),
]

# Disegnamo le linee verticali corrispondenti agli errori (residui)
for i in range(len(x1)):
    data.append(go.Scatter3d(x=[x1, x1], y=[x2, x2], z=[y, y_hat], mode="lines",
        showlegend=False, line=dict(color="gray", width=0.5)))

layout = go.Layout(scene = dict(
        xaxis = dict(title="Hand length [mm]: variabile esplicativa"),
        yaxis = dict(title="Foot length [mm]: variabile esplicativa"),
        zaxis = dict(title="Height [mm]: variabile target")
    ))
fig = go.Figure(data, layout)
py.iplot(fig)

## Un link per costruirsi l'intuizione sulla regressione lineare
http://setosa.io/ev/ordinary-least-squares-regression/

## Valutare la bonta' di una regressione: il coefficiente di determinazione (aka coefficiente $R^2$)

Il coefficiente di determinazione, denominato anche $R^2$ multiplo, rappresenta la percentuale di varianza totale spiegata da parte delle variabili predittive, e quindi da parte del modello.

$$R^2 = 1 - \frac{\sum_{i=1}^{m} (\hat{y}_i - y_i)^2}{\sum_{i=1}^{m} (\bar{y} - y_i)^2}$$

Assume valori compresi nell’intervallo $[0,1]$:
- nel caso in cui per un modello il valore assunto dal coefficiente di determinazione sia molto prossimo ad uno, allora il modello di regressione spiega una larga parte della variazione presente nella variabile target.
- al contrario, se tale valore e' molto prossimo a zero, allora il modello di regressione non serve a nulla.

**Il coefficiente di determinazione tende a crescere all’aumentare del numero di variabili incluse nel modello di regressione lineare (che abbiamo chiamato $n$ qui sopra).**

In [None]:
# Verifica: calcoliamo come varia l'SSE usando solo x1, usando solo x2, oppure usando entrambi

In [None]:
# Soluzione (qui usiamo anche x3)
x3 = df["id"].values # Variabile esplicativa 3
reg = sklearn.linear_model.LinearRegression()
x = np.hstack((x1.reshape(-1,1),x2.reshape(-1, 1),x3.reshape(-1, 1)))
reg.fit(x,y)
y_hat = reg.predict(x)
np.sum((y_hat - y)**2)
r_sq = 1 - np.sum((y_hat - y)**2)/np.sum((np.mean(y) - y)**2)
r_sq

Avanzato: una applicazione interessante di un problema di regressione: 
[link](http://scikit-learn.org/stable/auto_examples/plot_multioutput_face_completion.html#sphx-glr-auto-examples-plot-multioutput-face-completion-py)