# Introduzione al Modello Lineare in Python

In [None]:
# importiamo le librerie necessarie
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

1. Generiamo dei dati che, _per definizione_, sono linearmente correlati, ovvero tali che:

$$y = \beta + \alpha \cdot x$$

Per rendere il nostro dataset più realistico, i nostri dati saranno tali che:

$$y = \beta + \alpha \cdot x + \varepsilon$$

dove $\varepsilon \sim \textit{N}(0, \sigma)$

In [None]:
# definiamo i coefficienti a piacere
alpha = 2
beta = 5
sigma = 1
n_points = 10
x_min = 0
x_max = 10

# generiamo il dataset
x = np.linspace(x_min, x_max, n_points).reshape(-1, 1)
# equazione della retta (senza rumore nei dati)
y = beta + alpha * x
y += np.random.normal(0, sigma, size=(n_points, 1))

In [None]:
# visualizziamo i dati con uno scatterplot (usando matplotlib)
plt.scatter(x, y, color="blue")
plt.xlabel("x")
plt.ylabel("y")
plt.title("Dati linearmente correlati")
plt.show()

2. Facciamo il fit di un modello lineare utilizzando la libreria `scikit-learn` e verifichiamo qualitativamente (graficamente) il modello imparato:



In [None]:
# inizializzazione del modello
model = LinearRegression()
# stima dei coefficienti con il metodo dei minimi quadrati (in automatico)
model.fit(x, y)
# guardiamo i parametri "fittati" dal modello
pred_alpha = model.coef_[0][0]
pred_beta = model.intercept_[0]
print(f"(coefficiente angolare) alpha = {pred_alpha:.2f} (originale: {alpha})")
print(f"(intercetta) beta = {pred_beta:.2f} (originale: {beta})")

In [None]:
# vediamo il modello dove mappa i dati originali
y_pred = model.predict(x)

# visualizziamo nella stessa figura i dati originali con uno scatterplot e quelli predetti con un plot
plt.scatter(x, y, color="blue", label="Dati reali")
plt.plot(x, y_pred, color="red", label="Retta predetta")
plt.xlabel("x")
plt.ylabel("y")
plt.title("Modello lineare semplice")
plt.legend()
plt.show()

3. Esploriamo a bontà del modello tramite il coefficiente di determinazione $R^2$.

Adesso per ogni dato valore di $x$ (variabile indipendente), il modello lineare ci restituisce:

$$\hat{y} = \alpha \cdot x + \beta$$

Supponendo di conoscere il _vero_ valore $y$ in corrispondenza di $x$, possiamo calcolare la differenza tra il valore $y$ e la previsione $\hat{y}$:

$$e = y - \hat{y}$$

e partire da questa differenza per valutare la bontà del modello lineare.

**Coefficiente di determinazione**: $R^2$ varia tra 0 (pessimo) e 1 (ottimo) e indica la quantità di variabilità nei dati spiegata dal modello!

Total Sum of Squares (TSS), i.e. varianza totale nei dati:

$$TSS = \sum_{i=1}^n (y_i - \bar{y})^2$$

Residual Sum of Squares (RSS), i.e. varianza residua nei dati alla luce del modello:

$$RSS = \sum_{i=1}^n (y_i - \hat{y}_i)^2$$

In [None]:
r2 = model.score(x, y)
print(f"Coefficiente di determinazione: {r2:.2f}")

## Modello lineare interattivo

Osserviamo cosa succede quando modifichiamo i parametri delle funzioni usate in precedenza:

In [None]:
from ipywidgets import interact, FloatSlider, IntSlider

def linear_model(beta=5.0, alpha=2.0, sigma=2.0, n_points=50):
    np.random.seed(42)
    x = np.linspace(0, 10, n_points).reshape(-1, 1)
    y = alpha * x + beta + np.random.normal(0, sigma, size=(n_points,1))

    model = LinearRegression()
    model.fit(x, y)
    y_pred = model.predict(x)
    r2 = model.score(x, y)

    plt.figure(figsize=(8,5))
    plt.scatter(x, y, color="blue", label="Dati reali")
    plt.plot(x, y_pred, color="red", label="Retta predetta")
    plt.xlabel("x")
    plt.ylabel("y")
    plt.title(f"Modello lineare semplice\nPendenza stimata={model.coef_[0][0]:.2f}, Intercetta stimata={model.intercept_[0]:.2f}, R^2={r2:.2f}")
    plt.legend()
    plt.show()

interact(linear_model,
         beta=FloatSlider(min=-10, max=10, step=0.5, value=5, description="Intercetta"),
         alpha=FloatSlider(min=-5, max=5, step=0.1, value=2, description="Coefficiente Angolare"),
         sigma=FloatSlider(min=0, max=5, step=0.1, value=2, description="Rumore nelle osservazioni"),
         n_points=IntSlider(min=10, max=200, step=10, value=50, description="Numero di punti osservati")
        );

[Guess the Correlation!](https://www.guessthecorrelation.com)