# Regressione Lineare e Logistica

## Laboratorio di Python

### Esperimento 1: Regressione Lineare (Stima del prezzo di un immobile)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# Generazione dati simulati
np.random.seed(42)
X = np.random.normal(100, 20, 50).reshape(-1, 1)  
y = 200 + 2 * X.flatten() + np.random.normal(0, 15, X.shape[0])

# Creazione e addestramento del modello
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X)

# Visualizzazione
plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='Dati reali')
plt.plot(X, y_pred, color='red', label='Regressione lineare')
plt.xlabel('Metri quadrati')
plt.ylabel('Prezzo (migliaia di euro)')
plt.title('Regressione Lineare: Predizione del Prezzo di un Immobile')
plt.legend()
plt.grid(True)
plt.show()

Questo codice Python implementa un semplice modello di **regressione lineare** per stimare il prezzo di un immobile in base alla sua superficie (metri quadrati). Vediamo passo dopo passo cosa fa il codice.

**1. Importazione delle librerie**
```python
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
```
- **numpy** → usato per generare e manipolare dati numerici.
- **matplotlib.pyplot** → usato per creare grafici.
- **sklearn.linear_model.LinearRegression** → implementa un modello di regressione lineare.


**2. Generazione dei dati simulati**

```python
np.random.seed(42)
X = np.random.normal(100, 20, 50).reshape(-1, 1)  
y = 200 + 2 * X.flatten() + np.random.normal(0, 15, X.shape[0])
```

- **`np.random.seed(42)`** → imposta un seme per la generazione casuale, garantendo che i risultati siano riproducibili.
- **`np.random.normal(100, 20, 50)`** → genera 50 numeri casuali con media 100 e deviazione standard 20 (rappresentano i metri quadrati delle case).
- **`reshape(-1, 1)`** → trasforma l'array in una matrice con una colonna e 50 righe (richiesto da `sklearn`).
- **`y = 200 + 2 * X.flatten() + np.random.normal(0, 15, X.shape[0])`** → crea i prezzi delle case seguendo una relazione lineare:
  - `200` è l'intercetta (prezzo base).
  - `2 * X` significa che il prezzo aumenta di 2 unità per ogni metro quadrato in più.
  - `np.random.normal(0, 15, X.shape[0])` aggiunge rumore casuale ai prezzi per simulare dati reali.

**3. Creazione e addestramento del modello di regressione lineare**
```python
model = LinearRegression()
model.fit(X, y)
```

- **LinearRegression()** → crea un modello di regressione lineare.
- **model.fit(X, y)** → addestra il modello usando i dati (`X` come input e `y` come output).

**4. Predizione dei valori**
```python
y_pred = model.predict(X)
```
- **`model.predict(X)`** → usa il modello addestrato per calcolare il prezzo stimato delle case.

**5. Visualizzazione dei risultati**
```python
plt.figure(figsize=(10, 6))
plt.scatter(X, y, color='blue', label='Dati reali')
plt.plot(X, y_pred, color='red', label='Regressione lineare')
plt.xlabel('Metri quadrati')
plt.ylabel('Prezzo (migliaia di euro)')
plt.title('Regressione Lineare: Predizione del Prezzo di un Immobile')
plt.legend()
plt.grid(True)
plt.show()
```

- **plt.scatter(X, y, color='blue', label='Dati reali')** → disegna un grafico a dispersione con i dati reali (metri quadrati vs prezzo).
- **plt.plot(X, y_pred, color='red', label='Regressione lineare')** → disegna la linea di regressione che approssima i dati.
- **Aggiunge etichette, legenda e griglia** per migliorare la leggibilità.

**Cosa rappresenta il grafico?**

- I **punti blu** sono i dati reali (metri quadrati vs prezzo dell’immobile).
- La **linea rossa** rappresenta la retta della regressione lineare, ovvero la previsione del modello.
- L'obiettivo è trovare la linea che meglio approssima i dati per poter stimare il prezzo di una casa conoscendone solo i metri quadrati.

**Conclusione:** Il modello impara una relazione lineare tra la superficie dell’immobile e il prezzo, permettendo di stimare il valore di case future basandosi sui metri quadrati!

### Esperimento 2: Regressione Lineare Multipla

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from sklearn.linear_model import LinearRegression

# Creazione di un dataset simulato
np.random.seed(42)
n = 100
X1 = np.random.rand(n) * 100  # Variabile indipendente 1 (es. età)
X2 = np.random.rand(n) * 50   # Variabile indipendente 2 (es. anni di esperienza)
y = 30 + 2.5 * X1 + 1.8 * X2 + np.random.normal(0, 10, n)  # Output con rumore

# Creazione del modello di regressione lineare multipla
X = np.column_stack((X1, X2))
model = LinearRegression()
model.fit(X, y)

# Predizione dei valori
y_pred = model.predict(X)

# Visualizzazione dei coefficienti
print("Coefficienti:", model.coef_)
print("Intercetta:", model.intercept_)

# Creazione del grafico 3D per visualizzare i dati e il piano di regressione
fig = plt.figure(figsize=(10, 6))
ax = fig.add_subplot(111, projection='3d')

# Scatter plot dei dati reali
ax.scatter(X1, X2, y, color='blue', label='Dati reali')

# Creazione della superficie di regressione
X1_grid, X2_grid = np.meshgrid(np.linspace(X1.min(), X1.max(), 20),
                               np.linspace(X2.min(), X2.max(), 20))
y_grid = (model.intercept_ + model.coef_[0] * X1_grid + model.coef_[1] * X2_grid)

ax.plot_surface(X1_grid, X2_grid, y_grid, color='red', alpha=0.5)

# Etichette degli assi
ax.set_xlabel("Età")
ax.set_ylabel("Anni di esperienza")
ax.set_zlabel("Salario stimato")
ax.set_title("Regressione Lineare Multipla")
plt.legend()
plt.show()

Questo codice Python implementa un semplice modello di **regressione lineare multipla** per stimare il salario di un impiegato  in base all' età e agli anni di esperienza dell'impiegato. Vediamo passo dopo passo cosa fa il codice.

**1 Generazione dei dati**
Il codice genera un dataset simulato con **100 osservazioni** e **due variabili indipendenti**:

- **X1**: età della persona (tra 0 e 100 anni).
- **X2**: anni di esperienza lavorativa (tra 0 e 50 anni).
- **y**: salario stimato in base a un modello lineare con una certa variabilità casuale (rumore).

La relazione tra le variabili è definita dalla formula:

$$
y = 30 + 2.5 \times X1 + 1.8 \times X2 + \text{rumore casuale}
$$

- Il valore **30** è l'intercetta (valore base del salario).
- **2.5** è il peso dell’età (ogni anno di età in più aumenta il salario di 2.5 unità).
- **1.8** è il peso degli anni di esperienza (ogni anno di esperienza in più aumenta il salario di 1.8 unità).
- Il **rumore** introduce variazioni casuali per simulare dati realistici.

**2 Creazione del modello**
Dopo aver organizzato i dati in una matrice `X`, il codice utilizza `LinearRegression()` di **Scikit-Learn** per addestrare il modello:
```python
model.fit(X, y)
```
Questo calcola i coefficienti che meglio approssimano la relazione tra le variabili.

**3 Predizione e interpretazione dei coefficienti**
Dopo l'addestramento, vengono stampati i coefficienti stimati:
```python
print("Coefficienti:", model.coef_)
print("Intercetta:", model.intercept_)
```
Questi valori ci dicono quanto l’età e l’esperienza influenzano il salario.

**4 Visualizzazione grafica**
- Il **grafico 3D** mostra i punti blu (dati reali) e il **piano rosso** che rappresenta la **superficie di regressione**.
- Il modello cerca di **minimizzare la distanza** tra il piano e i punti reali.

In questo epserimento abbiamo visto come applicare la **regressione lineare multipla** per prevedere un valore (salario) in base a più variabili (età ed esperienza).

### Esperimento 3: Regressione Logistica

In questo esperimento simuliamo un'applicazione della **regressione logistica** in ambito penale, con l’obiettivo di prevedere la **probabilità di recidiva** di un imputato sulla base di:

* **Età**,
* **Presenza di precedenti penali**.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import (
    confusion_matrix, ConfusionMatrixDisplay, classification_report
)

# 1. Simulazione dati: rischio di recidiva in funzione di età e precedenti
np.random.seed(42)
n = 500
eta = np.random.randint(18, 60, n)  # età tra 18 e 60
precedenti = np.random.binomial(1, 0.4, n)  # 0 = nessun precedente, 1 = precedenti

# Funzione probabilità: maggiore con precedenti e minore età
p_recidiva = 1 / (1 + np.exp(-(-4 + 0.08 * (60 - eta) + 2.5 * precedenti)))
y = np.random.binomial(1, p_recidiva)

# Preparazione dataset
X = np.column_stack((eta, precedenti))
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 2. Regressione Logistica
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
y_prob = model.predict_proba(X_test)[:, 1]

# 3. Valutazione
cm = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred, output_dict=True)

# 4. Visualizzazione
ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["No recidiva", "Recidiva"]).plot()

# Decision boundary
plt.figure(figsize=(10, 6))
plt.scatter(X_test[:, 0], y_prob, c=X_test[:, 1], cmap='coolwarm', edgecolor='k')
plt.xlabel("Età")
plt.ylabel("Probabilità predetta di recidiva")
plt.title("Probabilità di recidiva in funzione dell'età e dei precedenti")
plt.colorbar(label="Precedenti (0=No, 1=Sì)")
plt.grid(True)
plt.show()

(report, model.coef_, model.intercept_)

Il codice Python implementa un semplice modello di **regressione logistica** per prevedere la probabilità di recidiva di un imputato sulla base di età e presenza di precedenti penali. Vediamo passo dopo passo cosa fa il codice.

Abbiamo generato un dataset fittizio di 500 imputati, in cui:

* L’età è compresa tra 18 e 60 anni.
* Il 40% ha precedenti penali.
* La probabilità di recidiva è più alta per:

  * imputati con precedenti,
  * imputati più giovani.

Questa probabilità è calcolata con una funzione logistica:

$$
p = \frac{1}{1 + \exp(-(-4 + 0.08 \cdot (60 - \text{età}) + 2.5 \cdot \text{precedenti}))}
$$

I valori di `y` (recidiva sì/no) sono stati estratti in base a questa probabilità.


Abbiamo addestrato una **regressione logistica** sui dati, divisi in train e test set.

Il modello ha appreso i seguenti coefficienti:

* **Età**: −0.078 → l’aumento dell’età riduce la probabilità di recidiva.
* **Precedenti**: +2.47 → avere precedenti penali aumenta significativamente la probabilità.

Intercetta: +0.91

Per quanto concerne l'accuratezza del modello, abbiamo ottenuto:

**Accuratezza complessiva**: 80.6%
**Precisione per la classe "recidiva"**: 70.2%
**Richiamo (recall) per "recidiva"**: 68.8%

La matrice di confusione mostra una buona capacità del modello nel distinguere tra recidiva e non recidiva.

Nel secondo grafico, ogni punto rappresenta un imputato del test set:

* **X**: Età
* **Y**: Probabilità predetta di recidiva
* **Colore**: Presenza di precedenti (blu = no, rosso = sì)

La curva mostra come la probabilità predetta diminuisce con l’età e aumenta sensibilmente in presenza di precedenti penali.