# Apprendimento Supervisionato

## Laboratorio Python

### Esperimento 1: Predizione della Recidiva su nuovi dati

In questo esperimento Python, procedendo come per l'esperimento in @sec-esperimento-1-predizione-della-recidiva-parte-a simuleremo un dataset per prevedere la recidiva penale (recidivo o non recidivo) utilizzando un modello di classificazione. Creeremo un trend realistico: ad esempio, chi non ha un lavoro stabile e ha un reato precedente più grave avrà maggiore probabilità di essere recidivo.
Infine, esamineremo un nuovo caso e prevederemo la probabilità di recidiva.
Per comprendere il codice possiamo pensarlo composto da tre parti:

1. **Generazione dei dati**: Simuliamo variabili come età, gravità del reato, lavoro stabile e supporto familiare.
2. **Addestramento del modello**: Usiamo una Random Forest Classifier.
3. **Valutazione del modello**: Misuriamo l'accuratezza e visualizziamo i risultati in una matrice di confusione.

In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Generazione dei dati simulati
np.random.seed(42)
num_samples = 1000

eta = np.random.randint(18, 70, num_samples)
gravita_reato = np.random.choice([1, 2, 3], size=num_samples, p=[0.5, 0.3, 0.2])  # 1=furto, 2=violenza, 3=omicidio
lavoro_stabile = np.random.choice([0, 1], size=num_samples, p=[0.6, 0.4])
supporto_familiare = np.random.choice([0, 1], size=num_samples, p=[0.4, 0.6])

# Probabilità di recidiva basata su regole realistiche
recidiva_prob = (
    0.4 * (1 - lavoro_stabile) +
    0.3 * (3 - gravita_reato) +
    0.3 * (1 - supporto_familiare)
)
recidiva = (recidiva_prob > np.random.rand(num_samples)).astype(int)

# Creazione del DataFrame
data = pd.DataFrame({
    'eta': eta,
    'gravita_reato': gravita_reato,
    'lavoro_stabile': lavoro_stabile,
    'supporto_familiare': supporto_familiare,
    'recidiva': recidiva
})

# Divisione del dataset
X = data[['eta', 'gravita_reato', 'lavoro_stabile', 'supporto_familiare']]
y = data['recidiva']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Addestramento del modello
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Predizioni e valutazione
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print(f"Accuratezza del modello: {accuracy:.2f}")

# Matrice di confusione
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=["Non Recidivo", "Recidivo"])
disp.plot(cmap=plt.cm.Blues)
plt.title("Matrice di Confusione")
plt.show()

Adesso, supponiamo di avere un nuovo soggetto con le seguenti caratteristiche:

- **Età**: 30 anni
- **Gravità del reato**: 2 (violenza)
- **Lavoro stabile**: No
- **Supporto familiare**: Sì

Possiamo chiedere al modello di calcolare la probabilità che questo soggetto sia recidivo.

In [None]:
# Nuovo soggetto
nuovo_soggetto = pd.DataFrame({
    'eta': [30],
    'gravita_reato': [2],
    'lavoro_stabile': [0],  # No
    'supporto_familiare': [1]  # Sì
})

# Predizione del rischio di recidiva
rischio_recidiva = model.predict_proba(nuovo_soggetto)[:, 1][0]  # Probabilità di essere recidivo
classe_predetta = model.predict(nuovo_soggetto)[0]
print("dati del nuovo soggetto:")
print(nuovo_soggetto)
print(f"Probabilità di recidiva: {rischio_recidiva:.2f}")
print(f"Classe Predetta: {'Recidivo' if classe_predetta == 1 else 'Non Recidivo'}")

Ovviamente, questo è solo un esempio di base. Nella pratica, si dovrebbero considerare anche la normalizzazione dei dati, la gestione delle variabili categoriali e l'ottimizzazione degli iperparametri per migliorare le prestazioni. 
Ciononostante, si invita il lettore a provare a modificare i dati e i modelli per comprendere meglio il funzionamento dei modelli di apprendimento supervisionato.

### Esperimento 2: Regressione del Costo di un Immobile

In questo esempio, simuleremo un dataset per prevedere il costo di un immobile. Usiamo un trend realistico: immobili più grandi, in quartieri più costosi e con più bagni avranno un prezzo più alto.
Per comprendere il codice possiamo pensarlo composto da tre parti:

1. **Generazione dei dati**: Simuliamo variabili come superficie, numero di bagni e punteggio del quartiere.
2. **Addestramento del modello**: Usiamo una Random Forest Regressor.
3. **Valutazione del modello**: Visualizziamo i risultati in un grafico di dispersione.

In [None]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Generazione dei dati simulati
np.random.seed(42)
num_samples = 500

superficie = np.random.randint(50, 300, num_samples)  # Superficie in m²
bagni = np.random.randint(1, 4, num_samples)  # Numero di bagni
quartiere = np.random.randint(1, 6, num_samples)  # Punteggio del quartiere (1-5)

# Prezzo basato su regole realistiche
prezzo = (
    superficie * 3000 +
    bagni * 10000 +
    quartiere * 20000 +
    np.random.normal(0, 5000, num_samples)  # Rumore casuale
)

# Creazione del DataFrame
data = pd.DataFrame({
    'superficie': superficie,
    'bagni': bagni,
    'quartiere': quartiere,
    'prezzo': prezzo
})

# Divisione del dataset
X = data[['superficie', 'bagni', 'quartiere']]
y = data['prezzo']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Addestramento del modello
model = RandomForestRegressor(random_state=42)
model.fit(X_train, y_train)

# Predizioni e valutazione
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Errore Quadratico Medio (MSE): {mse:.2f}")
print(f"R² Score: {r2:.2f}")

# Grafico di dispersione
plt.figure(figsize=(8, 6))
plt.scatter(y_test, y_pred, alpha=0.7)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], '--', color='red', label='Predizione Perfetta')
plt.xlabel("Prezzo Reale (€)")
plt.ylabel("Prezzo Predetto (€)")
plt.title("Confronto tra Prezzo Reale e Prezzo Predetto")
plt.legend()
plt.grid()
plt.show()

Supponiamo di avere un nuovo immobile con le seguenti caratteristiche:

- **Superficie**: 120 m²
- **Numero di bagni**: 2
- **Punteggio del quartiere**: 4

Il modello calcolerà il prezzo stimato per questo immobile.

In [None]:
# Nuovo immobile
nuovo_immobile = pd.DataFrame({
    'superficie': [120],
    'bagni': [2],
    'quartiere': [4]
})

# Predizione del prezzo dell'immobile
prezzo_stimato = model.predict(nuovo_immobile)[0]

# Stampa dei dati del nuovo immobile
print("dati del nuovo immobile:")
print(nuovo_immobile)

# Stampa del prezzo stimato
print(f"Prezzo stimato per il nuovo immobile: €{prezzo_stimato:,.2f}")

Occorre ricordare che i dati sono simulati generando dei numeri casuali. Quindi, i legami tra le variabili e le uscite sono altrettanto casuali e potrebbero non essere realistici.
Ciononostante, si invita il lettore a provare a modificare i dati e i modelli per comprendere meglio il funzionamento dei modelli di apprendimento supervisionato.