### **Approfondimento sulle Strategie di Valutazione nei Modelli di Machine Learning**

#### **1. Introduzione alla Valutazione dei Modelli di Classificazione**
Quando costruiamo un modello di classificazione, è fondamentale disporre di metodi sistematici per misurare la sua efficacia. La valutazione dei modelli ci aiuta a comprendere quanto il modello sia in grado di distinguere correttamente le classi nei dati di input.

La classificazione può assumere diverse forme, a seconda del tipo di problema da risolvere:

1. **Classificazione binaria**  
   - Il modello deve distinguere tra due sole classi.  
   - Esempio: Email spam vs. non spam, esito di un test medico positivo vs. negativo.
  
2. **Classificazione multi-classe**  
   - Il modello deve assegnare ogni istanza a una sola classe tra più possibili.  
   - Esempio: Riconoscimento di cifre scritte a mano (0-9), categorizzazione di articoli di notizie in "sport", "politica" o "economia".

3. **Classificazione multi-etichetta**  
   - Ogni istanza può appartenere a più classi contemporaneamente.  
   - Esempio: Assegnazione di più tag a un articolo (un post può essere classificato sia come "tecnologia" che "business").

#### **2. Fattori che Influenzano la Scelta delle Metriche di Valutazione**
Non esiste una metrica universale che sia sempre adatta a ogni problema di classificazione. La scelta delle metriche dipende da diversi aspetti:

1. **Distribuzione delle classi nei dati**  
   - Se le classi sono **bilanciate** (cioè il numero di esempi per ogni classe è simile), metriche standard come l'**accuratezza** possono essere utili.  
   - Se le classi sono **sbilanciate** (es. il 95% delle email sono non spam e solo il 5% sono spam), metriche come **precision, recall e F1-score** sono più adatte.

2. **Costo relativo degli errori**  
   - In alcuni problemi, gli errori non hanno lo stesso peso.  
   - Esempio: In un test medico, classificare erroneamente un paziente malato come sano è molto più grave del contrario. In questi casi, il **recall** (capacità del modello di identificare i positivi) è più importante della **precisione**.

3. **Necessità di ottenere probabilità o solo etichette**  
   - Alcune applicazioni richiedono non solo la classe predetta, ma anche una probabilità associata.  
   - Esempio: Nei sistemi di raccomandazione o nella medicina, conoscere la probabilità che un paziente abbia una malattia può essere più utile della semplice classificazione binaria.

4. **Obiettivi specifici dell'applicazione**  
   - Se il focus è la massima precisione (evitare falsi positivi), useremo metriche diverse rispetto a quando il focus è il massimo recall (ridurre i falsi negativi).  
   - Esempio: Nei filtri anti-spam, un falso negativo (email spam classificata come non spam) potrebbe essere meno grave di un falso positivo (email importante finisce nella cartella spam).

#### **3. Creazione di un Ambiente per la Valutazione**
Prima di valutare un modello, è necessario impostare un ambiente sperimentale:

1. **Divisione del dataset**  
   - Si suddivide il dataset in training set (per addestrare il modello) e test set (per valutarlo).
   - Spesso si utilizza la **validazione incrociata (cross-validation)** per ottenere una stima più affidabile delle prestazioni.

2. **Generazione di dati di esempio**  
   - Si possono creare dataset sintetici per testare i modelli.
   - Librerie come `scikit-learn` forniscono funzioni come `make_classification()` per generare dati di esempio.

3. **Scelta delle metriche**  
   - Accuratezza, precisione, recall, F1-score, AUC-ROC, log-loss sono alcune delle metriche principali.
   - Ogni metrica è più o meno adatta a seconda del contesto.

Da qui, possiamo iniziare a esplorare le singole metriche e vedere come applicarle per valutare i modelli di classificazione.



### **1️⃣ Importazione delle librerie**
```python
# Import essential libraries
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```
Queste librerie sono fondamentali per l'analisi dei dati:
- **NumPy (`np`)**: Fornisce supporto per array multidimensionali e funzioni matematiche.
- **Pandas (`pd`)**: Permette di manipolare e analizzare dati tabulari con DataFrame.
- **Matplotlib (`plt`)**: Serve per la visualizzazione di grafici.
- **Seaborn (`sns`)**: Libreria di visualizzazione basata su Matplotlib con uno stile più accattivante.

```python
# Machine learning libraries
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
```
Librerie per il machine learning:
- **`make_classification`**: Genera dataset sintetici per classificazione.
- **`train_test_split`**: Divide i dati in set di training e testing.
- **`LogisticRegression`**: Algoritmo di regressione logistica.
- **`RandomForestClassifier`**: Algoritmo di classificazione basato su alberi decisionali.

```python
# Evaluation metrics
from sklearn.metrics import (
    confusion_matrix, 
    accuracy_score, 
    precision_score, 
    recall_score, 
    f1_score,
    roc_curve, 
    roc_auc_score,
    precision_recall_curve, 
    average_precision_score,
)
```
Metriche di valutazione:
- **Matrice di confusione (`confusion_matrix`)**: Analizza gli errori di classificazione.
- **Accuratezza (`accuracy_score`)**: Percentuale di predizioni corrette.
- **Precisione (`precision_score`)**: Rapporto tra veri positivi e il totale delle predizioni positive.
- **Recall (`recall_score`)**: Percentuale di veri positivi catturati dal modello.
- **F1-score (`f1_score`)**: Media armonica di precisione e recall.
- **ROC Curve (`roc_curve`) e AUC (`roc_auc_score`)**: Valutano la capacità del modello nel distinguere le classi.
- **Curva Precision-Recall (`precision_recall_curve`) e punteggio medio di precisione (`average_precision_score`)**: Analizzano la performance nei dataset squilibrati.

```python
# Visualization settings
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("viridis")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['axes.titlesize'] = 16
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
```
Impostazioni per la visualizzazione:
- **Stile `seaborn-whitegrid`**: Rende i grafici più leggibili.
- **Tavolozza colori `viridis`**: Schema di colori ad alto contrasto.
- **Parametri `plt.rcParams`**: Definiscono dimensioni e font dei grafici.

---

### **2️⃣ Creazione dei dataset**
```python
# Set random seed for reproducibility
np.random.seed(42)
```
- Fissa il seme casuale per rendere riproducibili i risultati.

```python
# Create a balanced dataset
X_balanced, y_balanced = make_classification(
    n_samples=10000,
    n_features=20,
    n_informative=10,
    n_redundant=5,
    n_classes=2,
    weights=[0.5, 0.5],  # Equal class probabilities
    random_state=42
)
```
- **Genera un dataset bilanciato**:
  - 10.000 campioni con 20 feature totali.
  - 10 feature contengono informazioni utili per la classificazione.
  - 5 feature sono ridondanti (correlate con le informative).
  - 2 classi (0 e 1) con probabilità uguali (`weights=[0.5, 0.5]`).

```python
# Create an imbalanced dataset (10% minority class)
X_imbalanced, y_imbalanced = make_classification(
    n_samples=10000,
    n_features=20,
    n_informative=10,
    n_redundant=5,
    n_classes=2,
    weights=[0.9, 0.1],  # Imbalanced class probabilities
    random_state=42
)
```
- **Genera un dataset sbilanciato**:
  - Stesse caratteristiche del precedente.
  - **90% della classe 0 e solo 10% della classe 1** (`weights=[0.9, 0.1]`).
  - Serve per testare le metriche in situazioni di disequilibrio tra le classi.

---

### **3️⃣ Divisione in training e testing**
```python
# Split datasets into training and testing sets
X_bal_train, X_bal_test, y_bal_train, y_bal_test = train_test_split(
    X_balanced, y_balanced, test_size=0.25, random_state=42
)
```
- **Divide il dataset bilanciato**:
  - 75% per il training.
  - 25% per il testing.

```python
X_imb_train, X_imb_test, y_imb_train, y_imb_test = train_test_split(
    X_imbalanced, y_imbalanced, test_size=0.25, random_state=42
)
```
- **Divide il dataset sbilanciato** con le stesse proporzioni.

---

### **4️⃣ Controllo della distribuzione delle classi**
```python
# Check class distributions
print("Balanced dataset class distribution:")
print(pd.Series(y_balanced).value_counts(normalize=True))
```
- **Conta le occorrenze delle classi** nel dataset bilanciato.
- **Normalizza i valori** (`normalize=True`) per ottenere percentuali.

```python
print("\nImbalanced dataset class distribution:")
print(pd.Series(y_imbalanced).value_counts(normalize=True))
```
- **Stesso controllo per il dataset sbilanciato**.

#### **Output atteso:**
```python
Balanced dataset class distribution:
0    0.5005
1    0.4995
```
- Conferma che il dataset bilanciato ha quasi il **50% di classe 0 e 50% di classe 1**.

```python
Imbalanced dataset class distribution:
0    0.8966
1    0.1034
```
- Il dataset sbilanciato ha circa **90% classe 0 e 10% classe 1**.

---

### **🔍 Riepilogo**
1. **Abbiamo importato librerie essenziali** per machine learning e analisi dei dati.
2. **Abbiamo creato due dataset di classificazione**:
   - Uno bilanciato (50%-50%).
   - Uno sbilanciato (90%-10%).
3. **Abbiamo diviso i dati in training e testing** (75%-25%).
4. **Abbiamo verificato la distribuzione delle classi**.

📌 **Prossimi passi?** Potremmo:
- Allenare modelli di classificazione sui due dataset.
- Valutare le prestazioni con le metriche importate.
- Visualizzare i risultati.



---

### **Addestramento dei modelli**
L'obiettivo di queste righe è addestrare due modelli di regressione logistica e due modelli di foresta casuale su dataset bilanciati e sbilanciati.

```python
# Train a logistic regression model on the balanced dataset
lr_balanced = LogisticRegression(random_state=42)
lr_balanced.fit(X_bal_train, y_bal_train)
```
- Qui viene creato un modello di **regressione logistica** (`LogisticRegression`) con un parametro `random_state=42` per garantire la riproducibilità dei risultati.
- Il modello viene addestrato sui dati di **training del dataset bilanciato** (`X_bal_train`, `y_bal_train`).

```python
# Train a logistic regression model on the imbalanced dataset
lr_imbalanced = LogisticRegression(random_state=42)
lr_imbalanced.fit(X_imb_train, y_imb_train)
```
- Qui si segue lo stesso approccio, ma per il dataset **sbilanciato** (`X_imb_train`, `y_imb_train`).

---

### **Generazione delle predizioni**
Una volta addestrati i modelli, vengono generate le predizioni e le probabilità associate.

```python
# Generate predictions and probability scores
y_bal_pred = lr_balanced.predict(X_bal_test)
y_bal_prob = lr_balanced.predict_proba(X_bal_test)[:, 1]
```
- `predict(X_bal_test)`: genera le predizioni **binari** (0 o 1) per il dataset bilanciato.
- `predict_proba(X_bal_test)[:, 1]`: restituisce la probabilità predetta per la classe positiva (`1`).

```python
y_imb_pred = lr_imbalanced.predict(X_imb_test)
y_imb_prob = lr_imbalanced.predict_proba(X_imb_test)[:, 1]
```
- Stessa operazione per il dataset **sbilanciato**.

---

### **Addestramento di un secondo modello: Random Forest**
Oltre alla regressione logistica, viene addestrato un altro modello: **Random Forest**, per fare un confronto.

```python
# Train a second model (Random Forest) for comparison
rf_balanced = RandomForestClassifier(random_state=42)
rf_balanced.fit(X_bal_train, y_bal_train)
```
- Qui viene addestrato un modello di **Random Forest** (`RandomForestClassifier`) con gli stessi dati bilanciati.

```python
y_bal_pred_rf = rf_balanced.predict(X_bal_test)
y_bal_prob_rf = rf_balanced.predict_proba(X_bal_test)[:, 1]
```
- `predict(X_bal_test)`: predizioni binarie (0 o 1) del modello Random Forest sul dataset bilanciato.
- `predict_proba(X_bal_test)[:, 1]`: probabilità della classe positiva.

```python
rf_imbalanced = RandomForestClassifier(random_state=42)
rf_imbalanced.fit(X_imb_train, y_imb_train)
y_imb_pred_rf = rf_imbalanced.predict(X_imb_test)
y_imb_prob_rf = rf_imbalanced.predict_proba(X_imb_test)[:, 1]
```
- Stesso procedimento, ma applicato al **dataset sbilanciato**.

---

### 1.3 Metriche di classificazione di base


### **Definizione della Confusion Matrix**
La **Confusion Matrix** aiuta a visualizzare le prestazioni del modello mostrando:
- **Vero Positivo (TP)**: quando il modello predice 1 e la realtà è 1.
- **Falso Positivo (FP)**: quando il modello predice 1 ma la realtà è 0.
- **Vero Negativo (TN)**: quando il modello predice 0 e la realtà è 0.
- **Falso Negativo (FN)**: quando il modello predice 0 ma la realtà è 1.

```python
def plot_confusion_matrix(y_true, y_pred, title):
    # Calculate confusion matrix
    cm = confusion_matrix(y_true, y_pred)
```
- Questa funzione prende i valori **veri** (`y_true`) e **predetti** (`y_pred`).
- Utilizza la funzione `confusion_matrix()` di `sklearn.metrics` per calcolare la matrice di confusione.

```python
    # Extract values for annotation
    tn, fp, fn, tp = cm.ravel()
```
- `cm.ravel()` appiattisce la matrice `cm` per ottenere i valori in ordine `[TN, FP, FN, TP]`.

```python
    # Create a heatmap visualization
    plt.figure(figsize=(8, 6))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
                xticklabels=['Predicted Negative', 'Predicted Positive'],
                yticklabels=['Actual Negative', 'Actual Positive'])
```
- `sns.heatmap()` crea una **mappa di calore** della matrice di confusione.
- `annot=True`: visualizza i numeri nelle celle.
- `fmt='d'`: indica che i valori sono numeri interi.
- `cmap='Blues'`: imposta il colore della heatmap in blu.
- `xticklabels` e `yticklabels` assegnano etichette agli assi.

```python
    plt.title(title, fontsize=16)
    plt.tight_layout()
    plt.show()
```
- `plt.title(title)`: imposta il titolo della matrice.
- `plt.tight_layout()`: ottimizza la disposizione degli elementi nel grafico.
- `plt.show()`: mostra il grafico.

```python
    # Print TP, FP, TN, FN values
    print(f"True Positives (TP): {tp}")
    print(f"False Positives (FP): {fp}")
    print(f"True Negatives (TN): {tn}")
    print(f"False Negatives (FN): {fn}")
```
- Stampa a schermo i valori della matrice di confusione.

---

### **Visualizzazione delle confusion matrices**
Infine, vengono chiamate le funzioni per visualizzare la matrice di confusione per entrambi i dataset:

```python
plot_confusion_matrix(y_bal_test, y_bal_pred, "Confusion Matrix - Balanced Dataset")
plot_confusion_matrix(y_imb_test, y_imb_pred, "Confusion Matrix - Imbalanced Dataset")
```
- Viene mostrata la **Confusion Matrix** per il **dataset bilanciato**.
- Viene mostrata la **Confusion Matrix** per il **dataset sbilanciato**.

---

### **Conclusione**
- La regressione logistica e la Random Forest vengono addestrate su due dataset con distribuzioni diverse.
- Si generano predizioni binarie e probabilità.
- Si visualizzano le confusion matrices per comprendere le prestazioni dei modelli.
- Questo ci aiuterà a capire come i modelli si comportano quando una classe è molto più rara dell’altra.


### 1 CONFUSION MATRIX BALANCED DATA

La matrice di confusione caricata rappresenta uno strumento per valutare le prestazioni di un modello di classificazione. È suddivisa in quattro sezioni principali che riflettono il confronto tra i valori previsti e quelli effettivi:

1. **True Negatives (TN)**: 1054 casi in cui il modello ha predetto correttamente una classe negativa.
2. **False Positives (FP)**: 226 casi in cui il modello ha predetto positivamente, ma il risultato effettivo era negativo.
3. **False Negatives (FN)**: 213 casi in cui il modello non ha rilevato correttamente una classe positiva (errore di omissione).
4. **True Positives (TP)**: 1007 casi in cui il modello ha predetto correttamente una classe positiva.

Questa distribuzione ci consente di calcolare metriche fondamentali per analizzare la performance del modello, come:

- **Precisione**: Quanti dei risultati positivi previsti sono davvero corretti.
- **Recall (o Sensibilità)**: Quanti dei positivi effettivi il modello è riuscito a identificare.
- **F1-Score**: Una media armonica tra Precision e Recall per bilanciare i due aspetti.


### 2 CONFUSION MATRIX BALANCED DATA
La tabella si compone di quattro quadranti che rappresentano i seguenti valori:

1. **True Negatives (TN)**: 2221  
   Questi sono i casi in cui il modello ha predetto correttamente una classe negativa.

2. **False Positives (FP)**: 20  
   Questi sono i casi in cui il modello ha predetto erroneamente una classe positiva per dati che in realtà appartengono alla classe negativa.

3. **False Negatives (FN)**: 141  
   Qui il modello ha fallito nel riconoscere una classe positiva, classificandola invece come negativa.

4. **True Positives (TP)**: 118  
   Questi rappresentano i casi in cui il modello ha identificato correttamente la classe positiva.

### Perché è importante?

- La matrice di confusione consente di calcolare metriche chiave come:
   - **Accuracy**: Misura la percentuale di previsioni corrette, calcolata come $$(TP + TN) / (TP + TN + FP + FN)$$.
   - **Precision**: Indica la proporzione di previsioni positive corrette, calcolata come $$TP / (TP + FP)$$.
   - **Recall (Sensibilità)**: Mostra quanti dei positivi effettivi sono stati identificati dal modello, calcolata come $$TP / (TP + FN)$$.
   - **F1-Score**: Media armonica di Precision e Recall, ideale per dataset sbilanciati.

Questo tipo di analisi è particolarmente utile per dataset squilibrati, dove una classe è molto più rappresentata dell'altra, aiutando a comprendere meglio i punti di forza e debolezza del modello.



## **Calcolo dell'Accuracy**
L'**Accuracy** (accuratezza) è una delle metriche più intuitive per valutare un modello di classificazione ed è definita come:

\[$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$\]

### **Codice: Calcolo dell'Accuracy**
```python
# Calculate accuracy for both datasets
balanced_accuracy = accuracy_score(y_bal_test, y_bal_pred)
imbalanced_accuracy = accuracy_score(y_imb_test, y_imb_pred)
```
- `accuracy_score(y_bal_test, y_bal_pred)`: calcola l'accuracy per il **dataset bilanciato** confrontando i valori **veri** (`y_bal_test`) con quelli **predetti** (`y_bal_pred`).
- `accuracy_score(y_imb_test, y_imb_pred)`: calcola l'accuracy per il **dataset sbilanciato**.

```python
print(f"Balanced dataset accuracy: {balanced_accuracy:.4f}")
print(f"Imbalanced dataset accuracy: {imbalanced_accuracy:.4f}")
```
- Stampa i valori dell'accuracy con **4 cifre decimali**.

Output:
```
Balanced dataset accuracy: 0.8244
Imbalanced dataset accuracy: 0.9356
```
- Il modello ha un'accuracy **del 82.44%** sul dataset **bilanciato**.
- Il modello ha un'accuracy **del 93.56%** sul dataset **sbilanciato**, che sembra molto alta, ma potrebbe essere fuorviante.

---

### **Baseline: Predire sempre la classe maggioritaria**
Per verificare quanto sia effettivamente utile il modello sul dataset **sbilanciato**, possiamo confrontarlo con una strategia molto semplice: **predire sempre la classe più frequente**.

```python
# Let's see what happens if we always predict the majority class in the imbalanced dataset
majority_predictions = np.zeros_like(y_imb_test)  # Assuming 0 is the majority class
```
- `np.zeros_like(y_imb_test)`: crea un array di zeri con la stessa forma di `y_imb_test`, ipotizzando che la **classe dominante sia 0**.
- Questo significa che il modello **non sta realmente facendo alcuna previsione**, ma sta semplicemente predicendo sempre la classe più comune.

```python
majority_accuracy = accuracy_score(y_imb_test, majority_predictions)
print(f"Imbalanced dataset - majority class baseline accuracy: {majority_accuracy:.4f}")
```
- Calcola l'accuracy di questa strategia di baseline.
- Stampa il risultato.

Output:
```
Imbalanced dataset - majority class baseline accuracy: 0.8964
```
- Anche predicendo **sempre** la classe più frequente otteniamo un'accuracy del **89.64%**, quindi il modello (che aveva il 93.56%) **non è poi così tanto migliore**.
- Questo dimostra che **l'accuracy non è sempre una buona metrica** per dataset sbilanciati!

---

## **Calcolo della Precision**
La **Precision** è definita come:

\[$
\text{Precision} = \frac{TP}{TP + FP}
$\]

- Indica **quante delle predizioni positive sono effettivamente positive**.
- È particolarmente utile quando **i falsi positivi sono costosi**, come nelle diagnosi mediche.

### **Codice: Calcolo della Precision**
```python
# Calculate precision for both datasets
balanced_precision = precision_score(y_bal_test, y_bal_pred)
imbalanced_precision = precision_score(y_imb_test, y_imb_pred)
```
- `precision_score(y_bal_test, y_bal_pred)`: calcola la precisione per il **dataset bilanciato**.
- `precision_score(y_imb_test, y_imb_pred)`: calcola la precisione per il **dataset sbilanciato**.

```python
print(f"Balanced dataset precision: {balanced_precision:.4f}")
print(f"Imbalanced dataset precision: {imbalanced_precision:.4f}")
```
- Stampa i valori della precisione.

Output:
```
Balanced dataset precision: 0.8167
Imbalanced dataset precision: 0.8551
```
- **Dataset bilanciato**: il modello ha una precisione **del 81.67%**.
- **Dataset sbilanciato**: il modello ha una precisione **dell'85.51%**.
- Questo significa che quando il modello predice un caso **positivo**, ha una probabilità dell'85.51% di essere corretto.

---

## **Calcolo del Recall (Sensibilità)**
Il **Recall** è definito come:

\[$
\text{Recall} = \frac{TP}{TP + FN}$
\]

- Indica **quanti dei casi realmente positivi sono stati identificati dal modello**.
- È importante quando **i falsi negativi sono costosi**, ad esempio in malattie gravi (meglio un falso allarme che non rilevarlo!).

### **Codice: Calcolo del Recall**
```python
# Calculate recall for both datasets
balanced_recall = recall_score(y_bal_test, y_bal_pred)
imbalanced_recall = recall_score(y_imb_test, y_imb_pred)
```
- `recall_score(y_bal_test, y_bal_pred)`: calcola il recall per il **dataset bilanciato**.
- `recall_score(y_imb_test, y_imb_pred)`: calcola il recall per il **dataset sbilanciato**.

```python
print(f"Balanced dataset recall: {balanced_recall:.4f}")
print(f"Imbalanced dataset recall: {imbalanced_recall:.4f}")
```
- Stampa i valori del recall.

Output:
```
Balanced dataset recall: 0.8254
Imbalanced dataset recall: 0.4556
```
- **Dataset bilanciato**: il modello ha un recall **dell'82.54%**.
- **Dataset sbilanciato**: il modello ha un recall **del 45.56%**.
- Questo significa che il modello **manca più della metà dei casi positivi reali nel dataset sbilanciato**!

---

## **Conclusione**
1. **L'accuracy è fuorviante nei dataset sbilanciati**: Un'accuracy del **93.56%** sembra ottima, ma predire **sempre la classe più frequente** già porta a **89.64%**, quindi il modello **non è molto utile**.
2. **La precisione è buona nel dataset sbilanciato (85.51%)**, il che significa che il modello è affidabile nel **predire i positivi**, ma...
3. **Il recall è molto basso nel dataset sbilanciato (45.56%)**, il che significa che il modello **perde molti casi positivi reali**.
4. **Meglio usare metriche più avanzate**, come **F1-score, AUC-ROC e confusion matrix**, per valutare modelli su dataset sbilanciati


***Un **dataset bilanciato** e un **dataset sbilanciato** si riferiscono alla distribuzione delle **classi** nel caso di problemi di classificazione, ossia quando l'obiettivo del modello è quello di predire una variabile categorica (classi).

### **Dataset Bilanciato**
Un **dataset bilanciato** è un dataset in cui tutte le **classi** (categorie) della variabile target sono rappresentate in modo **uguale o quasi uguale** in termini di numero di campioni. In altre parole, ogni classe ha una quantità simile di esempi.

#### Esempio:
Supponiamo di avere un dataset con una variabile target che rappresenta se un paziente è **malato** o **sano**. In un dataset bilanciato, ci sarebbero, ad esempio, **50%** di pazienti malati e **50%** di pazienti sani.

#### Vantaggi:
- I modelli di classificazione hanno una buona probabilità di generalizzare correttamente, poiché ogni classe ha lo stesso peso e quindi nessuna classe domina.
- I metodi di validazione, come la **cross-validation**, sono più facili da interpretare, poiché le performance non sono influenzate dalla prevalenza di una classe rispetto all'altra.

---

### **Dataset Sbilanciato**
Un **dataset sbilanciato** è un dataset in cui una o più **classi** sono rappresentate in modo **significativamente maggiore** rispetto alle altre. Questo accade quando una classe è molto più numerosa delle altre, creando una situazione di **disparità tra le classi**.

#### Esempio:
Nel caso di un dataset che cerca di predire se un paziente è **malato** o **sano**, un dataset sbilanciato potrebbe contenere **95%** di pazienti sani e solo **5%** di pazienti malati.

#### Problemi:
- I modelli di classificazione possono diventare **predittori di maggioranza**, cioè tendono a predire la classe più frequente, ignorando quella meno frequente. In questo esempio, un modello potrebbe classificare ogni paziente come sano, ottenendo un'accuratezza alta (95%), ma non identificando correttamente i pazienti malati (classe di minoranza).
- Le **metriche di performance** come l'accuratezza potrebbero non essere significative in questi casi, poiché non riflettono correttamente la capacità del modello di identificare la classe minoritaria. Metriche alternative, come la **precisione**, il **richiamo** (recall), o la **F1-score**, sono più appropriate per valutare il modello in questi scenari.
- Il modello potrebbe anche soffrire di **overfitting** sulla classe maggioritaria, mentre non è in grado di generalizzare bene sulla classe minoritaria.

---

### **Come affrontare un dataset sbilanciato?**
Esistono diverse tecniche per bilanciare un dataset sbilanciato:

1. **Resampling**:
   - **Oversampling**: Aumentare il numero di esempi della classe minoritaria (ad esempio duplicando o generando nuovi campioni).
   - **Undersampling**: Ridurre il numero di esempi della classe maggioritaria (ad esempio eliminando campioni).
   
2. **Tecniche di classificazione specializzate**: Alcuni algoritmi, come **Random Forest** o **Gradient Boosting**, sono più robusti nel gestire dataset sbilanciati.

3. **Pesatura delle classi**: Alcuni algoritmi consentono di applicare pesi maggiori alla classe minoritaria, in modo che l'algoritmo presti più attenzione a quella classe durante l'allenamento.

4. **Uso di metriche alternative**: Utilizzare metriche come **precisione**, **recall** e **F1-score** che sono più informativi in presenza di un dataset sbilanciato.

In generale, affrontare un dataset sbilanciato richiede un'attenzione particolare nella progettazione del modello e nella scelta delle metriche di valutazione.***


Certo! Vediamo nel dettaglio riga per riga il codice che calcola **F1 Score**, **Specificity** e introduce la **Threshold-Based Evaluation**.

---

## **F1 Score**
L'**F1 Score** è una metrica che bilancia **precision** e **recall**, ed è particolarmente utile per dataset sbilanciati. È definito dalla formula:

\[$
F1 = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$\]

Dove:
- **Precision** = \($ \frac{TP}{TP + FP}$ \) (quanto il modello è accurato quando predice positivo)
- **Recall** = \($ \frac{TP}{TP + FN}$ \) (quanto il modello cattura i veri positivi)

### **Calcolo dell'F1 Score**
```python
# Calculate F1 score for both datasets
balanced_f1 = f1_score(y_bal_test, y_bal_pred)
imbalanced_f1 = f1_score(y_imb_test, y_imb_pred)
```
- `f1_score(y_bal_test, y_bal_pred)`: calcola l'**F1 Score** per il **dataset bilanciato**.
- `f1_score(y_imb_test, y_imb_pred)`: calcola l'**F1 Score** per il **dataset sbilanciato**.

```python
print(f"Balanced dataset F1 score: {balanced_f1:.4f}")
print(f"Imbalanced dataset F1 score: {imbalanced_f1:.4f}")
```
- Viene stampato il valore dell'F1 score con **4 decimali** per una migliore leggibilità.

### **Output**
```
Balanced dataset F1 score: 0.8210
Imbalanced dataset F1 score: 0.5945
```
- Il modello performa **meglio nel dataset bilanciato** (0.8210).
- Il valore è **molto più basso nel dataset sbilanciato** (0.5945), indicando difficoltà nel riconoscere la classe minoritaria.

---

## **Specificity**
La **specificity** misura la capacità del modello di **identificare correttamente i casi negativi**. La formula è:

\[$
\text{Specificity} = \frac{TN}{TN + FP}$
\]

Dove:
- **TN (True Negative)**: Numero di negativi correttamente classificati.
- **FP (False Positive)**: Numero di negativi classificati erroneamente come positivi.

### **Calcolo della Specificity manualmente**
```python
# Calculate specificity manually (not directly available in sklearn)
def specificity_score(y_true, y_pred):
    tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
    return tn / (tn + fp)
```
- `confusion_matrix(y_true, y_pred).ravel()` ottiene i valori **TN, FP, FN, TP**.
- La funzione calcola la **specificity** usando la formula \( $\frac{TN}{TN + FP} $\).

```python
balanced_specificity = specificity_score(y_bal_test, y_bal_pred)
imbalanced_specificity = specificity_score(y_imb_test, y_imb_pred)
```
- `specificity_score(y_bal_test, y_bal_pred)`: calcola la **specificità** per il **dataset bilanciato**.
- `specificity_score(y_imb_test, y_imb_pred)`: calcola la **specificità** per il **dataset sbilanciato**.

```python
print(f"Balanced dataset specificity: {balanced_specificity:.4f}")
print(f"Imbalanced dataset specificity: {imbalanced_specificity:.4f}")
```
- Stampa i valori con **4 decimali**.

### **Output**
```
Balanced dataset specificity: 0.8234
Imbalanced dataset specificity: 0.9911
```
- Nel dataset **bilanciato**, la specificità è **0.8234** → Il modello identifica bene i negativi.
- Nel dataset **sbilanciato**, la specificità è **0.9911** → Il modello è **molto conservativo** e tende a classificare quasi tutto come negativo, ignorando la classe positiva.

---

## **Threshold-Based Evaluation**
La **Threshold-Based Evaluation** analizza come la scelta della soglia influisce sulle prestazioni del modello.

Di default, i modelli **predicono una probabilità** che un'osservazione appartenga alla classe positiva. Per assegnare una classe (`0` o `1`), si usa una soglia (di solito **0.5**).

- **Bassa soglia (< 0.5)** → Più campioni classificati come positivi → **Più recall, meno precision**.
- **Alta soglia (> 0.5)** → Meno campioni classificati come positivi → **Più precision, meno recall**.

### **Perché è utile?**
- Se il **costo degli errori è asimmetrico**, possiamo **modificare la soglia** per **ottimizzare precision o recall**.
- Per dataset sbilanciati, scegliere una soglia standard (0.5) potrebbe essere **non ottimale**.

---

## **Conclusione**
- **L'F1 Score** bilancia precision e recall, evidenziando il problema dello sbilanciamento.
- **La Specificity** aiuta a capire quanto bene il modello riconosce i **negativi**.
- **Threshold-Based Evaluation** permette di **ottimizzare il modello** regolando la soglia di classificazione.





## **Concetto di ROC Curve e AUC**
- La **Receiver Operating Characteristic (ROC) curve** è un grafico che mostra la relazione tra **True Positive Rate (TPR, Recall)** e **False Positive Rate (FPR, 1 - Specificità)** a diversi valori di soglia di classificazione.
- L'**Area Under the Curve (AUC)** misura la qualità della classificazione. Un valore di AUC vicino a **1.0** indica un ottimo modello, mentre un valore di **0.5** indica un modello che fa previsioni casuali.

---

## **Funzione `plot_roc_curves`**
Questa funzione genera e visualizza le **curve ROC** per più modelli.

```python
def plot_roc_curves(models_data, title):
```
- **`models_data`**: un dizionario contenente i dati dei modelli, dove le chiavi sono i nomi dei modelli e i valori sono coppie `(y_true, y_prob)`, ovvero etichette reali e probabilità predette.
- **`title`**: il titolo del grafico.

```python
    plt.figure(figsize=(6, 4))
```
- Crea una figura di **dimensioni 6x4 pollici** per il grafico.

```python
    for label, data in models_data.items():
        y_true, y_prob = data
```
- Itera sui modelli passati alla funzione.
- `label` è il nome del modello (es. "Logistic Regression").
- `data` è una tupla contenente:
  - `y_true`: etichette reali.
  - `y_prob`: probabilità predette per la classe positiva (`1`).

```python
        # Calculate ROC curve
        fpr, tpr, thresholds = roc_curve(y_true, y_prob)
        auc = roc_auc_score(y_true, y_prob)
```
- `roc_curve(y_true, y_prob)`: calcola **False Positive Rate (FPR)** e **True Positive Rate (TPR)** per diversi valori di soglia.
- `roc_auc_score(y_true, y_prob)`: calcola l'**Area Under the Curve (AUC)**.

```python
        # Plot ROC curve
        plt.plot(fpr, tpr, linewidth=2, label=f"{label} (AUC = {auc:.3f})")
```
- Disegna la curva ROC con:
  - `fpr` sull'asse **x**.
  - `tpr` sull'asse **y**.
  - `label` include il nome del modello e il valore AUC.

```python
    # Add diagonal line (random classifier)
    plt.plot([0, 1], [0, 1], 'k--', linewidth=1)
```
- Disegna una linea diagonale **dallo 0 al punto (1,1)**, rappresentando un **classificatore casuale** (AUC = 0.5).

```python
    # Add labels and legend
    plt.xlabel('False Positive Rate (1 - Specificity)')
    plt.ylabel('True Positive Rate (Recall)')
    plt.title(title)
    plt.legend(loc='lower right')
```
- **Etichetta gli assi**:
  - **Asse X**: FPR (1 - Specificità).
  - **Asse Y**: TPR (Recall).
- **Imposta il titolo**.
- **Aggiunge una legenda** in basso a destra.

```python
    plt.grid(True, alpha=0.3)
```
- Aggiunge una griglia leggera al grafico.

```python
    # Adjust axes
    plt.xlim([-0.01, 1.01])
    plt.ylim([-0.01, 1.01])
```
- Imposta i limiti degli assi **tra -0.01 e 1.01**, per evitare tagli nei margini.

```python
    plt.annotate('Ideal Point\n(FPR=0, TPR=1)', xy=(0.05, 0.95), xytext=(0.2, 0.8),
                 arrowprops=dict(facecolor='black', shrink=0.05, width=1.5))
```
- **Annota il "punto ideale"** (FPR=0, TPR=1), cioè **nessun falso positivo e tutti i veri positivi**.
- Disegna una **freccia** per evidenziarlo.

```python
    plt.show()
```
- **Mostra il grafico**.

---

## **Confronto tra modelli su dataset bilanciato e sbilanciato**

Ora definiamo i modelli e chiamiamo la funzione:

```python
balanced_models = {
    'Logistic Regression': (y_bal_test, y_bal_prob),
    'Random Forest': (y_bal_test, y_bal_prob_rf)
}
```
- **Dizionario `balanced_models`**:
  - Contiene i dati dei modelli per il **dataset bilanciato**.
  - `"Logistic Regression"`: `(y_bal_test, y_bal_prob)`.
  - `"Random Forest"`: `(y_bal_test, y_bal_prob_rf)`.

```python
imbalanced_models = {
    'Logistic Regression': (y_imb_test, y_imb_prob),
    'Random Forest': (y_imb_test, y_imb_prob_rf)
}
```
- **Dizionario `imbalanced_models`**:
  - Contiene i dati dei modelli per il **dataset sbilanciato**.

```python
plot_roc_curves(balanced_models, "ROC Curves - Balanced Dataset")
plot_roc_curves(imbalanced_models, "ROC Curves - Imbalanced Dataset")
```
- Chiama la funzione `plot_roc_curves` per generare e visualizzare le ROC curves:
  - **Dataset bilanciato**.
  - **Dataset sbilanciato**.

---

## **Conclusione**
- Il codice genera **curve ROC** per diversi modelli.
- **L'AUC** aiuta a confrontare le prestazioni tra modelli e dataset.
- Un **modello migliore** avrà una curva ROC che si avvicina all'angolo in alto a sinistra.
- I modelli sui **dataset bilanciati** tendono ad avere performance più stabili rispetto ai **dataset sbilanciati**.


### 1) ROC CURVE - BALANCED DATASET

L'immagine mostra le curve ROC (Receiver Operating Characteristic) per due modelli di machine learning: **Logistic Regression** e **Random Forest**, valutati su un dataset bilanciato. La curva ROC confronta le prestazioni di classificazione di un modello tracciando il **True Positive Rate (Recall)** contro il **False Positive Rate (1 - Specificity)**. 

Ecco i dettagli principali:
- **Linea tratteggiata**: Rappresenta un classificatore casuale (random), utilizzato come baseline.
- **AUC (Area Under the Curve)**: Valuta l'efficacia del modello. Più l'AUC si avvicina a 1, migliore è il modello. In questo caso:
  - Logistic Regression: **AUC = 0.898**
  - Random Forest: **AUC = 0.978**

### Interpretazione:
- La curva del **Random Forest** si avvicina maggiormente all'angolo in alto a sinistra della griglia, indicando prestazioni superiori rispetto al Logistic Regression.
- Un valore AUC maggiore (0.978 per Random Forest) segnala che questo modello ha una migliore capacità di distinguere tra le classi positive e negative rispetto al Logistic Regression.

In sintesi, il grafico dimostra che il modello Random Forest è più efficace nel classificare correttamente i dati rispetto al modello Logistic Regression. 

### 2) ROC CURVE - IMBALANCED DATASET

L'immagine mostra le **curve ROC (Receiver Operating Characteristic)** di due modelli di machine learning: **Logistic Regression** (in viola) e **Random Forest** (in blu). Queste curve vengono utilizzate per valutare la capacità dei modelli di distinguere tra due classi, tracciando il **True Positive Rate (TPR)** (o Recall) contro il **False Positive Rate (FPR)** (1 - Specificity) per vari valori di soglia.

### Punti principali:
1. **AUC (Area Under the Curve)**:
   - Logistic Regression: **AUC = 0.893**
   - Random Forest: **AUC = 0.951**

   Un valore AUC più alto indica prestazioni migliori; in questo caso, il modello Random Forest supera Logistic Regression.

2. **Linea diagonale tratteggiata**:
   Rappresenta un classificatore casuale (AUC = 0.5). Entrambi i modelli si comportano significativamente meglio del caso casuale.

3. **Punto ideale**:
   L'angolo in alto a sinistra (TPR = 1, FPR = 0) rappresenta il punto ideale, dove non ci sono falsi positivi né falsi negativi. La curva del modello Random Forest si avvicina di più a questo punto, dimostrando maggiore accuratezza.

### Interpretazione:
- Il modello **Random Forest** mostra prestazioni superiori, grazie a un'AUC più alta e a una maggiore capacità di classificare correttamente le due classi.
- Questi grafici sono particolarmente utili nei dataset sbilanciati, poiché offrono una rappresentazione più completa delle prestazioni di classificazione.


# PRECISION RECALL CURVE 



### **Definizione della funzione `plot_pr_curves`**
```python
def plot_pr_curves(models_data, title):
```
- Definiamo una funzione chiamata `plot_pr_curves` che prende due argomenti:
  - `models_data`: un dizionario contenente le predizioni probabilistiche di più modelli.
  - `title`: il titolo del grafico.

---

```python
    plt.figure(figsize=(10, 8))
```
- Creiamo una nuova figura (`figure`) con dimensioni **10x8 pollici**, per avere una visualizzazione chiara e leggibile.

---

### **Ciclo sui modelli per tracciare la curva PR**
```python
    for label, data in models_data.items():
```
- Iteriamo su ogni modello presente in `models_data`.
- `label` rappresenta il nome del modello (es. "Logistic Regression", "Random Forest").
- `data` è una tupla contenente:
  - `y_true`: i veri valori della classe (0 o 1).
  - `y_prob`: le probabilità previste dal modello per la classe positiva.

---

```python
        y_true, y_prob = data
```
- Estraiamo i due valori della tupla `data`:
  - `y_true`: contiene le etichette reali (0 = negativo, 1 = positivo).
  - `y_prob`: contiene la probabilità assegnata dal modello alla classe positiva.

---

```python
        precision, recall, thresholds = precision_recall_curve(y_true, y_prob)
```
- **Calcoliamo la Precision-Recall Curve** usando la funzione `precision_recall_curve`:
  - `precision`: array contenente i valori della precisione per diversi threshold.
  - `recall`: array contenente i valori del richiamo per gli stessi threshold.
  - `thresholds`: valori di soglia usati per variare precisione e richiamo.

---

```python
        ap = average_precision_score(y_true, y_prob)
```
- **Calcoliamo l'Average Precision (AP)**, una metrica che rappresenta l'area sotto la Precision-Recall Curve. Maggiore è l'AP, migliore è il modello.

---

```python
        plt.plot(recall, precision, linewidth=2, label=f"{label} (AP = {ap:.3f})")
```
- **Disegniamo la Precision-Recall Curve** nel grafico:
  - Sull'asse x mettiamo il **recall**.
  - Sull'asse y mettiamo la **precision**.
  - `linewidth=2` imposta lo spessore della linea.
  - `label=f"{label} (AP = {ap:.3f})"` mostra il nome del modello e l'Average Precision.

---

### **Aggiunta della linea di riferimento per un modello casuale**
```python
    no_skill = sum(y_true) / len(y_true)  # Frequency of positive class
```
- Calcoliamo il **tasso di positività** nel dataset:
  - `sum(y_true)`: conta il numero di esempi positivi (dove `y_true = 1`).
  - `len(y_true)`: conta il numero totale di esempi.
  - `no_skill` rappresenta la **probabilità base** con cui un modello casuale predirebbe un positivo.

---

```python
    plt.plot([0, 1], [no_skill, no_skill], 'k--', linewidth=1, label=f'No Skill (AP = {no_skill:.3f})')
```
- Disegniamo una **linea orizzontale tratteggiata** che rappresenta un modello senza abilità ("No Skill"):
  - `[0, 1]` sull'asse x per coprire tutto il grafico.
  - `[no_skill, no_skill]` fissa la linea orizzontale.
  - `'k--'` specifica una linea **nera tratteggiata**.
  - `label=f'No Skill (AP = {no_skill:.3f})'` aggiunge l'etichetta con il valore della baseline AP.

---

### **Etichette e miglioramenti grafici**
```python
    plt.xlabel('Recall')
    plt.ylabel('Precision')
```
- **Etichette degli assi**:
  - `Recall` sull'asse x.
  - `Precision` sull'asse y.

```python
    plt.title(title)
```
- **Imposta il titolo del grafico** usando il parametro `title`.

```python
    plt.legend(loc='best')
```
- **Aggiunge la legenda**, posizionandola automaticamente nel posto migliore (`loc='best'`).

```python
    plt.grid(True, alpha=0.3)
```
- **Aggiunge una griglia** con trasparenza `alpha=0.3` per una migliore leggibilità.

---

### **Regolazione degli assi e annotazione**
```python
    plt.xlim([-0.01, 1.01])
    plt.ylim([-0.01, 1.01])
```
- **Limiti degli assi** leggermente estesi oltre `[0,1]` per evitare tagli alle curve.

```python
    plt.annotate('Ideal Point\n(Recall=1, Precision=1)', xy=(0.9, 0.95), xytext=(0.6, 0.9),
                arrowprops=dict(facecolor='black', shrink=0.05, width=1.5))
```
- **Annotazione del punto ideale** in alto a destra del grafico (`Recall=1, Precision=1`):
  - `xy=(0.9, 0.95)`: posizione del punto da evidenziare.
  - `xytext=(0.6, 0.9)`: posizione del testo rispetto al punto.
  - `arrowprops=dict(...)` disegna una **freccia nera** che collega il testo al punto.

---

```python
    plt.show()
```
- **Mostra il grafico** a schermo.

---

### **Chiamata alla funzione per entrambi i dataset**
```python
plot_pr_curves(balanced_models, "Precision-Recall Curves - Balanced Dataset")
plot_pr_curves(imbalanced_models, "Precision-Recall Curves - Imbalanced Dataset")
```
- **Tracciamo le PR Curves** per:
  1. Il dataset bilanciato (`balanced_models`).
  2. Il dataset sbilanciato (`imbalanced_models`).
- Ogni chiamata crea un grafico separato.

---

## **Riassunto**
Questa funzione:
1. **Calcola** Precision e Recall per ogni modello.
2. **Disegna** la Precision-Recall Curve.
3. **Aggiunge** una baseline per un classificatore casuale.
4. **Formatta** il grafico con etichette, legenda e annotazioni.
5. **Mostra** i risultati in un grafico chiaro e leggibile.


###  1) 1 IMMAGINE BALANCED DATA 
L'immagine mostra la **Precision-Recall Curve**, che è uno strumento per valutare le prestazioni di due modelli di machine learning: **Logistic Regression** (in viola) e **Random Forest** (in blu). Questa curva è particolarmente utile per comprendere le prestazioni dei modelli in dataset bilanciati o sbilanciati.

### Dettagli principali:
1. **Precision** (asse y): Misura la percentuale di risultati positivi previsti che sono effettivamente corretti.
2. **Recall** (asse x): Misura la capacità del modello di identificare correttamente i casi positivi.
3. **"No Skill" Linea tratteggiata nera**: Rappresenta un modello casuale con **Average Precision (AP) = 0.488**.
4. **AP (Average Precision)**:
   - Logistic Regression: **AP = 0.903**.
   - Random Forest: **AP = 0.976**.

### Interpretazione:
- **Random Forest** si avvicina di più all'"Ideal Point" (1,1), che rappresenta una classificazione perfetta (precisione e recall al massimo).
- Un **AP più alto** indica una migliore capacità di trovare correttamente i casi positivi senza perdere precisione. In questo caso, Random Forest supera Logistic Regression con un valore di AP più elevato (0.976 contro 0.903).

Questa visualizzazione è particolarmente rilevante per confrontare i modelli in termini di capacità di gestire compromessi tra precisione e recall. 

### 2 IMMAFINE - IMBALANCED DATA 

La **Precision-Recall Curve** nell'immagine confronta le prestazioni di due modelli di machine learning (**Logistic Regression** e **Random Forest**) su un dataset sbilanciato. Questo tipo di curva è particolarmente utile in tali contesti, dove le metriche di accuratezza tradizionali possono essere fuorvianti. 

### Elementi principali della curva:
1. **Precision** (asse y): Indica la proporzione di risultati positivi previsti corretti.
2. **Recall** (asse x): Misura la capacità del modello di identificare correttamente i casi positivi.
3. **Linee rappresentate**:
   - Logistic Regression (**AP = 0.702**, linea viola): Prestazioni buone, ma inferiori rispetto al secondo modello.
   - Random Forest (**AP = 0.840**, linea blu): Prestazioni superiori, con un valore di **Average Precision** (AP) maggiore.
   - **Linea tratteggiata nera ("No Skill")**: Rappresenta un modello casuale con un **AP = 0.104**, utilizzato come baseline.

### Interpretazione:
- **Higher Area Under the Curve (AP)**: Random Forest si dimostra più efficace, con un equilibrio migliore tra precision e recall, rispetto a Logistic Regression.
- La curva del modello Random Forest si avvicina di più all'angolo in alto a destra, che rappresenta il punto ideale di massima precision e recall.

In sintesi, il modello **Random Forest** offre prestazioni migliori per il dataset sbilanciato, essendo più affidabile nel distinguere i dati delle classi positive e negative.

## 1.5 Tradeoffs in Classification Evaluation



### **Funzione `analyze_thresholds`**

```python
def analyze_thresholds(y_true, y_prob, thresholds, model_name, dataset_name, num_points=10):
```
- Definizione della funzione `analyze_thresholds`, che serve ad analizzare le prestazioni del modello in base a diverse soglie di classificazione.
- Parametri:
  - `y_true`: etichette reali del test set.
  - `y_prob`: probabilità previste dal modello per la classe positiva.
  - `thresholds`: array contenente le soglie di decisione.
  - `model_name`: nome del modello (per scopi descrittivi).
  - `dataset_name`: nome del dataset (per scopi descrittivi).
  - `num_points`: numero di soglie da analizzare (di default 10).

---

```python
    # Select a subset of thresholds to analyze
    indices = np.linspace(0, len(thresholds) - 1, num_points, dtype=int)
    selected_thresholds = thresholds[indices]
```
- Usa `np.linspace` per selezionare `num_points` soglie equidistanti all'interno di `thresholds`.
- `indices` contiene gli indici corrispondenti a queste soglie selezionate.
- `selected_thresholds` estrae le soglie effettive da `thresholds`.

---

```python
    # Calculate metrics for each threshold
    results = []
    for threshold in selected_thresholds:
```
- Crea una lista `results` che conterrà i risultati per ogni soglia selezionata.
- Inizia un ciclo `for` per iterare su ciascuna soglia selezionata.

---

```python
        y_pred = (y_prob >= threshold).astype(int)
```
- Converte le probabilità previste (`y_prob`) in previsioni binarie:
  - Se `y_prob >= threshold`, predice 1 (classe positiva).
  - Altrimenti predice 0 (classe negativa).

---

```python
        tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
```
- Calcola la matrice di confusione confrontando `y_pred` con le etichette reali `y_true`.
- Usa `.ravel()` per ottenere i singoli valori:
  - `tn` (True Negatives): predizioni corrette della classe negativa.
  - `fp` (False Positives): errori in cui la classe negativa è stata predetta come positiva.
  - `fn` (False Negatives): errori in cui la classe positiva è stata predetta come negativa.
  - `tp` (True Positives): predizioni corrette della classe positiva.

---

```python
        tpr = tp / (tp + fn) if (tp + fn) > 0 else 0  # Recall/Sensitivity
```
- **True Positive Rate (TPR)** o **Recall**: misura quanti esempi positivi vengono identificati correttamente.
  \[$
  \text{Recall} = \frac{TP}{TP + FN}$
  \]
- Se `tp + fn == 0`, evita la divisione per zero e assegna `0`.

---

```python
        fpr = fp / (fp + tn) if (fp + tn) > 0 else 0
```
- **False Positive Rate (FPR)**: misura la percentuale di esempi negativi classificati erroneamente come positivi.
  \[$
  \text{FPR} = \frac{FP}{FP + TN}$
  \]

---

```python
        tnr = tn / (tn + fp) if (tn + fp) > 0 else 0  # Specificity
```
- **True Negative Rate (TNR)** o **Specificità**: misura quanti esempi negativi vengono identificati correttamente.
  \[$
  \text{Specificità} = \frac{TN}{TN + FP}$
  \]

---

```python
        precision = tp / (tp + fp) if (tp + fp) > 0 else 0
```
- **Precision**: misura la proporzione di previsioni positive che sono effettivamente corrette.
  \[$
  \text{Precision} = \frac{TP}{TP + FP}$
  \]

---

```python
        f1 = 2 * precision * tpr / (precision + tpr) if (precision + tpr) > 0 else 0
```
- **F1 Score**: media armonica tra Precision e Recall.
  \[$
  F1 = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}$
  \]
- Se `precision + tpr == 0`, assegna `0` per evitare la divisione per zero.

---

```python
        results.append({
            'Threshold': threshold,
            'TP': tp, 'FP': fp, 'TN': tn, 'FN': fn,
            'Precision': precision,
            'Recall (TPR)': tpr,
            'Specificity (TNR)': tnr,
            'FPR': fpr,
            'F1 Score': f1
        })
```
- Memorizza i risultati per la soglia corrente in `results`.

---

```python
    # Convert to DataFrame for better display
    results_df = pd.DataFrame(results)
```
- Converte `results` in un DataFrame Pandas per una migliore leggibilità.

---

```python
    print(f"Threshold analysis for {model_name} on {dataset_name}:")
    return results_df
```
- Stampa il nome del modello e il dataset analizzato.
- Restituisce il DataFrame contenente i risultati.

---

### **Esecuzione dell'analisi per la Regressione Logistica sul dataset sbilanciato**
```python
precision, recall, thresholds = precision_recall_curve(imbalanced_models['Logistic Regression'][0], imbalanced_models['Logistic Regression'][1])
```
- `precision_recall_curve` calcola i valori di Precision e Recall per diverse soglie nel modello di Regressione Logistica sul dataset sbilanciato.
- `thresholds` contiene le soglie usate per calcolare questi valori.

---

```python
log_reg_imb_thresholds = analyze_thresholds(
    y_imb_test, 
    imbalanced_models['Logistic Regression'][1],
    thresholds,
    'Logistic Regression',
    'Imbalanced Dataset'
)
```
- Chiama `analyze_thresholds` per la regressione logistica sul dataset sbilanciato.

---

```python
# Display the results
pd.set_option('display.precision', 3)
display(log_reg_imb_thresholds[['Threshold', 'Precision', 'Recall (TPR)', 'Specificity (TNR)', 'F1 Score']])
```
- Imposta la precisione di visualizzazione su 3 decimali.
- Mostra il DataFrame con i risultati principali.

---

### **Interpretazione della tabella dei risultati**
| Threshold | Precision | Recall (TPR) | Specificity (TNR) | F1 Score |
|-----------|------------|-------------|-------------|-------------|
| 0.0002186 | 0.104 | 1.000 | 0.000 | 0.188 |
| 0.004931  | 0.114 | 0.981 | 0.121 | 0.205 |
| 0.009824  | 0.129 | 0.969 | 0.244 | 0.228 |
| 0.016600  | 0.150 | 0.965 | 0.368 | 0.260 |
| 0.025630  | 0.173 | 0.927 | 0.487 | 0.291 |
| 0.038990  | 0.210 | 0.903 | 0.608 | 0.341 |
| 0.061710  | 0.267 | 0.861 | 0.727 | 0.408 |
| 0.110300  | 0.370 | 0.795 | 0.843 | 0.505 |
| 0.241300  | 0.602 | 0.649 | 0.950 | 0.625 |
| 0.999100  | 1.000 | 0.004 | 1.000 | 0.008 |

- **Basse soglie** → Alto recall, ma bassa precisione.
- **Alte soglie** → Alta precisione, ma basso recall.
- Il miglior compromesso tra Precision e Recall è spesso individuato con l'F1-score più alto.





### **1. Definizione della funzione**
```python
def plot_threshold_tradeoffs(threshold_df):
```
- Qui definiamo una funzione chiamata `plot_threshold_tradeoffs` che accetta un solo argomento `threshold_df`, che si presume sia un DataFrame contenente i risultati dell'analisi dei threshold, con colonne come **Threshold**, **Precision**, **Recall (TPR)**, **Specificity (TNR)** e **F1 Score**.

---

### **2. Creazione della figura**
```python
plt.figure(figsize=(10, 6))
```
- Qui creiamo una nuova figura per il grafico con dimensioni **10 pollici di larghezza e 6 pollici di altezza**, per garantire una buona leggibilità dei dati.

---

### **3. Traccia delle metriche in funzione del threshold**
```python
plt.plot(threshold_df['Threshold'], threshold_df['Precision'], 'b-', label='Precision')
plt.plot(threshold_df['Threshold'], threshold_df['Recall (TPR)'], 'r-', label='Recall (TPR)')
plt.plot(threshold_df['Threshold'], threshold_df['Specificity (TNR)'], 'g-', label='Specificity (TNR)')
plt.plot(threshold_df['Threshold'], threshold_df['F1 Score'], 'y-', label='F1 Score')
```
- Qui vengono plottate **quattro curve**, ciascuna rappresentante l'andamento della rispettiva metrica al variare della soglia (`Threshold`):  
  - **Precision** (in blu `'b-'`)
  - **Recall (TPR)** (in rosso `'r-'`)
  - **Specificity (TNR)** (in verde `'g-'`)
  - **F1 Score** (in giallo `'y-'`)  
- Ogni curva viene etichettata con un **label**, che verrà poi usato nella legenda.

---

### **4. Linea verticale per il threshold di default (0.5)**
```python
plt.axvline(x=0.5, color='k', linestyle='--', alpha=0.3, label='Default Threshold (0.5)')
```
- **`plt.axvline(x=0.5, color='k', linestyle='--', alpha=0.3, label='Default Threshold (0.5)')`**  
  - Traccia una **linea verticale nera tratteggiata** (`'--'`) in **x = 0.5** per evidenziare il threshold predefinito usato comunemente nei modelli di classificazione.
  - `alpha=0.3` imposta la trasparenza al 30% per non rendere la linea troppo invadente.

---

### **5. Impostazioni degli assi e titolo**
```python
plt.xlabel('Classification Threshold')
plt.ylabel('Metric Value')
plt.title('How Classification Metrics Change with Threshold')
```
- **`plt.xlabel('Classification Threshold')`** → Imposta l’etichetta per l’asse X come **"Classification Threshold"** (cioè la soglia di decisione per il modello).
- **`plt.ylabel('Metric Value')`** → Imposta l’etichetta per l’asse Y come **"Metric Value"** (poiché le metriche vanno da 0 a 1).
- **`plt.title('How Classification Metrics Change with Threshold')`** → Imposta il titolo del grafico per indicare che stiamo analizzando come le metriche cambiano in funzione del threshold.

---

### **6. Aggiunta della legenda e griglia**
```python
plt.legend(loc='center right')
plt.grid(True, alpha=0.3)
```
- **`plt.legend(loc='center right')`** → Posiziona la legenda nell'angolo **in alto a destra**.
- **`plt.grid(True, alpha=0.3)`** → Aggiunge una **griglia** con **trasparenza al 30%**, utile per facilitare la lettura del grafico.

---

### **7. Determinazione del threshold ottimale per F1 Score**
```python
f1_max_idx = threshold_df['F1 Score'].argmax()
optimal_threshold = threshold_df.iloc[f1_max_idx]['Threshold']
```
- **`threshold_df['F1 Score'].argmax()`** trova l'indice della riga con il valore **massimo** di **F1 Score**.
- **`threshold_df.iloc[f1_max_idx]['Threshold']`** estrae il valore di **Threshold** corrispondente a questo indice, che è il **threshold ottimale** per bilanciare precisione e recall.

---

### **8. Evidenziazione del threshold ottimale nel grafico**
```python
plt.scatter(optimal_threshold, threshold_df.iloc[f1_max_idx]['F1 Score'], 
            s=100, c='black', marker='*')
```
- **`plt.scatter()`** aggiunge un **punto nero a forma di asterisco (`'*'`)** nel grafico per evidenziare la soglia ottimale.
- Il parametro **s=100** imposta una grandezza del marker pari a 100 per renderlo ben visibile.
- **`c='black'`** imposta il colore del marker a nero.

---

### **9. Annotazione del punto ottimale**
```python
plt.annotate(f'Optimal F1 Threshold: {optimal_threshold:.3f}', 
             xy=(optimal_threshold, threshold_df.iloc[f1_max_idx]['F1 Score']),
             xytext=(optimal_threshold+0.2, threshold_df.iloc[f1_max_idx]['F1 Score']-0.1),
             arrowprops=dict(facecolor='black', shrink=0.05, width=1.5))
```
- **`plt.annotate()`** aggiunge un’etichetta testuale vicino al punto ottimale.
  - **`xy=(optimal_threshold, threshold_df.iloc[f1_max_idx]['F1 Score'])`** → Specifica la posizione del testo (cioè le coordinate del punto massimo di F1 Score).
  - **`xytext=(optimal_threshold+0.2, threshold_df.iloc[f1_max_idx]['F1 Score']-0.1)`** → Sposta il testo leggermente a destra e in basso rispetto al punto evidenziato.
  - **`arrowprops=dict(facecolor='black', shrink=0.05, width=1.5)`** → Aggiunge una **freccia nera** che punta al punto ottimale, con larghezza **1.5**.

---

### **10. Mostra il grafico**
```python
plt.show()
```
- **`plt.show()`** visualizza il grafico generato.

---

## **Conclusione**
Questa funzione `plot_threshold_tradeoffs()` aiuta a **visualizzare** come le metriche di classificazione (Precision, Recall, Specificity, F1 Score) variano al variare della soglia di decisione. Inoltre, evidenzia il **threshold ottimale per F1 Score**, utile per scegliere il valore migliore per il bilanciamento tra Precision e Recall.

# SPIEGAZIONE IMMAGINE

Il grafico intitolato **"How Classification Metrics Change with Threshold"** mostra come cambiano diverse metriche di classificazione variando la soglia di decisione di un modello di machine learning. Ecco una spiegazione dettagliata:

### Assi e Componenti:
- **Asse x**: Rappresenta la soglia di classificazione, con valori da **0.0 a 1.0**.
- **Asse y**: Indica il valore delle metriche, che varia da **0.0 a 1.0**.

### Metriche rappresentate:
1. **Precision (linea blu)**: Misura la proporzione di previsioni positive corrette rispetto a tutte le previsioni positive.
2. **Recall (TPR - linea rossa)**: Indica la capacità del modello di identificare correttamente i casi positivi reali.
3. **Specificity (TNR - linea verde)**: Riflette la capacità del modello di identificare correttamente i casi negativi reali.
4. **F1 Score (linea gialla)**: È la media armonica tra Precision e Recall, utile per bilanciare le due metriche.

### Punti chiave evidenziati:
- **Soglia predefinita (0.5)**: Indicata da una linea tratteggiata verticale. È il valore standard per molti modelli, ma non sempre garantisce le migliori prestazioni.
- **Soglia ottimale per l'F1 Score (0.241)**: Indicato da una freccia nera sul grafico, è il punto in cui il bilanciamento tra Precision e Recall massimizza l'F1 Score. Questo è importante quando entrambe le metriche hanno uguale rilevanza.

### Interpretazione:
Il grafico dimostra che modificare la soglia può influenzare significativamente le metriche:
- Una **soglia più bassa** (vicina a 0.0) aumenta Recall ma riduce Precision, poiché il modello tende a classificare più istanze come positive.
- Una **soglia più alta** (vicina a 1.0) migliora Precision a scapito di Recall, poiché solo le istanze più certe vengono classificate come positive.
- Il **punto ottimale per l'F1 Score (0.241)** indica il miglior compromesso per bilanciare Precision e Recall.

### Applicazione:
Questa analisi è essenziale per scegliere la soglia più adatta agli obiettivi del modello. Ad esempio:
- In ambito medico, dove è cruciale rilevare ogni caso positivo, si potrebbe preferire una soglia che massimizza Recall.
- In scenari finanziari, dove è importante ridurre i falsi positivi, si potrebbe optare per una soglia che massimizza Precision.





### **1. Definizione del DataFrame `metrics_summary`**
```python
metrics_summary = pd.DataFrame({
```
- Qui stiamo creando un **DataFrame** chiamato `metrics_summary` utilizzando **Pandas**, che conterrà informazioni su diverse **metriche di classificazione**, le loro **descrizioni** e i **casi in cui dovrebbero essere utilizzate**.

---

### **2. Colonne del DataFrame**
```python
    'Metric': [
        'Accuracy', 'Precision', 'Recall (Sensitivity)', 'Specificity', 
        'F1 Score', 'AUC-ROC', 'Average Precision (AP)', 'Balanced Accuracy'
    ],
```
- La colonna `'Metric'` contiene una lista di **nomi delle metriche di classificazione**.
  - **Accuracy**: La proporzione delle previsioni corrette.
  - **Precision**: La proporzione delle previsioni positive corrette.
  - **Recall (Sensitivity)**: La proporzione degli esempi positivi correttamente identificati.
  - **Specificity**: La proporzione degli esempi negativi correttamente identificati.
  - **F1 Score**: La media armonica tra precisione e recall.
  - **AUC-ROC**: L'area sotto la curva ROC.
  - **Average Precision (AP)**: L'area sotto la curva precision-recall.
  - **Balanced Accuracy**: La media tra recall e specificity.

---

### **3. Descrizioni delle metriche**
```python
    'Description': [
        'Proportion of correct predictions (TP+TN)/(TP+TN+FP+FN)',
        'Proportion of positive predictions that are correct TP/(TP+FP)',
        'Proportion of actual positives correctly identified TP/(TP+FN)',
        'Proportion of actual negatives correctly identified TN/(TN+FP)',
        'Harmonic mean of precision and recall 2*(P*R)/(P+R)',
        'Area under the ROC curve (TPR vs FPR)',
        'Area under the precision-recall curve',
        'Average of recall and specificity (TPR+TNR)/2'
    ],
```
- La colonna `'Description'` fornisce una **descrizione** per ogni metrica di classificazione. Ecco il dettaglio di ciascuna:
  - **Accuracy**: La proporzione di previsioni corrette, cioè la somma dei veri positivi (TP) e dei veri negativi (TN) divisa per il totale di esempi (TP+TN+FP+FN).
  - **Precision**: La proporzione di previsioni positive corrette (TP / (TP + FP)), ovvero, quanto sono accurate le previsioni positive.
  - **Recall (Sensitivity)**: La proporzione di veri positivi correttamente identificati (TP / (TP + FN)), cioè quanto bene il modello riconosce i veri positivi.
  - **Specificity**: La proporzione di veri negativi correttamente identificati (TN / (TN + FP)), cioè quanto bene il modello riconosce i veri negativi.
  - **F1 Score**: La media armonica tra precisione e recall, che cerca un equilibrio tra le due metriche (2 * (P * R) / (P + R)).
  - **AUC-ROC**: L'area sotto la curva ROC, che misura la capacità di un modello di separare correttamente le classi positive e negative.
  - **Average Precision (AP)**: L'area sotto la curva precision-recall, che è utile nei dataset sbilanciati, per concentrarsi sulla performance della classe positiva.
  - **Balanced Accuracy**: La media tra **recall** e **specificity**, utile per bilanciare l'importanza dei veri positivi e veri negativi.

---

### **4. Quando usare ciascuna metrica**
```python
    'When to Use': [
        'Balanced datasets, equal misclassification costs',
        'When false positives are costly (spam detection, content filtering)',
        'When false negatives are costly (disease detection, fraud monitoring)',
        'When correctly identifying negatives is important (medical screening)',
        'When balance between precision and recall is needed, imbalanced datasets',
        'Model comparison, balanced datasets, ranking performance',
        'Imbalanced datasets, focus on positive class performance',
        'Imbalanced datasets, when both classes are important'
    ]
```
- La colonna `'When to Use'` specifica i **casi** in cui ciascuna metrica dovrebbe essere utilizzata:
  - **Accuracy**: Adatta per dataset bilanciati e quando i costi di errore sono simili tra false positive e false negative.
  - **Precision**: Utile quando i **falsi positivi** sono costosi, ad esempio nella rilevazione di spam o nella filtrazione dei contenuti.
  - **Recall (Sensitivity)**: Utile quando i **falsi negativi** sono costosi, come nel caso della diagnosi di malattie o nel monitoraggio delle frodi.
  - **Specificity**: Importante quando è cruciale identificare correttamente i **negativi**, come nel caso dello screening medico.
  - **F1 Score**: Utile quando è necessario un buon equilibrio tra **precisione** e **recall**, specialmente in scenari con dataset sbilanciati.
  - **AUC-ROC**: Buona per confrontare modelli, specialmente quando i dataset sono bilanciati e si vuole una panoramica delle performance.
  - **Average Precision (AP)**: Particolarmente utile per **dataset sbilanciati**, concentrandosi sulle prestazioni della classe positiva.
  - **Balanced Accuracy**: Quando entrambe le classi (positive e negative) sono importanti, e il dataset è sbilanciato.

---

### **5. Visualizzazione del DataFrame**
```python
pd.set_option('display.max_colwidth',100)  
display(metrics_summary)
```
- **`pd.set_option('display.max_colwidth', 100)`**: Imposta una **larghezza massima di visualizzazione** per le colonne del DataFrame a 100 caratteri, in modo da poter visualizzare interamente le descrizioni senza troncamenti.
- **`display(metrics_summary)`**: Visualizza il **DataFrame** `metrics_summary`, che mostra le metriche di classificazione, le loro descrizioni e i contesti in cui dovrebbero essere utilizzate.

---

### **Risultato:**
Il risultato finale è una tabella che riassume le metriche di classificazione più comuni e fornisce linee guida su quando usarle. Il **DataFrame** mostra:
- Il nome della metrica
- Una breve descrizione della metrica
- Una guida su quando questa metrica è più utile, a seconda del tipo di problema che si sta affrontando.

Questa tabella è utile per capire quale metrica utilizzare in base al tipo di modello, dataset e agli obiettivi specifici del problema.

Vediamo in dettaglio il significato di ciascun punto nella conclusione:

---

### **1. No Single Perfect Metric**:
- **Spiegazione**: Non esiste una metrica perfetta che sia adatta a tutti i problemi. La scelta della metrica di valutazione dipende dal contesto e dagli obiettivi specifici del problema che stai cercando di risolvere.
- **Implicazioni**: A seconda del tipo di applicazione (es. rilevamento di malattie rare, analisi di frodi, ecc.), alcune metriche saranno più rilevanti di altre. Ad esempio, in alcuni casi potresti privilegiare la **recall** per evitare falsi negativi, mentre in altri casi potresti preferire la **precisione** per evitare falsi positivi.

---

### **2. Understand Class Imbalance**:
- **Spiegazione**: L'imbalance delle classi (ovvero quando una classe è significativamente meno rappresentata nell'insieme di dati rispetto all'altra) può influenzare la scelta delle metriche. In presenza di squilibrio, **l'accuratezza** (accurate rate) può essere fuorviante.
- **Implicazioni**: In un dataset sbilanciato, un modello che predice sempre la classe più grande può ottenere una **precisione elevata**, ma non sta realmente imparando a distinguere tra le classi. In questo caso, **recall**, **precisione** o **F1 Score** sono metriche migliori da considerare.

---

### **3. Consider the Cost of Errors**:
- **Spiegazione**: Non tutti gli errori (falsi positivi o falsi negativi) hanno lo stesso costo nel mondo reale. Ad esempio, in un'applicazione medica, un falso negativo (ad esempio, non rilevare una malattia) potrebbe essere molto più grave di un falso positivo (ad esempio, un test che segnala erroneamente una malattia).
- **Implicazioni**: Le metriche dovrebbero essere selezionate in base ai costi reali degli errori. Se, per esempio, i falsi negativi sono più costosi, è importante concentrarsi sulla **recall** e ottimizzare per ridurre il numero di falsi negativi.

---

### **4. ROC vs. PR Curves**:
- **Spiegazione**:
  - **ROC Curve (Receiver Operating Characteristic)**: È utile per **dataset bilanciati** dove entrambe le classi sono ugualmente importanti. La curva traccia la **True Positive Rate** (TPR) rispetto alla **False Positive Rate** (FPR).
  - **PR Curve (Precision-Recall)**: È più adatta per **dataset sbilanciati**, in cui la classe positiva è più importante. La curva traccia **precisione** contro **recall**.
- **Implicazioni**: Se i dati sono **sbilanciati**, la **ROC curve** può essere ottimista (mostrando performance elevate), ma la **PR curve** offre una visione più accurata delle prestazioni del modello, specialmente quando l'accuratezza non è il miglior indicatore.

---

### **5. Threshold Selection**:
- **Spiegazione**: La scelta della soglia di classificazione (threshold) è fondamentale, poiché determina quando classificare una previsione come positiva o negativa. La selezione della soglia dipende dal trade-off tra le metriche (ad esempio, tra **precisione** e **recall**).
- **Implicazioni**: Un threshold di 0.5 è comunemente usato, ma non è sempre il migliore. Puoi ottimizzare il threshold in base alle esigenze specifiche del problema, per esempio per minimizzare i falsi positivi o massimizzare la recall.

---

### **6. Beyond Binary Classification**:
- **Spiegazione**: Le tecniche di valutazione per la classificazione **multiclasse** (quando ci sono più di due classi) differiscono dalla classificazione binaria. È necessario considerare media ponderata (ad esempio **macro**, **micro**, **weighted averages**) per aggregare le performance per ogni classe.
- **Implicazioni**: Per i problemi con più di due classi, è importante usare metriche che considerino le prestazioni globali del modello, come la **matrice di confusione** multiclasse o **Cohen's Kappa**, che misura l'accordo tra le etichette predette e quelle reali.

---

### **7. Evaluate with Multiple Metrics**:
- **Spiegazione**: Non dovresti mai basarti su una singola metrica per valutare il modello. Combinare diverse metriche ti permette di avere una visione più completa delle prestazioni del modello.
- **Implicazioni**: Per esempio, una **precisione elevata** potrebbe sembrare buona, ma potrebbe nascondere problemi legati alla **recall** bassa. Quindi, è importante considerare **F1 score**, **recall**, **precisione** e **specificità** in combinazione per avere un quadro completo delle prestazioni.

---

### **8. Context Matters**:
- **Spiegazione**: Le metriche devono essere sempre interpretate nel contesto specifico del problema che stai affrontando. Ad esempio, in alcuni scenari, un falso positivo può avere conseguenze minori rispetto a un falso negativo, o viceversa.
- **Implicazioni**: Ogni dominio applicativo ha una sua **tolleranza agli errori** e una sua **importanza relativa delle classi**. I modelli dovrebbero essere valutati sulla base del contesto specifico, non solo sulle metriche generali.

---

### **Riepilogo e Implicazioni Generali**:
Questi 8 punti sottolineano che la scelta delle metriche di valutazione deve essere guidata dai **requisiti del problema**, dalla **distribuzione dei dati** e dalle **conseguenze reali degli errori**. È essenziale evitare di ottimizzare per una singola metrica, ma piuttosto di considerare una combinazione di metriche, interpretando sempre i risultati nel contesto pratico dell'applicazione. In particolare, le **metriche per dataset sbilanciati** e la **scelta del threshold** sono critiche per una valutazione accurata.

## 1.7 Real World Scenario example: Fraud Detection

Il codice  simula un caso di **rilevamento delle frodi** in un contesto aziendale e dimostra come la scelta della soglia di decisione (threshold) influenzi il risultato dell'algoritmo in relazione ai costi aziendali. Vediamo il funzionamento riga per riga:

### Funzione `threshold_business_impact_simulation`

1. **Definizione della funzione**
   La funzione simula un caso di rilevamento frodi e calcola l'impatto economico di diverse soglie (thresholds) di decisione. Accetta tre parametri:
   - `avg_transaction`: l'importo medio di una transazione.
   - `fraud_cost_multiple`: un moltiplicatore che indica quanto costa una frode non rilevata.
   - `review_cost`: il costo per rivedere una transazione sospetta.

2. **Creazione dei dati sintetici**
   Vengono simulati dati per una popolazione di 100.000 transazioni:
   - Si assume che il 5% delle transazioni siano fraudolente, quindi `n_fraud = 5% di 100,000 = 5,000`.
   - Le probabilità di frode (`fraud_probs`) vengono generate tramite una distribuzione beta, che rappresenta la probabilità di essere fraudolente per ogni transazione.
   - Le probabilità di transazioni legittime (`legitimate_probs`) vengono generate tramite un'altra distribuzione beta.
   
   Dopo aver generato le probabilità per entrambe le classi (fraudolenti e legittime), vengono combinate, e il risultato viene mischiato per simulare un dataset casuale.

3. **Funzione `calculate_impact`**
   Questa funzione calcola l'impatto aziendale di una data soglia di decisione, cioè come cambiano le metriche di prestazione del modello (come precision, recall) e i costi aziendali (costi di frodi non rilevate e costi di revisione).
   - `y_pred`: viene calcolato se la probabilità di una transazione è maggiore o uguale alla soglia (`threshold`).
   - La **matrice di confusione** (`tn`, `fp`, `fn`, `tp`) viene calcolata per determinare quante transazioni sono state correttamente identificate come fraudolente (True Positives), quante sono state erroneamente identificate come fraudolente (False Positives), ecc.
   
   Successivamente, vengono calcolati:
   - **Costo delle frodi non rilevate** (`undetected_fraud_cost`): si moltiplica il numero di frodi non rilevate per l'importo medio della transazione e il moltiplicatore del costo.
   - **Costo delle revisioni** (`review_cost_total`): si moltiplica il numero totale di transazioni da rivedere (True Positives + False Positives) per il costo di revisione.
   - **Costo totale**: somma del costo delle frodi non rilevate e delle revisioni.

4. **Calcolo degli impatti per diverse soglie**
   La funzione calcola gli impatti per soglie che vanno da 0.1 a 0.9 (17 valori in totale) utilizzando il metodo `np.linspace`.

5. **Creazione dei grafici**
   - **Grafico 1**: Precisione e Recall vs Soglia. Viene tracciato come le due metriche (Precision e Recall) cambiano all'aumentare della soglia.
     - Precisione aumenta quando si sceglie una soglia più alta (si riducono i falsi positivi), ma il richiamo diminuisce.
     - Un'**altra linea verticale** (`axvline`) indica la soglia ottimale per minimizzare il costo totale.
   - **Grafico 2**: Costi vs Soglia. Si tracciano i costi di frodi non rilevate, i costi di revisione e il costo totale in funzione della soglia.
     - Aumentando la soglia, i costi di frodi non rilevate aumentano (maggiori falsi negativi), mentre i costi di revisione diminuiscono.

6. **Ricerca della soglia ottimale**
   Viene identificata la soglia che minimizza il **costo totale** (somma di costi di frodi non rilevate e di revisione). Questa soglia viene utilizzata come punto di riferimento nei grafici e nelle analisi.

7. **Analisi dei risultati**
   Il codice stampa una **tabella comparativa** con:
   - **Threshold**: Soglia.
   - **Precision**: Percentuale di predizioni corrette tra le transazioni segnate come fraudolente.
   - **Recall**: Percentuale di transazioni fraudolente effettivamente identificate.
   - **False Positives**: Numero di transazioni legittime erroneamente identificate come frodi.
   - **False Negatives**: Numero di transazioni fraudolente non identificate.
   - **Total Cost**: Il costo totale associato alla scelta di quella soglia.

8. **Confronto con le soglie F1-optimal e Cost-optimal**
   - **Soglia ottimale F1 score**: Si calcola il valore ottimale per F1 score (un bilanciamento tra precisione e recall), ma si dimostra che questa non porta necessariamente al costo ottimale dal punto di vista aziendale.
   - **Soglia ottimale costo**: Il punto in cui il costo totale (composto dai costi di frodi non rilevate e di revisione) è minimo.

9. **Conclusioni**
   - Viene evidenziato che la soglia ottimale dal punto di vista dei costi non coincide con quella ottimale per il F1 score.
   - La scelta della soglia dipende dai costi aziendali specifici (costi di frodi non rilevate e di revisione) e può variare a seconda dei cambiamenti nei costi di questi fattori.

### Risultato finale:
Il codice visualizza i grafici che mostrano l'andamento delle metriche (precisione, recall, costi) in funzione della soglia. Inoltre, vengono forniti i dettagli numerici in una tabella, che confronta diverse soglie in termini di prestazioni e costi. 

Il messaggio chiave è che **la scelta della soglia dovrebbe essere basata sulle necessità aziendali e sui costi associati agli errori di classificazione**, non solo su metriche come F1 score, che potrebbero non essere la scelta migliore per l'ottimizzazione dei costi aziendali.

Il 1  grafico mostra l'evoluzione di **Precision** e **Recall** in base al valore della soglia di decisione di un modello di classificazione.

### Dettagli principali:
- **Asse x**: La soglia di decisione, variabile da **0.0 a 0.9**, rappresenta il limite oltre cui il modello classifica le istanze come positive.
- **Asse y**: Il valore delle metriche, variabile da **0.0 a 1.0**, che rappresenta la Precision e il Recall.
- **Linea verde (Precision)**: Mostra come la proporzione di previsioni positive corrette cambia aumentando la soglia.
- **Linea rossa (Recall)**: Indica come la capacità del modello di rilevare correttamente i positivi varia in base alla soglia.
- **Linea tratteggiata verticale (Soglia ottimale = 0.35)**: Evidenzia il punto in cui il bilanciamento tra Precision e Recall è considerato ottimale dal punto di vista del costo o degli obiettivi.

### Interpretazione:
- **Precision**:
  Aumenta con soglie più alte. Questo perché il modello diventa più selettivo, producendo meno falsi positivi. Tuttavia, ciò riduce il numero complessivo di previsioni positive.
- **Recall**:
  Diminuisce con soglie più alte. Quando il modello è più selettivo, può "perdere" più casi positivi, riducendo il tasso di rilevamento.
- **Trade-off**: 
  Precision e Recall sono inversamente proporzionali. Un valore di soglia più basso aumenta il Recall a scapito della Precision, e viceversa.

### Significato della soglia ottimale (0.35):
- Questo valore rappresenta un compromesso ideale tra Precision e Recall, spesso determinato in base alle esigenze specifiche di applicazione, come nel bilanciamento tra costi associati ai falsi positivi e falsi negativi.

In sintesi, il grafico è uno strumento utile per scegliere la soglia più adatta in base agli obiettivi del problema di classificazione. 

Il 2 grafico mostra la relazione tra i **costi aziendali** e il **valore della soglia** in un contesto di rilevamento di frodi o classificazione. L'obiettivo è identificare il **valore di soglia ottimale** per minimizzare i costi totali. Vediamo i punti principali:

### Assi e Curve:
- **Asse X**: Valori di soglia, che vanno da 0.1 a 0.9. Rappresentano il limite oltre cui un caso viene classificato come positivo (ad esempio, frode rilevata).
- **Asse Y**: I costi, misurati in migliaia di dollari.
- **Curve rappresentate**:
  1. **Undetected Fraud Cost (Curva rossa)**: Cresce all'aumentare della soglia. Un valore di soglia più alto significa che si rischia di non rilevare più frodi, aumentando così i costi delle frodi non individuate.
  2. **Review Cost (Curva verde)**: Diminuisce all'aumentare della soglia. Un valore di soglia più basso comporta più revisioni manuali, incrementando i costi.
  3. **Total Cost (Curva blu)**: Rappresenta la somma dei costi di frodi non individuate e dei costi di revisione. Questa curva forma una "U", raggiungendo un **minimo** al valore di soglia ottimale.

### Soglia Ottimale:
- La **linea tratteggiata verticale** evidenzia la **soglia ottimale** (0.35), dove il **Total Cost** è al suo minimo.
- **Punto evidenziato sulla curva blu**: Indica il costo minimo totale, che bilancia in modo ideale i costi di revisione e i costi delle frodi non rilevate.

### Analisi dell'Impatto Aziendale:
Il testo sotto il grafico conferma che:
- La soglia ottimale per minimizzare il costo totale è **0.35**.
- Questo bilanciamento è fondamentale per ridurre al minimo le spese aziendali, mantenendo un'efficace rilevazione delle frodi.

### Conclusione:
Il grafico dimostra che scegliere la soglia giusta ha un impatto significativo sui costi aziendali. Un'analisi accurata come questa può aiutare a ottimizzare le risorse e migliorare l'efficienza operativa. 

BREAK



### 2.1 Setting Up Our Environment

**1. Importazione delle librerie principali per la manipolazione dei dati e la visualizzazione:**
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
```
- **`numpy`**: libreria fondamentale per il calcolo numerico, utilizzata per operazioni su array.
- **`pandas`**: libreria per la manipolazione e analisi dei dati, particolarmente utile per lavorare con DataFrame.
- **`matplotlib.pyplot`**: libreria per creare visualizzazioni e grafici.
- **`seaborn`**: libreria per la visualizzazione dei dati basata su `matplotlib`, ma con stili e funzionalità più avanzate.

**2. Importazione delle librerie per il machine learning:**
```python
from sklearn.datasets import make_regression
from sklearn.model_selection import train_test_split, cross_val_score, KFold, GridSearchCV, learning_curve
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
```
- **`make_regression`**: funzione che genera dati sintetici per un problema di regressione.
- **`train_test_split`**: funzione che suddivide i dati in set di addestramento, validazione e test.
- **`cross_val_score`**, **`KFold`**, **`GridSearchCV`**: utilizzati per la validazione incrociata, la ricerca dei migliori iperparametri e la divisione dei dati in "fold" per la cross-validation.
- **`LinearRegression`, `Ridge`**: modelli di regressione lineare, con `Ridge` che è una versione regolarizzata della regressione lineare.
- **`RandomForestRegressor`**: modello di regressione basato su una foresta di alberi decisionali (Random Forest).
- **`DecisionTreeRegressor`**: modello di regressione che utilizza un albero decisionale.
- **`make_pipeline`**: utile per concatenare più passaggi in un solo flusso, come pre-processing e modello.
- **`PolynomialFeatures`, `StandardScaler`**: strumenti per creare caratteristiche polinomiali e scalare i dati.

**3. Importazione delle metriche per la valutazione della regressione:**
```python
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, mean_absolute_percentage_error
```
- **`mean_squared_error`**: errore quadratico medio, una delle principali metriche per la regressione.
- **`mean_absolute_error`**: errore assoluto medio, che misura la media delle differenze assolute tra le previsioni e i valori reali.
- **`r2_score`**: coefficiente di determinazione, che misura la bontà del modello (quanto bene il modello spiega la varianza dei dati).
- **`mean_absolute_percentage_error`**: errore percentuale medio assoluto, che misura l'errore medio in termini percentuali.

**4. Per visualizzare le grafiche in-linea nel notebook:**
```python
%matplotlib inline
```
- Comando specifico per Jupyter notebook che consente di visualizzare direttamente i grafici senza dover chiamare `plt.show()`.

**5. Impostazione di un seme per la generazione dei numeri casuali per garantire la riproducibilità:**
```python
np.random.seed(42)
```
- Imposta un seme fisso per i numeri casuali, in modo che i risultati siano riproducibili ogni volta che il codice viene eseguito.

**6. Impostazione dello stile delle grafiche:**
```python
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
```
- Imposta lo stile grafico `whitegrid` tramite `seaborn`, che applica uno sfondo bianco con griglia. 
- Modifica la dimensione predefinita delle figure per essere più grandi (12x8 pollici).

---

### 2.2 Creating Sample Data

**7. Creazione di un dataset di regressione sintetico:**
```python
X, y = make_regression(n_samples=10000, n_features=20, n_informative=10, 
                        noise=20, random_state=42)
```
- **`make_regression`**: genera un dataset sintetico per la regressione. In questo caso:
  - `n_samples=10000`: crea 10.000 campioni.
  - `n_features=20`: 20 variabili indipendenti.
  - `n_informative=10`: solo 10 delle 20 caratteristiche sono informative, le altre sono "rumore".
  - `noise=20`: aggiunge un po' di rumore ai dati per simulare incertezza nei dati reali.
  - `random_state=42`: imposta un seme fisso per garantire che il dataset sia generato in modo riproducibile.

**8. Suddivisione dei dati in set di addestramento, validazione e test:**
```python
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
- **`train_test_split`**: divide i dati in un set di addestramento e un set di test.
  - `test_size=0.2`: il 20% dei dati viene destinato al set di test.
  - `random_state=42`: imposta un seme per garantire che la divisione sia sempre la stessa.

**9. Ulteriore suddivisione del set di addestramento/validazione in set di addestramento e validazione:**
```python
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.25, random_state=42)
```
- **`train_test_split`**: divide ulteriormente il set di addestramento/validazione, assegnando il 25% del set a un set di validazione (questo porta ad un totale di 60% addestramento, 20% validazione, 20% test).

**10. Stampa delle dimensioni dei set:**
```python
print(f"Training set: {X_train.shape[0]} samples")
print(f"Validation set: {X_val.shape[0]} samples")
print(f"Test set: {X_test.shape[0]} samples")
```
- Stampa il numero di campioni in ciascun set (addestramento, validazione, test).

**11. Allenamento di un modello di regressione lineare:**
```python
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
```
- **`LinearRegression`**: crea un modello di regressione lineare.
- **`fit(X_train, y_train)`**: allena il modello sui dati di addestramento.

**12. Allenamento di un modello di Random Forest:**
```python
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
```
- **`RandomForestRegressor`**: crea un modello di regressione basato su Random Forest con 100 alberi.
- **`fit(X_train, y_train)`**: allena il modello sui dati di addestramento.

**13. Allenamento di un modello di Decision Tree:**
```python
dt_model = DecisionTreeRegressor(random_state=42)
dt_model.fit(X_train, y_train)
```
- **`DecisionTreeRegressor`**: crea un modello di regressione basato su un albero decisionale.
- **`fit(X_train, y_train)`**: allena il modello sui dati di addestramento.

**14. Creazione di un dizionario per memorizzare i modelli:**
```python
models = {
    'Linear Regression': linear_model,
    'Random Forest': rf_model,
    'Decision Tree': dt_model
}
```
- Crea un dizionario per memorizzare i modelli allenati (Regressione Lineare, Random Forest, e Decision Tree), in modo da poterli facilmente confrontare.

In sintesi, il codice prepara l'ambiente di lavoro, crea un dataset di regressione sintetico, divide i dati in set di addestramento, validazione e test, allena tre modelli di regressione (lineare, Random Forest e Decision Tree) e infine memorizza questi modelli per usi successivi.



### 2.3. Funzione `evaluate_model`

```python
def evaluate_model(model, X, y, model_name):
    """Evaluate a regression model using multiple metrics"""
    # Make predictions
    predictions = model.predict(X)
```
Questa funzione si occupa di valutare un modello di regressione. La funzione prende in input un modello, un set di dati di input `X`, i valori reali di output `y`, e il nome del modello per la stampa dei risultati. La prima cosa che fa è ottenere le previsioni del modello sui dati di input `X` utilizzando il metodo `.predict()`.

---

```python
    # Calculate various metrics
    mse = mean_squared_error(y, predictions)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y, predictions)
    r2 = r2_score(y, predictions)
    mape = mean_absolute_percentage_error(y, predictions)
```
A questo punto, vengono calcolate varie metriche di valutazione per il modello:

- **MSE (Mean Squared Error)**: L'errore quadratico medio, che misura la media dei quadrati degli errori tra le previsioni e i valori reali. Un valore più basso è migliore.
- **RMSE (Root Mean Squared Error)**: La radice quadrata dell'MSE, che fornisce una misura dell'errore medio in termini di unità di misura originali. È più interpretabile rispetto all'MSE.
- **MAE (Mean Absolute Error)**: L'errore assoluto medio, che calcola la media delle differenze assolute tra le previsioni e i valori reali.
- **R² (R-squared)**: Il coefficiente di determinazione, che indica quanto bene il modello si adatta ai dati. Un valore più vicino a 1 indica un buon adattamento.
- **MAPE (Mean Absolute Percentage Error)**: L'errore medio assoluto in termini percentuali, che misura l'errore relativo in percentuale.

---

```python
    print(f"--- {model_name} Evaluation ---")
    print(f"Mean Squared Error (MSE): {mse:.2f}")
    print(f"Root Mean Squared Error (RMSE): {rmse:.2f}")
    print(f"Mean Absolute Error (MAE): {mae:.2f}")
    print(f"R² Score: {r2:.4f}")
    print(f"Mean Absolute Percentage Error (MAPE): {mape:.4f}\n")
```
Queste righe stampano i risultati di tutte le metriche calcolate per il modello. Il formato di stampa è strutturato per mostrare ogni metrica e il suo valore con una specifica precisione decimale. Le metriche vengono visualizzate con i valori di errore (MSE, RMSE, MAE) e l'indice di adattamento (R² e MAPE).

---

```python
    return {
        'model': model_name,
        'MSE': mse,
        'RMSE': rmse,
        'MAE': mae,
        'R2': r2,
        'MAPE': mape,
        'predictions': predictions
    }
```
Alla fine della funzione, viene restituito un dizionario con i risultati di valutazione, inclusi il nome del modello, le metriche calcolate e le previsioni effettuate dal modello. Questo dizionario permette di salvare e analizzare i risultati successivamente.

---

### 2. Valutazione dei modelli

```python
# Evaluate all models on the validation set
results = []
for name, model in models.items():
    result = evaluate_model(model, X_val, y_val, name)
    results.append(result)
```
Qui, viene eseguita la valutazione su un insieme di modelli. I modelli sono contenuti in un dizionario chiamato `models`, e per ciascun modello viene chiamata la funzione `evaluate_model`, passando i dati di validazione (`X_val` e `y_val`) e il nome del modello. I risultati per ogni modello vengono aggiunti alla lista `results`.

---

### Risultati della valutazione per ciascun modello

1. **Valutazione del modello di Regressione Lineare (Linear Regression)**

```
--- Linear Regression Evaluation ---
Mean Squared Error (MSE): 418.23
Root Mean Squared Error (RMSE): 20.45
Mean Absolute Error (MAE): 16.40
R² Score: 0.9896
Mean Absolute Percentage Error (MAPE): 0.5347
```
- **MSE**: 418.23, che indica che la media dei quadrati degli errori è relativamente bassa, il che suggerisce che il modello si adatta bene ai dati.
- **RMSE**: 20.45, che indica un errore medio di circa 20.45 unità.
- **MAE**: 16.40, che indica che in media l'errore assoluto per previsione è di circa 16.40 unità.
- **R²**: 0.9896, che indica che il modello spiega il 98.96% della varianza nei dati. Questo è un eccellente indice di adattamento.
- **MAPE**: 0.5347%, che indica un errore medio relativo molto basso, suggerendo una buona previsione in termini percentuali.

2. **Valutazione del modello Random Forest**

```
--- Random Forest Evaluation ---
Mean Squared Error (MSE): 5830.37
Root Mean Squared Error (RMSE): 76.36
Mean Absolute Error (MAE): 59.74
R² Score: 0.8554
Mean Absolute Percentage Error (MAPE): 1.3386
```
- **MSE**: 5830.37, che è molto più alto rispetto al modello di regressione lineare, suggerendo che il modello potrebbe non essere adattato perfettamente ai dati.
- **RMSE**: 76.36, che è più alto rispetto al modello di regressione lineare, indicando un errore maggiore.
- **MAE**: 59.74, anche questo è più alto rispetto alla regressione lineare, indicando errori maggiori.
- **R²**: 0.8554, che è inferiore a quello della regressione lineare, ma comunque un buon valore che indica che il modello spiega l'85.54% della varianza.
- **MAPE**: 1.3386%, che è maggiore rispetto al modello di regressione lineare, indicando un errore relativo più elevato.

3. **Valutazione del modello Decision Tree**

```
--- Decision Tree Evaluation ---
Mean Squared Error (MSE): 17532.23
Root Mean Squared Error (RMSE): 132.41
Mean Absolute Error (MAE): 104.39
R² Score: 0.5652
Mean Absolute Percentage Error (MAPE): 2.3300
```
- **MSE**: 17532.23, che è molto più alto rispetto agli altri modelli, indicando una scarsa previsione.
- **RMSE**: 132.41, che è molto alto, suggerendo che le previsioni sono imprecise.
- **MAE**: 104.39, che è significativamente più alto rispetto agli altri modelli.
- **R²**: 0.5652, che è basso e indica che solo il 56.52% della varianza viene spiegata dal modello. Questo è un segno che il modello non si adatta bene ai dati.
- **MAPE**: 2.3300%, che è più alto rispetto agli altri modelli, indicando una previsione meno accurata in termini relativi.

---

In sintesi, il modello di regressione lineare risulta essere il più performante, con MSE, RMSE, MAE, R² e MAPE che indicano un buon adattamento ai dati, mentre gli altri modelli (Random Forest e Decision Tree) mostrano risultati peggiori, soprattutto in termini di errori assoluti e percentuali.



### 1. **Definizione dei metriche di regressione**

Prima, ci viene fornita una panoramica teorica di ciascuna delle metriche di regressione:

#### **1.1 Mean Squared Error (MSE)**
```text
- Calcola la media delle differenze quadrate tra le previsioni e i valori reali
- Penalizza fortemente gli errori grandi a causa del quadrato
- Valori più bassi sono migliori, con 0 che rappresenta un punteggio perfetto
- Formula: MSE = (1/n) * Σ (y_actual - y_predicted)²
```
- **Cos'è**: L’errore quadratico medio (MSE) calcola la media delle differenze quadrate tra i valori predetti dal modello e i valori reali. I grandi errori sono penalizzati più pesantemente a causa del quadrato, rendendo il MSE molto sensibile agli outliers.
- **Interpretazione**: Valori di MSE più bassi sono desiderabili, poiché indicano che le previsioni sono vicine ai valori reali. MSE uguale a zero significa che il modello ha previsto perfettamente i dati.

#### **1.2 Root Mean Squared Error (RMSE)**
```text
- Radice quadrata dell'MSE
- Ha le stesse unità della variabile target, rendendolo più interpretabile
- Ancora sensibile agli outlier
- Valori più bassi sono migliori
- Formula: RMSE = √MSE
```
- **Cos'è**: La radice quadrata dell’MSE fornisce un errore nella stessa unità di misura del target, che rende il valore più interpretabile rispetto all'MSE. 
- **Interpretazione**: Come per l'MSE, valori più bassi sono desiderabili. La differenza principale con l'MSE è che il RMSE ha lo stesso significato delle unità originali, il che lo rende più facilmente interpretabile.

#### **1.3 Mean Absolute Error (MAE)**
```text
- Media delle differenze assolute tra le previsioni e i valori reali
- Meno sensibile agli outlier rispetto a MSE/RMSE
- Nella stessa unità della variabile target
- Valori più bassi sono migliori
- Formula: MAE = (1/n) * Σ |y_actual - y_predicted|
```
- **Cos'è**: Il MAE calcola la media delle differenze assolute tra i valori predetti e i valori reali. Poiché non eleva al quadrato gli errori, è meno sensibile agli outlier rispetto a MSE o RMSE.
- **Interpretazione**: Valori più bassi di MAE sono desiderabili, ma si trova spesso che MSE o RMSE vengano preferiti poiché penalizzano maggiormente gli errori gravi.

#### **1.4 R² Score (Coefficient of Determination)**
```text
- Rappresenta la proporzione della varianza del target che è prevedibile dalle caratteristiche
- I valori vanno generalmente da 0 a 1 (1 significa previsione perfetta)
- Può essere negativo se il modello è peggiore di una linea orizzontale
- Formula: R² = 1 - (Somma dei residui² / Somma totale dei quadrati)
```
- **Cos'è**: L’R² misura quanto bene le variabili indipendenti (le caratteristiche) spiegano la variabilità della variabile dipendente (target). Un valore R² vicino a 1 indica una buona previsione.
- **Interpretazione**: Un R² di 0 significa che il modello non spiega nessuna della variabilità nel target. Un R² negativo indica che il modello è peggiore di un modello che semplicemente predice la media.

#### **1.5 Mean Absolute Percentage Error (MAPE)**
```text
- Media degli errori percentuali assoluti
- Indipendente dalla scala, il che permette di fare confronti tra dataset differenti
- Può essere fuorviante quando i valori reali sono vicini allo zero
- Valori più bassi sono migliori
- Formula: MAPE = (100% / n) * Σ |(y_actual - y_predicted) / y_actual|
```
- **Cos'è**: MAPE calcola la media degli errori assoluti in percentuale. È utile per confrontare errori tra modelli o dataset con diverse scale.
- **Interpretazione**: Valori più bassi di MAPE sono desiderabili, ma questa metrica può essere fuorviante quando i valori reali sono molto piccoli (vicini a zero).

---

### 2. **Visualizzazione delle previsioni rispetto ai valori reali**

```python
plt.figure(figsize=(15, 10))
```
- **Cos'è**: Questa riga imposta la dimensione della figura del grafico, rendendola 15 pollici di larghezza e 10 pollici di altezza per una visualizzazione più chiara.

---

#### **Loop sui risultati per visualizzare le previsioni**
```python
for i, result in enumerate(results):
    plt.subplot(2, 2, i+1)
    plt.scatter(y_val, result['predictions'], alpha=0.5)
    plt.plot([-300, 300], [-300, 300], 'r--')  # Perfect prediction line
    plt.title(f"{result['model']} Predictions")
    plt.xlabel('Actual Values')
    plt.ylabel('Predicted Values')
    plt.xlim([-300, 300])
    plt.ylim([-300, 300])
```
- **Cos'è**: Viene eseguito un ciclo su ciascun modello presente in `results`. Per ogni modello, si crea un grafico di dispersione (scatter plot) dove le previsioni (`predictions`) vengono messe sull'asse delle ordinate (y) e i valori reali (`y_val`) sull'asse delle ascisse (x).
- **Subplot**: Ogni grafico viene disegnato in una sottosezione di una griglia 2x2 (`plt.subplot(2, 2, i+1)`), quindi ci saranno 4 grafici totali.
- **Alpha**: Imposta la trasparenza dei punti del grafico, in modo che i punti sovrapposti siano visibili.
- **Linea rossa tratteggiata**: La linea rossa rappresenta una previsione perfetta, dove i valori predetti sono uguali ai valori reali. Se i punti si allineano a questa linea, significa che il modello ha fatto previsioni accurate.

---

#### **Impostazione degli assi e titolo**
```python
    plt.title(f"{result['model']} Predictions")
    plt.xlabel('Actual Values')
    plt.ylabel('Predicted Values')
    plt.xlim([-300, 300])
    plt.ylim([-300, 300])
```
- **Cos'è**: Imposta il titolo del grafico, le etichette degli assi (valori reali e valori predetti) e i limiti degli assi (da -300 a 300 in entrambi gli assi).
- **Interpretazione**: Impostare limiti sugli assi consente di avere una scala uniforme per ogni grafico, facilitando il confronto visivo tra i modelli.

---

### 3. **Layout del grafico**
```python
plt.tight_layout()
plt.show()
```
- **Cos'è**: `tight_layout()` assicura che i grafici non si sovrappongano tra loro e siano ben distanziati. `plt.show()` visualizza effettivamente i grafici.

---

### Conclusioni

Questo codice fornisce una visualizzazione chiara di come le previsioni dei modelli si confrontano con i valori reali. Una linea retta ideale indica previsioni perfette. Più i punti si discostano dalla linea, peggiore è la previsione del modello. La visualizzazione permette di interpretare facilmente la qualità delle previsioni, in combinazione con le metriche numeriche (MSE, RMSE, MAE, R², MAPE).

L'immagine contiene tre grafici a dispersione che confrontano i valori previsti con quelli effettivi per tre modelli di machine learning: **Linear Regression**, **Random Forest**, e **Decision Tree**. Ogni grafico include una linea tratteggiata rossa che rappresenta lo scenario ideale, dove i valori previsti coincidono perfettamente con quelli effettivi (linea y = x).

### Analisi dei grafici:

1. **Linear Regression Predictions (in alto a sinistra):**
   - Mostra una forte relazione lineare tra i valori previsti e quelli effettivi.
   - I punti sono ben raggruppati intorno alla linea tratteggiata, suggerendo previsioni più accurate rispetto agli altri modelli.

2. **Random Forest Predictions (in alto a destra):**
   - Anche qui è presente una relazione lineare, ma con maggiore dispersione rispetto al modello di regressione lineare.
   - Questo suggerisce che il modello è meno preciso, pur mantenendo una certa coerenza nelle previsioni.

3. **Decision Tree Predictions (in basso):**
   - I punti sono notevolmente più dispersi rispetto agli altri due modelli.
   - Questo indica una minore accuratezza delle previsioni e una possibile tendenza al sovra-adattamento ai dati di addestramento.

### Conclusioni:
- **Linear Regression** sembra essere il modello più accurato, con previsioni che si avvicinano maggiormente ai valori effettivi.
- **Random Forest** mostra prestazioni accettabili ma leggermente inferiori in termini di precisione rispetto alla regressione lineare.
- **Decision Tree** è il meno performante, con una dispersione significativa che indica scarsa affidabilità nelle previsioni.




### 1. **Creazione della figura**
```python
plt.figure(figsize=(15, 10))
```
- **Cos'è**: Questa riga imposta la dimensione della figura del grafico. La figura avrà una larghezza di 15 pollici e un'altezza di 10 pollici, garantendo che i grafici siano abbastanza grandi per una visualizzazione chiara.

---

### 2. **Loop sui risultati per visualizzare i residui**
```python
for i, result in enumerate(results):
```
- **Cos'è**: Questo ciclo `for` itera su ciascun risultato nel dizionario `results`, che contiene i risultati dei vari modelli. `i` è l'indice del modello (0, 1, 2, ...), e `result` è un dizionario contenente i dettagli di ciascun modello, incluse le previsioni (`predictions`).

---

### 3. **Creazione del grafico dei residui**
```python
    plt.subplot(2, 2, i+1)
```
- **Cos'è**: Questa riga crea una sottosezione della figura in una griglia 2x2. Il grafico corrente viene posizionato nella `i+1`-esima posizione della griglia, così che ogni modello venga visualizzato in una posizione separata (ci saranno quindi 4 grafici in totale).

---

### 4. **Calcolo dei residui**
```python
    residuals = y_val - result['predictions']
```
- **Cos'è**: I residui sono la differenza tra i valori reali (`y_val`) e le previsioni fatte dal modello (`result['predictions']`). Ogni errore di previsione è chiamato "residuo" e mostra quanto il modello si discosta dal valore reale.
- **Interpretazione**: I residui indicano l'entità dell'errore del modello per ciascuna previsione. Se il modello fosse perfetto, i residui sarebbero tutti pari a zero.

---

### 5. **Grafico a dispersione dei residui**
```python
    plt.scatter(result['predictions'], residuals, alpha=0.5)
```
- **Cos'è**: Questo comando crea un grafico a dispersione (scatter plot) dove sull'asse delle ascisse vengono posizionate le previsioni (`result['predictions']`), e sull'asse delle ordinate vengono posizionati i residui (`residuals`).
- **Alpha**: L'argomento `alpha=0.5` rende i punti semi-trasparenti, facilitando la visualizzazione di punti sovrapposti.
- **Interpretazione**: Il grafico a dispersione dei residui aiuta a identificare eventuali pattern sistematici nei residui. Se i residui sono distribuiti casualmente, ciò suggerisce che il modello è appropriato. Se ci sono pattern (ad esempio, una curva), potrebbe indicare un modello non adatto.

---

### 6. **Linea orizzontale a 0**
```python
    plt.axhline(y=0, color='r', linestyle='--')
```
- **Cos'è**: Questa riga traccia una linea orizzontale sulla posizione `y=0`. La linea è colorata di rosso (`color='r'`) e tratteggiata (`linestyle='--'`).
- **Interpretazione**: La linea a `y=0` rappresenta il punto ideale per i residui, poiché i residui nulli (zero) indicano previsioni perfette. I residui positivi (sopra la linea) indicano una sovrastima, mentre quelli negativi (sotto la linea) indicano una sottostima delle previsioni.

---

### 7. **Impostazione del titolo e delle etichette degli assi**
```python
    plt.title(f"{result['model']} Residuals")
    plt.xlabel('Predicted Values')
    plt.ylabel('Residuals')
```
- **Cos'è**: Queste righe impostano il titolo del grafico (che include il nome del modello, ad esempio "Linear Regression Residuals") e le etichette degli assi. L'asse delle ascisse rappresenta i valori predetti, mentre l'asse delle ordinate rappresenta i residui.
- **Interpretazione**: Questo rende il grafico chiaro e informativo, in modo che chiunque possa capire cosa viene rappresentato.

---

### 8. **Layout del grafico**
```python
plt.tight_layout()
```
- **Cos'è**: Questa funzione ottimizza la disposizione dei sottogruppi di grafici nella figura, evitando sovrapposizioni e garantendo che ogni grafico abbia abbastanza spazio.

---

### 9. **Visualizzazione del grafico**
```python
plt.show()
```
- **Cos'è**: Questa funzione visualizza effettivamente i grafici sullo schermo. È l'ultimo passo che rende i grafici visibili all'utente.

---

### Conclusioni
Il codice crea una serie di grafici a dispersione (uno per ogni modello) che mostrano i residui delle previsioni. I residui sono le differenze tra i valori predetti e quelli reali. Un buon modello avrà residui distribuiti casualmente attorno alla linea orizzontale a `y=0`. Se i residui mostrano un pattern, potrebbe essere un segno che il modello non è adatto o che c'è qualche altro fattore che il modello non ha catturato.

I grafici mostrano le distribuzioni dei **residui** (differenza tra i valori previsti e quelli effettivi) rispetto ai **valori previsti** per tre modelli di regressione: **Linear Regression**, **Random Forest** e **Decision Tree**. L'obiettivo è analizzare la performance di ciascun modello osservando il comportamento dei residui.

### Struttura dei grafici:
- **Asse X**: Valori previsti dai modelli.
- **Asse Y**: Residui, che rappresentano l'errore (valore previsto meno valore effettivo).
- **Linea rossa tratteggiata (y = 0)**: Indica l'assenza di errore. Residui vicini a questa linea indicano previsioni accurate.

### Analisi dei modelli:
1. **Linear Regression**:
   - I residui sembrano ben distribuiti intorno alla linea rossa (y = 0), con una dispersione moderata.
   - È evidente una tendenza lineare: il modello funziona bene per previsioni semplici.

2. **Random Forest**:
   - I residui mostrano una distribuzione meno regolare, ma più uniforme rispetto alla Linear Regression.
   - Questo indica che il modello cattura relazioni più complesse, riducendo potenzialmente gli errori per alcuni intervalli.

3. **Decision Tree**:
   - I residui sono molto più dispersi, con alcuni valori notevolmente lontani dalla linea rossa.
   - Questo suggerisce una tendenza al **sovra-adattamento** (overfitting), ovvero il modello si adatta eccessivamente ai dati di addestramento e perde generalizzazione.

### Conclusioni:
- **Linear Regression** offre previsioni più consistenti e mostra meno errori globali.
- **Random Forest** è più versatile e cattura relazioni non lineari, ma con un livello di errore leggermente maggiore in alcuni punti.
- **Decision Tree** presenta la performance peggiore, con alti residui e una chiara evidenza di overfitting.

Questo tipo di analisi è fondamentale per scegliere il modello più adatto in base agli obiettivi del progetto e alla natura dei dati.



### **Introduzione ai concetti di errore nel Machine Learning**
Nella regressione, abbiamo diverse metriche per valutare la qualità di un modello. Le metriche più comuni sono:

1. **MSE/RMSE**: Utilizzate quando gli errori più grandi sono considerati più significativi degli errori piccoli, come nei casi di previsioni finanziarie o quando si vuole dare maggiore importanza agli outliers.
2. **MAE**: Utile quando ogni errore deve contribuire in modo proporzionale all'errore totale, ed è adatto quando i dati non contengono outliers o non si desidera penalizzare pesantemente gli outliers.
3. **R²**: Utilizzato per comprendere quanto il modello sia migliore rispetto alla media dei valori, molto utile per comunicare i risultati a stakeholder non tecnici.
4. **MAPE**: Utile quando si vogliono confrontare modelli che operano su scale differenti, o quando è più significativo lavorare con errori percentuali piuttosto che assoluti. Viene spesso usato nelle previsioni e nei contesti aziendali.

### **Bias-Variance Tradeoff**
Il *tradeoff bias-variance* è un concetto centrale nell'apprendimento automatico e riguarda l'equilibrio tra due fonti di errore che impediscono agli algoritmi di apprendimento supervisionato di generalizzare oltre il set di dati di addestramento:

- **Bias**: Errore dovuto a ipotesi troppo semplicistiche nell'algoritmo di apprendimento. Un modello con alto bias può non riuscire a catturare le relazioni rilevanti tra le caratteristiche e l'output (sottodimensionamento o *underfitting*).
- **Variance**: Errore dovuto a una sensibilità eccessiva alle piccole fluttuazioni nel set di addestramento. Un modello con alta varianza può adattarsi troppo ai rumori casuali nei dati di addestramento anziché ai veri output (sovradimensionamento o *overfitting*).

L'obiettivo è trovare un punto di equilibrio che minimizzi sia il bias che la varianza, ottenendo così la miglior performance di generalizzazione.

Un'altra interpretazione della struttura dell'errore è la seguente:

- **Bias²**: Indica quanto le previsioni del modello si discostano in media dai valori corretti.
- **Variance**: Indica quanto le previsioni variano per un dato punto attraverso diverse realizzazioni del modello.
- **Irreducible Error**: È il rumore intrinseco nella relazione vera che non può essere modellato. È un errore che non può essere ridotto con nessuna modifica al modello.

---

### **Generazione di Dati Sintetici**

Il blocco successivo di codice genera dati sintetici con rumore e li visualizza. Questo è il cuore della sezione che esplora il *bias-variance tradeoff*.

#### 1. **Definizione della funzione vera da imparare**
```python
def true_function(X):
    """La funzione sottostante che stiamo cercando di imparare"""
    return np.sin(1.5 * X)
```
- **Cos'è**: Qui viene definita la funzione vera che cercheremo di approssimare con il nostro modello. In questo caso, la funzione è il seno moltiplicato per un fattore di 1.5, ossia \( \sin(1.5X) \).

#### 2. **Generazione dei dati sintetici con rumore**
```python
X = np.sort(np.random.uniform(0, 2*np.pi, 40))
y = true_function(X) + np.random.normal(0, 0.2, X.shape[0])
```
- **Cos'è**: Qui stiamo generando un insieme di dati sintetici.
  - `X` è un array di 40 valori casuali, uniformemente distribuiti nell'intervallo da 0 a \(2\pi\) (circa 6.28). L'uso di `np.sort` ordina questi valori in modo crescente.
  - `y` è il risultato della funzione `true_function(X)`, cioè i valori generati dalla funzione \( \sin(1.5X) \), con l'aggiunta di un po' di rumore normale (gaussiano) con media 0 e deviazione standard 0.2. Questo rappresenta la naturale variabilità nei dati reali.

#### 3. **Ristrutturazione di X per scikit-learn**
```python
X_reshaped = X.reshape(-1, 1)
```
- **Cos'è**: Qui, il vettore `X` viene riformattato per essere compatibile con scikit-learn, una libreria di Python per il machine learning. `X.reshape(-1, 1)` trasforma `X` in una matrice a una colonna, che è la forma richiesta per i modelli di regressione.

#### 4. **Suddivisione dei dati in set di addestramento e di test**
```python
X_train, X_test, y_train, y_test = train_test_split(X_reshaped, y, test_size=0.3, random_state=42)
```
- **Cos'è**: Qui i dati vengono divisi in un set di addestramento (`X_train`, `y_train`) e un set di test (`X_test`, `y_test`). La dimensione del set di test è il 30% dei dati totali, e il parametro `random_state=42` garantisce che la divisione sia riproducibile.

#### 5. **Creazione di una griglia fine per la visualizzazione**
```python
X_grid = np.linspace(0, 2*np.pi, 1000).reshape(-1, 1)
```
- **Cos'è**: Qui viene creata una griglia di 1000 punti uniformemente distribuiti nell'intervallo \( [0, 2\pi] \), che sarà utilizzata per visualizzare la funzione vera (senza rumore) su una scala fine.

#### 6. **Creazione del grafico**
```python
plt.figure(figsize=(10, 6))
plt.scatter(X_train, y_train, color='blue', s=30, label='Training data')
plt.scatter(X_test, y_test, color='red', s=30, label='Test data')
plt.plot(X_grid, true_function(X_grid), color='green', linestyle='-', label='True function')
plt.title('Synthetic Dataset with Noise')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()
```
- **Cos'è**: Viene creato un grafico che visualizza i dati sintetici.
  - I dati di addestramento vengono mostrati come punti blu (`scatter`).
  - I dati di test sono mostrati come punti rossi.
  - La funzione vera \( \sin(1.5X) \) è tracciata come una linea verde.
  - Viene anche aggiunto un titolo, le etichette degli assi e una legenda per rendere il grafico facilmente leggibile.

### **Interpretazione del grafico**
Il grafico mostra i dati sintetici (con rumore) e la vera funzione sottostante. I punti blu rappresentano i dati di addestramento e i punti rossi i dati di test. La linea verde è la funzione vera che il modello sta cercando di apprendere. Questo grafico serve come base per analizzare il tradeoff tra bias e varianza, poiché possiamo vedere come il modello si adatta ai dati e quanto si discosta dalla funzione vera.

Il grafico intitolato **"Synthetic Dataset with Noise"** rappresenta l'andamento di una funzione vera con dati di addestramento e test, con l'aggiunta di rumore. Vediamo i dettagli:

### Elementi del grafico:
1. **Curva verde (True function)**:
   - Questa rappresenta la funzione matematica originale che descrive la relazione tra la variabile indipendente (X) e quella dipendente (y). È il riferimento ideale che il modello dovrebbe approssimare.

2. **Punti blu (Training data)**:
   - Sono i dati utilizzati per addestrare il modello. La loro distribuzione intorno alla curva verde mostra che sono affetti da rumore, ovvero variazioni casuali che allontanano i dati dal valore ideale.

3. **Punti rossi (Test data)**:
   - Sono dati indipendenti che non vengono utilizzati durante l'addestramento, ma servono per valutare la capacità del modello di generalizzare e adattarsi a nuovi input. Anche questi dati mostrano una certa dispersione rispetto alla funzione vera.

### Cosa mostra il grafico:
Il grafico evidenzia come il rumore nei dati influenzi il processo di modellazione. L'obiettivo di un modello di machine learning è approssimare la **True function** nonostante la presenza di tale rumore, senza sovra-adattarsi ai dati di addestramento. 

### Concetti utili:
- **Bias**: Se il modello non si avvicina abbastanza alla curva verde, potrebbe esserci un errore sistematico (bias elevato).
- **Varianza**: Se il modello si adatta troppo ai punti blu, potrebbe sovra-adattarsi, riducendo le prestazioni sui dati di test.
  
Questo grafico è spesso utilizzato per spiegare il compromesso tra bias e varianza e l'importanza della capacità del modello di generalizzare.

Questo blocco di codice illustra come creare e allenare modelli di regressione polinomiale di diversi gradi (1, 3 e 15), analizzando il comportamento del modello in relazione al *bias-variance tradeoff*.

### 1. **Definizione dei gradi dei polinomi**
```python
degrees = [1, 3, 15]  # Linear, cubic, and high degree polynomial
```
- **Cos'è**: Vengono definiti tre gradi polinomiali da utilizzare:
  - **1**: un modello lineare, che rappresenta un polinomio di primo grado.
  - **3**: un modello cubico, che rappresenta un polinomio di terzo grado.
  - **15**: un modello ad alto grado, con un polinomio di quindicesimo grado.

### 2. **Creazione e addestramento del modello**
```python
for i, degree in enumerate(degrees):
    # Create and train the model
    model = make_pipeline(PolynomialFeatures(degree), LinearRegression())
    model.fit(X_train, y_train)
```
- **Cos'è**: Per ogni grado di polinomio definito (1, 3, 15), viene creato un modello di regressione polinomiale. Il codice utilizza `make_pipeline` per concatenare due fasi:
  - **PolynomialFeatures(degree)**: Trasforma i dati di input in caratteristiche polinomiali di un determinato grado.
  - **LinearRegression()**: Applica la regressione lineare ai dati trasformati.
  
  Il modello viene quindi addestrato sui dati di addestramento (`X_train` e `y_train`).

### 3. **Predizioni**
```python
train_pred = model.predict(X_train)
test_pred = model.predict(X_test)
grid_pred = model.predict(X_grid)
```
- **Cos'è**: Dopo aver addestrato il modello, vengono fatte delle previsioni:
  - **train_pred**: Previsioni sui dati di addestramento (`X_train`).
  - **test_pred**: Previsioni sui dati di test (`X_test`).
  - **grid_pred**: Previsioni sui dati generati dalla griglia fine (`X_grid`) per visualizzare la curva del modello.

### 4. **Calcolo degli errori**
```python
train_mse = mean_squared_error(y_train, train_pred)
test_mse = mean_squared_error(y_test, test_pred)
```
- **Cos'è**: Vengono calcolati gli errori di previsione utilizzando la metrica **MSE** (Errore Quadratico Medio) per il set di addestramento e il set di test:
  - **train_mse**: MSE sui dati di addestramento.
  - **test_mse**: MSE sui dati di test.
  
  L'errore MSE ci dice quanto le previsioni si discostano dai valori reali. Valori più bassi indicano previsioni migliori.

### 5. **Visualizzazione dei risultati**
```python
plt.subplot(1, 3, i+1)
plt.scatter(X_train, y_train, color='blue', s=30, label='Training data')
plt.scatter(X_test, y_test, color='red', s=30, label='Test data')
plt.plot(X_grid, true_function(X_grid), color='green', linestyle='-', label='True function')
plt.plot(X_grid, grid_pred, color='purple', linestyle='--', label=f'Degree {degree} polynomial')
```
- **Cos'è**: Qui viene creato un grafico per ogni modello, mostrando:
  - **Dati di addestramento (blu)** e **dati di test (rosso)**, per visualizzare dove si trovano i punti reali.
  - La **funzione vera** (linea verde) rappresenta la relazione sottostante che il modello sta cercando di approssimare.
  - Le **previsioni del modello (linea viola)** mostrano come il modello polinomiale si adatta ai dati.

### 6. **Aggiunta delle informazioni sull'errore**
```python
plt.title(f'Polynomial Degree {degree}\nTrain MSE: {train_mse:.4f}, Test MSE: {test_mse:.4f}')
```
- **Cos'è**: Il titolo del grafico viene aggiornato per mostrare il grado del polinomio e gli errori MSE per i dati di addestramento e di test.

### 7. **Aggiunta di annotazioni sul bias e sulla varianza**
```python
if i == 0:
    plt.text(3, -0.7, "High Bias (Underfitting)")
elif i == 1:
    plt.text(3, -0.7, "Good Balance")
else:
    plt.text(3, -0.7, "High Variance (Overfitting)")
```
- **Cos'è**: In base al grado del polinomio, viene aggiunta un'annotazione per spiegare il comportamento del modello:
  - **High Bias (Underfitting)**: Quando il grado del polinomio è basso (1), il modello non riesce a catturare la complessità dei dati, e quindi ha un *alto bias* (sottodimensionamento o *underfitting*).
  - **Good Balance**: Quando il grado del polinomio è moderato (3), il modello ha un buon equilibrio tra bias e varianza, adattandosi bene ai dati.
  - **High Variance (Overfitting)**: Quando il grado del polinomio è molto alto (15), il modello si adatta troppo ai dati di addestramento, cogliendo anche il rumore, causando un *alta varianza* (sovradimensionamento o *overfitting*).

### 8. **Visualizzazione finale**
```python
plt.tight_layout()
plt.show()
```
- **Cos'è**: Viene regolato il layout dei grafici per assicurarsi che non ci siano sovrapposizioni e poi il grafico finale viene mostrato.

### **Interpretazione dei grafici**
- **Grado 1 (lineare)**: Il modello non riesce a catturare la curva dei dati (alta bias, underfitting).
- **Grado 3 (cubo)**: Il modello si adatta abbastanza bene ai dati, mostrando un buon equilibrio tra bias e varianza.
- **Grado 15 (alto)**: Il modello si adatta perfettamente ai dati di addestramento, ma potrebbe non generalizzare bene ai dati di test (alta varianza, overfitting).

In sintesi, il codice mostra come un modello polinomiale può adattarsi ai dati in modo diverso a seconda del grado del polinomio e come questo influenzi l'errore e la generalizzazione.

L'immagine illustra come il grado di un modello di regressione polinomiale influenzi la capacità di adattamento ai dati e il compromesso tra **bias** e **varianza**. Ecco l'analisi dettagliata dei tre modelli mostrati:

### Modello 1: **Grado 1 (Linear Regression)** – Underfitting
- **Osservazione:** La linea viola tratteggiata rappresenta una regressione lineare (grado 1). Mostra un'elevata discrepanza rispetto alla funzione reale (curva verde).
- **MSE:**  
   - Train MSE: 0.4824  
   - Test MSE: 0.3792  
   Questi valori elevati indicano che il modello non cattura adeguatamente la complessità dei dati.
- **Conclusione:** L'underfitting si verifica quando il modello è troppo semplice per rappresentare la relazione sottostante.

### Modello 2: **Grado 3 (Cubic Regression)** – Buon equilibrio
- **Osservazione:** La curva viola tratteggiata si avvicina meglio alla funzione reale, dimostrando un equilibrio tra adattamento ai dati di training e generalizzazione sui dati di test.
- **MSE:**  
   - Train MSE: 0.3034  
   - Test MSE: 0.2685  
   I valori sono più bassi e molto vicini tra loro, segnalando una buona capacità predittiva.
- **Conclusione:** Questo modello rappresenta il compromesso ideale tra bias e varianza, adattandosi bene sia ai dati di training che di test.

### Modello 3: **Grado 15 (High-Degree Polynomial)** – Overfitting
- **Osservazione:** La curva viola tratteggiata passa attraverso quasi tutti i punti di training (blu), ma devia significativamente dalla funzione reale e dai dati di test.
- **MSE:**  
   - Train MSE: 0.0173 (molto basso)  
   - Test MSE: 0.0490 (più alto rispetto al modello di grado 3).  
   Questo suggerisce che il modello memorizza i dati di training a scapito della generalizzazione.
- **Conclusione:** L'overfitting si verifica quando il modello è troppo complesso e si adatta eccessivamente ai dati di training, risultando meno efficace su nuovi dati.

### Concetti chiave:
- **Bias**: L'errore sistematico del modello (elevato nel modello di grado 1).  
- **Varianza**: La sensibilità del modello alle variazioni nei dati di training (elevata nel modello di grado 15).
- **Trade-off bias-varianza**: Il modello di grado 3 evidenzia il miglior equilibrio, con errore contenuto e buona generalizzazione.

Questa visualizzazione aiuta a comprendere l'importanza della scelta del grado del polinomio per ottenere modelli predittivi efficaci. 

Questo blocco di codice esplora l'uso della **regolarizzazione Ridge** per controllare il *bias-variance tradeoff* in un modello di regressione polinomiale di alto grado (15). La regolarizzazione Ridge aggiunge un termine di penalizzazione alla funzione di costo, con lo scopo di prevenire il sovra-adattamento (overfitting) dei dati.

### **Cos'è la regolarizzazione Ridge**
La regolarizzazione Ridge modifica la funzione obiettivo della regressione lineare ordinaria (OLS) aggiungendo un termine di penalizzazione sui coefficienti del modello. Questo penalizza i modelli con coefficienti troppo grandi, contribuendo a evitare l'overfitting.

La funzione obiettivo della regressione Ridge è:

$$ \text{minimizza: } \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \alpha \sum_{j=1}^{p} \beta_j^2 $$

Dove:
- Il primo termine è la funzione di errore standard (somma dei quadrati degli errori).
- Il secondo termine è la penalizzazione dei coefficienti, che li riduce verso zero.
- $\alpha$ è il parametro di regolarizzazione, che controlla l'intensità della penalizzazione.
- $\beta_j$ sono i coefficienti del modello.

### **Obiettivo del Codice**
Il codice mostra l'effetto di vari valori di $\alpha$ (da 0 a 100) su un modello polinomiale di 15° grado, applicando Ridge Regression. L'obiettivo è osservare come la regolarizzazione influenzi l'adattamento del modello ai dati, controllando il bias e la varianza.

### **Dettaglio del Codice**

#### 1. **Definizione del grado del polinomio e dei valori di $\alpha$**
```python
degree = 15  # High degree polynomial
alphas = [0, 0.001, 0.01, 0.1, 1, 10, 100]
```
- **Cos'è**: Il modello utilizza un polinomio di **15° grado**. I valori di **$\alpha$** variano da **0** (senza regolarizzazione, equivalente alla regressione OLS) a **100**, passando per valori intermedi. Ogni valore di $\alpha$ corrisponde a una diversa intensità di penalizzazione sui coefficienti del modello.

#### 2. **Creazione e addestramento del modello**
```python
model = make_pipeline(
    PolynomialFeatures(degree),
    Ridge(alpha=alpha)
)
model.fit(X_train, y_train)
```
- **Cos'è**: Per ciascun valore di $\alpha$, viene creato un **modello Ridge** con un polinomio di 15° grado. Si utilizza `make_pipeline` per concatenare due fasi:
  1. **PolynomialFeatures(degree)**: Trasforma i dati di input in caratteristiche polinomiali.
  2. **Ridge(alpha=alpha)**: Applica la regressione Ridge con il parametro $\alpha$ definito.
  
  Poi, il modello viene addestrato sui dati di addestramento (`X_train` e `y_train`).

#### 3. **Previsioni e calcolo degli errori**
```python
train_pred = model.predict(X_train)
test_pred = model.predict(X_test)
grid_pred = model.predict(X_grid[:-30])
```
- **Cos'è**: Dopo l'addestramento, vengono fatte delle previsioni:
  - **train_pred**: Previsioni sui dati di addestramento (`X_train`).
  - **test_pred**: Previsioni sui dati di test (`X_test`).
  - **grid_pred**: Previsioni su una griglia di valori (da `X_grid`), utilizzata per tracciare la curva del modello.
  
  Successivamente, vengono calcolati gli **errori MSE** (Mean Squared Error) sia per i dati di addestramento che per i dati di test, per valutare la qualità delle previsioni.

#### 4. **Visualizzazione dei risultati**
```python
plt.scatter(X_train, y_train, color='blue', s=30, alpha=0.6, label='Training data')
plt.plot(X_grid[:-30], true_function(X_grid[:-30]), color='green', linestyle='-', label='True function')
plt.plot(X_grid[:-30], grid_pred, color='red', linestyle='--', label=f'Ridge (α={alpha})')
```
- **Cos'è**: Per ciascun valore di $\alpha$, viene generato un grafico che mostra:
  - I **dati di addestramento** in blu.
  - La **funzione vera** in verde, che rappresenta la relazione che il modello sta cercando di approssimare.
  - La **curva del modello Ridge** in rosso, che mostra come il modello si adatta ai dati con un determinato valore di $\alpha$.

#### 5. **Aggiunta delle informazioni sugli errori**
```python
plt.title(f'α={alpha_text}\nTrain MSE: {train_mse:.4f}\nTest MSE: {test_mse:.4f}')
```
- **Cos'è**: Ogni grafico include il valore di $\alpha$ e gli errori **MSE** (Train e Test), per evidenziare l'impatto della regolarizzazione sui dati di addestramento e di test.

#### 6. **Leggenda e annotazioni**
```python
if i == 0:  # Only show legend for the first plot
    plt.legend()
```
- **Cos'è**: La **legenda** viene mostrata solo per il primo grafico, evitando che le legende si sovrappongano nei grafici successivi.

#### 7. **Layout del grafico**
```python
plt.suptitle('Effect of Ridge Regularization (α) on a Degree 15 Polynomial Model', fontsize=16)
plt.tight_layout(rect=[0, 0, 1, 0.95])
```
- **Cos'è**: Il titolo del grafico principale (`suptitle`) spiega l'effetto della regolarizzazione Ridge con vari valori di $\alpha$. `tight_layout` ottimizza lo spazio tra i grafici per una visualizzazione chiara.

### **Interpretazione dei Risultati**
1. **$\alpha = 0$ (OLS)**: Il modello è equivalente alla regressione lineare ordinaria (senza penalizzazione), quindi si adatta perfettamente ai dati di addestramento, ma potrebbe sovradattarsi (overfitting).
2. **$\alpha > 0$**: Con l'aumentare di $\alpha$, la regolarizzazione riduce l'intensità dei coefficienti del modello, impedendo il sovradattamento. Ciò porta a un **maggiore bias e minore varianza**, ma migliora la generalizzazione sui dati di test.
3. **$\alpha$ molto grande**: Quando $\alpha$ è molto grande, il modello diventa molto semplice, riducendo fortemente l'adattamento ai dati (possibile **underfitting**).

### **Conclusione**
La regolarizzazione Ridge è utile per prevenire il sovra-adattamento, specialmente nei modelli complessi. Aumentando $\alpha$, si controlla meglio il tradeoff tra bias e varianza, trovando il giusto equilibrio per un modello che generalizza bene sui dati non visti.

L'immagine mostra come la **Ridge Regularization** (controllata dal parametro α) influenzi un modello di regressione polinomiale di grado 15. Il parametro α rappresenta la forza della penalizzazione: valori più alti riducono la complessità del modello, evitando sovra-adattamenti.

### Elementi principali:
1. **α=0 (Ordinary Least Squares - OLS):**
   - **Train MSE = 0.0162** | **Test MSE = 0.0633**
   - Il modello cattura tutti i dettagli e il rumore dei dati di addestramento, risultando in **overfitting**. La linea tratteggiata rossa segue esattamente i punti di training, ma si allontana dalla funzione reale (verde).

2. **α=0.001 e α=0.01:**
   - Per valori molto bassi di α:
     - **Train MSE** rimane basso (~0.0173 e 0.0174), e il **Test MSE** migliora rispetto a OLS (0.0469 e 0.0447).
     - Questi valori suggeriscono che il modello inizia a generalizzare meglio, ma mantiene ancora un'elevata flessibilità.

3. **α=0.1 e α=1:**
   - Qui si osserva un **equilibrio ottimale**.
   - Ad esempio, per **α=1**:
     - **Train MSE = 0.0214** | **Test MSE = 0.0340**
     - Il modello riduce la complessità, migliorando la generalizzazione senza perdere troppa accuratezza nei dati di training. La curva rossa approssima bene sia i punti blu che la funzione verde.

4. **α=10 e α=100:**
   - **Train MSE** e **Test MSE** crescono gradualmente (es. α=10: **Train MSE = 0.0367**, **Test MSE = 0.0356**).
   - Con l'aumento di α, il modello diventa troppo rigido, perdendo la capacità di catturare la struttura dei dati. Si osserva un effetto di **underfitting**.

### Conclusioni:
- **Modelli non regolarizzati (α=0)** mostrano overfitting, con elevata varianza e scarse prestazioni sui dati di test.
- **Valori intermedi di α (es. 1)** rappresentano il compromesso ideale, con un buon bilanciamento tra bias e varianza.
- **Valori molto alti di α (es. 100)** portano a underfitting, dove il modello diventa troppo semplice e incapace di catturare i dettagli della funzione reale.

Questo esperimento dimostra l'importanza della regolarizzazione per ottenere modelli robusti e generalizzabili. 

BREAK 2

Questo blocco di codice esplora diverse **tecniche di validazione** per valutare come i modelli generalizzano su nuovi dati. Si concentra in particolare sulla **validazione incrociata (K-Fold Cross-Validation)**, confrontandola con la **validazione hold-out**.

### **Obiettivo del Codice**
Il codice esegue una **5-fold cross-validation** per diversi modelli (presumibilmente già definiti come `models`), calcolando e visualizzando le metriche di prestazione come **MSE (Mean Squared Error)**, **RMSE (Root Mean Squared Error)** e **R²** (coefficiente di determinazione).

### **Dettaglio del Codice**

#### 1. **Definizione della K-Fold Cross-Validation**
```python
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)
```
- **Cos'è**: Qui, viene definita una **K-fold cross-validation** con `k=5`, il che significa che il dataset sarà suddiviso in 5 parti (fold). I dati vengono mescolati prima della divisione (`shuffle=True`) per garantire che la divisione sia casuale. `random_state=42` garantisce che i risultati siano riproducibili.
- **Funzione**: `KFold` è una funzione che suddivide il dataset in `k` parti e poi esegue il training del modello su `k-1` di esse, utilizzando la parte rimanente come set di validazione. Questo processo viene ripetuto `k` volte, ognuna con un diverso set di validazione.

#### 2. **Creazione del Dizionario per Memorizzare i Risultati**
```python
cv_results = {}
```
- **Cos'è**: Qui viene creato un dizionario vuoto chiamato `cv_results` dove verranno memorizzati i risultati delle diverse metriche di valutazione per ogni modello.

#### 3. **Loop sui Modelli**
```python
for name, model in models.items():
```
- **Cos'è**: Questo ciclo `for` itera su ogni modello presente nel dizionario `models`. Presumibilmente, `models` è un dizionario che contiene i modelli di machine learning (come regressori o classificatori). Ogni iterazione restituirà il nome del modello (`name`) e il modello stesso (`model`).

#### 4. **Calcolo dei MSE e R² tramite Cross-Validation**
```python
mse_scores = -cross_val_score(model, X_train_val, y_train_val, 
                               scoring='neg_mean_squared_error', 
                               cv=kf, n_jobs=-1)
```
- **Cos'è**: Qui viene eseguita una **cross-validation** calcolando il **MSE (Mean Squared Error)**. La funzione `cross_val_score` calcola la metrica desiderata (in questo caso MSE) per ogni fold. `scoring='neg_mean_squared_error'` è usato per restituire il MSE come valore negativo (perché `cross_val_score` vuole una metrica di massimizzazione, quindi il valore negativo permette di minimizzare MSE).
- `n_jobs=-1` significa che il codice utilizza tutte le risorse di calcolo disponibili per parallelizzare il processo.
  
```python
r2_scores = cross_val_score(model, X_train_val, y_train_val, 
                             scoring='r2', 
                             cv=kf, n_jobs=-1)
```
- **Cos'è**: Viene calcolato anche il punteggio **R² (coefficiente di determinazione)** tramite la stessa funzione `cross_val_score`, ma con `scoring='r2'`. Questo punteggio misura quanto bene il modello spiega la varianza dei dati di output.

#### 5. **Memorizzazione dei Risultati per Ogni Modello**
```python
cv_results[name] = {
    'MSE': mse_scores,
    'RMSE': np.sqrt(mse_scores),
    'R2': r2_scores
}
```
- **Cos'è**: I risultati di MSE, RMSE (che è la radice quadrata di MSE) e R² per ogni modello vengono memorizzati nel dizionario `cv_results`. Ogni modello avrà un proprio sotto-dizionario contenente queste metriche.

#### 6. **Visualizzazione dei Risultati**
```python
plt.figure(figsize=(14, 6))
```
- **Cos'è**: Crea una figura per il grafico con una dimensione di 14x6 pollici, che è abbastanza grande per visualizzare chiaramente i risultati.

#### 7. **Grafico RMSE**
```python
plt.subplot(1, 2, 1)
rmse_means = [cv_results[model]['RMSE'].mean() for model in models.keys()]
rmse_stds = [cv_results[model]['RMSE'].std() for model in models.keys()]
plt.bar(models.keys(), rmse_means, yerr=rmse_stds, capsize=10, alpha=0.7)
plt.title('Cross-Validation RMSE by Model')
plt.ylabel('RMSE')
plt.xticks(rotation=45)
```
- **Cos'è**: Crea il primo grafico (un **bar plot**) per visualizzare il **RMSE medio** per ciascun modello. `rmse_means` calcola la media dei valori RMSE per ogni modello, mentre `rmse_stds` calcola la deviazione standard. Vengono anche mostrati gli **errori standard** (come barre verticali) utilizzando `yerr=rmse_stds`.
- `capsize=10` aggiunge dei "caps" alle estremità delle barre di errore, mentre `alpha=0.7` imposta la trasparenza delle barre.
- `plt.xticks(rotation=45)` ruota le etichette sull'asse x per renderle leggibili.

#### 8. **Grafico R²**
```python
plt.subplot(1, 2, 2)
r2_means = [cv_results[model]['R2'].mean() for model in models.keys()]
r2_stds = [cv_results[model]['R2'].std() for model in models.keys()]
plt.bar(models.keys(), r2_means, yerr=r2_stds, capsize=10, alpha=0.7)
plt.title('Cross-Validation R² by Model')
plt.ylabel('R² Score')
plt.xticks(rotation=45)
```
- **Cos'è**: Crea il secondo grafico (un **bar plot**) per visualizzare la **media del punteggio R²** per ciascun modello. Vengono anche mostrati gli errori standard, come nel grafico RMSE.

#### 9. **Ottimizzazione del Layout e Visualizzazione**
```python
plt.tight_layout()
plt.show()
```
- **Cos'è**: `tight_layout()` ottimizza la disposizione dei grafici, evitando che le etichette e i titoli si sovrappongano. `plt.show()` visualizza effettivamente il grafico.

### **Interpretazione dei Risultati**
Ogni modello sarà valutato utilizzando la **K-fold cross-validation**:
- **MSE (Mean Squared Error)**: Una metrica di errore che penalizza gli errori più grandi in modo quadratico.
- **RMSE (Root Mean Squared Error)**: La radice quadrata del MSE, che ha le stesse unità della variabile target, rendendola più interpretativa.
- **R² (Coefficiente di determinazione)**: Misura la proporzione della varianza spiegata dal modello. Un valore vicino a 1 indica che il modello spiega bene la variabilità dei dati, mentre un valore vicino a 0 indica che il modello non spiega la varianza dei dati.

### **Conclusione**
Questa procedura di **K-Fold Cross-Validation** consente di ottenere una stima più robusta delle prestazioni di un modello, particolarmente utile quando si lavora con piccoli dataset. La visualizzazione aiuta a confrontare l'efficacia dei vari modelli rispetto alle diverse metriche.

L'immagine confronta le prestazioni di tre modelli di machine learning — **Linear Regression**, **Random Forest** e **Decision Tree** — utilizzando due metriche fondamentali: **RMSE (Root Mean Squared Error)** e **R² (coefficiente di determinazione)**.

### Analisi dei grafici:
#### **Grafico di sinistra: RMSE (Root Mean Squared Error)**
- **Linear Regression**: Mostra il valore **più basso** di RMSE, circa 20. Questo indica che è il modello più accurato in termini di errori medi rispetto ai dati reali.
- **Random Forest**: Ha un RMSE maggiore, attorno a 70. Questo suggerisce una minore accuratezza rispetto alla regressione lineare.
- **Decision Tree**: Presenta l'**RMSE più alto**, circa 120, indicando che è il modello meno preciso.

#### **Grafico di destra: R² (coefficiente di determinazione)**
- **Linear Regression**: Ottiene il valore più alto di R², vicino a **1.0**, il che significa che spiega quasi perfettamente la variazione nei dati.
- **Random Forest**: Ha un valore di R² più basso, circa **0.85**, dimostrando una discreta capacità di adattarsi ai dati ma inferiore alla regressione lineare.
- **Decision Tree**: Ottiene il punteggio R² più basso, circa **0.6**, evidenziando una scarsa capacità di spiegare i dati in modo coerente.

### Interpretazione:
1. **Linear Regression**: 
   - Il miglior modello in termini di accuratezza generale. Ha il RMSE più basso e il R² più alto, risultando ideale se la relazione tra le variabili è lineare.
   
2. **Random Forest**:
   - Offre prestazioni accettabili, ma meno efficaci rispetto alla regressione lineare. Potrebbe essere preferito in situazioni con relazioni più complesse tra i dati.

3. **Decision Tree**:
   - Mostra le peggiori prestazioni tra i tre modelli, con un RMSE elevato e un R² basso. Questo indica problemi di generalizzazione o sovra-adattamento ai dati di training.

### Conclusione:
**Linear Regression** risulta essere la scelta migliore in termini di errore minimo e capacità predittiva, mentre **Random Forest** potrebbe essere utile per scenari meno lineari. **Decision Tree**, invece, è il meno indicato, con risultati significativamente peggiori. 

Questa sezione esplora **tecniche di validazione avanzate** che possono essere utilizzate in situazioni particolari. Ogni tecnica ha dei vantaggi specifici, a seconda della natura dei dati e delle esigenze del modello.

### **1. Stratified K-Fold**
```python
Stratified K-Fold: Ensures that each fold has approximately the same proportion of each target value. More commonly used for classification but can be adapted for regression by binning the target values.
```
- **Cos'è**: La **Stratified K-Fold** è una variazione della K-fold cross-validation che assicura che ogni "fold" (suddivisione) del dataset contenga la stessa proporzione di ciascun valore del target (variabile di output). 
  - **In classificazione**: Questa tecnica è particolarmente utile quando si ha un dataset sbilanciato, cioè quando alcune classi sono molto più numerose di altre. Ad esempio, se nel dataset ci sono 90% di campioni della classe A e 10% della classe B, una suddivisione casuale potrebbe far sì che alcuni fold non abbiano abbastanza campioni della classe B per una valutazione corretta. Con lo **Stratified K-Fold**, la proporzione delle classi in ciascun fold rimane simile a quella del dataset originale.
  - **In regressione**: Anche se originariamente progettata per la classificazione, questa tecnica può essere adattata alla regressione attraverso un processo chiamato **binning**, che consiste nel raggruppare i valori continui del target in intervalli (ad esempio, creare bin di valori per la variabile target).
  
### **2. Time Series Cross-Validation**
```python
Time Series Cross-Validation: For time-dependent data, where future samples shouldn't be used to predict past observations.
```
- **Cos'è**: La **Time Series Cross-Validation** è una tecnica specifica per i dati **temporalmente dipendenti**, come i dati di serie storiche. Nei dati di questo tipo, è fondamentale rispettare l'ordine cronologico, evitando che le informazioni future vengano utilizzate per predire eventi passati. 
  - **Funzionamento**: In pratica, i dati vengono suddivisi in diversi blocchi temporali (folds), ma anziché fare un'estrazione casuale come nella K-fold tradizionale, i fold vengono costruiti in modo tale che, per ogni iterazione, il modello venga allenato su un periodo di tempo precedente e validato su un periodo successivo. Ad esempio, se il dataset copre il periodo 2010-2020, la cross-validation può allenare il modello sui dati dal 2010 al 2015 e validarlo sui dati dal 2016 al 2020, e così via, spostando la finestra temporale ad ogni iterazione.

### **3. Leave-One-Out Cross-Validation (LOOCV)**
```python
Leave-One-Out Cross-Validation (LOOCV): A special case of k-fold where k equals the number of samples. Computationally expensive but useful for very small datasets.
```
- **Cos'è**: La **Leave-One-Out Cross-Validation** (LOOCV) è un caso speciale della K-fold cross-validation in cui **k** è uguale al numero di campioni nel dataset. 
  - **Funzionamento**: In altre parole, per ogni iterazione, il modello è addestrato utilizzando tutti i dati tranne uno, e il campione rimanente viene usato come set di validazione. Questo processo viene ripetuto per ogni campione del dataset. Se ci sono 100 campioni, il modello sarà allenato 100 volte, ogni volta su 99 campioni e testato su 1 campione.
  - **Vantaggio**: È particolarmente utile per **dataset molto piccoli**, in cui ogni singolo campione è importante e il numero di dati disponibili è limitato.
  - **Svantaggio**: È **computazionalmente costoso**, perché richiede di addestrare il modello un numero di volte pari al numero di campioni nel dataset, il che può essere molto dispendioso in termini di tempo per dataset grandi.

### **4. Nested Cross-Validation**
```python
Nested Cross-Validation: Uses an outer loop for performance estimation and an inner loop for hyperparameter tuning. Provides an unbiased estimate of the model's performance, especially when hyperparameter tuning is involved.
```
- **Cos'è**: La **Nested Cross-Validation** è una tecnica che utilizza due cicli di cross-validation: uno esterno e uno interno.
  - **Ciclo esterno (outer loop)**: In questo ciclo, viene utilizzato un set di dati di validazione per valutare le prestazioni del modello, proprio come nella cross-validation tradizionale.
  - **Ciclo interno (inner loop)**: All'interno di ogni iterazione del ciclo esterno, un ciclo interno viene utilizzato per **ottimizzare gli iperparametri** del modello. In altre parole, all'interno del ciclo esterno, si esegue un'altra cross-validation sui dati di addestramento per trovare i migliori iperparametri.
  - **Vantaggio**: Questo approccio è particolarmente utile quando si fa **iperparametro tuning** (ad esempio, scegliere i migliori parametri di un modello come il numero di alberi in una foresta casuale). Il vantaggio è che fornisce una stima **non distorta** delle prestazioni del modello, evitando il rischio di **overfitting** che potrebbe verificarsi se i dati di test venissero usati per ottimizzare gli iperparametri.
  - **Funzionamento**: Questo tipo di validazione è più costoso in termini di tempo computazionale rispetto alla semplice cross-validation, poiché richiede di eseguire più cicli di cross-validation per la ricerca degli iperparametri.

### **Sintesi delle Tecniche**
Ogni tecnica di validazione è pensata per risolvere specifici problemi che si possono verificare durante l'addestramento e la validazione dei modelli:

- **Stratified K-Fold**: Utile per dataset sbilanciati o con classi rare.
- **Time Series Cross-Validation**: Fondamentale per i dati temporali, dove l'ordine cronologico è cruciale.
- **LOOCV**: Ideale per dataset molto piccoli, ma dispendioso in termini di calcolo.
- **Nested Cross-Validation**: Essenziale quando c'è bisogno di una stima non distorta delle prestazioni del modello, specialmente quando si eseguono ottimizzazioni degli iperparametri.

Ogni tecnica ha i suoi pro e contro, e la scelta di quale utilizzare dipende dal tipo di dati e dal problema specifico che si sta cercando di risolvere.

STOP 07-03

CONTINUE 10-03

 **learning curves** (curve di apprendimento) 

---

## **Che cosa sono le Learning Curves?**
Le learning curves sono uno strumento utilizzato per analizzare le prestazioni di un modello di machine learning man mano che aumenta la quantità di dati di addestramento. Queste curve mostrano:
1. **Training Score (accuratezza sul set di addestramento):** Quanto bene il modello si adatta ai dati di addestramento.
2. **Cross-validation Score (accuratezza su dati di test o validazione incrociata):** Quanto bene il modello generalizza su nuovi dati non visti durante l’addestramento.

### **Perché sono utili?**
- **Rilevare underfitting o overfitting:** 
  - **Underfitting:** Quando il modello non è sufficientemente complesso e non riesce ad adattarsi ai dati.
  - **Overfitting:** Quando il modello si adatta troppo ai dettagli del training set, perdendo capacità di generalizzazione.
- **Capire l'impatto dei dati:** Permettono di valutare se aggiungere più dati di addestramento potrebbe migliorare le prestazioni del modello.

---

## **Passo 1: Caricamento dei dati**
```python
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris

dt = DecisionTreeClassifier(random_state=42)
X, y = load_iris(return_X_y=True)
```
1. **Dataset Iris:** È un dataset incorporato in scikit-learn usato per problemi di classificazione. Contiene tre classi (specie di fiori) e 150 campioni con 4 feature (es. lunghezza del petalo, larghezza del sepalo).
2. **DecisionTreeClassifier:** Un modello di classificazione basato su alberi decisionali.
3. `random_state=42`: Garantisce la riproducibilità del modello, generando sempre lo stesso risultato.

---

## **Passo 2: Calcolo delle Learning Curves**
```python
from sklearn.model_selection import learning_curve
import numpy as np

train_sizes, train_scores, test_scores = learning_curve(
    dt, X, y, cv=5, train_sizes=np.linspace(0.1, 1.0, 10)
)
```

### **Spiegazione dei parametri:**
- **`learning_curve`**: Funzione di scikit-learn che calcola le performance di un modello al variare della dimensione del training set.
  - `dt`: Il modello (DecisionTreeClassifier).
  - `X, y`: Dati di input e target.
  - `cv=5`: Usa una validazione incrociata con 5 suddivisioni.
  - `train_sizes=np.linspace(0.1, 1.0, 10)`: Crea 10 diverse dimensioni per il set di addestramento, da 10% al 100% dei dati totali.
  
### **Risultati Restituiti:**
1. **`train_sizes`:** Le dimensioni effettive dei training set usati in ogni step.
2. **`train_scores`:** Accuratezze ottenute sul training set per ogni dimensione.
3. **`test_scores`:** Accuratezze ottenute durante la validazione incrociata.

---

## **Passo 3: Analisi Statistica**
```python
train_mean = np.mean(train_scores, axis=1)
train_std = np.std(train_scores, axis=1)
test_mean = np.mean(test_scores, axis=1)
test_std = np.std(test_scores, axis=1)
```
Per ogni dimensione del set di addestramento:
1. **`train_mean` e `test_mean`:** Calcolano le medie degli score per ogni step della learning curve.
2. **`train_std` e `test_std`:** Calcolano la deviazione standard degli score, per indicare la variabilità nelle prestazioni.

---

## **Passo 4: Visualizzazione delle Learning Curves**
```python
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
plt.title('Learning Curves')
plt.plot(train_sizes, train_mean, label='Training Score')
plt.plot(train_sizes, test_mean, label='Cross-validation Score')
plt.fill_between(train_sizes, train_mean - train_std, train_mean + train_std, alpha=0.1)
plt.fill_between(train_sizes, test_mean - test_std, test_mean + test_std, alpha=0.1)
plt.xlabel('Training Set Size')
plt.ylabel('Accuracy Score')
plt.legend()
plt.show()
```

### **Cosa fa questo codice:**
1. **Grafico delle curve:**
   - `plt.plot(train_sizes, train_mean, label='Training Score')`: Traccia la curva dell'accuratezza sul training set.
   - `plt.plot(train_sizes, test_mean, label='Cross-validation Score')`: Traccia la curva dell'accuratezza in validazione.

2. **Aree di incertezza (ombrate):**
   - `plt.fill_between`: Riempie l'area attorno a ogni curva (medie ± deviazioni standard) per mostrare la variabilità delle prestazioni.

3. **Etichette:**
   - `plt.xlabel` e `plt.ylabel`: Definiscono gli assi (dimensione del training set e accuratezza).
   - `plt.legend`: Aggiunge la legenda per distinguere le due curve.

---

## **Come interpretare le Learning Curves**
- **Curva di Training (Training Score):** Mostra quanto bene il modello si adatta ai dati di addestramento. Una curva piatta e alta (vicina a 1) indica che il modello si adatta perfettamente ai dati di training.
- **Curva di Validazione (Cross-validation Score):** Indica quanto bene il modello generalizza su dati non visti. Una curva stabile vicino al valore massimo indica un buon modello generalizzante.

### **Esempi pratici:**
1. **Overfitting:**
   - La curva di training è alta (vicino a 1.0).
   - La curva di validazione è bassa, con un ampio gap tra le due.
   - Soluzione: Ridurre la complessità del modello (es. limitare la profondità dell’albero decisionale).

2. **Underfitting:**
   - Entrambe le curve (training e validazione) sono basse.
   - Soluzione: Aumentare la complessità del modello o aggiungere più feature.

3. **Buon Modello:**
   - La curva di training e quella di validazione convergono a un punteggio elevato.

---

## **Considerazioni Finali**
Grazie a questa procedura, puoi:
- Diagnosticare problemi di overfitting e underfitting.
- Valutare se aumentare i dati di addestramento migliorerà le prestazioni del modello.
- Determinare se il modello è sufficientemente complesso per il problema.

Fammi sapere se desideri un'ulteriore spiegazione o esempi su specifiche situazioni!

#

---

## **4.1 Grid Search Cross-Validation**

**Cos'è il Grid Search?**
Il Grid Search è una tecnica per trovare i parametri ottimali per un modello testando sistematicamente tutte le combinazioni di parametri definiti in una griglia. Usa la validazione incrociata per valutare ogni combinazione, scegliendo infine quella che massimizza una metrica (ad esempio, l'accuratezza).

### **Passaggi chiave nel codice:**
1. **Importazione delle librerie e caricamento del dataset.**
   ```python
   from sklearn.model_selection import GridSearchCV
   from sklearn.svm import SVC

   # Load dataset
   X, y = load_iris(return_X_y=True)
   ```
   - Usiamo il dataset **Iris**, che contiene 150 esempi, 3 classi e 4 feature.
   - Il modello selezionato è **SVC** (Support Vector Classifier).

2. **Definizione della griglia di parametri.**
   ```python
   param_grid = {
       'C': [0.1, 1, 10],
       'kernel': ['linear', 'rbf'],
       'gamma': ['scale', 'auto']
   }
   ```
   - `C`: Controlla la forza di regolarizzazione (valori più alti riducono l'overfitting).
   - `kernel`: Specifica il tipo di kernel (lineare o RBF).
   - `gamma`: Parametro del kernel RBF; controlla l'influenza di un singolo esempio di addestramento.

3. **Esecuzione del Grid Search.**
   ```python
   grid_search = GridSearchCV(
       SVC(), param_grid, cv=5, 
       scoring='accuracy', n_jobs=-1
   )
   grid_search.fit(X, y)
   ```
   - `cv=5`: Suddivide i dati in 5 fold per validazione incrociata.
   - `scoring='accuracy'`: Valuta le combinazioni di parametri in base all'accuratezza.
   - `n_jobs=-1`: Usa tutti i core disponibili per velocizzare il calcolo.

4. **Risultati.**
   ```python
   print("Best Parameters:", grid_search.best_params_)
   print("Best Cross-validation Score:", grid_search.best_score_)
   ```
   - Stampa i migliori parametri trovati e l'accuratezza corrispondente.

---

## **4.2 Definire una suite di modelli per il confronto**

**Perché confrontare modelli diversi?**
Ogni modello ha punti di forza e debolezze. Confrontare più modelli ci consente di identificare quello più adatto al nostro problema e ai nostri dati.

### **Passaggi chiave nel codice:**
1. **Definizione dei modelli.**
   ```python
   from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
   from sklearn.tree import DecisionTreeRegressor
   from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
   from sklearn.svm import SVR
   from sklearn.neighbors import KNeighborsRegressor

   models = {
       'Linear Regression': LinearRegression(),
       'Ridge Regression': Ridge(),
       'Lasso Regression': Lasso(),
       'ElasticNet': ElasticNet(),
       'Decision Tree': DecisionTreeRegressor(),
       'Random Forest': RandomForestRegressor(),
       'Gradient Boosting': GradientBoostingRegressor(),
       'SVR': SVR(),
       'KNN': KNeighborsRegressor()
   }
   ```
   - Ogni modello ha caratteristiche uniche:
     - **Linear Regression**: Modello base per relazioni lineari.
     - **Ridge, Lasso, ElasticNet**: Varianti della regressione lineare con regolarizzazione.
     - **Decision Tree**: Modello interpretabile per dati non lineari.
     - **Random Forest, Gradient Boosting**: Ensemble di alberi decisionali.
     - **SVR**: Support Vector Regressor per relazioni complesse.
     - **KNN**: Modello basato sulla distanza tra i punti dati.

2. **Conteggio dei modelli.**
   ```python
   print(f"Number of models to compare: {len(models)}")
   ```

---

## **4.3 Creare una funzione di valutazione del modello**

**Perché è importante?**
Una funzione standard consente di valutare ogni modello utilizzando metriche consistenti, semplificando il confronto.

### **Passaggi chiave:**
1. **Definizione della funzione.**
   ```python
   def evaluate_model(model, X, y, cv=5):
       kf = KFold(n_splits=cv, shuffle=True, random_state=42)
       neg_mse_scores = cross_val_score(model, X, y, cv=kf, scoring='neg_mean_squared_error')
       r2_scores = cross_val_score(model, X, y, cv=kf, scoring='r2')
       mae_scores = cross_val_score(model, X, y, cv=kf, scoring='neg_mean_absolute_error')
       ev_scores = cross_val_score(model, X, y, cv=kf, scoring='explained_variance')

       mse_scores = -neg_mse_scores
       rmse_scores = np.sqrt(mse_scores)
       mae_scores = -mae_scores

       results = {
           'RMSE': {'mean': rmse_scores.mean(), 'std': rmse_scores.std()},
           'MAE': {'mean': mae_scores.mean(), 'std': mae_scores.std()},
           'R²': {'mean': r2_scores.mean(), 'std': r2_scores.std()},
           'Explained Variance': {'mean': ev_scores.mean(), 'std': ev_scores.std()}
       }
       return results
   ```
   - **KFold:** Divide il dataset in più fold per garantire valutazioni consistenti.
   - **Metriche calcolate:**
     - RMSE: Radice dell'errore quadratico medio.
     - MAE: Errore assoluto medio.
     - R²: Coefficiente di determinazione (adattamento del modello).
     - Explained Variance: Percentuale di varianza spiegata dal modello.

---

## **4.4 Valutare tutti i modelli**

**Passaggi chiave:**
1. **Ciclo sui modelli.**
   ```python
   all_results = {}

   for name, model in models.items():
       print(f"Evaluating {name}...")
       pipeline = Pipeline([
           ('scaler', StandardScaler()),
           ('model', model)
       ])
       all_results[name] = evaluate_model(pipeline, X_train, y_train, cv=5)
   print("\nEvaluation complete!")
   ```
   - **Pipeline:** Applica uno scaler (standardizzazione dei dati) prima di addestrare ogni modello.
   - **Evaluate_model:** Usa la funzione per calcolare tutte le metriche.
   - **all_results:** Memorizza i risultati per ogni modello.

2. **Risultati.**
   ```python
   Evaluating Linear Regression...
   Evaluating Ridge Regression...
   ...
   Evaluation complete!
   ```
   - Questo fornisce un confronto diretto tra i modelli.

---

## **Conclusione**

Questa strategia di selezione del modello:
1. Trova i migliori parametri tramite Grid Search.
2. Confronta più modelli usando cross-validation e metriche standard.
3. Standardizza la valutazione con una funzione robusta.

Se desideri approfondire una specifica metrica o modello, fammi sapere!

### Lezione Dettagliata: Confronto dei Modelli Utilizzando Metriche Multiple

In questa parte, impariamo a **confrontare modelli di machine learning** utilizzando diverse metriche di valutazione. Creeremo visualizzazioni che consentono un confronto chiaro e tabelle riassuntive per analizzare i risultati.

---

## **1. Obiettivo del Confronto**

Confrontare le prestazioni dei modelli ci aiuta a:
- Identificare quale modello è il più adatto al problema.
- Valutare i modelli in base a **metriche chiave** (ad esempio, errore, accuratezza o varianza spiegata).
- Scegliere il miglior compromesso tra prestazioni e complessità.

Le metriche utilizzate per i modelli di regressione sono:
- **RMSE (Root Mean Squared Error):** Valuta l'entità degli errori. Più basso è, meglio è.
- **MAE (Mean Absolute Error):** Simile al RMSE, ma misura l'errore medio assoluto.
- **R² (Coefficient of Determination):** Misura quanto bene il modello spiega la varianza. Più alto è, meglio è.
- **Explained Variance:** Percentuale di varianza spiegata dal modello.

---

## **2. Creazione della Funzione per il Confronto**

### **a. Funzione per il grafico del confronto**

La funzione `plot_model_comparison` crea un grafico a barre che confronta i modelli in base a una metrica specifica.

```python
def plot_model_comparison(results, metric):
    """
    Crea un grafico a barre per confrontare i modelli su una specifica metrica.
    
    Parametri:
    -----------
    results : dict
        Dizionario che contiene i risultati di valutazione di tutti i modelli.
    metric : str
        La metrica da plottare ('RMSE', 'MAE', 'R²', 'Explained Variance').
    """
    # Estrazione dei valori medi e deviazioni standard
    means = [results[model][metric]['mean'] for model in results]
    stds = [results[model][metric]['std'] for model in results]
    model_names = list(results.keys())
    
    # Ordinamento (dal migliore al peggiore)
    if metric in ['RMSE', 'MAE']:
        sorted_indices = np.argsort(means)  # Più basso è meglio
        title_text = f"Confronto Modelli per {metric} (Minore è Meglio)"
    else:
        sorted_indices = np.argsort(means)[::-1]  # Più alto è meglio
        title_text = f"Confronto Modelli per {metric} (Maggiore è Meglio)"
    
    # Ordinamento dei modelli e metriche
    sorted_means = [means[i] for i in sorted_indices]
    sorted_stds = [stds[i] for i in sorted_indices]
    sorted_names = [model_names[i] for i in sorted_indices]
    
    # Creazione del grafico a barre
    plt.figure(figsize=(12, 8))
    bars = plt.bar(sorted_names, sorted_means, yerr=sorted_stds, capsize=10,
                  color='skyblue', edgecolor='black', alpha=0.7)
    
    # Aggiunta delle etichette e titolo
    plt.xlabel('Modello')
    plt.ylabel(metric)
    plt.title(title_text)
    plt.xticks(rotation=45, ha='right')
    
    # Valori sopra le barre
    for bar, value in zip(bars, sorted_means):
        plt.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 0.02 * max(sorted_means),
                f'{value:.3f}', ha='center', va='bottom', fontsize=10)
    
    plt.tight_layout()
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.show()
```

### **Cosa fa questa funzione?**
1. **Estrazione dei dati:** Raccoglie le medie e le deviazioni standard per una specifica metrica.
2. **Ordinamento:** Ordina i modelli in base ai valori della metrica (ad esempio, RMSE in ordine crescente).
3. **Grafico a barre:** Mostra un grafico con le barre ordinate, includendo errori standard (con `yerr`).
4. **Titoli e annotazioni:** Aggiunge etichette e i valori delle metriche sopra le barre.

---

### **b. Funzione per creare una tabella riassuntiva**

La funzione `create_comparison_table` crea una tabella che riepiloga le prestazioni di tutti i modelli utilizzando le metriche definite.

```python
def create_comparison_table(results):
    """
    Crea una tabella riepilogativa con le performance dei modelli.
    
    Parametri:
    -----------
    results : dict
        Dizionario con i risultati di valutazione per tutti i modelli.
        
    Ritorna:
    --------
    DataFrame : Tabella riepilogativa delle performance dei modelli.
    """
    # Inizializzazione delle liste per i dati
    models = []
    rmse_means = []
    rmse_stds = []
    mae_means = []
    mae_stds = []
    r2_means = []
    r2_stds = []
    ev_means = []
    ev_stds = []
    
    # Estrazione dei dati dai risultati
    for model_name, model_results in results.items():
        models.append(model_name)
        rmse_means.append(model_results['RMSE']['mean'])
        rmse_stds.append(model_results['RMSE']['std'])
        mae_means.append(model_results['MAE']['mean'])
        mae_stds.append(model_results['MAE']['std'])
        r2_means.append(model_results['R²']['mean'])
        r2_stds.append(model_results['R²']['std'])
        ev_means.append(model_results['Explained Variance']['mean'])
        ev_stds.append(model_results['Explained Variance']['std'])
    
    # Creazione del DataFrame
    df = pd.DataFrame({
        'Model': models,
        'RMSE (mean)': rmse_means,
        'RMSE (std)': rmse_stds,
        'MAE (mean)': mae_means,
        'MAE (std)': mae_stds,
        'R² (mean)': r2_means,
        'R² (std)': r2_stds,
        'Explained Variance (mean)': ev_means,
        'Explained Variance (std)': ev_stds
    })
    
    # Formattazione del DataFrame
    for col in df.columns:
        if '(mean)' in col or '(std)' in col:
            df[col] = df[col].round(4)
    
    return df
```

### **Cosa fa questa funzione?**
1. **Estrae i risultati:** Recupera le metriche per ogni modello.
2. **Crea un DataFrame:** Organizza le informazioni in formato tabellare per facilitare l'analisi.
3. **Formattazione:** Arrotonda i numeri a 4 decimali per una presentazione più leggibile.

---

## **3. Confronto Completo dei Modelli**

1. **Visualizzare i grafici per ogni metrica.**
   ```python
   for metric in ['RMSE', 'MAE', 'R²', 'Explained Variance']:
       plot_model_comparison(all_results, metric)
   ```

2. **Creare e ordinare la tabella riassuntiva.**
   ```python
   comparison_table = create_comparison_table(all_results)
   comparison_table.sort_values(by='RMSE (mean)')
   ```

---

## **Conclusione**

Grazie a queste funzioni, possiamo confrontare facilmente le prestazioni dei modelli:
- **Grafico a barre:** Confronto visivo per singola metrica.
- **Tabella riassuntiva:** Analisi dettagliata di tutte le metriche.

Questo approccio strutturato aiuta a identificare il miglior modello per il problema specifico. Se hai bisogno di ulteriori chiarimenti o implementazioni, fammi sapere!

## 

### **Obiettivo di questa fase**
Quando si confrontano modelli di machine learning, è utile analizzare le loro prestazioni su più metriche (ad esempio, **RMSE**, **MAE**, **R²**, e **Explained Variance**). Tuttavia, ogni metrica può avere importanza diversa a seconda del contesto. L'obiettivo di questa sezione è:
- **Classificare i modelli** basandosi su un punteggio composito.
- Considerare più metriche con pesi personalizzabili.
- Normalizzare le metriche per confrontarle correttamente.

---

## **1. Comprendere il Punteggio Composito**

Un **punteggio composito** combina i risultati di più metriche:
1. **Normalizzazione dei valori delle metriche:** Le metriche sono scalate su un intervallo da 0 a 1, dove 1 rappresenta il risultato migliore.
   - Per metriche come **RMSE** e **MAE**, valori più bassi indicano prestazioni migliori.
   - Per metriche come **R²** e **Explained Variance**, valori più alti sono migliori.
2. **Assegnazione dei pesi:** I pesi definiscono l'importanza di ciascuna metrica.
   - Ad esempio, possiamo dare un peso maggiore a **R²** se ci interessa più la varianza spiegata.
3. **Calcolo del punteggio totale:** Il punteggio totale è una media ponderata dei punteggi normalizzati.

---

## **2. Spiegazione del Codice**

### **a. Funzione `rank_models`**

La funzione implementa il processo descritto sopra. Ecco i passaggi principali:

```python
def rank_models(results, weights=None):
    """
    Classifica i modelli basandosi su più metriche con pesi opzionali.
    """
    # Definizione dei pesi predefiniti (uguale importanza per ogni metrica)
    if weights is None:
        weights = {'RMSE': 0.25, 'MAE': 0.25, 'R²': 0.25, 'Explained Variance': 0.25}
    
    # Controllo che la somma dei pesi sia 1
    weight_sum = sum(weights.values())
    if abs(weight_sum - 1.0) > 1e-10:  # Per evitare errori di precisione floating-point
        raise ValueError(f"I pesi devono sommare a 1, ma attualmente sommano {weight_sum}")
```

1. **Definizione dei Pesi Predefiniti:** Se non sono forniti pesi, ogni metrica riceve un peso uguale (0.25).
2. **Validazione dei Pesi:** Controlla che la somma dei pesi sia esattamente 1.

---

### **b. Normalizzazione delle Metriche**
Le metriche sono normalizzate su una scala da 0 a 1:
- Per metriche come RMSE e MAE (valori più bassi sono migliori):
  ```python
  normalized = [1 - (val - min_val) / (max_val - min_val) for val in metric_values]
  ```
- Per metriche come R² e Explained Variance (valori più alti sono migliori):
  ```python
  normalized = [(val - min_val) / (max_val - min_val) for val in metric_values]
  ```

Ecco un esempio:
```python
# Normalizzazione delle metriche
if metric in ['RMSE', 'MAE']:  # Metriche dove valori più bassi sono migliori
    min_val = min(metric_values)
    max_val = max(metric_values)
    if max_val == min_val:
        normalized = [1.0 for _ in metric_values]  # Evita la divisione per 0
else:  # Metriche dove valori più alti sono migliori
    normalized = [(val - min_val) / (max_val - min_val) for val in metric_values]
```

---

### **c. Calcolo del Punteggio Composito**
Ogni modello riceve un punteggio calcolato come media ponderata delle metriche normalizzate.

```python
# Aggiungi il punteggio ponderato normalizzato a ciascun modello
for i, model in enumerate(model_names):
    normalized_scores[model] += weight * normalized[i]
```

---

### **d. Creazione del DataFrame Ordinato**
I risultati sono organizzati in un `DataFrame`, ordinati per punteggio composito in ordine decrescente.

```python
rank_df = pd.DataFrame({
    'Model': model_names,
    'Composite Score': [normalized_scores[model] for model in model_names]
})
rank_df = rank_df.sort_values('Composite Score', ascending=False).reset_index(drop=True)
```

---

## **3. Applicazione della Funzione**
La funzione è chiamata sui risultati di valutazione dei modelli. Ecco come appare l'output:

```python
# Classifica i modelli con pesi predefiniti
default_ranking = rank_models(all_results)
print("Classifica dei modelli con pesi uguali:")
display(default_ranking)
```

---

## **4. Interpretazione del Risultato**

### Tabella dei Risultati
| **Rank** | **Model**              | **Composite Score** |
|----------|-------------------------|----------------------|
| 1        | Random Forest          | 1.000               |
| 2        | SVR                    | 0.964               |
| 3        | Gradient Boosting      | 0.956               |
| 4        | Decision Tree          | 0.950               |
| 5        | KNN                    | 0.887               |
| 6        | Lasso Regression       | 0.113               |
| 7        | ElasticNet             | 0.113               |
| 8        | Ridge Regression       | 0.006               |
| 9        | Linear Regression      | 0.000               |

### Analisi
1. **Modelli Migliori:** `Random Forest`, `SVR`, e `Gradient Boosting` si distinguono con punteggi compositi molto alti.
2. **Modelli Peggiori:** `Linear Regression` e `Ridge Regression` ottengono risultati bassi a causa delle loro limitate capacità su dataset non lineari o complessi.
3. **Distribuzione Equa:** I pesi sono distribuiti equamente tra le metriche; tuttavia, cambiando i pesi, è possibile influenzare la classifica.

---

## **5. Personalizzazione dei Pesi**

Possiamo modificare i pesi per dare maggiore importanza a metriche specifiche:
```python
custom_weights = {'RMSE': 0.4, 'MAE': 0.3, 'R²': 0.2, 'Explained Variance': 0.1}
custom_ranking = rank_models(all_results, weights=custom_weights)
print("Classifica dei modelli con pesi personalizzati:")
display(custom_ranking)
```

---

## **Conclusione**
Questa tecnica fornisce un approccio strutturato per classificare i modelli utilizzando:
1. **Metriche multiple:** Include sia metriche di errore che di spiegazione della varianza.
2. **Pesi personalizzati:** Permette di enfatizzare alcune metriche a seconda dell'obiettivo.
3. **Punteggio composito:** Combina tutto in un valore unico, semplificando la comparazione.

Fammi sapere se desideri ulteriori esempi o approfondimenti!

### **Lezione dettagliata: Valutazione delle previsioni delle serie temporali**

Questa lezione offre una panoramica completa su come generare, analizzare e valutare previsioni di serie temporali utilizzando metriche appropriate e considera i dati campione visualizzati nel grafico allegato. Procediamo per sezioni.

---

### **1. Introduzione alla valutazione delle serie temporali**

Le serie temporali differiscono da altre applicazioni di machine learning per via della loro **dipendenza dal tempo**, che introduce sfide uniche. È cruciale scegliere le metriche di valutazione giuste, poiché queste influenzano:
- La **selezione del modello**.
- La **taratura dei parametri**.

#### **Domande chiave per la scelta delle metriche**
1. **Sensibilità alla scala:** La metrica è influenzata dall'ampiezza dei valori?
2. **Sensibilità agli outlier:** Come gestisce valori estremi?
3. **Valori piccoli o zero:** La metrica fallisce se i dati includono zero?
4. **Interpretabilità:** La metrica è comprensibile per i decisori aziendali?
5. **Direzionalità:** È più importante la direzione del valore (sovra o sottostima) rispetto alla magnitudine?
6. **Costi asimmetrici:** Gli errori di sovra-stima e sotto-stima hanno lo stesso impatto?

---

### **2. Configurazione dei dati di esempio**

Il codice genera dati sintetici per simulare una serie temporale reale con trend, stagionalità e rumore, e aggiunge diverse versioni di previsioni per confrontarle.

#### **Codice completo**
```python
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, mean_absolute_error
from statsmodels.tsa.api import ExponentialSmoothing, ARIMA
import warnings
warnings.filterwarnings('ignore')
```
- **`numpy`, `pandas` e `matplotlib.pyplot`**: Per manipolare i dati e creare grafici.
- **`sklearn.metrics`**: Fornisce metriche per calcolare l'errore delle previsioni.
- **`statsmodels.tsa.api`**: Contiene modelli comuni di serie temporali (non utilizzati in questo esempio ma disponibili per futuri approfondimenti).
- **`warnings.filterwarnings`**: Ignora avvisi durante l'analisi.

---

#### **Funzione `generate_sample_data`**
```python
def generate_sample_data(n=100, with_trend=True, with_seasonality=True, with_noise=True):
    ...
    return df
```
1. **Indice temporale (`time_idx`):** Genera 100 punti giornalieri partendo dal 1° gennaio 2023.
2. **Componenti della serie temporale:**
   - **Base (`base`):** Livello iniziale della serie (100).
   - **Trend (`trend`):** Crescita lineare in 100 giorni (se abilitata).
   - **Stagionalità (`seasonality`):** Oscillazione settimanale con ampiezza di 15.
   - **Rumore (`noise`):** Aggiunge variazioni casuali (media = 0, deviazione standard = 5).
3. **Previsioni sintetiche:**
   - **`forecast_good`:** Previsione accurata con aggiunta di piccoli errori.
   - **`forecast_biased`:** Previsione con bias (deviazione sistematica).
   - **`forecast_no_seasonality`:** Mancanza del componente stagionale.
   - **`forecast_scaled`:** Sovrastima sistematica (valori 20% più alti).
4. **Casi speciali:** Introduce valori di **zero** (giorni 10-15) e un **outlier** (giorno 20).

---

#### **Visualizzazione dei dati generati**

Il grafico allegato mostra:
- La serie temporale originale (**Actual**, linea nera).
- Diverse versioni di previsioni:
  - **Good Forecast (blu):** Segue fedelmente l'andamento reale.
  - **Biased Forecast (rosso):** Mostra un bias sistematico.
  - **No Seasonality (verde):** Non cattura il componente stagionale.
  - **Scaled Forecast (giallo):** Sovrastima sistematica.

```python
plt.figure(figsize=(14, 6))
plt.plot(data['ds'], data['actual'], 'k-', label='Actual')
plt.plot(data['ds'], data['forecast_good'], 'b-', alpha=0.7, label='Good Forecast')
plt.plot(data['ds'], data['forecast_biased'], 'r-', alpha=0.7, label='Biased Forecast')
plt.plot(data['ds'], data['forecast_no_seasonality'], 'g-', alpha=0.7, label='No Seasonality')
plt.plot(data['ds'], data['forecast_scaled'], 'y-', alpha=0.7, label='Scaled Forecast')
plt.xlabel('Date')
plt.ylabel('Value')
plt.title('Synthetic Time Series Data with Various Forecasts')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
```

### **Osservazioni dal grafico:**
1. La **linea nera** rappresenta i dati originali (con trend, stagionalità e rumore).
2. Le previsioni forniscono confronti visivi:
   - Alcune seguono l'andamento reale (Good Forecast).
   - Altre commettono errori evidenti (Biased Forecast, No Seasonality).

---

### **3. Implicazioni e prossimi passi**

**Obiettivo:**
Valutare quale previsione è la migliore utilizzando metriche specifiche. Nei passaggi successivi, analizzeremo come calcolare:
- **Errore medio assoluto (MAE):** Penalizza gli errori uniformemente.
- **Errore quadratico medio (MSE/RMSE):** Penalizza maggiormente gli errori grandi.
- **Mean Absolute Percentage Error (MAPE):** Calcola l'errore relativo alla magnitudine.
- **Symmetric Mean Absolute Percentage Error (sMAPE):** Versione più robusta rispetto al MAPE.



### **Lezione dettagliata: Metriche Dipendenti dalla Scala per la Valutazione delle Serie Temporali**

---

#### **Introduzione**
Le metriche **dipendenti dalla scala** sono tra le più semplici e comuni per valutare la qualità delle previsioni nelle serie temporali. Calcolano l'errore tra i valori previsti e quelli reali nella loro scala originale. Tuttavia, non possono essere usate per confrontare previsioni provenienti da serie con **scale o unità diverse**.

Queste metriche includono:
1. **MAE (Mean Absolute Error):** Misura l'errore assoluto medio.
2. **MSE (Mean Squared Error):** Penalizza gli errori grandi con il quadrato delle differenze.
3. **RMSE (Root Mean Squared Error):** Porta l'MSE alla stessa scala dei dati.

Andiamo rigo per rigo attraverso ogni metrica, il codice e i risultati ottenuti.

---

### **3.1 Mean Absolute Error (MAE)**

#### **Definizione**
La **MAE** rappresenta la media delle differenze assolute tra i valori previsti e quelli reali, calcolando la distanza media tra i due insiemi di valori.

**Formula:**
$$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$

Dove:
- $n$: numero totale di osservazioni.
- $y_i$: valore reale.
- $\hat{y}_i$: valore previsto.

#### **Codice**
Il seguente codice implementa la MAE:

```python
def calculate_mae(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred))
```

#### **Calcolo per ogni previsione**
Applichiamo la funzione a tutte le previsioni:

```python
mae_good = calculate_mae(data['actual'], data['forecast_good'])
mae_biased = calculate_mae(data['actual'], data['forecast_biased'])
mae_no_seasonality = calculate_mae(data['actual'], data['forecast_no_seasonality'])
mae_scaled = calculate_mae(data['actual'], data['forecast_scaled'])
```

#### **Output**
Stampiamo i risultati:

```python
print(f"MAE (Good Forecast): {mae_good:.2f}")
print(f"MAE (Biased Forecast): {mae_biased:.2f}")
print(f"MAE (No Seasonality): {mae_no_seasonality:.2f}")
print(f"MAE (Scaled Forecast): {mae_scaled:.2f}")
```

**Risultati:**
- **Good Forecast:** 15.80
- **Biased Forecast:** 21.63
- **No Seasonality:** 19.27
- **Scaled Forecast:** 31.33

#### **Osservazioni**
- La previsione "Good Forecast" ha il **valore più basso di MAE**, indicando che ha l'errore assoluto medio più ridotto.
- La previsione "Scaled Forecast" ha il valore più alto, mostrando errori significativi.

---

### **3.2 Mean Squared Error (MSE)**

#### **Definizione**
La **MSE** rappresenta la media dei quadrati delle differenze tra i valori reali e quelli previsti. Penalizza maggiormente gli errori grandi, rendendola particolarmente sensibile agli **outlier**.

**Formula:**
$$\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$$

#### **Codice**
Il codice per calcolare la MSE è:

```python
def calculate_mse(y_true, y_pred):
    return np.mean(np.square(y_true - y_pred))
```

#### **Calcolo per ogni previsione**
Applichiamo la funzione per calcolare la MSE:

```python
mse_good = calculate_mse(data['actual'], data['forecast_good'])
mse_biased = calculate_mse(data['actual'], data['forecast_biased'])
mse_no_seasonality = calculate_mse(data['actual'], data['forecast_no_seasonality'])
mse_scaled = calculate_mse(data['actual'], data['forecast_scaled'])
```

#### **Output**
Stampiamo i risultati:

```python
print(f"MSE (Good Forecast): {mse_good:.2f}")
print(f"MSE (Biased Forecast): {mse_biased:.2f}")
print(f"MSE (No Seasonality): {mse_no_seasonality:.2f}")
print(f"MSE (Scaled Forecast): {mse_scaled:.2f}")
```

**Risultati:**
- **Good Forecast:** 1510.39
- **Biased Forecast:** 1692.43
- **No Seasonality:** 1747.15
- **Scaled Forecast:** 2105.69

#### **Osservazioni**
- L'MSE evidenzia chiaramente l'impatto degli errori grandi, con valori più alti per previsioni meno accurate (es. "Scaled Forecast").
- Penalizza più severamente gli errori rispetto alla MAE.

---

### **3.3 Root Mean Squared Error (RMSE)**

#### **Definizione**
La **RMSE** è semplicemente la radice quadrata della MSE. Riporta l'errore alla scala originale dei dati, rendendolo più interpretabile rispetto alla MSE.

**Formula:**
$$\text{RMSE} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2}$$

#### **Codice**
Il codice per calcolare la RMSE è:

```python
def calculate_rmse(y_true, y_pred):
    return np.sqrt(calculate_mse(y_true, y_pred))
```

#### **Calcolo per ogni previsione**
Applichiamo la funzione per calcolare la RMSE:

```python
rmse_good = calculate_rmse(data['actual'], data['forecast_good'])
rmse_biased = calculate_rmse(data['actual'], data['forecast_biased'])
rmse_no_seasonality = calculate_rmse(data['actual'], data['forecast_no_seasonality'])
rmse_scaled = calculate_rmse(data['actual'], data['forecast_scaled'])
```

#### **Output**
Stampiamo i risultati:

```python
print(f"RMSE (Good Forecast): {rmse_good:.2f}")
print(f"RMSE (Biased Forecast): {rmse_biased:.2f}")
print(f"RMSE (No Seasonality): {rmse_no_seasonality:.2f}")
print(f"RMSE (Scaled Forecast): {rmse_scaled:.2f}")
```

**Risultati:**
- **Good Forecast:** 38.86
- **Biased Forecast:** 41.14
- **No Seasonality:** 41.80
- **Scaled Forecast:** 45.89

#### **Osservazioni**
La **Good Forecast** si conferma ancora come la più accurata, mentre la "Scaled Forecast" è la peggiore.

---

### **4. Confronto delle Metriche**

Raccogliamo tutte le metriche in una tabella per confrontarle:

```python
scale_dependent_metrics = pd.DataFrame({
    'Forecast Type': ['Good', 'Biased', 'No Seasonality', 'Scaled'],
    'MAE': [mae_good, mae_biased, mae_no_seasonality, mae_scaled],
    'MSE': [mse_good, mse_biased, mse_no_seasonality, mse_scaled],
    'RMSE': [rmse_good, rmse_biased, rmse_no_seasonality, rmse_scaled]
})

scale_dependent_metrics.set_index('Forecast Type', inplace=True)
scale_dependent_metrics
```

**Tabella dei Risultati:**

| **Forecast Type**   | **MAE**  | **MSE**      | **RMSE**   |
|----------------------|----------|--------------|------------|
| **Good**            | 15.80    | 1510.39      | 38.86      |
| **Biased**          | 21.63    | 1692.43      | 41.14      |
| **No Seasonality**  | 19.27    | 1747.15      | 41.80      |
| **Scaled**          | 31.33    | 2105.69      | 45.89      |

---

### **5. Conclusioni**

- **La "Good Forecast" è la più precisa** su tutte le metriche.
- La **"Scaled Forecast" è la peggiore**, con errori significativi.
- Le metriche MSE e RMSE penalizzano maggiormente gli errori grandi rispetto alla MAE.
- Queste metriche sono ideali per analisi a scala unica ma non adatte per confrontare serie con scale diverse.

Se vuoi esplorare metriche **indipendenti dalla scala** (come il MAPE), fammi sapere!

**Percentage Errors** e **Scaled Errors** per la valutazione delle previsioni di serie temporali. Approfondiremo ogni metrica e ne analizzeremo implementazione, applicazione e interpretazione.

---

## **4. Percentage Errors**

Le percentuali d'errore esprimono l'errore come una proporzione dei valori reali, rendendole **indipendenti dalla scala**. Questo le rende utili per confrontare previsioni su serie temporali con diverse unità o scale. Tuttavia, presentano problemi con valori prossimi a zero.

---

### **4.1 Mean Absolute Percentage Error (MAPE)**

#### **Definizione**
La **MAPE** misura l'errore medio assoluto in percentuale rispetto ai valori reali. È facilmente comprensibile ma può:
- **Non essere definita** per valori reali uguali a zero.
- Essere **distorta** verso previsioni più basse.

**Formula:**
$$\text{MAPE} = \frac{100\%}{n} \sum_{i=1}^{n} \left| \frac{y_i - \hat{y}_i}{y_i} \right|$$

Dove:
- $y_i$: valore reale.
- $\hat{y}_i$: valore previsto.
- $n$: numero di osservazioni.

---

#### **Codice**
Il codice per calcolare la MAPE gestisce valori zero con un filtro e un termine aggiuntivo (`epsilon`) per prevenire divisioni per zero:

```python
def calculate_mape(y_true, y_pred, epsilon=1e-10):
    # Filtra i valori zero
    mask = y_true != 0
    y_true_filtered = y_true[mask]
    y_pred_filtered = y_pred[mask]
    
    if len(y_true_filtered) == 0:
        return np.nan  # Ritorna NaN se tutti i valori reali sono zero
    
    return 100 * np.mean(np.abs((y_true_filtered - y_pred_filtered) / (y_true_filtered + epsilon)))
```

---

#### **Calcolo per ogni previsione**
Applichiamo la funzione a tutte le previsioni:

```python
mape_good = calculate_mape(data['actual'], data['forecast_good'])
mape_biased = calculate_mape(data['actual'], data['forecast_biased'])
mape_no_seasonality = calculate_mape(data['actual'], data['forecast_no_seasonality'])
mape_scaled = calculate_mape(data['actual'], data['forecast_scaled'])
```

#### **Output**
Stampiamo i risultati:

```python
print(f"MAPE (Good Forecast): {mape_good:.2f}%")
print(f"MAPE (Biased Forecast): {mape_biased:.2f}%")
print(f"MAPE (No Seasonality): {mape_no_seasonality:.2f}%")
print(f"MAPE (Scaled Forecast): {mape_scaled:.2f}%")
```

**Risultati:**
- **Good Forecast:** 7.35%
- **Biased Forecast:** 12.09%
- **No Seasonality:** 10.00%
- **Scaled Forecast:** 20.53%

---

#### **Osservazioni**
- La "Good Forecast" ha la **MAPE più bassa**, confermando la sua accuratezza.
- La "Scaled Forecast" è la peggiore, con il doppio dell'errore rispetto alla "No Seasonality".

---

### **4.2 Symmetric Mean Absolute Percentage Error (SMAPE)**

#### **Definizione**
La **SMAPE** è una versione simmetrica della MAPE. Considera la media aritmetica tra il valore reale e quello previsto, trattando **sovrastima e sottostima** in modo equo. È limitata tra **0% e 200%**.

**Formula:**
$$\text{SMAPE} = \frac{200\%}{n} \sum_{i=1}^{n} \frac{|y_i - \hat{y}_i|}{|y_i| + |\hat{y}_i|}$$

---

#### **Codice**
Anche in questo caso, gestiamo i valori zero con un filtro:

```python
def calculate_smape(y_true, y_pred, epsilon=1e-10):
    # Gestisce i casi in cui sia y_true che y_pred sono zero
    mask = (np.abs(y_true) + np.abs(y_pred)) != 0
    
    if np.sum(mask) == 0:
        return 0.0  # Nessun errore se tutti i valori sono zero
    
    return 200 * np.mean(np.abs(y_pred[mask] - y_true[mask]) / (np.abs(y_true[mask]) + np.abs(y_pred[mask]) + epsilon))
```

---

#### **Calcolo per ogni previsione**
Applichiamo la funzione a tutte le previsioni:

```python
smape_good = calculate_smape(data['actual'], data['forecast_good'])
smape_biased = calculate_smape(data['actual'], data['forecast_biased'])
smape_no_seasonality = calculate_smape(data['actual'], data['forecast_no_seasonality'])
smape_scaled = calculate_smape(data['actual'], data['forecast_scaled'])
```

#### **Output**
Stampiamo i risultati:

```python
print(f"SMAPE (Good Forecast): {smape_good:.2f}%")
print(f"SMAPE (Biased Forecast): {smape_biased:.2f}%")
print(f"SMAPE (No Seasonality): {smape_no_seasonality:.2f}%")
print(f"SMAPE (Scaled Forecast): {smape_scaled:.2f}%")
```

**Risultati:**
- **Good Forecast:** 19.30%
- **Biased Forecast:** 23.34%
- **No Seasonality:** 21.65%
- **Scaled Forecast:** 29.97%

---

#### **Osservazioni**
- La SMAPE considera sia valori reali che previsti. È più **robusta rispetto a outlier**.
- Mentre la **Good Forecast** resta la migliore, la **Scaled Forecast** è meno penalizzata rispetto alla MAPE.

---

### **Confronto delle metriche percentuali**

Raccogliamo i risultati in un DataFrame:

```python
percentage_metrics = pd.DataFrame({
    'Forecast Type': ['Good', 'Biased', 'No Seasonality', 'Scaled'],
    'MAPE (%)': [mape_good, mape_biased, mape_no_seasonality, mape_scaled],
    'SMAPE (%)': [smape_good, smape_biased, smape_no_seasonality, smape_scaled]
})

percentage_metrics.set_index('Forecast Type', inplace=True)
percentage_metrics
```

**Tabella finale:**

| **Forecast Type**   | **MAPE (%)** | **SMAPE (%)** |
|----------------------|--------------|---------------|
| **Good**            | 7.35%        | 19.30%        |
| **Biased**          | 12.09%       | 23.34%        |
| **No Seasonality**  | 10.00%       | 21.65%        |
| **Scaled**          | 20.53%       | 29.97%        |

---

## **5. Scaled Errors**

Le scaled errors confrontano gli errori del modello con un metodo base (come un forecast naïve), fornendo un'indicazione relativa della performance.

---

### **5.1 Mean Absolute Scaled Error (MASE)**

#### **Definizione**
La **MASE** confronta la MAE di una previsione con la MAE di un forecast naïve (ad esempio, il valore precedente o lo stesso periodo della stagione precedente).

**Formula:**
$$\text{MASE} = \frac{\frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|}{\frac{1}{T-m} \sum_{t=m+1}^{T} |y_t - y_{t-m}|}$$

Dove:
- $m$: periodo stagionale.
- $T$: numero di osservazioni nel dataset.

---

#### **Codice**
La funzione per calcolare la MASE:

```python
def calculate_mase(y_true, y_pred, seasonal_period=1):
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)

    # Errori della previsione
    forecast_errors = np.abs(y_true - y_pred)
    
    # Errori del forecast naïve
    naive_errors = np.abs(y_true[seasonal_period:] - y_true[:-seasonal_period])
    
    if len(naive_errors) == 0 or np.sum(naive_errors) == 0:
        return np.nan
    
    return np.mean(forecast_errors) / np.mean(naive_errors)
```

---

#### **Interpretazione**
- **MASE < 1:** La previsione è migliore del benchmark naïve.
- **MASE = 1:** La previsione è uguale al benchmark naïve.
- **MASE > 1:** La previsione è peggiore del benchmark naïve.

---



Ecco una spiegazione dettagliata **rigo per rigo** sul calcolo e l'utilizzo della metrica **Continuous Ranked Probability Score (CRPS)** per la valutazione delle previsioni probabilistiche. Procediamo analizzando il codice, il concetto matematico e i grafici allegati.

---

## **1. Introduzione: Metrica CRPS**

La **Continuous Ranked Probability Score (CRPS)** è una metrica che confronta una distribuzione di probabilità prevista (cumulative distribution function o CDF) con un valore osservato reale.

**Formula:**
$$\text{CRPS} = \int_{-\infty}^{\infty} (F(y) - \mathbf{1}\{y \geq y^o\})^2 dy$$

Dove:
- $F(y)$ è la CDF della distribuzione prevista.
- $\mathbf{1}\{y \geq y^o\}$ è una funzione indicatrice (vale 1 se $y \geq y^o$, altrimenti 0).
- $y^o$ è il valore osservato.

### **Proprietà**
- È una **regola di scoring appropriata**: premia modelli che producono distribuzioni probabilistiche affidabili.
- **Riduce alla MAE** per previsioni deterministiche.

---

## **2. Implementazione del CRPS (semplificata)**

### **a. Calcolo tramite Monte Carlo**

Questo approccio approssima il CRPS generando campioni dalla distribuzione normale prevista:

```python
def calculate_crps(actual, forecast_mean, forecast_std, n_samples=1000):
    """Calcola il CRPS tramite campioni Monte Carlo"""
    crps_values = []
    
    for i in range(len(actual)):  # Itera su ogni punto temporale
        # Genera campioni dalla distribuzione normale
        samples = np.random.normal(forecast_mean[i], forecast_std[i], n_samples)
        samples.sort()  # Ordina i campioni per calcolare la CDF empirica
        
        # Inizia a calcolare il CRPS per l'osservazione attuale
        crps_i = 0
        for j in range(n_samples-1):  # Itera sui campioni successivi
            width = samples[j+1] - samples[j]  # Larghezza dell'intervallo
            cdf_value = (j+1) / n_samples  # Valore CDF empirico
            indicator = 1.0 if samples[j] >= actual[i] else 0.0
            height = (cdf_value - indicator) ** 2  # Differenza tra CDF e indicatore
            crps_i += width * height  # Aggiungi l'area all'integrale
        
        crps_values.append(crps_i)
    
    return np.mean(crps_values)  # Restituisci la media su tutti i punti
```

**Spiegazione del codice:**
- **Generazione dei campioni:** I campioni sono generati usando una distribuzione normale centrata sul valore previsto con una deviazione standard.
- **CDF empirica:** La CDF è approssimata ordinando i campioni e calcolando i valori cumulativi.
- **Indicator function:** Per ogni valore, determina se è maggiore o uguale all'osservazione reale.
- **CRPS finale:** Calcolato come media degli errori su tutti i punti temporali.

---

## **3. Applicazione e risultati**

### **a. Simulazione dei dati**
I dati di input includono le osservazioni reali (`actual`) e una previsione media (`forecast_good`). La deviazione standard delle previsioni è stimata come il **10%** dei valori previsti:

```python
forecast_std = data['forecast_good'] * 0.1
```

### **b. Calcolo del CRPS**
Applichiamo la funzione:

```python
crps = calculate_crps(data['actual'], data['forecast_good'], forecast_std)
print(f"CRPS: {crps:.4f}")
```

**Risultato:**  
- **CRPS = 6.9416**

#### **Interpretazione**
Un valore di CRPS più basso indica che la distribuzione probabilistica prevista è più compatibile con i valori osservati.

---

## **4. Visualizzazione: Previsioni probabilistiche**

### **a. Previsioni con intervallo di confidenza (90%)**

#### **Codice**
Il grafico mostra le previsioni medie con un intervallo di confidenza del **90%**:

```python
plt.figure(figsize=(14, 7))
plt.plot(data['actual'], label='Actual')
plt.plot(data['forecast_good'], label='Forecast Mean')

upper_90 = data['forecast_good'] + 1.645 * forecast_std
lower_90 = data['forecast_good'] - 1.645 * forecast_std
plt.fill_between(range(len(data['forecast_good'])), lower_90, upper_90, alpha=0.2, color='blue', label='90% Prediction Interval')

plt.title('Probabilistic Forecast with 90% Prediction Interval')
plt.xlabel('Time')
plt.ylabel('Value')
plt.legend()
plt.grid(True)
plt.show()
```

#### **Grafico interpretato**
- La **linea arancione** rappresenta la previsione media.
- La **zona azzurra** indica l'intervallo di confidenza del 90%.
- La **linea blu scura** rappresenta i valori reali.

**Osservazione:**  
Le osservazioni reali spesso rientrano nell'intervallo di confidenza, confermando la validità del modello probabilistico.

---

### **b. Empirical CDF a più intervalli temporali**

#### **Codice**
Per analizzare specifiche previsioni, tracciamo la **CDF empirica** della distribuzione prevista rispetto al valore osservato per alcuni punti temporali:

```python
fig, axes = plt.subplots(2, 2, figsize=(14, 10))
axes = axes.flatten()

for i, idx in enumerate([0, 5, 10, 30]):
    samples = np.random.normal(data['forecast_good'][idx], forecast_std[idx], 1000)
    samples.sort()
    cdf = np.arange(1, len(samples) + 1) / len(samples)
    axes[i].plot(samples, cdf, label='Forecast CDF')
    
    x_values = np.linspace(min(samples), max(samples), 1000)
    y_values = np.where(x_values >= data['actual'][idx], 1, 0)
    axes[i].plot(x_values, y_values, 'r--', label='Observed Value')
    
    axes[i].axvline(data['actual'][idx], color='r', linestyle=':')
    axes[i].set_title(f'Time {idx}: Forecast vs. Actual')
    axes[i].set_xlabel('Value')
    axes[i].set_ylabel('Cumulative Probability')
    axes[i].grid(True)
    axes[i].legend()
```

---

#### **Grafici interpretati**
1. Ogni grafico mostra:
   - La **CDF empirica** della previsione (linea blu).
   - Il valore osservato come funzione indicatrice (linea tratteggiata rossa).
   - La linea verticale rossa indica il valore osservato.

2. **Confronto:**  
Questi grafici evidenziano quanto la distribuzione prevista si allinei al valore osservato per punti temporali specifici.

---

## **5. Conclusioni**

- **CRPS:** Valuta l'intera distribuzione probabilistica. Un CRPS più basso indica migliori previsioni probabilistiche.
- **Intervalli di confidenza:** Offrono una rappresentazione visiva dell'incertezza nelle previsioni.
- **CDF empirica:** Confronta la distribuzione prevista con l'osservazione reale, fornendo intuizioni dettagliate.

Se hai bisogno di ulteriori dettagli o di un confronto con altre metriche probabilistiche, fammi sapere!

 metrica **Weighted MAPE (WMAPE)**, 
---

## **7.1 Weighted MAPE**

### **Che cos'è il Weighted MAPE (WMAPE)?**
Il **Weighted MAPE** è una variante della **Mean Absolute Percentage Error (MAPE)** che assegna **pesi differenti** ai periodi temporali, permettendo di enfatizzare i periodi più importanti in base al contesto. Questa metrica è particolarmente utile nelle serie temporali con:
- **Osservazioni critiche** (es. periodi recenti o stagioni rilevanti).
- **Errori con importanze diverse** a seconda del tempo.

---

### **Formula del WMAPE**

$$\text{WMAPE} = \frac{\sum_{i=1}^{n} w_i |y_i - \hat{y}_i|}{\sum_{i=1}^{n} w_i |y_i|}$$

#### Significato dei termini:
- $w_i$: peso assegnato all'osservazione al tempo $i$.
- $y_i$: valore osservato reale.
- $\hat{y}_i$: valore previsto.
- $n$: numero totale di osservazioni.

**Cosa fa il WMAPE:**
- Il numeratore è la somma degli errori assoluti, ponderati dai pesi ($w_i$).
- Il denominatore scala questi errori rispetto alla magnitudine dei valori osservati reali, anche questa ponderata.

---

## **Implementazione: Funzione WMAPE**

### **Codice**

Ecco la funzione Python per calcolare il WMAPE:

```python
def wmape(y_true, y_pred, weights=None):
    """Calcola la Weighted Mean Absolute Percentage Error (WMAPE).
    
    Parametri:
    - y_true (array-like): Valori osservati reali.
    - y_pred (array-like): Valori previsti.
    - weights (array-like, opzionale): Pesi per ogni osservazione.
    
    Ritorna:
    - float: Valore del WMAPE.
    """
    if weights is None:
        weights = np.ones_like(y_true)  # Usa pesi uniformi (uguali per tutti i periodi)
        
    # Conversione in array numpy per calcoli efficienti
    y_true = np.array(y_true)
    y_pred = np.array(y_pred)
    
    # Evita la divisione per zero (considera solo i valori reali non nulli)
    mask = y_true != 0  # Filtra i valori reali che non sono zero
    
    return np.sum(weights[mask] * np.abs(y_true[mask] - y_pred[mask])) / np.sum(weights[mask] * np.abs(y_true[mask]))
```

### **Riga per riga**
1. **Gestione dei pesi:**  
   Se non vengono forniti pesi, la funzione assegna un peso uguale a tutte le osservazioni (`np.ones_like(y_true)`).
   
2. **Maschera per evitare divisioni per zero:**  
   Il filtro `mask = y_true != 0` rimuove i valori reali uguali a zero per evitare errori di calcolo.

3. **Calcolo del numeratore:**  
   $\sum w_i |y_i - \hat{y}_i|$ calcola l'errore assoluto ponderato.

4. **Calcolo del denominatore:**  
   $\sum w_i |y_i|$ normalizza l'errore rispetto alla magnitudine reale dei dati, rendendo il valore della metrica **indipendente dalla scala**.

5. **Valore finale del WMAPE:**  
   Restituisce il rapporto tra il numeratore (errori ponderati) e il denominatore (magnitudine ponderata).

---

## **Applicazione del WMAPE**

### **1. Creare Pesi Personalizzati**
Per enfatizzare osservazioni più recenti:
```python
n = data.shape[0]  # Numero totale di osservazioni
recency_weights = np.linspace(0.5, 1.5, n)  # Pesi che aumentano con il tempo
```

Qui, i pesi:
- Partono da **0.5** per le prime osservazioni.
- Aumentano linearmente fino a **1.5** per le osservazioni più recenti.

---

### **2. Calcolo del WMAPE**

#### **a. MAPE standard (pesi uguali)**

Calcoliamo il MAPE standard assegnando pesi uniformi (nessun peso speciale):

```python
standard_mape = wmape(data['actual'], data['forecast_good'])
```

---

#### **b. WMAPE con pesi per osservazioni recenti**

Calcoliamo il WMAPE enfatizzando i dati recenti con `recency_weights`:

```python
recency_wmape = wmape(data['actual'], data['forecast_good'], recency_weights)
```

---

### **3. Risultati**

Stampiamo i risultati calcolati per confronto:

```python
print(f"Standard MAPE: {standard_mape:.4f}")
print(f"Recency-Weighted MAPE: {recency_wmape:.4f}")
```

**Output:**
- **Standard MAPE:** 0.0885
- **Recency-Weighted MAPE:** 0.0790

---

## **Interpretazione dei Risultati**

1. **Standard MAPE:**
   - Assegna lo stesso peso a tutte le osservazioni.
   - Valore: **0.0885**.
   - Rappresenta l'errore medio assoluto in percentuale senza alcuna considerazione di importanza temporale.

2. **Recency-Weighted MAPE:**
   - Aumenta l'importanza delle osservazioni più recenti.
   - Valore più basso: **0.0790**.
   - Indica che le previsioni si allineano meglio ai dati recenti, grazie all'enfasi sui periodi temporali recenti.

---

## **Vantaggi e Limitazioni del WMAPE**

### **Vantaggi**
- **Flessibilità:** Permette di adattare i pesi in base al contesto (es. dati recenti, picchi stagionali).
- **Indipendenza dalla scala:** È una metrica normalizzata e confrontabile tra serie diverse.
- **Personalizzazione:** Può integrare priorità aziendali o operative.

### **Limitazioni**
- Richiede la definizione appropriata dei **pesi ($w_i$)**, che può essere soggettiva.
- Può essere sensibile ai valori estremi nei pesi o nei dati osservati.

---



 

---

### **9.1 Caricamento del Dataset e Generazione Dati di Vendita**  

```python
np.random.seed(42)
date_rng = pd.date_range(start='2019-01-01', end='2022-12-31', freq='D')
df = pd.DataFrame(date_rng, columns=['date'])
```
- Imposta un seme (`42`) per la generazione casuale dei dati, garantendo risultati riproducibili.  
- Crea una sequenza di date (`date_rng`) tra il 1° gennaio 2019 e il 31 dicembre 2022 con frequenza giornaliera.  
- Inizializza un DataFrame `df` e assegna le date alla colonna `'date'`.  

```python
level = 1000  # Livello base delle vendite
trend = np.linspace(0, 500, len(date_rng))  # Tendenza crescente (linearmente) nel tempo
```
- Definisce un valore base (`1000`) per le vendite iniziali.  
- Genera un trend lineare che aumenta di 500 unità nell'intero periodo.  

```python
weekly = 50 * np.sin(np.arange(len(date_rng)) * (2 * np.pi / 7))
yearly = 300 * np.sin(np.arange(len(date_rng)) * (2 * np.pi / 365))
```
- Introduce una stagionalità settimanale con un'oscillazione sinusoidale.  
- Aggiunge una stagionalità annuale con un’oscillazione più ampia (±300).  

```python
noise = np.random.normal(0, 50, len(date_rng))  # Rumore casuale con media 0 e deviazione standard 50
df['sales'] = level + trend + weekly + yearly + noise  # Combina tutti i componenti
df['sales'] = df['sales'].clip(lower=0)  # Evita valori negativi
```
- Crea una componente casuale (`noise`).  
- Somma le varie componenti per ottenere i valori di vendita finali.  
- Imposta un limite minimo di `0` per evitare vendite negative.  

```python
df.set_index('date', inplace=True)  # Imposta 'date' come indice del DataFrame
df.head()  # Mostra le prime righe
```
- Definisce la colonna `date` come indice della serie temporale.  
- Visualizza i primi 5 valori del DataFrame.  

---

### **9.2 Visualizzazione del Dataset**  

```python
plt.figure(figsize=(14, 7))
plt.plot(df.index, df['sales'])
plt.title('Daily Retail Sales Data (2019-2022)', fontsize=15)
plt.xlabel('Date', fontsize=12)
plt.ylabel('Sales', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
```
- Crea un grafico di dimensioni 14x7.  
- Plotta le vendite (`sales`) nel tempo.  
- Aggiunge titolo, etichette e griglia per migliorare la leggibilità.  

---

### **9.3 Divisione del Dataset in Training e Test**  

```python
train = df[:'2022-09-30']
test = df['2022-10-01':]
```
- Divide i dati in:
  - **Training set:** fino al 30 settembre 2022.  
  - **Test set:** dal 1° ottobre 2022.  

```python
print(f"Training data: {train.shape[0]} days")
print(f"Testing data: {test.shape[0]} days")
```
- Stampa il numero di giorni nel training e test set.  

```python
plt.figure(figsize=(14, 7))
plt.plot(train.index, train['sales'], label='Training Data')
plt.plot(test.index, test['sales'], label='Testing Data', color='red')
plt.title('Train-Test Split for Retail Sales Data', fontsize=15)
plt.xlabel('Date', fontsize=12)
plt.ylabel('Sales', fontsize=12)
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()
```
- Visualizza la suddivisione del dataset:  
  - I dati di **training** in blu.  
  - I dati di **test** in rosso.  

---

### **9.4 Implementazione dei Modelli di Previsione**  

```python
forecasts = pd.DataFrame(index=test.index)
forecasts['actual'] = test['sales']
```
- Crea un nuovo DataFrame per memorizzare le previsioni.  
- Aggiunge la colonna `'actual'` con i valori reali di vendita.  

#### **1. Naive Forecast (Ultimo Valore Osservato)**  
```python
forecasts['naive'] = train['sales'].iloc[-1]
```
- Assegna l'ultimo valore osservato del training set come previsione costante.  

#### **2. Seasonal Naive (Stessa Vendita della Settimana Precedente)**  
```python
forecasts['seasonal_naive'] = [train['sales'].iloc[-(i % 7 + 7)] for i in range(len(test))]
```
- Prende il valore corrispondente della settimana precedente per ogni giorno del test set.  

#### **3. Exponential Smoothing (Holt-Winters)**  
```python
hw_model = ExponentialSmoothing(
    train['sales'], seasonal_periods=7, trend='add', seasonal='add', use_boxcox=True
)
hw_fit = hw_model.fit(optimized=True)
forecasts['exponential_smoothing'] = hw_fit.forecast(len(test))
```
- Applica il modello **Holt-Winters** con:
  - **Trend** e **stagionalità additive**.  
  - **Box-Cox transformation** per stabilizzare la varianza.  
- Effettua la previsione sulla finestra di test.  

#### **4. ARIMA (AutoRegressive Integrated Moving Average)**  
```python
arima_model = ARIMA(train['sales'], order=(1, 1, 1), seasonal_order=(1, 1, 0, 7))
arima_fit = arima_model.fit()
forecasts['arima'] = arima_fit.forecast(len(test))
```
- Utilizza il modello **ARIMA(1,1,1)(1,1,0)7**, che incorpora:
  - **1 autoregressione (AR)**.  
  - **1 differenziazione (I)** per rendere i dati stazionari.  
  - **1 media mobile (MA)**.  
  - **1 componente stagionale settimanale (SAR)**.  

---

### **9.5 Valutazione delle Previsioni**  

```python
def calculate_all_metrics(actual, predicted, name):
    naive_errors = np.abs(train['sales'].diff().dropna()).mean()
    return {
        'Model': name,
        'MAE': mean_absolute_error(actual, predicted),
        'MSE': mean_squared_error(actual, predicted),
        'RMSE': np.sqrt(mean_squared_error(actual, predicted)),
        'MAPE': np.mean(np.abs((actual - predicted) / actual)) * 100,
        'SMAPE': 200 * np.mean(np.abs(actual - predicted) / (np.abs(actual) + np.abs(predicted))),
        'MASE': mean_absolute_error(actual, predicted) / naive_errors,
    }
```
- **Calcola vari metriche di errore:**  
  - **MAE:** errore assoluto medio.  
  - **MSE:** errore quadratico medio.  
  - **RMSE:** radice quadrata dell’MSE.  
  - **MAPE:** errore percentuale medio assoluto.  
  - **SMAPE:** errore percentuale simmetrico.  
  - **MASE:** errore rispetto al Naive Forecast.  

```python
metrics = [calculate_all_metrics(forecasts['actual'], forecasts[col], col) for col in forecasts.columns if col != 'actual']
metrics_df = pd.DataFrame(metrics).set_index('Model')
```
- Applica la funzione a tutti i modelli e memorizza i risultati in un DataFrame.  

```python
metrics_df
```
- Mostra la tabella dei risultati comparativi tra i modelli.  

---



# 9.4 Interpretazione dei risultati
Analizziamo cosa ci dicono queste metriche sulle prestazioni di ciascun modello:

Metriche dipendenti dalla scala (MAE, MSE, RMSE):

Queste metriche ci forniscono l'entità assoluta degli errori nelle unità originali (importo delle vendite).
Valori inferiori indicano prestazioni migliori.
Dai nostri risultati, possiamo vedere che [interpreta quale modello funziona meglio su queste metriche].
Errori percentuali (MAPE, SMAPE):

Queste metriche esprimono gli errori come percentuali, rendendoli indipendenti dalla scala.
Ci aiutano a comprendere la dimensione relativa degli errori rispetto ai valori effettivi.
Osserviamo che [interpreta i risultati degli errori percentuali].
Errori scalati (MASE):

MASE confronta gli errori del nostro modello con una previsione ingenua.
Valori inferiori a 1 indicano un miglioramento rispetto al modello ingenuo.
La nostra analisi mostra [interpreta i risultati MASE].
10.2 Casi di utilizzo comuni e metriche consigliate
Esaminiamo diversi scenari comuni di previsione delle serie temporali e le metriche che sono in genere più appropriate per ciascuno:

#### Previsione delle vendite al dettaglio

Metriche primarie: MAPE, SMAPE, MASE

Motivazione:

Gli errori percentuali sono intuitivi per gli stakeholder aziendali ("le previsioni erano sbagliate del 5%")
MASE aiuta a confrontare con semplici metodi di base
Se si confrontano le prestazioni tra diverse categorie di prodotti con volumi di vendita variabili, sono essenziali errori percentuali o scalati
Previsione della domanda per la catena di fornitura

Metriche primarie: MAPE ponderato (con pesi maggiori per articoli ad alto volume), MASE, Pinball Loss (se si utilizzano previsioni quantili)

Motivazione:

Nella catena di fornitura, il costo dell'errore dipende spesso dal volume dell'articolo
Costi asimmetrici di sovraprevisione rispetto a sottoprevisione (esaurimento scorte rispetto a inventario in eccesso)
Le previsioni probabilistiche possono aiutare a gestire il rischio di inventario
Carico energetico Previsione

Metriche primarie: RMSE, MAPE, precisione direzionale

Motivazione:

RMSE penalizza gli errori di grandi dimensioni, che possono essere particolarmente costosi nei mercati energetici
La direzione dei cambiamenti è spesso importante per pianificare la capacità di generazione
Sia la precisione assoluta che la cattura dei pattern sono importanti
Serie temporali finanziarie/Previsione del prezzo delle azioni

Metriche primarie: precisione direzionale, MASE, U di Theil

Motivazione:

Spesso la direzione del movimento è più importante del valore esatto
Il confronto con previsioni ingenue è essenziale (i mercati sono spesso efficienti)
Nelle strategie di trading, essere direzionalmente corretti è spesso più redditizio che minimizzare l'errore
Previsione del traffico del sito Web

Metriche primarie: RMSE, MAPE, precisione direzionale

Motivazione:

Sia la precisione che la cattura dei pattern sono importanti
Gli errori percentuali sono intuitivi per la reportistica
La previsione dei picchi di traffico (grandi deviazioni) può essere particolarmente importante per la pianificazione delle risorse