#  Sezione 1 ‚Äì Titolo e Obiettivi della Lezione

## Lezione 5 ‚Äî Introduzione a Scikit-Learn: Tassonomia dei Modelli e Logistic Regression

###  Obiettivi di apprendimento

Al termine di questa lezione sarai in grado di:

1. **Comprendere le quattro famiglie di modelli** in Scikit-Learn (lineari, tree, distanza, bayesiani)
2. **Capire la matematica dei modelli lineari** (combinazione lineare, sigmoide, logit)
3. **Applicare la pipeline standard ML**: split ‚Üí scaling ‚Üí fit ‚Üí predict ‚Üí score
4. **Implementare una Logistic Regression** completa per classificazione binaria
5. **Interpretare i coefficienti** del modello (segno, magnitudo, importanza)
6. **Evitare il data leakage** applicando le operazioni nell'ordine corretto

---

###  Prerequisiti

| Prerequisito | Lezione | Concetti da padroneggiare |
|--------------|---------|---------------------------|
| Pandas avanzato | Lesson 04 | GroupBy, Transform, Feature Engineering |
| NumPy base | Lesson 01 | Array, operazioni vettoriali |
| Matematica base | ‚Äî | Esponenziale, logaritmo, funzioni |

---

###  Perch√© questa lezione √® il punto di svolta?

Questa lezione segna il passaggio da **analisi dati** a **Machine Learning**:

| Prima (Data Analysis) | Dopo (Machine Learning) |
|----------------------|-------------------------|
| Descrivere i dati | **Predire** nuovi dati |
| Statistiche storiche | **Modelli** che generalizzano |
| Interpretazione manuale | **Algoritmi** che apprendono |

La **Logistic Regression** √® il modello perfetto per iniziare:
- √à semplice da capire matematicamente
- I coefficienti sono interpretabili
- √à la baseline per modelli pi√π complessi
- Usata in produzione in molte aziende

---

###  Struttura della lezione (8 sezioni)

1. **Titolo e Obiettivi** ‚Üê Sei qui
2. **Teoria concettuale profonda** (famiglie modelli, matematica)
3. **Schema mentale / Mappa decisionale**
4. **Sezione dimostrativa** con micro-checkpoint
5. **Reference e Esercizi** + Errori comuni / Debug
6. **Conclusione operativa**
7. **Checklist di fine lezione**
8. **Changelog didattico**

---

###  Librerie utilizzate

```python
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
```

**Nota**: questa √® la prima lezione che usa `sklearn` (Scikit-Learn)!

---

# 2) Teoria concettuale profonda

## 1.1 Glossario Preliminare

Prima di leggere qualsiasi formula, fissiamo un glossario chiaro:

| Termine | Definizione |
|---------|-------------|
| **Feature** | Variabile di input che descrive un'osservazione (es. eta, reddito) |
| **Target** | Variabile da predire (output del modello) |
| **Modello lineare** | Combina le feature con pesi e bias per produrre un output |
| **Logit** | Trasformazione $\log \frac{p}{1-p}$ che converte probabilita in quantita illimitata |
| **Sigmoid** | Funzione $\sigma(z) = \frac{1}{1 + e^{-z}}$ che schiaccia valori tra 0 e 1 |
| **Odds** | Rapporto tra probabilita di successo e insuccesso: $\frac{p}{1-p}$ |
| **Regularizzazione** | Penalita sui pesi per ridurre overfitting |

## 1.2 Le Quattro Famiglie di Modelli

Scikit-Learn offre molti modelli, ma pensarli per **famiglie concettuali** aiuta a scegliere:

### Famiglia 1: Modelli Lineari
- **Esempi**: `LinearRegression`, `LogisticRegression`, `Ridge`, `Lasso`
- **Idea**: stimano una combinazione lineare delle feature
- **Formula**: $\hat{y} = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b$
- **Pro**: interpretabili, veloci, ottime baseline
- **Contro**: assumono relazioni lineari

### Famiglia 2: Tree-Based (Alberi)
- **Esempi**: `DecisionTreeClassifier`, `RandomForestClassifier`, `GradientBoostingClassifier`
- **Idea**: suddivisione dello spazio tramite soglie
- **Pro**: catturano non-linearita, robusti
- **Contro**: rischio overfitting, meno interpretabili

### Famiglia 3: Distanza / Vicinanza (KNN)
- **Esempi**: `KNeighborsClassifier`, `KNeighborsRegressor`
- **Idea**: classificano in base ai vicini piu simili
- **Pro**: nessuna assunzione forte, intuitivi
- **Contro**: lenti in predizione, sensibili allo scaling

### Famiglia 4: Probabilistici / Bayesiani
- **Esempi**: `GaussianNB`, `MultinomialNB`
- **Idea**: applicano il teorema di Bayes
- **Pro**: velocissimi, ottimi su dati testuali
- **Contro**: assumono indipendenza tra feature

## 1.3 Matematica della Logistic Regression

### Step 1: Combinazione Lineare (Logit)
$$z = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b = \mathbf{w}^T \mathbf{x} + b$$

### Step 2: Funzione Sigmoide
$$\sigma(z) = \frac{1}{1 + e^{-z}}$$

La sigmoide trasforma z (che va da $-\infty$ a $+\infty$) in una probabilita (tra 0 e 1).

### Probabilita Stimata
$$\hat{p} = P(y=1 \mid x) = \sigma(\mathbf{w}^T \mathbf{x} + b)$$

### Interpretazione dei Coefficienti
- $w_j > 0$: aumentando la feature j, aumenta la probabilita della classe 1
- $w_j < 0$: aumentando la feature j, diminuisce la probabilita
- $|w_j|$ grande: la feature ha forte impatto

## 1.4 Perche Standardizzare?

**StandardScaler** applica:
$$x' = \frac{x - \mu}{\sigma}$$

**Benefici:**
- Stabilita numerica
- Convergenza piu rapida
- Coefficienti comparabili tra feature
- **Necessario** per modelli lineari, KNN, SVM

---

# 3) Schema mentale / mappa decisionale

## Pipeline Standard ML

```
[Dati Grezzi]
      |
      v
[Feature Engineering]  ‚Üê Crea/trasforma variabili
      |
      v
[Train/Test Split]     ‚Üê Dividi per validazione
      |
      v
[Preprocessing]        ‚Üê Scaling, encoding
      |
      v
[Fit del Modello]      ‚Üê Apprendimento
      |
      v
[Predict]              ‚Üê Previsioni su test
      |
      v
[Score/Valutazione]    ‚Üê Metriche
      |
      v
[Iterazione]           ‚Üê Migliora se necessario
```

## Come Scegliere un Modello?

```
TIPO DI PROBLEMA?
       |
   ‚îå‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îê
   v       v
CLASSIF. REGRESS.
   |       |
   v       v
Quante classi?  Target continuo?
   |              |
   v              v
BINARIA ‚Üí LogisticRegression, RandomForest
MULTI   ‚Üí Stessi + SoftMax
CONTINUO ‚Üí LinearRegression, RandomForest
```

## Euristiche di Scelta Rapida

| Situazione | Modello Consigliato |
|------------|---------------------|
| Dati quasi lineari | Logistic/Linear Regression |
| Non-linearita sospette | RandomForest, GradientBoosting |
| Dataset enorme | GradientBoosting, SGDClassifier |
| Testo (NLP classico) | Naive Bayes + TF-IDF |
| Dataset piccolo | KNN |
| Serve interpretabilita | Logistic Regression, Decision Tree |

## Checklist Pre-Modellazione

1. Ho definito chiaramente il target?
2. Ho separato train e test PRIMA di qualsiasi preprocessing?
3. Ho standardizzato le feature (per modelli lineari)?
4. Ho verificato il bilanciamento delle classi?
5. Ho scelto le metriche appropriate?

---

# 4) Sezione dimostrativa

## 3.1 Setup e Creazione Dataset Sintetico

**Perche questo passaggio:** Usiamo `make_classification` per creare un dataset controllato. Questo ci permette di capire il flusso senza preoccuparci della qualita dei dati reali.

**Parametri chiave:**
- `n_samples`: numero di osservazioni
- `n_features`: numero di feature
- `n_informative`: feature effettivamente utili
- `class_sep`: separabilita delle classi (piu alto = piu facile)

In [None]:
# =============================================================================
# SETUP: Import librerie e creazione dataset sintetico
# =============================================================================
# Usiamo make_classification per creare un dataset controllato.
# Questo ci permette di:
# - Capire il flusso ML senza preoccuparci della qualit√† dei dati
# - Conoscere esattamente quante feature sono informative
# - Controllare la difficolt√† del problema (class_sep)
#
# In produzione userai dati reali, ma per imparare √® meglio iniziare cos√¨!

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

print("=== SETUP: Creazione Dataset Sintetico ===\n")

# Creiamo un dataset sintetico per classificazione binaria
# Parametri spiegati:
# - n_samples=600: 600 osservazioni (righe)
# - n_features=6: 6 feature (colonne di input)
# - n_informative=4: 4 di queste feature sono realmente utili
# - n_redundant=0: nessuna feature ridondante
# - class_sep=1.5: separabilit√† delle classi (pi√π alto = pi√π facile)
# - random_state=42: per riproducibilit√†

X, y = make_classification(
    n_samples=600,
    n_features=6,
    n_informative=4,
    n_redundant=0,
    class_sep=1.5,
    random_state=42
)

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: Verifica struttura del dataset
# -----------------------------------------------------------------------------
print(f"Struttura del dataset:")
print(f"  X (features): {X.shape} ‚Üí {X.shape[0]} campioni, {X.shape[1]} feature")
print(f"  y (target):   {y.shape} ‚Üí {y.shape[0]} etichette")

print(f"\nStatistiche del target:")
print(f"  Classi uniche: {np.unique(y)}")
print(f"  Bilanciamento: {y.mean():.3f} (0.5 = perfettamente bilanciato)")
print(f"  Classe 0: {(y == 0).sum()} campioni")
print(f"  Classe 1: {(y == 1).sum()} campioni")

# Verifica forme
assert X.shape == (600, 6), f"ERRORE: Shape X = {X.shape}, atteso (600, 6)"
assert y.shape == (600,), f"ERRORE: Shape y = {y.shape}, atteso (600,)"
assert set(y) == {0, 1}, "ERRORE: y deve contenere solo 0 e 1"

print("\n--- Micro-checkpoint: dataset creato correttamente ‚úì ---")

Shape X: (600, 6)
Positive class ratio: 0.50


---

## 4.2 Train/Test Split

### Perch√© dividere i dati?

Il **test set** serve per valutare il modello su dati **MAI visti** durante l'addestramento.  
Se valutiamo sugli stessi dati usati per il training, otteniamo una stima **ottimistica** (overfitting).

### Analogia

> √à come studiare con le soluzioni dell'esame. Prendi 10, ma non hai imparato nulla.  
> Il test set √® l'esame vero, senza soluzioni.

### Parametri chiave di `train_test_split()`

| Parametro | Valore | Significato |
|-----------|--------|-------------|
| `test_size` | 0.25 | 25% dei dati per il test (75% per training) |
| `stratify` | y | Mantiene le proporzioni delle classi in entrambi i set |
| `random_state` | 42 | Garantisce riproducibilit√† |

### Perch√© `stratify=y`?

Se il dataset ha 60% classe 0 e 40% classe 1:
- **Senza stratify**: il test set potrebbe avere 80% classe 0 (sbilanciato!)
- **Con stratify**: il test set avr√† 60% classe 0 e 40% classe 1 (proporzioni preservate)

### Proporzioni tipiche

| Train | Test | Quando usarla |
|-------|------|---------------|
| 75% | 25% | Default ragionevole |
| 80% | 20% | Dataset medio-grande |
| 90% | 10% | Dataset molto grande |
| 60% | 40% | Dataset piccolo (pi√π dati per valutazione) |

In [None]:
# =============================================================================
# TRAIN/TEST SPLIT: Divisione dei dati
# =============================================================================
# Dividiamo i dati in due set:
# - Training set (75%): usato per addestrare il modello
# - Test set (25%): usato per valutare il modello su dati "nuovi"
#
# IMPORTANTE: il test set simula dati futuri mai visti.
# Se valutiamo sul training, otteniamo stime ottimistiche (overfitting)!

print("=== TRAIN/TEST SPLIT ===\n")

# Divisione stratificata: mantiene le proporzioni delle classi
X_train, X_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.25,      # 25% per test
    stratify=y,          # Mantieni proporzioni classi
    random_state=42      # Riproducibilit√†
)

# Mostra le dimensioni
print(f"Dataset originale: {len(y)} campioni")
print(f"Training set:      {len(y_train)} campioni ({len(y_train)/len(y)*100:.0f}%)")
print(f"Test set:          {len(y_test)} campioni ({len(y_test)/len(y)*100:.0f}%)")

# Verifica stratificazione
prop_train = y_train.mean()
prop_test = y_test.mean()

print(f"\n=== Verifica Stratificazione ===")
print(f"Proporzione classe 1 nel dataset originale: {y.mean():.3f}")
print(f"Proporzione classe 1 nel training set:     {prop_train:.3f}")
print(f"Proporzione classe 1 nel test set:         {prop_test:.3f}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: Verifica correttezza dello split
# -----------------------------------------------------------------------------
# Le proporzioni devono essere quasi uguali
differenza = abs(prop_train - prop_test)
assert differenza < 0.05, \
    f"ERRORE: stratificazione non corretta! Differenza: {differenza:.3f}"

# Verifica che non ci siano sovrapposizioni (ogni campione √® in train OR test)
assert len(y_train) + len(y_test) == len(y), \
    "ERRORE: la somma di train e test non corrisponde al totale!"

print(f"\n--- Micro-checkpoint: split stratificato corretto ‚úì ---")
print(f"    Differenza proporzioni: {differenza:.4f} < 0.05")

(450, 6) (150, 6)


### 4.3 Standardizzazione delle Feature (StandardScaler)

#### Perch√© Scalare √® Fondamentale?

La **standardizzazione** (o scaling) trasforma le feature per avere **media 0** e **deviazione standard 1**. Questo passaggio √® **critico** per molti algoritmi di machine learning.

---

#### L'Analogia del "Campo di Gioco Equo"

Immagina di organizzare una gara in cui:
- Un corridore misura la distanza in **metri** (0-100)
- Un altro misura in **centimetri** (0-10000)
- Un terzo misura in **chilometri** (0-0.1)

Chi vince? Senza una scala comune, il confronto √® **impossibile**!

---

#### Formula della Standardizzazione (Z-score)

$$z = \frac{x - \mu}{\sigma}$$

Dove:
- $x$ = valore originale
- $\mu$ = media della feature
- $\sigma$ = deviazione standard della feature
- $z$ = valore standardizzato

**Interpretazione**: il valore standardizzato indica **quante deviazioni standard** il dato dista dalla media.

| z-score | Significato |
|---------|-------------|
| 0 | Il valore √® esattamente nella media |
| +1 | Una deviazione standard sopra la media |
| -2 | Due deviazioni standard sotto la media |

---

#### Quali Algoritmi RICHIEDONO lo Scaling?

| Algoritmo | Scaling Necessario? | Perch√© |
|-----------|---------------------|--------|
| **Logistic Regression** | ‚úÖ S√¨ | Convergenza del gradient descent |
| **SVM** | ‚úÖ S√¨ | Calcolo distanze nello spazio |
| **K-Nearest Neighbors** | ‚úÖ S√¨ | Distanze euclidee |
| **Neural Networks** | ‚úÖ S√¨ | Attivazioni e gradienti stabili |
| **Decision Trees** | ‚ùå No | Split basati su soglie, invarianti alla scala |
| **Random Forest** | ‚ùå No | Ensemble di alberi |
| **XGBoost/LightGBM** | ‚ùå No* | *Pu√≤ aiutare per convergenza |

---

#### ‚ö†Ô∏è REGOLA D'ORO: Fit su Train, Transform su Tutto

```
scaler.fit(X_train)       # Calcola media e std SOLO dal training
scaler.transform(X_train) # Applica la trasformazione al training
scaler.transform(X_test)  # Applica la STESSA trasformazione al test
```

**ERRORE GRAVISSIMO (Data Leakage)**:
```python
# MAI FARE QUESTO!
scaler.fit(X)  # Usi info del test per calcolare media/std
```

Se fai fit sull'intero dataset, le statistiche del test "contaminano" il training, portando a **stime ottimistiche** delle performance.

In [None]:
# =============================================================================
# STANDARDIZZAZIONE: Scaling delle Feature
# =============================================================================
# StandardScaler applica la trasformazione z-score:
#   z = (x - media) / deviazione_standard
#
# Dopo la trasformazione: media ‚âà 0, std ‚âà 1

print("=== STANDARDIZZAZIONE CON StandardScaler ===\n")

# Creiamo lo scaler
scaler = StandardScaler()

# FIT: calcola media e std SOLO sul training set
# Questo √® CRUCIALE per evitare data leakage!
scaler.fit(X_train)

# Mostra i parametri appresi
print("Parametri appresi dallo scaler (sul training set):")
print(f"  Medie delle feature:     {scaler.mean_[:3]}... (prime 3)")
print(f"  Std delle feature:       {scaler.scale_[:3]}... (prime 3)")

# TRANSFORM: applica la trasformazione
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)  # USA media/std del TRAINING!

# Verifica la trasformazione
print(f"\n=== Prima della standardizzazione (Training) ===")
print(f"  Media feature 0:  {X_train[:, 0].mean():.4f}")
print(f"  Std feature 0:    {X_train[:, 0].std():.4f}")

print(f"\n=== Dopo la standardizzazione (Training) ===")
print(f"  Media feature 0:  {X_train_scaled[:, 0].mean():.6f} (‚âà 0)")
print(f"  Std feature 0:    {X_train_scaled[:, 0].std():.6f} (‚âà 1)")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: Verifica standardizzazione corretta
# -----------------------------------------------------------------------------
mean_after = np.abs(X_train_scaled.mean(axis=0))  # Medie per colonna
std_after = X_train_scaled.std(axis=0)            # Std per colonna

# Le medie devono essere vicine a 0
assert mean_after.max() < 1e-10, \
    f"ERRORE: media non nulla! Max: {mean_after.max():.2e}"

# Le std devono essere vicine a 1
assert np.allclose(std_after, 1, atol=0.01), \
    f"ERRORE: std non unitaria!"

print(f"\n--- Micro-checkpoint: standardizzazione corretta ‚úì ---")
print(f"    Max media assoluta: {mean_after.max():.2e}")
print(f"    Range std: [{std_after.min():.4f}, {std_after.max():.4f}]")

[ 7.35214359e-17 -4.49455288e-16  3.50337043e-17  2.91125149e-17
  5.21188031e-16 -1.48029737e-18]


### 4.4 Addestramento del Modello: Logistic Regression

#### L'API Universale di Scikit-Learn: fit()

Ogni modello in scikit-learn segue lo stesso pattern:

```python
model.fit(X_train, y_train)  # Addestra il modello
```

**Cosa succede durante il fit?**
1. L'algoritmo "studia" i dati di training
2. Ottimizza i parametri interni del modello
3. Cerca di minimizzare l'errore di predizione

---

#### Logistic Regression: Il "Primo Modello" per la Classificazione

Nonostante il nome, la Logistic Regression √® un classificatore (non un regressore!).

**Come funziona** (intuizione):
1. Calcola una combinazione lineare delle feature: $z = w_1 x_1 + w_2 x_2 + ... + b$
2. Applica la funzione **sigmoid** per ottenere una probabilit√†:

$$P(y=1|x) = \sigma(z) = \frac{1}{1 + e^{-z}}$$

3. Se $P > 0.5$, predice classe 1, altrimenti classe 0

---

#### Parametri Importanti di LogisticRegression

| Parametro | Default | Descrizione |
|-----------|---------|-------------|
| `C` | 1.0 | Inverso della regolarizzazione (‚ÜëC = meno regolarizzazione) |
| `penalty` | 'l2' | Tipo di regolarizzazione (L1, L2, elasticnet, none) |
| `solver` | 'lbfgs' | Algoritmo di ottimizzazione |
| `max_iter` | 100 | Numero massimo di iterazioni |
| `random_state` | None | Seed per riproducibilit√† |

---

#### Regolarizzazione: Perch√© `C` √® Importante?

La regolarizzazione **penalizza i coefficienti troppo grandi**, prevenendo l'overfitting.

| Valore di C | Effetto |
|-------------|---------|
| C molto piccolo (0.001) | Forte regolarizzazione, modello pi√π semplice |
| C = 1 (default) | Bilanciamento |
| C molto grande (1000) | Poca regolarizzazione, modello pi√π complesso |

**Intuizione**: C controlla quanto il modello pu√≤ "fidarsi" dei dati. Con C alto, si fida molto (rischio overfitting). Con C basso, √® pi√π conservativo.

In [None]:
# =============================================================================
# ADDESTRAMENTO: fit() della Logistic Regression
# =============================================================================
# Il metodo fit() "addestra" il modello:
# - Trova i pesi ottimali (coefficienti)
# - Minimizza la loss function (log-loss per classificazione)
# - Itera fino a convergenza o max_iter

print("=== ADDESTRAMENTO LOGISTIC REGRESSION ===\n")

# Creazione e addestramento del modello
model = LogisticRegression(
    C=1.0,              # Forza della regolarizzazione (inverso)
    penalty='l2',       # Regolarizzazione L2 (ridge)
    solver='lbfgs',     # Algoritmo di ottimizzazione
    max_iter=1000,      # Iterazioni massime (aumentato per sicurezza)
    random_state=42     # Riproducibilit√†
)

# Addestramento sui dati SCALATI
# NOTA: usiamo X_train_scaled, NON X_train!
model.fit(X_train_scaled, y_train)

print(f"Modello addestrato con successo!")
print(f"Numero di iterazioni effettuate: {model.n_iter_[0]}")

# Esploriamo i parametri appresi dal modello
print(f"\n=== Parametri del Modello ===")
print(f"Numero di coefficienti: {len(model.coef_[0])}")
print(f"Primi 5 coefficienti: {model.coef_[0][:5]}")
print(f"Intercetta (bias): {model.intercept_[0]:.4f}")

# Coefficienti pi√π importanti (in valore assoluto)
coef_abs = np.abs(model.coef_[0])
top_idx = np.argsort(coef_abs)[-3:][::-1]  # Top 3

print(f"\n=== Feature pi√π Influenti (coefficienti maggiori) ===")
for rank, idx in enumerate(top_idx, 1):
    print(f"  {rank}. Feature {idx}: coef = {model.coef_[0][idx]:.4f}")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: Verifica addestramento completato
# -----------------------------------------------------------------------------
# Il modello deve avere coefficienti definiti
assert hasattr(model, 'coef_'), "ERRORE: modello non addestrato!"
assert model.coef_.shape == (1, X_train_scaled.shape[1]), \
    "ERRORE: forma coefficienti non corretta!"

# Deve aver raggiunto la convergenza (meno di max_iter)
converged = model.n_iter_[0] < 1000
status = "CONVERGENTE ‚úì" if converged else "MAX ITER RAGGIUNTO ‚ö†Ô∏è"

print(f"\n--- Micro-checkpoint: addestramento completato ‚úì ---")
print(f"    Status convergenza: {status}")
print(f"    Coefficienti: shape {model.coef_.shape}")

feature_1    1.158654
feature_4    0.782303
feature_5    0.598550
feature_2    0.096979
feature_3    0.065306
feature_0   -0.824411
dtype: float64

### 4.5 Predizione e Valutazione

#### L'API Universale di Scikit-Learn: predict()

Dopo l'addestramento, possiamo fare predizioni:

```python
y_pred = model.predict(X_test)  # Predice le classi
```

---

#### predict() vs predict_proba()

| Metodo | Output | Uso |
|--------|--------|-----|
| `predict(X)` | Etichette di classe (0 o 1) | Classificazione diretta |
| `predict_proba(X)` | Probabilit√† per ogni classe | Quando serve la "confidenza" |

**Esempio predict_proba**:
```python
proba = model.predict_proba(X_test)
# proba[i, 0] = P(classe 0)
# proba[i, 1] = P(classe 1)
```

La soglia di default √® 0.5: se P(classe 1) > 0.5, predice 1.

---

#### Accuracy: La Metrica Base

$$\text{Accuracy} = \frac{\text{Predizioni Corrette}}{\text{Totale Predizioni}} = \frac{TP + TN}{TP + TN + FP + FN}$$

| Termine | Significato |
|---------|-------------|
| TP (True Positive) | Predetto 1, era 1 ‚úì |
| TN (True Negative) | Predetto 0, era 0 ‚úì |
| FP (False Positive) | Predetto 1, era 0 ‚úó |
| FN (False Negative) | Predetto 0, era 1 ‚úó |

---

#### ‚ö†Ô∏è Quando l'Accuracy NON Basta

L'accuracy pu√≤ essere **fuorviante** con dataset sbilanciati:

| Scenario | Classe 0 | Classe 1 | Accuracy "stupida" |
|----------|----------|----------|-------------------|
| Bilanciato | 50% | 50% | 50% (random) |
| Sbilanciato | 95% | 5% | 95% (predici sempre 0!) |

**Nel caso sbilanciato**: un modello che predice SEMPRE classe 0 ha 95% di accuracy, ma √® inutile!

Per dataset sbilanciati useremo metriche pi√π sofisticate (precision, recall, F1) nelle lezioni successive.

---

#### Perch√© Valutiamo sul TEST Set?

- **Training accuracy**: quanto bene il modello "ricorda" i dati visti
- **Test accuracy**: quanto bene il modello **generalizza** a dati nuovi

Se training accuracy >> test accuracy ‚Üí **Overfitting** (il modello ha memorizzato, non imparato)

In [None]:
# =============================================================================
# PREDIZIONE E VALUTAZIONE
# =============================================================================
# Usiamo il modello addestrato per fare predizioni sul test set
# e valutare le performance con accuracy_score

print("=== PREDIZIONE E VALUTAZIONE ===\n")

# Predizione sui dati di TEST (scalati!)
y_pred_test = model.predict(X_test_scaled)

# Predizione anche sul training per confronto
y_pred_train = model.predict(X_train_scaled)

# Calcolo accuracy
acc_train = accuracy_score(y_train, y_pred_train)
acc_test = accuracy_score(y_test, y_pred_test)

print(f"=== Accuracy del Modello ===")
print(f"Training Accuracy: {acc_train:.4f} ({acc_train*100:.1f}%)")
print(f"Test Accuracy:     {acc_test:.4f} ({acc_test*100:.1f}%)")

# Gap tra train e test (indicatore di overfitting)
gap = acc_train - acc_test
print(f"\nGap Train-Test: {gap:.4f}")

if gap > 0.05:
    print("‚ö†Ô∏è  ATTENZIONE: possibile overfitting (gap > 5%)")
elif gap < 0:
    print("‚ùì Strano: test accuracy > train accuracy")
else:
    print("‚úì  Gap accettabile: il modello generalizza bene")

# Esaminiamo anche le probabilit√† predette
y_proba_test = model.predict_proba(X_test_scaled)

print(f"\n=== Probabilit√† Predette (primi 5 campioni) ===")
print(f"{'Campione':^10} {'P(classe 0)':^12} {'P(classe 1)':^12} {'Predetto':^10} {'Reale':^8}")
print("-" * 55)
for i in range(5):
    print(f"{i:^10} {y_proba_test[i, 0]:^12.3f} {y_proba_test[i, 1]:^12.3f} "
          f"{y_pred_test[i]:^10} {y_test[i]:^8}")

# Analisi degli errori
errori = y_pred_test != y_test
n_errori = errori.sum()
print(f"\n=== Analisi Errori ===")
print(f"Errori totali: {n_errori}/{len(y_test)} ({n_errori/len(y_test)*100:.1f}%)")

# -----------------------------------------------------------------------------
# MICRO-CHECKPOINT: Verifica predizioni valide
# -----------------------------------------------------------------------------
# Le predizioni devono essere solo 0 o 1
assert set(y_pred_test).issubset({0, 1}), \
    "ERRORE: predizioni non valide!"

# L'accuracy deve essere ragionevole (meglio del caso random)
assert acc_test > 0.5, \
    f"ERRORE: accuracy ({acc_test:.2f}) peggiore del caso random!"

# Le probabilit√† devono sommare a 1
proba_sum = y_proba_test.sum(axis=1)
assert np.allclose(proba_sum, 1), \
    "ERRORE: le probabilit√† non sommano a 1!"

print(f"\n--- Micro-checkpoint: predizioni valide ‚úì ---")
print(f"    Accuracy test: {acc_test:.4f} > 0.5 (baseline)")
print(f"    Predizioni: valori in {{0, 1}}")

Accuracy: 0.727


---

# 5) Esercizi Risolti (Step by Step)

In questa sezione consolidiamo quanto appreso con una **reference card** completa di tutti i metodi utilizzati, organizzati per fase del workflow ML.

---

## 5.1 Creazione Dataset Sintetico

| Metodo | Sintassi | Cosa Fa | Output |
|--------|----------|---------|--------|
| `make_classification()` | `make_classification(n_samples=200, n_features=10)` | Genera dataset classificazione | `X, y` arrays |
| Parametro `n_informative` | `n_informative=5` | Feature realmente predittive | int |
| Parametro `n_redundant` | `n_redundant=2` | Feature combinazioni lineari | int |
| Parametro `n_clusters_per_class` | `n_clusters_per_class=1` | Complessit√† delle classi | int |
| Parametro `random_state` | `random_state=42` | Riproducibilit√† | int |

**Pattern d'uso:**
```python
from sklearn.datasets import make_classification
X, y = make_classification(
    n_samples=200, n_features=10, n_informative=5,
    n_redundant=2, n_clusters_per_class=1, random_state=42
)
```

---

## 5.2 Train/Test Split

| Metodo | Sintassi | Cosa Fa | Output |
|--------|----------|---------|--------|
| `train_test_split()` | `train_test_split(X, y, test_size=0.25)` | Divide dati in train e test | 4 arrays |
| Parametro `test_size` | `test_size=0.25` | Proporzione per test | float [0,1] |
| Parametro `stratify` | `stratify=y` | Mantiene proporzioni classi | array-like |
| Parametro `random_state` | `random_state=42` | Riproducibilit√† | int |
| Parametro `shuffle` | `shuffle=True` (default) | Mischia i dati prima dello split | bool |

**Pattern d'uso:**
```python
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, stratify=y, random_state=42
)
```

---

## 5.3 Preprocessing - StandardScaler

| Metodo | Sintassi | Cosa Fa | Output |
|--------|----------|---------|--------|
| `StandardScaler()` | `scaler = StandardScaler()` | Crea oggetto scaler | estimator |
| `.fit()` | `scaler.fit(X_train)` | Calcola media/std | self |
| `.transform()` | `scaler.transform(X)` | Applica trasformazione | array scaled |
| `.fit_transform()` | `scaler.fit_transform(X_train)` | Fit + Transform insieme | array scaled |
| `.mean_` | `scaler.mean_` | Medie calcolate | array |
| `.scale_` | `scaler.scale_` | Deviazioni standard | array |
| `.inverse_transform()` | `scaler.inverse_transform(X_scaled)` | Riporta a scala originale | array |

**Pattern d'uso (CORRETTO):**
```python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # Fit + transform su train
X_test_scaled = scaler.transform(X_test)        # SOLO transform su test!
```

---

## 5.4 Modello - LogisticRegression

| Metodo | Sintassi | Cosa Fa | Output |
|--------|----------|---------|--------|
| `LogisticRegression()` | `model = LogisticRegression()` | Crea modello | estimator |
| `.fit()` | `model.fit(X_train, y_train)` | Addestra il modello | self |
| `.predict()` | `model.predict(X_test)` | Predice le classi | array (0/1) |
| `.predict_proba()` | `model.predict_proba(X_test)` | Predice probabilit√† | array (n, 2) |
| `.coef_` | `model.coef_` | Coefficienti (pesi) | array (1, n_features) |
| `.intercept_` | `model.intercept_` | Intercetta (bias) | array (1,) |
| `.n_iter_` | `model.n_iter_` | Iterazioni effettuate | array |
| `.classes_` | `model.classes_` | Etichette delle classi | array |

**Pattern d'uso:**
```python
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(C=1.0, max_iter=1000, random_state=42)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
```

---

## 5.5 Valutazione - Metriche

| Metodo | Sintassi | Cosa Fa | Output |
|--------|----------|---------|--------|
| `accuracy_score()` | `accuracy_score(y_true, y_pred)` | Proporzione corrette | float [0,1] |
| Parametro `normalize` | `normalize=False` | Conta invece di proporzione | int |

**Pattern d'uso:**
```python
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, y_pred)
print(f"Accuracy: {acc:.4f}")
```

---

## 5.6 Glossario Essenziale

Questa tabella definisce tutti i termini tecnici utilizzati nella lezione. Consultala quando incontri un termine non chiaro.

| Termine | Definizione | Esempio/Contesto |
|---------|-------------|------------------|
| **Feature** | Variabile di input (colonna di X) usata per la previsione | Et√†, reddito, altezza |
| **Target** | Variabile da predire (y) | 0/1 per classificazione binaria |
| **Training Set** | Dati usati per addestrare il modello | 75% del dataset |
| **Test Set** | Dati usati per valutare il modello (mai visti in training) | 25% del dataset |
| **Fit** | Processo di addestramento: il modello "impara" dai dati | `model.fit(X, y)` |
| **Predict** | Generazione di previsioni dal modello addestrato | `model.predict(X_new)` |
| **Standardizzazione** | Trasformazione per avere media=0 e std=1 (z-score) | `StandardScaler()` |
| **Data Leakage** | Uso improprio di informazioni del test nel training | Fit scaler su tutto X |
| **Accuracy** | Proporzione di previsioni corrette su totale | 0.85 = 85% corrette |
| **Coefficiente** | Peso assegnato a ogni feature dal modello lineare | `model.coef_` |
| **Intercetta (Bias)** | Termine costante aggiunto alla combinazione lineare | `model.intercept_` |
| **Sigmoide** | Funzione che comprime valori in [0,1]: $\sigma(z) = 1/(1+e^{-z})$ | Output della logistic |
| **Logit** | Logaritmo degli odds, input della sigmoide | Valore lineare $z$ |
| **Stratificazione** | Mantenere le proporzioni delle classi nello split | `stratify=y` |
| **Overfitting** | Modello troppo adattato ai dati di training, generalizza male | Train acc >> Test acc |
| **Underfitting** | Modello troppo semplice, non cattura i pattern | Train acc e Test acc bassi |
| **Regolarizzazione** | Penalit√† sui coefficienti per prevenire overfitting | Parametro `C` |
| **Convergenza** | L'algoritmo ha trovato una soluzione stabile | `n_iter_ < max_iter` |
| **Iperparametro** | Parametro impostato dall'utente, non appreso dal modello | C, max_iter, penalty |

---

### Distinzione Importante: Parametri vs Iperparametri

| Categoria | Chi li Imposta | Quando | Esempi |
|-----------|----------------|--------|--------|
| **Parametri** | L'algoritmo durante il fit | Training | coef_, intercept_ |
| **Iperparametri** | L'utente prima del fit | Configurazione | C, max_iter, penalty |

I **parametri** vengono appresi dai dati. Gli **iperparametri** controllano come avviene l'apprendimento.

---

## 5.7 Errori Comuni e Debug Rapido

Questa sezione raccoglie gli errori pi√π frequenti quando si implementa una pipeline di classificazione. Per ogni errore: sintomo, causa, soluzione.

---

### ‚ùå Errore 1: Data Leakage - Fit dello Scaler su Tutto il Dataset

**Sintomo**: Test accuracy troppo alta, performance reali deludenti

**Causa**: Le statistiche del test "contaminano" il training

```python
# SBAGLIATO - data leakage!
scaler.fit(X)                    # Usa info del test per calcolare media/std
X_scaled = scaler.transform(X)
X_train, X_test = train_test_split(X_scaled)

# CORRETTO - split PRIMA dello scaling
X_train, X_test = train_test_split(X)
scaler.fit(X_train)                        # Fit SOLO su train
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)   # Transform con parametri del train
```

---

### ‚ùå Errore 2: Dimenticare di Scalare il Test Set

**Sintomo**: `ValueError` o predizioni completamente sbagliate

**Causa**: Il modello √® stato addestrato su dati scalati, ma predice su dati non scalati

```python
# SBAGLIATO - scale mismatch!
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test)  # X_test NON scalato!

# CORRETTO
y_pred = model.predict(X_test_scaled)  # Usa dati scalati
```

---

### ‚ùå Errore 3: Confondere predict() e predict_proba()

**Sintomo**: Risultati inaspettati, errori di tipo

**Causa**: Confusione tra classi e probabilit√†

```python
# .predict() restituisce CLASSI (0 o 1)
y_pred = model.predict(X_test)
# Output: array([0, 1, 1, 0, 1, ...])

# .predict_proba() restituisce PROBABILIT√Ä (matrice n√ó2)
y_proba = model.predict_proba(X_test)
# Output: array([[0.3, 0.7], [0.8, 0.2], ...])
# Colonna 0: P(classe 0), Colonna 1: P(classe 1)
```

---

### ‚ùå Errore 4: Non Impostare random_state

**Sintomo**: Risultati diversi ad ogni esecuzione

**Causa**: Operazioni casuali senza seed

```python
# SBAGLIATO - risultati non riproducibili
X_train, X_test, y_train, y_test = train_test_split(X, y)

# CORRETTO - sempre riproducibile
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)
model = LogisticRegression(random_state=42)  # Anche nel modello!
```

---

### ‚ùå Errore 5: Ordine Errato delle Operazioni

**Sintomo**: Data leakage o errori

**Causa**: Scale prima dello split

```python
# SBAGLIATO - ordine errato
X_scaled = scaler.fit_transform(X)         # 1. Scala TUTTO
X_train, X_test = train_test_split(X_scaled)  # 2. Poi split

# CORRETTO - ordine giusto
X_train, X_test = train_test_split(X)      # 1. PRIMA split
X_train_scaled = scaler.fit_transform(X_train)  # 2. Poi scala train
X_test_scaled = scaler.transform(X_test)   # 3. Poi scala test
```

---

### ‚ùå Errore 6: ConvergenceWarning

**Sintomo**: Warning: `lbfgs failed to converge`

**Causa**: L'algoritmo non ha trovato una soluzione in max_iter iterazioni

```python
# SOLUZIONE 1: aumenta max_iter
model = LogisticRegression(max_iter=1000)  # Default √® 100

# SOLUZIONE 2: scala i dati (spesso risolve)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# SOLUZIONE 3: prova un solver diverso
model = LogisticRegression(solver='saga', max_iter=500)
```

---

### ‚ùå Errore 7: Fidarsi dell'Accuracy su Classi Sbilanciate

**Sintomo**: Accuracy alta ma modello inutile

**Causa**: Il modello predice sempre la classe maggioritaria

```python
# Se 95% dei dati √® classe 0:
# Un modello che predice SEMPRE 0 ha accuracy = 0.95!

# SOLUZIONE: usa metriche aggiuntive
from sklearn.metrics import precision_score, recall_score, f1_score, classification_report

print(classification_report(y_test, y_pred))
```

---

### Tabella Riassuntiva Debug

| Errore | Sintomo | Fix Rapido |
|--------|---------|------------|
| Data leakage | Test acc troppo alta | Split PRIMA di fit |
| Test non scalato | Predizioni sbagliate | Usa X_test_scaled |
| predict vs proba | Tipo dati errato | Scegli il metodo giusto |
| No random_state | Risultati variabili | Aggiungi random_state=42 |
| Ordine sbagliato | Leakage/errori | Split ‚Üí Scale ‚Üí Fit |
| ConvergenceWarning | Warning | max_iter=1000 |
| Accuracy ingannevole | Modello inutile | Usa F1, precision, recall |

---

# 6) Conclusione Operativa

## Cosa Hai Imparato in Questa Lezione

Questa lezione segna il **passaggio dall'analisi dati al Machine Learning**. Hai acquisito:

### Competenze Teoriche
1. **Tassonomia dei modelli ML**: Le quattro famiglie (lineari, tree-based, distanza, bayesiani) e quando usarle
2. **Logistic Regression**: Come funziona matematicamente (combinazione lineare + sigmoide)
3. **Concetto di generalizzazione**: Perch√© separiamo train e test
4. **Standardizzazione**: Perch√© √® necessaria per modelli lineari

### Competenze Pratiche
1. **Generazione dataset**: `make_classification()` per esperimenti controllati
2. **Train/Test Split**: `train_test_split()` con stratificazione
3. **Preprocessing**: `StandardScaler()` con il pattern fit-transform corretto
4. **Training**: `model.fit(X, y)` - l'API universale di scikit-learn
5. **Prediction**: `model.predict()` e `model.predict_proba()`
6. **Evaluation**: `accuracy_score()` come prima metrica

---

## Pattern Ricorrente: La Pipeline di Classificazione

Questo √® il pattern che userai in OGNI progetto di classificazione:

```python
# ==========================================================
# PIPELINE STANDARD DI CLASSIFICAZIONE - MEMORIZZA QUESTO!
# ==========================================================

# 1. IMPORT
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# 2. SPLIT (prima di qualsiasi preprocessing!)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, stratify=y, random_state=42
)

# 3. SCALING (fit su train, transform su entrambi)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 4. TRAINING
model = LogisticRegression(random_state=42)
model.fit(X_train_scaled, y_train)

# 5. PREDICTION & EVALUATION
y_pred = model.predict(X_test_scaled)
acc = accuracy_score(y_test, y_pred)
print(f"Test Accuracy: {acc:.4f}")
```

---

## Mappa Concettuale della Lezione

```
            MACHINE LEARNING
                   ‚îÇ
    ‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
    ‚îÇ                             ‚îÇ
SUPERVISIONE                  NON SUPERVISIONE
(usa target y)                (no target)
    ‚îÇ
    ‚îú‚îÄ‚îÄ CLASSIFICAZIONE ‚óÑ‚îÄ‚îÄ Questa lezione!
    ‚îÇ      ‚îî‚îÄ‚îÄ Logistic Regression
    ‚îÇ
    ‚îî‚îÄ‚îÄ REGRESSIONE
           ‚îî‚îÄ‚îÄ Linear Regression (prossime lezioni)
```

---

## Collegamento con le Prossime Lezioni

| Lezione | Argomento | Cosa Aggiunger√† |
|---------|-----------|-----------------|
| **06** | Modelli Lineari Avanzati | Regressione, Ridge, Lasso |
| **07** | Validazione | Cross-validation, GridSearchCV |
| **08** | Overfitting | Diagnosi e rimedi |
| **09** | Tree-Based Models | Decision Tree, intuizione |
| **10** | Gradient Boosting | XGBoost, LightGBM |
| **11** | Metriche Avanzate | Precision, Recall, F1, ROC |

---

## Take-Home Messages

> üéØ **Messaggio 1**: Il Machine Learning √® un processo sistematico (split ‚Üí scale ‚Üí fit ‚Üí predict ‚Üí score), non magia.

> üéØ **Messaggio 2**: Il data leakage √® l'errore pi√π comune e insidioso. Split PRIMA di tutto!

> üéØ **Messaggio 3**: L'accuracy non basta per dataset sbilanciati. Imparerai altre metriche.

> üéØ **Messaggio 4**: random_state=42 √® tuo amico per la riproducibilit√†.

---

# 7) Checklist di Fine Lezione

Prima di procedere alla prossima lezione, verifica di padroneggiare ogni competenza. Usa questa checklist come **autovalutazione**.

---

## Competenze Teoriche

- [ ] **So elencare le 4 famiglie di modelli ML** (lineari, tree-based, distanza, bayesiani)
- [ ] **Capisco quando usare un modello lineare vs tree-based** (dati lineari vs relazioni complesse)
- [ ] **So spiegare cos'√® la funzione sigmoide** e perch√© trasforma valori in probabilit√†
- [ ] **Capisco la differenza tra parametri e iperparametri**
- [ ] **So spiegare cos'√® il data leakage** e perch√© √® pericoloso

---

## Competenze Pratiche - train_test_split

- [ ] **So usare `train_test_split()`** con tutti i parametri necessari
- [ ] **Capisco il parametro `stratify=y`** e quando usarlo (classificazione)
- [ ] **So impostare `random_state`** per riproducibilit√†

---

## Competenze Pratiche - StandardScaler

- [ ] **Capisco perch√© lo scaling √® necessario** per modelli lineari
- [ ] **So usare `StandardScaler` correttamente**: fit su train, transform su entrambi
- [ ] **Conosco la formula z-score**: $z = (x - \mu) / \sigma$
- [ ] **So che i tree-based models NON richiedono scaling**

---

## Competenze Pratiche - LogisticRegression

- [ ] **So creare e addestrare una `LogisticRegression`**
- [ ] **Capisco la differenza tra `.predict()` e `.predict_proba()`**
- [ ] **So interpretare i coefficienti** (segno = direzione, magnitudo = importanza)
- [ ] **So cosa significa il parametro `C`** (regolarizzazione)

---

## Competenze Pratiche - Valutazione

- [ ] **So calcolare l'accuracy** con `accuracy_score()`
- [ ] **Capisco i limiti dell'accuracy** su dataset sbilanciati
- [ ] **So interpretare il gap train-test** come indicatore di overfitting

---

## Competenze di Debug

- [ ] **So riconoscere e correggere il data leakage**
- [ ] **So gestire il ConvergenceWarning** (aumentare max_iter)
- [ ] **Conosco l'ordine corretto delle operazioni**: split ‚Üí scale ‚Üí fit ‚Üí predict

---

## Verifica Pratica

Sei pronto per la prossima lezione se riesci a scrivere **da zero** (senza guardare) questa pipeline:

```python
# Scrivi questo codice a memoria per verificare la tua comprensione
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=42)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)
model = LogisticRegression(random_state=42)
model.fit(X_train_scaled, y_train)
y_pred = model.predict(X_test_scaled)
print(accuracy_score(y_test, y_pred))
```

**Se hai dubbi su qualche punto, rileggi la sezione corrispondente prima di proseguire.**

---

# 8) Changelog Didattico

Registro delle modifiche apportate al notebook per garantire tracciabilit√† e trasparenza del processo di miglioramento continuo.

---

| Versione | Data | Autore | Modifiche |
|----------|------|--------|-----------|
| 1.0 | Originale | - | Versione iniziale: teoria estesa sulle 4 famiglie di modelli, poco codice pratico |
| 2.0 | 2025-01 | Ristrutturazione | Riorganizzazione completa secondo template a 8 sezioni |
| | | | **Sezione 1**: Header espanso con obiettivi, prerequisiti, mappa concettuale |
| | | | **Sezione 2**: Teoria consolidata con formule LaTeX e analogie |
| | | | **Sezione 3**: Schema mentale con decision tree per scelta modello |
| | | | **Sezione 4**: Notebook dimostrativo completo con micro-checkpoint |
| | | | - Aggiunto "Perch√© questo passaggio" prima di ogni cella di codice |
| | | | - Aggiunte asserzioni e sanity check in ogni step |
| | | | - Aggiunto esempio predict_proba con tabella probabilit√† |
| | | | - Verifiche stratificazione e convergenza |
| | | | **Sezione 5**: Reference card completa con pattern d'uso |
| | | | - Tabelle per ogni fase del workflow |
| | | | - Glossario 19 termini con esempi |
| | | | - 7 errori comuni con sintomi, cause, soluzioni |
| | | | **Sezione 6**: Conclusione operativa con take-home messages |
| | | | **Sezione 7**: Checklist autovalutazione (15+ items) |
| | | | **Sezione 8**: Changelog completo |

---

## Statistiche del Notebook

| Metrica | Valore |
|---------|--------|
| Sezioni totali | 8 |
| Celle Markdown didattiche | 15+ |
| Celle Python con codice | 5 |
| Micro-checkpoint | 5 |
| Termini nel glossario | 19 |
| Errori documentati | 7 |
| Items nella checklist | 20 |
| Formule matematiche | 3 |
| Tabelle esplicative | 15+ |

---

## Note per Future Revisioni

- Considerare l'aggiunta di visualizzazioni (confusion matrix, decision boundary)
- Espandere la sezione su precision/recall quando si affronta il tema delle metriche
- Collegare a esercizi pratici su dataset reali
- Aggiungere riferimenti a documentazione ufficiale scikit-learn

---

**Fine della Lezione 05 - Tassonomia Modelli Lineari**

*Prossima lezione: Modelli Lineari Avanzati (Regressione, Ridge, Lasso)*