# Lezione 19 ‚Äî Introduzione all'Unsupervised Learning

---

## Obiettivi della Lezione

Al termine di questa lezione sarai in grado di:

1. **Distinguere** chiaramente apprendimento supervisionato da non supervisionato
2. **Comprendere** cosa significa lavorare senza un target e quali implicazioni ha
3. **Riconoscere** la differenza fondamentale tra "pattern nei dati" e "verit√†"
4. **Evitare** gli errori concettuali pi√π comuni che portano a conclusioni sbagliate
5. **Orientarti** tra le diverse famiglie di metodi unsupervised

---

## Perch√© questa lezione √® importante

Fino ad ora abbiamo sempre lavorato con una variabile target: prevedere un prezzo, classificare un cliente, stimare una probabilit√†. Questo √® il mondo **supervisionato**.

Ma nella realt√† aziendale, la maggior parte dei dati **non ha etichette**:
- I log di navigazione di un sito web
- Le transazioni di un e-commerce
- I dati di sensori industriali
- I comportamenti di utilizzo di un'app

L'unsupervised learning ci permette di **estrarre struttura** da questi dati anche senza sapere "la risposta giusta". 

**Attenzione critica:** questa libert√† √® anche il suo rischio principale. Senza un target che ci dica se abbiamo ragione o torto, √® facile trovare pattern che non significano nulla.

---

## Ruolo nel percorso

| Lezioni 11-18 | Lezioni 19-28 |
|---------------|---------------|
| Supervised Learning | Unsupervised Learning |
| Target noto (y) | Nessun target |
| Valutazione oggettiva (accuracy, RMSE) | Valutazione indiretta e soggettiva |
| Obiettivo: predire | Obiettivo: scoprire struttura |

Questa lezione introduce il **framework mentale** necessario per affrontare le lezioni successive (clustering, riduzione dimensionale, anomaly detection).

---

# Parte 1 ‚Äî Teoria Concettuale

---

## 1.1 Supervised vs Unsupervised: la differenza fondamentale

### Apprendimento Supervisionato (ripasso)

Nel supervised learning abbiamo sempre:
- **Input X**: le feature che descrivono ogni osservazione
- **Output y**: la variabile target che vogliamo predire

Il modello "impara" la relazione $f$ tale che $y \approx f(X)$ minimizzando un errore misurabile.

**Esempio:** Prevedere il prezzo di una casa ($y$) dalle sue caratteristiche ($X$: metri quadri, zona, stanze...).

La presenza del target ci d√†:
- Un **obiettivo chiaro**: minimizzare l'errore tra predizione e realt√†
- Una **metrica oggettiva**: possiamo calcolare RMSE, accuracy, F1 e sapere se miglioriamo
- Un **criterio di stop**: quando l'errore √® accettabile, ci fermiamo

---

### Apprendimento Non Supervisionato

Nell'unsupervised learning abbiamo **solo X**. Non esiste $y$.

$$\text{Dati} = \{x_1, x_2, ..., x_n\} \quad \text{(nessun target)}$$

L'obiettivo non √® predire qualcosa di noto, ma **scoprire struttura nascosta**:
- Gruppi naturali (clustering)
- Relazioni tra variabili (riduzione dimensionale)
- Osservazioni anomale (anomaly detection)
- Pattern di co-occorrenza (association rules)

**Esempio:** Dato l'elenco delle transazioni di un e-commerce, trovare gruppi di clienti con comportamenti simili. Nessuno ci ha detto quanti gruppi esistono o quali sono.

---

### Tabella comparativa

| Aspetto | Supervised | Unsupervised |
|---------|------------|--------------|
| **Dati** | X e y | Solo X |
| **Obiettivo** | Predire y | Scoprire struttura |
| **Valutazione** | Errore su y (oggettiva) | Metriche interne + interpretazione (soggettiva) |
| **Domanda** | "Quanto √® accurata la predizione?" | "Ha senso questa struttura?" |
| **Rischio principale** | Overfitting sul target | Trovare pattern senza significato |
| **Esempi** | Regressione, Classificazione | Clustering, PCA, Anomaly Detection |

---

## 1.2 L'assenza del target: cosa implica davvero

Quando non abbiamo un target, perdiamo qualcosa di fondamentale: **la possibilit√† di sapere se abbiamo ragione**.

### Nel supervised learning

```
Modello predice: y_pred = 150.000‚Ç¨
Valore reale:    y_true = 145.000‚Ç¨
Errore:          5.000‚Ç¨ ‚Üí posso migliorare
```

Posso calcolare l'errore, confrontare modelli, scegliere il migliore.

### Nell'unsupervised learning

```
Algoritmo trova: 3 cluster
Domanda:         Sono giusti? Dovevano essere 4? O 2?
Risposta:        Non lo sappiamo. Non c'√® "verit√†".
```

Non esiste un $y$ con cui confrontarsi. L'algoritmo trova **una struttura possibile**, non **la struttura vera**.

---

### Le conseguenze pratiche

1. **Non possiamo usare accuracy, RMSE, F1** ‚Äî queste metriche richiedono un target

2. **Dobbiamo usare metriche "interne"** ‚Äî che valutano la coerenza della struttura trovata (es. Silhouette per il clustering), ma non la sua "verit√†"

3. **Servono validazioni esterne** ‚Äî esperti di dominio, buon senso, utilit√† business

4. **I risultati sono ipotesi, non fatti** ‚Äî un cluster non √® una "classe vera", √® un raggruppamento che l'algoritmo ha trovato conveniente

---

### Esempio concreto

Immagina di clusterizzare i clienti di un negozio e trovare 4 gruppi:
- Cluster 0: acquisti frequenti, scontrino basso
- Cluster 1: acquisti rari, scontrino alto
- Cluster 2: nuovi clienti
- Cluster 3: clienti dormienti

**Domanda:** Questi 4 gruppi "esistono davvero"?

**Risposta onesta:** Non lo sappiamo. L'algoritmo ha trovato 4 regioni nello spazio delle feature. Se sono utili per il marketing, li usiamo. Ma non sono "la verit√†" ‚Äî sono un'interpretazione.

---

## 1.3 Pattern vs Verit√†: la distinzione critica

Questo √® forse il concetto pi√π importante di tutta la lezione.

### Cosa trova un algoritmo unsupervised?

Un algoritmo unsupervised trova **pattern statistici** nei dati:
- Punti vicini nello spazio delle feature ‚Üí cluster
- Direzioni di massima varianza ‚Üí componenti principali
- Punti isolati ‚Üí anomalie

Questi pattern sono **matematicamente veri**: l'algoritmo li ha calcolati correttamente.

Ma essere matematicamente vero **non significa essere significativo**.

---

### L'illusione del pattern

Considera questo esperimento mentale:

1. Genero 1000 punti **completamente casuali** in 2 dimensioni
2. Applico K-Means con K=3
3. L'algoritmo trova **sempre** 3 cluster

Quei 3 cluster esistono? Matematicamente s√¨: l'algoritmo ha diviso lo spazio in 3 regioni.
Hanno significato? **No**: i dati erano casuali, non c'era struttura da trovare.

---

### La regola d'oro

> **Un pattern trovato da un algoritmo √® un'ipotesi, non una scoperta.**

Prima di concludere che "esistono 3 tipi di clienti" o che "questa variabile √® anomala", devi:

1. **Verificare la stabilit√†**: se cambio random seed o parametri, il pattern resta?
2. **Verificare l'interpretabilit√†**: il pattern ha senso nel dominio?
3. **Verificare l'utilit√†**: il pattern √® azionabile? Serve a qualcosa?

Se la risposta a tutte e tre √® s√¨, il pattern √® **probabilmente** significativo.
Se la risposta a una √® no, il pattern potrebbe essere **rumore travestito da struttura**.

---

### Tabella riassuntiva

| Concetto | Pattern | Verit√† |
|----------|---------|--------|
| **Definizione** | Regolarit√† statistica nei dati | Struttura reale nel fenomeno |
| **Chi lo trova** | L'algoritmo | Il dominio/la realt√† |
| **Sempre presente?** | S√¨ (anche nei dati casuali) | No (solo se esiste) |
| **Verifica** | Metriche interne | Esperti, test, business |
| **Rischio** | Sovra-interpretazione | Nessuno (√® la realt√†) |

---

## 1.4 Errori concettuali tipici

Prima di passare agli algoritmi specifici, √® fondamentale conoscere gli errori che anche professionisti esperti commettono.

---

### Errore 1: Trattare i cluster come classi vere

**L'errore:** "L'algoritmo ha trovato 4 cluster, quindi esistono 4 tipi di clienti"

**Il problema:** L'algoritmo divide sempre lo spazio. Se gli chiedi 4 gruppi, ne trova 4. Se gli chiedi 10, ne trova 10. Questo non prova che quei gruppi "esistano".

**Come evitarlo:** Valida con il dominio. I cluster hanno senso? Sono stabili? Sono azionabili?

---

### Errore 2: Usare metriche supervisionate

**L'errore:** Calcolare accuracy o F1 su un risultato di clustering

**Il problema:** Accuracy richiede etichette vere. Se le avessimo, non saremmo in unsupervised.

**Come evitarlo:** Usa metriche appropriate: Silhouette, Davies-Bouldin, errore di ricostruzione.

---

### Errore 3: Non scalare le feature

**L'errore:** Applicare K-Means su dati con scale diverse (es. et√† 0-100, reddito 0-100.000)

**Il problema:** Le distanze saranno dominate dalla variabile con scala maggiore. L'algoritmo vedr√† solo il reddito.

**Come evitarlo:** StandardScaler o MinMaxScaler prima di qualsiasi algoritmo basato su distanze.

---

### Errore 4: Scegliere K "a sentimento"

**L'errore:** "Facciamo 5 cluster perch√© mi sembra un buon numero"

**Il problema:** Nessuna base razionale. Potrebbe essere 3, potrebbe essere 8.

**Come evitarlo:** Usa metodi sistematici (Elbow, Silhouette) e confronta pi√π valori.

---

### Errore 5: Confondere riduzione dimensionale con selezione feature

**L'errore:** "Ho fatto PCA, quindi ho le feature pi√π importanti"

**Il problema:** PCA crea **combinazioni lineari** delle feature originali. La prima componente principale non √® "la feature migliore" ‚Äî √® un mix di tutte.

**Come evitarlo:** Distingui: selezione = scegli feature originali, riduzione = crei nuove dimensioni.

---

### Errore 6: Validare con etichette nascoste

**L'errore:** Avere etichette nel dataset, fingere di non vederle, clusterizzare, poi calcolare accuracy sulle etichette "nascoste"

**Il problema:** Questo √® un benchmark controllato, non un vero problema unsupervised. Le etichette influenzano implicitamente le scelte.

**Come evitarlo:** Se usi etichette per validare, dichiaralo esplicitamente come esperimento controllato.

---

### Tabella riassuntiva degli errori

| Errore | Conseguenza | Soluzione |
|--------|-------------|-----------|
| Cluster = classi vere | Conclusioni infondate | Validazione dominio |
| Metriche supervisionate | Numeri senza senso | Metriche interne |
| No scaling | Risultati distorti | Preprocessing |
| K a caso | Struttura arbitraria | Metodi sistematici |
| PCA = selezione | Confusione interpretativa | Capire la differenza |
| Etichette nascoste | Falsa sicurezza | Dichiarare il setup |

---

## 1.5 Le famiglie di metodi unsupervised

Prima di entrare nel dettaglio di ciascun algoritmo (lezioni successive), √® utile avere una mappa delle principali famiglie.

---

### Famiglia 1: Clustering

**Obiettivo:** Raggruppare osservazioni simili tra loro.

**Domanda tipica:** "Quanti tipi di clienti ho? Come sono fatti?"

**Algoritmi principali:**
- **K-Means**: assume cluster sferici, numero K fisso
- **Clustering Gerarchico**: costruisce una gerarchia di gruppi (dendrogramma)
- **DBSCAN**: trova cluster di densit√† arbitraria, identifica outlier

**Metrica tipica:** Silhouette score, Davies-Bouldin index

---

### Famiglia 2: Riduzione Dimensionale

**Obiettivo:** Comprimere i dati in meno dimensioni preservando l'informazione.

**Domanda tipica:** "Ho 100 feature, posso ridurle a 10 senza perdere troppo?"

**Algoritmi principali:**
- **PCA (Principal Component Analysis)**: lineare, preserva varianza
- **t-SNE, UMAP**: non lineari, ottimi per visualizzazione 2D/3D

**Metrica tipica:** Varianza spiegata, errore di ricostruzione

---

### Famiglia 3: Anomaly Detection

**Obiettivo:** Identificare osservazioni rare o anomale.

**Domanda tipica:** "Quali transazioni sono sospette? Quali sensori hanno valori strani?"

**Algoritmi principali:**
- **Isolation Forest**: isola punti anomali con pochi split
- **One-Class SVM**: definisce un confine attorno ai dati "normali"
- **LOF (Local Outlier Factor)**: confronta densit√† locale

**Metrica tipica:** Score di anomalia, percentuale di outlier

---

### Famiglia 4: Association Rules (cenni)

**Obiettivo:** Trovare regole di co-occorrenza.

**Domanda tipica:** "Chi compra pane, compra anche latte?"

**Algoritmi principali:**
- **Apriori, FP-Growth**

**Metrica tipica:** Support, confidence, lift

*Non approfondiremo questa famiglia nel corso, ma √® utile sapere che esiste.*

---

### Mappa visiva

```
UNSUPERVISED LEARNING
‚îú‚îÄ‚îÄ Clustering
‚îÇ   ‚îú‚îÄ‚îÄ K-Means (Lezione 20)
‚îÇ   ‚îú‚îÄ‚îÄ Gerarchico (Lezione 22)
‚îÇ   ‚îî‚îÄ‚îÄ DBSCAN (Lezione 23)
‚îú‚îÄ‚îÄ Riduzione Dimensionale
‚îÇ   ‚îî‚îÄ‚îÄ PCA (Lezioni 24-25)
‚îú‚îÄ‚îÄ Anomaly Detection
‚îÇ   ‚îî‚îÄ‚îÄ Isolation Forest (Lezione 26)
‚îî‚îÄ‚îÄ Feature Engineering Unsupervised (Lezione 27)
```

---

# Parte 2 ‚Äî Schema Mentale e Mappa Logica

---

## 2.1 Quando usare l'unsupervised learning

### Situazioni in cui l'unsupervised √® appropriato

| Situazione | Esempio | Metodo suggerito |
|------------|---------|------------------|
| **Nessun target disponibile** | Log di navigazione senza conversioni etichettate | Clustering, Anomaly Detection |
| **Esplorare dati nuovi** | Dataset appena acquisito, nessuna ipotesi | Clustering + PCA per visualizzare |
| **Segmentare senza bias** | Dividere clienti senza categorie predefinite | Clustering |
| **Ridurre complessit√†** | 500 feature ‚Üí 50 componenti | PCA |
| **Trovare anomalie** | Frodi, guasti, errori di sistema | Isolation Forest |
| **Preprocessing per supervised** | Creare feature clustering prima di classificare | Clustering come feature engineering |

---

## 2.2 Quando NON usare l'unsupervised learning

### Situazioni in cui l'unsupervised √® sbagliato

| Situazione | Perch√© √® sbagliato | Cosa fare invece |
|------------|-------------------|------------------|
| **Hai un target chiaro** | Spreca informazione, risultati peggiori | Usa supervised |
| **Devi fare predizioni precise** | Unsupervised non predice | Usa regressione/classificazione |
| **Servono metriche oggettive** | Unsupervised ha solo metriche interne | Definisci un target o proxy |
| **I cluster devono essere "giusti"** | Non esiste "giusto" senza etichette | Definisci criteri business |

---

## 2.3 Segnali pratici nei dati

Come capire se i dati si prestano a un'analisi unsupervised?

### Segnali positivi

- **Alta dimensionalit√†**: molte feature ‚Üí PCA pu√≤ aiutare
- **Nessuna variabile target naturale**: non c'√® una "risposta" da predire
- **Obiettivo esplorativo**: vuoi capire, non predire
- **Dati eterogenei**: mix di comportamenti diversi ‚Üí clustering
- **Punti isolati visibili**: scatter plot mostra separazione ‚Üí clustering possibile

### Segnali negativi

- **Dati uniformi**: tutto simile, nessun gruppo naturale
- **Forte rumore**: struttura nascosta dal rumore
- **Poche osservazioni**: clustering instabile con pochi dati
- **Feature irrilevanti dominanti**: clustering guidato da rumore

---

## 2.4 Flowchart decisionale

```
Ho un target y?
‚îú‚îÄ‚îÄ S√å ‚Üí Supervised Learning (Regressione/Classificazione)
‚îî‚îÄ‚îÄ NO ‚Üí Qual √® l'obiettivo?
    ‚îú‚îÄ‚îÄ Raggruppare ‚Üí Clustering
    ‚îÇ   ‚îú‚îÄ‚îÄ Cluster sferici, K noto ‚Üí K-Means
    ‚îÇ   ‚îú‚îÄ‚îÄ Forma arbitraria, outlier ‚Üí DBSCAN
    ‚îÇ   ‚îî‚îÄ‚îÄ Gerarchia di gruppi ‚Üí Hierarchical
    ‚îú‚îÄ‚îÄ Ridurre dimensioni ‚Üí PCA / UMAP
    ‚îú‚îÄ‚îÄ Trovare anomalie ‚Üí Isolation Forest
    ‚îî‚îÄ‚îÄ Pattern di co-occorrenza ‚Üí Association Rules
```

---

# Parte 3 ‚Äî Notebook Dimostrativo

In questa sezione mostriamo i concetti chiave con codice semplice e commentato.

---

## Demo 1: Supervised vs Unsupervised ‚Äî la stessa analisi, due mondi diversi

Generiamo dati sintetici e mostriamo la differenza fondamentale tra i due approcci.

In [None]:
# ============================================
# DEMO 1: Supervised vs Unsupervised
# ============================================
# Obiettivo: mostrare la differenza fondamentale tra i due paradigmi
# Useremo lo stesso dataset, ma con approcci diversi

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score, silhouette_score
import warnings
warnings.filterwarnings('ignore')

# Fissiamo il seed per riproducibilit√†
np.random.seed(42)

# Generiamo dati con 3 gruppi naturali
# In questo caso CONOSCIAMO le etichette (per scopi didattici)
X, y_true = make_blobs(
    n_samples=300,      # 300 osservazioni
    centers=3,          # 3 centri (gruppi)
    cluster_std=0.8,    # deviazione standard di ogni gruppo
    random_state=42
)

print("="*60)
print("SCENARIO: Stesso dataset, due approcci diversi")
print("="*60)
print(f"\nDimensioni X: {X.shape}")
print(f"Classi vere (y_true): {np.unique(y_true)}")

# Visualizziamo i dati con le etichette vere
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Plot 1: Dati con etichette vere (se le avessimo)
axes[0].scatter(X[:, 0], X[:, 1], c=y_true, cmap='viridis', s=50, alpha=0.7)
axes[0].set_title('Dati CON etichette (supervised)')
axes[0].set_xlabel('Feature 1')
axes[0].set_ylabel('Feature 2')

# Plot 2: Dati senza etichette (come li vede l'unsupervised)
axes[1].scatter(X[:, 0], X[:, 1], c='gray', s=50, alpha=0.7)
axes[1].set_title('Dati SENZA etichette (unsupervised)')
axes[1].set_xlabel('Feature 1')
axes[1].set_ylabel('Feature 2')

# Plot 3: Clustering K-Means
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
y_kmeans = kmeans.fit_predict(X)
axes[2].scatter(X[:, 0], X[:, 1], c=y_kmeans, cmap='viridis', s=50, alpha=0.7)
axes[2].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], 
                c='red', marker='X', s=200, edgecolors='black', linewidth=2, label='Centroidi')
axes[2].set_title('Clustering K-Means (senza usare y)')
axes[2].set_xlabel('Feature 1')
axes[2].set_ylabel('Feature 2')
axes[2].legend()

plt.tight_layout()
plt.show()

# ============================================
# CONFRONTO METRICHE
# ============================================
print("\n" + "="*60)
print("CONFRONTO METRICHE")
print("="*60)

# Supervised: possiamo calcolare accuracy
X_train, X_test, y_train, y_test = train_test_split(X, y_true, test_size=0.3, random_state=42)
clf = LogisticRegression()
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)
acc = accuracy_score(y_test, y_pred)

print(f"\n[SUPERVISED] Accuracy sul test set: {acc:.3f}")
print("   ‚Üí Possiamo dire SE il modello √® buono (confronto con y vero)")

# Unsupervised: NON possiamo calcolare accuracy, usiamo Silhouette
sil = silhouette_score(X, y_kmeans)
print(f"\n[UNSUPERVISED] Silhouette score: {sil:.3f}")
print("   ‚Üí Indica coesione interna, ma NON se i cluster sono 'giusti'")

print("\n" + "="*60)
print("LEZIONE CHIAVE:")
print("="*60)
print("Nel supervised abbiamo un 'giudice' (y) che dice se abbiamo ragione.")
print("Nell'unsupervised non c'√® giudice: troviamo struttura, non verit√†.")

---

## Demo 2: L'illusione del pattern ‚Äî clustering su dati casuali

Questa demo mostra il pericolo principale dell'unsupervised: trovare "struttura" dove non esiste.

In [None]:
# ============================================
# DEMO 2: L'illusione del pattern
# ============================================
# Obiettivo: mostrare che K-Means trova SEMPRE cluster,
# anche quando i dati sono completamente casuali

np.random.seed(123)

# Generiamo dati COMPLETAMENTE CASUALI (nessuna struttura)
X_random = np.random.randn(300, 2)  # 300 punti, distribuzione normale standard

# Applichiamo K-Means con K=3
kmeans_random = KMeans(n_clusters=3, random_state=42, n_init=10)
labels_random = kmeans_random.fit_predict(X_random)

# Calcoliamo il Silhouette (anche se non c'√® struttura vera)
sil_random = silhouette_score(X_random, labels_random)

# Visualizziamo
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Plot 1: Dati originali (nessun colore = nessun gruppo)
axes[0].scatter(X_random[:, 0], X_random[:, 1], c='gray', s=50, alpha=0.6)
axes[0].set_title('Dati CASUALI (nessuna struttura reale)')
axes[0].set_xlabel('Feature 1')
axes[0].set_ylabel('Feature 2')
axes[0].grid(True, alpha=0.3)

# Plot 2: Clustering K-Means (trova comunque 3 gruppi!)
scatter = axes[1].scatter(X_random[:, 0], X_random[:, 1], c=labels_random, 
                           cmap='viridis', s=50, alpha=0.6)
axes[1].scatter(kmeans_random.cluster_centers_[:, 0], kmeans_random.cluster_centers_[:, 1], 
                c='red', marker='X', s=200, edgecolors='black', linewidth=2)
axes[1].set_title(f'K-Means trova 3 cluster! (Silhouette={sil_random:.3f})')
axes[1].set_xlabel('Feature 1')
axes[1].set_ylabel('Feature 2')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Riflessione critica
print("="*60)
print("ATTENZIONE CRITICA")
print("="*60)
print(f"\nI dati erano COMPLETAMENTE CASUALI.")
print(f"Eppure K-Means ha trovato 3 cluster con Silhouette = {sil_random:.3f}")
print(f"\nQuesto dimostra che:")
print("1. L'algoritmo trova SEMPRE cluster (√® il suo lavoro)")
print("2. Il Silhouette score esiste anche per dati senza struttura")
print("3. Un pattern trovato NON significa un pattern VERO")
print("\n‚Üí MAI fidarsi ciecamente di un risultato unsupervised!")

---

## Demo 3: L'importanza dello scaling

Mostriamo come la mancanza di preprocessing pu√≤ distorcere completamente il risultato.

In [None]:
# ============================================
# DEMO 3: L'importanza dello scaling
# ============================================
# Obiettivo: mostrare come scale diverse distorcono il clustering

from sklearn.preprocessing import StandardScaler

np.random.seed(42)

# Creiamo dati con 2 gruppi CHIARI ma scale MOLTO diverse
# Feature 1: et√† (range 20-60)
# Feature 2: reddito annuo (range 20000-80000)

n_per_group = 100

# Gruppo 1: giovani con reddito basso
gruppo1_eta = np.random.normal(28, 3, n_per_group)
gruppo1_reddito = np.random.normal(30000, 5000, n_per_group)

# Gruppo 2: senior con reddito alto
gruppo2_eta = np.random.normal(50, 5, n_per_group)
gruppo2_reddito = np.random.normal(65000, 8000, n_per_group)

# Combiniamo
X_unscaled = np.vstack([
    np.column_stack([gruppo1_eta, gruppo1_reddito]),
    np.column_stack([gruppo2_eta, gruppo2_reddito])
])

# Le etichette vere (per confronto visivo)
y_vero = np.array([0]*n_per_group + [1]*n_per_group)

# Clustering SENZA scaling
kmeans_unscaled = KMeans(n_clusters=2, random_state=42, n_init=10)
labels_unscaled = kmeans_unscaled.fit_predict(X_unscaled)

# Clustering CON scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_unscaled)
kmeans_scaled = KMeans(n_clusters=2, random_state=42, n_init=10)
labels_scaled = kmeans_scaled.fit_predict(X_scaled)

# Confronto errori
errori_unscaled = (labels_unscaled != y_vero).sum()
errori_scaled = (labels_scaled != y_vero).sum()
# Nota: i label potrebbero essere invertiti, consideriamo entrambi i casi
errori_unscaled = min(errori_unscaled, 200 - errori_unscaled)
errori_scaled = min(errori_scaled, 200 - errori_scaled)

# Visualizzazione
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Plot 1: Dati originali con etichette vere
axes[0].scatter(X_unscaled[:, 0], X_unscaled[:, 1], c=y_vero, cmap='coolwarm', s=50, alpha=0.7)
axes[0].set_title('Gruppi VERI')
axes[0].set_xlabel('Et√†')
axes[0].set_ylabel('Reddito (‚Ç¨)')
axes[0].grid(True, alpha=0.3)

# Plot 2: Clustering senza scaling
axes[1].scatter(X_unscaled[:, 0], X_unscaled[:, 1], c=labels_unscaled, cmap='coolwarm', s=50, alpha=0.7)
axes[1].set_title(f'K-Means SENZA scaling\n(errori: {errori_unscaled})')
axes[1].set_xlabel('Et√†')
axes[1].set_ylabel('Reddito (‚Ç¨)')
axes[1].grid(True, alpha=0.3)

# Plot 3: Clustering con scaling (visualizziamo nello spazio originale)
axes[2].scatter(X_unscaled[:, 0], X_unscaled[:, 1], c=labels_scaled, cmap='coolwarm', s=50, alpha=0.7)
axes[2].set_title(f'K-Means CON scaling\n(errori: {errori_scaled})')
axes[2].set_xlabel('Et√†')
axes[2].set_ylabel('Reddito (‚Ç¨)')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Spiegazione
print("="*60)
print("COSA √à SUCCESSO?")
print("="*60)
print(f"\nRange et√†: {X_unscaled[:, 0].min():.0f} - {X_unscaled[:, 0].max():.0f}")
print(f"Range reddito: {X_unscaled[:, 1].min():.0f} - {X_unscaled[:, 1].max():.0f}")
print(f"\nIl reddito ha un range ~1000 volte maggiore dell'et√†.")
print("Senza scaling, K-Means 'vede' solo il reddito.")
print("Con scaling, entrambe le feature hanno lo stesso peso.")
print(f"\n‚Üí Errori senza scaling: {errori_unscaled}")
print(f"‚Üí Errori con scaling: {errori_scaled}")
print("\nLEZIONE: Scala SEMPRE prima di usare algoritmi basati su distanza!")

---

# Parte 4 ‚Äî Esercizi Svolti

Ogni esercizio √® risolto passo per passo con spiegazioni dettagliate.

---

## Esercizio 19.1 ‚Äî Classificare scenari: Supervised o Unsupervised?

**Consegna:** Per ciascuno dei seguenti scenari, stabilisci se richiede un approccio supervised o unsupervised. Giustifica la risposta.

### Scenario A
> Un'azienda di telecomunicazioni vuole prevedere quali clienti abbandoneranno il servizio nei prossimi 3 mesi. Ha dati storici con l'indicazione di chi ha effettivamente abbandonato.

### Scenario B
> Un e-commerce vuole segmentare la propria base clienti per personalizzare le campagne marketing. Non ha categorie predefinite.

### Scenario C
> Una banca vuole identificare transazioni fraudolente. Ha pochissimi esempi di frodi confermate (< 0.1% dei dati).

### Scenario D
> Un'azienda vuole ridurre il numero di feature in un dataset con 500 variabili prima di applicare un modello predittivo.

### Scenario E
> Un ospedale vuole prevedere la durata della degenza di un paziente basandosi su dati clinici. Ha dati storici completi.

In [None]:
# ============================================
# ESERCIZIO 19.1 ‚Äî SOLUZIONE
# ============================================
# Non serve codice: l'esercizio √® di ragionamento concettuale.
# Scriviamo la soluzione come output strutturato.

print("="*70)
print("ESERCIZIO 19.1 ‚Äî SOLUZIONE RAGIONATA")
print("="*70)

soluzioni = {
    "A": {
        "scenario": "Prevedere churn con dati storici etichettati",
        "risposta": "SUPERVISED",
        "giustificazione": """
        Abbiamo un target chiaro: cliente ha abbandonato s√¨/no (variabile binaria).
        I dati storici contengono l'etichetta per ogni cliente.
        Si tratta di un problema di CLASSIFICAZIONE binaria.
        Algoritmi appropriati: Logistic Regression, Random Forest, XGBoost."""
    },
    "B": {
        "scenario": "Segmentare clienti senza categorie predefinite",
        "risposta": "UNSUPERVISED",
        "giustificazione": """
        Non esiste un target: non sappiamo quanti segmenti esistono n√© quali sono.
        L'obiettivo √® SCOPRIRE gruppi naturali nei dati.
        Si tratta di un problema di CLUSTERING.
        Algoritmi appropriati: K-Means, DBSCAN, Clustering Gerarchico."""
    },
    "C": {
        "scenario": "Identificare frodi con pochissimi esempi etichettati",
        "risposta": "IBRIDO (ma principalmente UNSUPERVISED)",
        "giustificazione": """
        Tecnicamente esistono etichette, ma sono troppo poche e sbilanciate.
        Supervised classico funzionerebbe male (classe rara = 0.1%).
        Approccio consigliato: ANOMALY DETECTION (unsupervised).
        L'idea: le frodi sono 'anomalie' rispetto al comportamento normale.
        Algoritmi: Isolation Forest, One-Class SVM, Autoencoder."""
    },
    "D": {
        "scenario": "Ridurre 500 feature a meno variabili",
        "risposta": "UNSUPERVISED",
        "giustificazione": """
        L'obiettivo non √® predire qualcosa, ma COMPRIMERE i dati.
        Si tratta di RIDUZIONE DIMENSIONALE.
        Algoritmo principale: PCA (Principal Component Analysis).
        Nota: questo √® un preprocessing, il modello finale sar√† supervised."""
    },
    "E": {
        "scenario": "Prevedere durata degenza con dati storici",
        "risposta": "SUPERVISED",
        "giustificazione": """
        Abbiamo un target chiaro: durata in giorni (variabile continua).
        I dati storici contengono la durata effettiva per ogni paziente.
        Si tratta di un problema di REGRESSIONE.
        Algoritmi appropriati: Linear Regression, Random Forest Regressor."""
    }
}

for lettera, info in soluzioni.items():
    print(f"\n{'='*70}")
    print(f"SCENARIO {lettera}: {info['scenario']}")
    print(f"{'='*70}")
    print(f"\n‚úÖ RISPOSTA: {info['risposta']}")
    print(f"\nüìù GIUSTIFICAZIONE:{info['giustificazione']}")

print("\n" + "="*70)
print("RIEPILOGO")
print("="*70)
print("\n| Scenario | Approccio | Tipo problema |")
print("|----------|-----------|---------------|")
print("| A        | Supervised | Classificazione |")
print("| B        | Unsupervised | Clustering |")
print("| C        | Unsupervised | Anomaly Detection |")
print("| D        | Unsupervised | Riduzione dimensionale |")
print("| E        | Supervised | Regressione |")

---

## Esercizio 19.2 ‚Äî Identificare errori concettuali

**Consegna:** Leggi il seguente resoconto di un'analisi e identifica TUTTI gli errori concettuali. Spiega perch√© sono errori e come correggerli.

### Resoconto dell'analista

> "Ho preso i dati dei clienti con 15 feature e ho applicato K-Means con K=5 perch√© mi sembrava un numero ragionevole. L'algoritmo ha trovato 5 cluster perfetti. 
>
> Ho calcolato l'accuracy del clustering confrontando con le categorie marketing storiche e ho ottenuto 72%. 
>
> Non ho fatto scaling perch√© le feature erano gi√† tutte in euro. 
>
> Ho concluso che esistono 5 tipi di clienti e ho presentato i risultati al management come verit√† definitiva."

In [None]:
# ============================================
# ESERCIZIO 19.2 ‚Äî SOLUZIONE
# ============================================
# Analizziamo il resoconto e identifichiamo gli errori

print("="*70)
print("ESERCIZIO 19.2 ‚Äî ANALISI DEGLI ERRORI")
print("="*70)

errori = [
    {
        "numero": 1,
        "citazione": "K=5 perch√© mi sembrava un numero ragionevole",
        "errore": "Scelta di K arbitraria",
        "perche": """
        Non c'√® base razionale per K=5. Potevano essere 3, 7, o 12.
        L'analista ha scelto 'a sentimento', non con criteri oggettivi.""",
        "correzione": """
        Usare metodi sistematici: Elbow method, Silhouette score.
        Provare pi√π valori di K e confrontare le metriche.
        Vedremo questi metodi nella Lezione 21."""
    },
    {
        "numero": 2,
        "citazione": "Ho calcolato l'accuracy del clustering",
        "errore": "Uso di metrica supervisionata su problema unsupervised",
        "perche": """
        Accuracy richiede etichette 'vere'. Nel clustering non esistono.
        Le 'categorie marketing storiche' non sono la verit√†, sono un'altra segmentazione.""",
        "correzione": """
        Usare metriche interne: Silhouette, Davies-Bouldin.
        Se si confronta con etichette esistenti, dichiararlo come esperimento
        controllato, non come 'accuracy vera'."""
    },
    {
        "numero": 3,
        "citazione": "Non ho fatto scaling perch√© le feature erano gi√† tutte in euro",
        "errore": "Confusione su quando serve lo scaling",
        "perche": """
        Anche se tutte in euro, i RANGE possono essere diversi:
        - Scontrino medio: 10-500‚Ç¨
        - Spesa annua: 100-50.000‚Ç¨
        Il secondo dominerebbe le distanze.""",
        "correzione": """
        Verificare sempre i range. Se diversi, scalare.
        StandardScaler o MinMaxScaler prima di K-Means."""
    },
    {
        "numero": 4,
        "citazione": "L'algoritmo ha trovato 5 cluster perfetti",
        "errore": "Fraintendimento del funzionamento dell'algoritmo",
        "perche": """
        K-Means trova SEMPRE K cluster, per costruzione.
        Non esistono 'cluster perfetti' ‚Äî l'algoritmo divide lo spazio comunque.
        Anche dati casuali producono cluster.""",
        "correzione": """
        Non interpretare il risultato come 'perfetto'.
        Valutare la qualit√† con metriche e interpretazione dominio."""
    },
    {
        "numero": 5,
        "citazione": "Esistono 5 tipi di clienti [...] verit√† definitiva",
        "errore": "Presentare ipotesi come verit√†",
        "perche": """
        I cluster sono IPOTESI, non SCOPERTE.
        Non sappiamo se quei 5 gruppi 'esistono davvero'.
        √à una struttura che l'algoritmo ha trovato conveniente.""",
        "correzione": """
        Presentare come: 'Abbiamo identificato una possibile segmentazione...'
        Validare con esperti di dominio.
        Testare stabilit√† (cambiando seed, parametri)."""
    }
]

for err in errori:
    print(f"\n{'='*70}")
    print(f"ERRORE #{err['numero']}")
    print(f"{'='*70}")
    print(f"\nüìú CITAZIONE: \"{err['citazione']}\"")
    print(f"\n‚ùå ERRORE: {err['errore']}")
    print(f"\n‚ö†Ô∏è  PERCH√â √à UN PROBLEMA:{err['perche']}")
    print(f"\n‚úÖ CORREZIONE:{err['correzione']}")

print("\n" + "="*70)
print("RIEPILOGO: 5 ERRORI IDENTIFICATI")
print("="*70)
print("""
1. K scelto arbitrariamente ‚Üí Usare Elbow/Silhouette
2. Accuracy su clustering ‚Üí Usare metriche interne
3. No scaling con range diversi ‚Üí Sempre verificare e scalare
4. 'Cluster perfetti' ‚Üí K-Means trova sempre K gruppi
5. Ipotesi = Verit√† ‚Üí Presentare come interpretazione, non fatto
""")

---

## Esercizio 19.3 ‚Äî Confrontare clustering con e senza scaling

**Consegna:** 
1. Genera un dataset sintetico con 2 gruppi di clienti caratterizzati da:
   - Et√† (range ~20-60 anni)
   - Numero di acquisti annui (range ~5-50)
   - Spesa totale annua (range ~500-50.000‚Ç¨)
2. Applica K-Means con K=2 **senza** scaling
3. Applica K-Means con K=2 **con** scaling
4. Confronta i risultati e spiega le differenze

In [None]:
# ============================================
# ESERCIZIO 19.3 ‚Äî SOLUZIONE COMPLETA
# ============================================

print("="*70)
print("ESERCIZIO 19.3 ‚Äî CONFRONTO SCALING")
print("="*70)

# ============================================
# PASSO 1: Generazione del dataset sintetico
# ============================================
print("\nüìä PASSO 1: Generazione dataset")
print("-"*50)

np.random.seed(42)
n_clienti = 150  # 150 clienti per gruppo

# Gruppo 1: Clienti "young & frequent"
# - Giovani (25-35 anni)
# - Molti acquisti (30-45/anno)
# - Spesa media (5000-15000‚Ç¨/anno)
gruppo1_eta = np.random.normal(30, 3, n_clienti)
gruppo1_acquisti = np.random.normal(38, 5, n_clienti)
gruppo1_spesa = np.random.normal(10000, 3000, n_clienti)

# Gruppo 2: Clienti "mature & premium"
# - Pi√π anziani (45-55 anni)
# - Meno acquisti (10-20/anno)
# - Alta spesa (30000-45000‚Ç¨/anno)
gruppo2_eta = np.random.normal(50, 4, n_clienti)
gruppo2_acquisti = np.random.normal(15, 4, n_clienti)
gruppo2_spesa = np.random.normal(38000, 6000, n_clienti)

# Combiniamo i dati
X_clienti = np.vstack([
    np.column_stack([gruppo1_eta, gruppo1_acquisti, gruppo1_spesa]),
    np.column_stack([gruppo2_eta, gruppo2_acquisti, gruppo2_spesa])
])

# Etichette vere (per valutazione)
y_vero = np.array([0]*n_clienti + [1]*n_clienti)

print(f"Clienti totali: {X_clienti.shape[0]}")
print(f"Feature: Et√†, Acquisti/anno, Spesa/anno")
print(f"\nRange per feature:")
print(f"  Et√†:      {X_clienti[:, 0].min():.1f} - {X_clienti[:, 0].max():.1f} anni")
print(f"  Acquisti: {X_clienti[:, 1].min():.1f} - {X_clienti[:, 1].max():.1f} /anno")
print(f"  Spesa:    {X_clienti[:, 2].min():.0f} - {X_clienti[:, 2].max():.0f} ‚Ç¨/anno")

# ============================================
# PASSO 2: K-Means SENZA scaling
# ============================================
print("\n" + "="*70)
print("üìä PASSO 2: K-Means SENZA scaling")
print("-"*50)

kmeans_noscale = KMeans(n_clusters=2, random_state=42, n_init=10)
labels_noscale = kmeans_noscale.fit_predict(X_clienti)

# Calcolo errori (considerando possibile inversione etichette)
errori_noscale = min(
    (labels_noscale != y_vero).sum(),
    (labels_noscale != (1 - y_vero)).sum()
)

print(f"Cluster assegnati: {np.bincount(labels_noscale)}")
print(f"Errori di assegnazione: {errori_noscale}/{len(y_vero)} ({100*errori_noscale/len(y_vero):.1f}%)")

# ============================================
# PASSO 3: K-Means CON scaling
# ============================================
print("\n" + "="*70)
print("üìä PASSO 3: K-Means CON scaling")
print("-"*50)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_clienti)

print("Dopo scaling, tutte le feature hanno media‚âà0 e std‚âà1:")
print(f"  Et√† scalata:      media={X_scaled[:, 0].mean():.3f}, std={X_scaled[:, 0].std():.3f}")
print(f"  Acquisti scalati: media={X_scaled[:, 1].mean():.3f}, std={X_scaled[:, 1].std():.3f}")
print(f"  Spesa scalata:    media={X_scaled[:, 2].mean():.3f}, std={X_scaled[:, 2].std():.3f}")

kmeans_scaled = KMeans(n_clusters=2, random_state=42, n_init=10)
labels_scaled = kmeans_scaled.fit_predict(X_scaled)

errori_scaled = min(
    (labels_scaled != y_vero).sum(),
    (labels_scaled != (1 - y_vero)).sum()
)

print(f"\nCluster assegnati: {np.bincount(labels_scaled)}")
print(f"Errori di assegnazione: {errori_scaled}/{len(y_vero)} ({100*errori_scaled/len(y_vero):.1f}%)")

# ============================================
# PASSO 4: Visualizzazione e confronto
# ============================================
print("\n" + "="*70)
print("üìä PASSO 4: Visualizzazione")
print("-"*50)

fig, axes = plt.subplots(1, 3, figsize=(15, 5))

# Plot 1: Gruppi veri (Et√† vs Spesa per chiarezza)
axes[0].scatter(X_clienti[y_vero==0, 0], X_clienti[y_vero==0, 2]/1000, 
                c='blue', s=50, alpha=0.6, label='Gruppo 1 (young)')
axes[0].scatter(X_clienti[y_vero==1, 0], X_clienti[y_vero==1, 2]/1000, 
                c='red', s=50, alpha=0.6, label='Gruppo 2 (mature)')
axes[0].set_title('Gruppi VERI')
axes[0].set_xlabel('Et√†')
axes[0].set_ylabel('Spesa annua (k‚Ç¨)')
axes[0].legend()
axes[0].grid(True, alpha=0.3)

# Plot 2: Clustering senza scaling
colors_noscale = ['blue' if l==0 else 'red' for l in labels_noscale]
axes[1].scatter(X_clienti[:, 0], X_clienti[:, 2]/1000, 
                c=colors_noscale, s=50, alpha=0.6)
axes[1].set_title(f'K-Means SENZA scaling\nErrori: {errori_noscale} ({100*errori_noscale/len(y_vero):.0f}%)')
axes[1].set_xlabel('Et√†')
axes[1].set_ylabel('Spesa annua (k‚Ç¨)')
axes[1].grid(True, alpha=0.3)

# Plot 3: Clustering con scaling
colors_scaled = ['blue' if l==0 else 'red' for l in labels_scaled]
axes[2].scatter(X_clienti[:, 0], X_clienti[:, 2]/1000, 
                c=colors_scaled, s=50, alpha=0.6)
axes[2].set_title(f'K-Means CON scaling\nErrori: {errori_scaled} ({100*errori_scaled/len(y_vero):.0f}%)')
axes[2].set_xlabel('Et√†')
axes[2].set_ylabel('Spesa annua (k‚Ç¨)')
axes[2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# ============================================
# SPIEGAZIONE FINALE
# ============================================
print("\n" + "="*70)
print("üìù SPIEGAZIONE")
print("="*70)
print(f"""
COSA √à SUCCESSO?

Range originali:
  - Et√†:      ~40 unit√† di variazione (20-60)
  - Acquisti: ~45 unit√† di variazione (5-50)  
  - Spesa:    ~50.000 unit√† di variazione (500-50.000)

SENZA SCALING:
  La spesa ha un range ~1000x maggiore delle altre feature.
  K-Means calcola distanze euclidee, quindi "vede" principalmente la spesa.
  Le altre feature (et√†, acquisti) sono quasi ignorate.
  Risultato: clustering basato quasi solo sulla spesa.
  ‚Üí Errori: {errori_noscale} ({100*errori_noscale/len(y_vero):.0f}%)

CON SCALING:
  Tutte le feature hanno media=0 e std=1.
  K-Means considera equamente tutte e 3 le feature.
  Il pattern multidimensionale viene catturato correttamente.
  ‚Üí Errori: {errori_scaled} ({100*errori_scaled/len(y_vero):.0f}%)

LEZIONE:
  Prima di qualsiasi algoritmo basato su distanza (K-Means, DBSCAN, KNN...),
  verifica i range delle feature e applica StandardScaler o MinMaxScaler.
""")

---

# Parte 5 ‚Äî Conclusione Operativa

---

## Cosa portarsi a casa

### I 5 punti fondamentali di questa lezione

1. **Supervised ‚â† Unsupervised**
   - Supervised: hai un target, puoi misurare l'errore oggettivamente
   - Unsupervised: nessun target, puoi solo valutare la coerenza interna

2. **Pattern ‚â† Verit√†**
   - Un algoritmo trova sempre struttura (√® il suo lavoro)
   - Trovare un pattern non prova che sia significativo
   - Validare sempre con dominio, stabilit√†, utilit√†

3. **Scaling √® obbligatorio**
   - Prima di K-Means, DBSCAN, PCA: sempre StandardScaler
   - Feature con range diversi distorcono i risultati

4. **Metriche diverse per problemi diversi**
   - Supervised: accuracy, RMSE, F1
   - Unsupervised: Silhouette, errore di ricostruzione, interpretazione

5. **I cluster sono ipotesi, non scoperte**
   - Presentare come interpretazione, non come fatto
   - Testare stabilit√†, consultare esperti

---

## Errori da evitare

| Errore | Conseguenza |
|--------|-------------|
| Scegliere K "a sentimento" | Struttura arbitraria |
| Usare accuracy su clustering | Numero senza significato |
| Non scalare le feature | Risultati distorti |
| Interpretare cluster come verit√† | Conclusioni infondate |
| Saltare la validazione dominio | Pattern spur√Æ accettati |

---

## Ponte verso la prossima lezione

In questa lezione abbiamo costruito il **framework mentale** per l'unsupervised learning:
- Quando usarlo e quando no
- Come ragionare senza un target
- Quali errori evitare

Nella **Lezione 20** entreremo nel dettaglio del primo algoritmo di clustering: **K-Means**.

Vedremo:
- Come funziona geometricamente
- Il ruolo dei centroidi
- Le assunzioni forti del modello
- Quando funziona bene e quando fallisce

---

# üìå Bignami ‚Äî Lezione 19

## Definizioni chiave

| Termine | Definizione |
|---------|-------------|
| **Supervised Learning** | Apprendimento con target noto (y). Obiettivo: predire. |
| **Unsupervised Learning** | Apprendimento senza target. Obiettivo: scoprire struttura. |
| **Clustering** | Raggruppare osservazioni simili tra loro. |
| **Riduzione dimensionale** | Comprimere i dati in meno variabili preservando informazione. |
| **Anomaly Detection** | Identificare osservazioni rare o anomale. |
| **Silhouette score** | Metrica interna per valutare la qualit√† del clustering (-1 a +1). |

---

## Formule da ricordare

**Silhouette per un punto:**
$$s(i) = \frac{b(i) - a(i)}{\max(a(i), b(i))}$$

Dove:
- $a(i)$ = distanza media dai punti dello stesso cluster
- $b(i)$ = distanza media dai punti del cluster pi√π vicino

**Interpretazione:**
- $s \approx +1$: punto ben assegnato
- $s \approx 0$: punto al confine
- $s \approx -1$: punto assegnato al cluster sbagliato

---

## Checklist operativa

Prima di qualsiasi analisi unsupervised:

- [ ] Verifica che NON esista un target utilizzabile
- [ ] Definisci l'obiettivo: clustering? riduzione? anomalie?
- [ ] Controlla i range delle feature
- [ ] Applica StandardScaler se usi algoritmi basati su distanza
- [ ] Scegli l'algoritmo coerente con l'obiettivo
- [ ] Valuta con metriche interne + interpretazione dominio
- [ ] Testa la stabilit√† (cambia seed, parametri)
- [ ] Presenta i risultati come ipotesi, non come verit√†

---

## Codice template

```python
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# 1. Scaling (SEMPRE prima di clustering)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 2. Clustering
kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
labels = kmeans.fit_predict(X_scaled)

# 3. Valutazione interna
sil = silhouette_score(X_scaled, labels)
print(f"Silhouette: {sil:.3f}")

# 4. Interpretazione (da fare manualmente!)
# ‚Üí I cluster hanno senso nel dominio?
# ‚Üí Sono stabili cambiando seed?
# ‚Üí Sono azionabili?
```

---

**Prossima lezione:** K-Means Clustering ‚Äî geometria, centroidi, assunzioni del modello.