# Lezione 40 — Recap Finale e Mappa Completa

**Obiettivi della lezione**
- Collegare ML supervisionato, unsupervised, NLP/AI generativa in un'unica mappa decisionale.
- Evidenziare come scegliere strumenti e tecniche in base a dati, obiettivi e vincoli.
- Riepilogare cosa evitare e come mantenere una baseline solida.
- Fornire un mental model finale per il data analyst.

## Teoria concettuale approfondita

**Asse dei problemi e dei dati**
- Strutturati tabellari → ML classico (alberi, boosting, regressioni) con feature engineering.
- Dati non strutturati (testo, immagini) → rappresentazioni automatiche (embeddings, modelli generativi/neurali) con attenzione a costo e interpretabilità.
- Pattern nascosti senza label → unsupervised (clustering, PCA, anomaly detection) per esplorare struttura.

**Ruolo della baseline**
- Sempre partire da un modello semplice e interpretabile; serve come riferimento e controllo qualità.
- Baseline = metrica minima accettabile + procedura di validazione chiara.

**Scelta dello strumento**
- Volume/varietà dei dati, vincoli di tempo/latency, explainability, costi di errore asimmetrici.
- Governance: logging, monitoraggio drift, audit dei modelli e delle decisioni.

**Cosa NON fare**
- Saltare la pulizia dati; scegliere modelli complessi senza baseline; ignorare confusione tra correlazione e causalità; accettare output AI senza verifica.

## Schema mentale / mappa logica
- **Dati tabellari con label** → prova baseline lineare o alberi; se non basta, boosting o reti leggere; valuta costo di errore.
- **Dati non strutturati (testo)** → TF-IDF / bag-of-words per baseline; poi embeddings o modelli generativi con controlli; aggiungi grounding.
- **Clustering / PCA / anomaly** → usali per esplorazione e controllo qualità; non sostituiscono la supervisione.
- **Decisioni in produzione** → soglie, fallback umano, monitoraggio drift, audit log.
- **Generazione** → usala per bozze e assistenza, non per verità finale senza verifica.

## Notebook dimostrativo (mappa strumenti e criteri)
Costruiamo una piccola tabella comparativa per: tipo di dato, obiettivo, baseline consigliata, escalation possibile, rischi da monitorare.

In [None]:
# Creiamo una tabella riassuntiva di scelta modelli/approcci
import pandas as pd

mappa = pd.DataFrame(
    {
        "tipo_dato": [
            "Tabellare con label",
            "Tabellare senza label",
            "Testo (classificazione / search)",
            "Testo (generazione)",
            "Outlier / drift",
        ],
        "obiettivo": [
            "Predire classe/valore",
            "Scoprire pattern/segmenti",
            "Recupero e ranking documenti",
            "Produrre bozze o assistenza",
            "Rilevare deviazioni",
        ],
        "baseline": [
            "Logistic/Linear + alberi/boosting",
            "Clustering + PCA",
            "TF-IDF + similarità",
            "Prompt con regole e contesto",
            "Regole + z-score/IQR",
        ],
        "escalation": [
            "Tuning, ensemble, reti leggere",
            "Metriche silhouette, revisione domini",
            "Embeddings e modelli neurali",
            "LLM con grounding e controllo temperatura",
            "Modelli di drift più robusti",
        ],
        "rischi": [
            "Overfitting, leakage, explainability",
            "Cluster instabili, interpretazione errata",
            "Ambiguità, vocabolario limitato",
            "Hallucination, fuga dati, bias",
            "Falsi allarmi o drift non rilevato",
        ],
    }
)

mappa

### Osservazioni
- La tabella è un promemoria operativo: partire da baseline, poi valutare escalation solo se serve.
- I rischi guidano i controlli: explainability, bias, drift, hallucinations.
- Le decisioni devono essere vincolate a metriche di business e piani di monitoraggio.

## Esercizi svolti (step-by-step)
Esercizi per applicare la mappa: scelta modello, definizione baseline, identificazione rischio e controllo.

In [None]:
# Esercizio 1: dato un problema tabellare con label sbilanciate, costruisci baseline e controllo rischio

problema = {
    "tipo_dato": "tabellare",
    "sbilanciamento": 0.9,  # 90% classe maggioritaria
    "vincolo_explain": True,
    "costo_fp": "alto",  # falsi positivi costosi
}

scelta = {
    "baseline": "Logistic/Tree con pesi di classe + metriche AUC/PR",
    "validazione": "k-fold stratificato",
    "controlli": "report di feature importance, threshold tuning, confusion matrix",
}

scelta

In [None]:
# Esercizio 2: problema di testo - recupero documenti (search)

search_case = {
    "tipo": "testo",
    "obiettivo": "retrieval",
    "dominio": "policy aziendali",
}

pipeline_search = {
    "baseline": "TF-IDF + cosine similarity",
    "controlli": "stopword, dizionario sinonimi, valutazione manuale query reali",
    "escalation": "embeddings + reranker, grounding su KB",
}

pipeline_search

In [None]:
# Esercizio 3: generazione assistita con controlli

gen_case = {
    "tipo": "generazione testo",
    "uso": "bozza email supporto",
    "rischio": "moderato",
}

controlli_gen = {
    "prompt": "istruzioni chiare + stile + vincoli",
    "temperatura": 0.7,
    "verifica": "checklist umana, confronta con KB, rimuovi dati sensibili",
}

controlli_gen

## Conclusione operativa
- Mental model finale: dati → pulizia → baseline → validazione → monitoraggio → escalation solo se giustificata.
- Cosa non fare: saltare la baseline, ignorare rischi di bias/drift, accettare output generativi senza verifica.
- Prossimi passi: mantenere checklist di progetto (dati, metriche, governance) e aggiornare periodicamente la mappa in base ai feedback operativi.