# 1) Titolo e obiettivi

Lezione 29: Fondamenti di Artificial Intelligence - Rule-based vs Data-driven

---

## Mappa della lezione

| Sezione | Contenuto | Tempo stimato |
|---------|-----------|---------------|
| 1 | Titolo, obiettivi, definizione AI | 5 min |
| 2 | Teoria: rule-based vs data-driven, bias-variance | 15 min |
| 3 | Schema mentale: workflow confronto modelli | 5 min |
| 4 | Demo: churn, baseline rules, ML, f(x), Occam | 30 min |
| 5 | Esercizi guidati | 15 min |
| 6 | Conclusione operativa | 10 min |
| 7 | Checklist di fine lezione + glossario | 5 min |
| 8 | Changelog didattico | 2 min |

---

## Obiettivi della lezione

Al termine di questa lezione sarai in grado di:

| # | Obiettivo | Verifica |
|---|-----------|----------|
| 1 | Distinguere **rule-based vs data-driven** | Sai spiegare pro/contro di ciascuno? |
| 2 | Comprendere il **No Free Lunch theorem** | Sai perché serve confrontare modelli? |
| 3 | Capire **bias-variance trade-off** | Sai riconoscere overfitting/underfitting? |
| 4 | Applicare il **rasoio di Occam** | Sai scegliere il modello più semplice che funziona? |
| 5 | Costruire **baseline + confronto ML** | Sai fare pipeline rule-based → LogReg → Tree → RF? |

---

## L'idea centrale: cos'è l'Intelligenza Artificiale

```
                      INTELLIGENZA ARTIFICIALE
                              │
          ┌───────────────────┼───────────────────┐
          │                                       │
    RULE-BASED                              DATA-DRIVEN
    (Sistemi esperti)                      (Machine Learning)
          │                                       │
    IF tenure < 6                          f(X) = model.predict(X)
    AND complaints > 2                           │
    THEN churn = 1                    ┌──────────┼──────────┐
          │                           │          │          │
    Trasparente                    LogReg     Tree      Forest
    ma rigido                      Semplice   Interpretabile  Potente
```

---

## Confronto: Rule-based vs Data-driven

| Aspetto | Rule-based | Data-driven |
|---------|------------|-------------|
| **Creazione** | Esperti scrivono regole | Modello apprende da dati |
| **Trasparenza** | Alta (IF-THEN leggibili) | Variabile (Tree ✓, NN ✗) |
| **Scalabilità** | Bassa (100+ regole = caos) | Alta (milioni di esempi) |
| **Adattabilità** | Manuale (riscrivere regole) | Automatica (re-training) |
| **Dati richiesti** | Nessuno | Tanti e di qualità |
| **Rischio** | Regole incomplete | Overfitting |

---

## No Free Lunch Theorem

```
"Nessun algoritmo è migliore su TUTTI i problemi"

Problema A:          Problema B:          Problema C:
LogReg vince         Tree vince           RF vince
│                    │                    │
└────────────────────┴────────────────────┘
                     │
              DEVI SEMPRE CONFRONTARE!
```

**Implicazione pratica:** testa sempre almeno 2-3 modelli diversi.

---

## Bias-Variance Trade-off

```
BIAS ALTO (Underfitting):          VARIANCE ALTA (Overfitting):

   ●  ●                               ●──●
    ●   ●    ──────── linea retta        ╲ ╱●
   ●  ●                                   ●╲╱●
                                            ●
Modello troppo semplice             Modello troppo complesso
Non cattura il pattern              Memorizza il rumore
Train basso, Test basso             Train alto, Test basso
```

**Obiettivo:** trovare la complessità giusta (Rasoio di Occam).

---

## Prerequisiti

| Concetto | Dove lo trovi | Verifica |
|----------|---------------|----------|
| Classificazione binaria | Lezioni 5-6 | Sai cosa sono 0/1? |
| Train/test split | Lezione 8 | Sai perché separare? |
| Precision/Recall | Lezione 17 | Sai calcolarle? |
| Alberi decisionali | Lezione 14 | Conosci max_depth? |

**Cosa useremo:** LogisticRegression, DecisionTreeClassifier, RandomForestClassifier, train_test_split, accuracy_score.

# 2) Teoria concettuale
- AI come insieme di tecniche per prendere decisioni automatiche (regole esplicite o apprendimento da dati).
- Sistemi rule-based: trasparenza e controllo, ma scalano male con problemi complessi e dati rumorosi.
- Sistemi data-driven: apprendono pattern dai dati, richiedono etichette e generalizzazione; rischio overfitting se poco dati o modello complesso.


## Approcci rule-based vs data-driven
- Rule-based: IF-THEN definite da esperti; input = record con feature, output = classe/azione; errori tipici: regole incomplete o conflittuali.
- Data-driven: modello f(x) appreso; input = matrice (n_samples, n_features), output = probabilita'/label; errori tipici: dati sbilanciati, leakage, complessita' eccessiva.


## Bias-variance e No Free Lunch
- Nessun algoritmo e' migliore su tutti i problemi: serve confrontare piu' modelli con dati reali.
- Bias: modello troppo semplice (underfitting); Varianza: modello troppo complesso (overfitting).
- Rasoio di Occam: preferire il modello piu' semplice a parita' di prestazioni.


# 3) Schema mentale / mappa decisionale
Workflow: definisci il problema -> raccogli/crea dati -> prova baseline rule-based (se disponibile) -> costruisci train/test -> testa modelli semplici/complessi -> confronta metriche -> scegli modello + complessita' adeguata -> interpreta e documenta.
Checklist: dati senza NaN, split stratificato, almeno due modelli a confronto, controllo su overfitting (gap train/test), motivazione scelta finale.


# 4) Sezione dimostrativa
Demo incluse:
- Demo 1: dataset churn sintetico + baseline rule-based.
- Demo 2: modelli data-driven (LogReg, Tree, Random Forest) e confronto.
- Demo 3: funzione f(x) su un singolo caso.
- Demo 4: rasoio di Occam (profondita' albero vs prestazioni).


## Demo 1 - Dataset e sistema rule-based
Perche': avere una baseline interpretabile e verificare subito se le regole coprono i casi principali. Checkpoint: nessun NaN, classi bilanciate ragionevolmente, regole applicate a tutti i record.


## Demo 2 - Modelli data-driven
Perche': confrontare algoritmi standard con la baseline e misurare generalizzazione. Checkpoint: split stratificato, metriche su test, nessun warning di convergenza.


## Demo 3 - f(x) e interpretazione
Perche': mostrare che ogni modello implementa una funzione f(x) con output diverso per lo stesso input. Checkpoint: predizioni coerenti per il campione scelto.


## Demo 4 - Rasoio di Occam
Perche': evidenziare il trade-off complessita'/prestazioni variando la profondita' dell'albero. Checkpoint: trend di accuracy train/test e scelta di una complessita' parsimoniosa.


In [None]:
# Demo 1: setup e dataset churn sintetico
# Scopo: creare un dataset interpretabile, definire la baseline rule-based e preparare lo split.
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
import warnings
warnings.filterwarnings('ignore')
np.random.seed(42)

# Dataset con feature business
n_samples = 1000
recency = np.random.exponential(40, n_samples)
complaints = np.random.poisson(1.5, n_samples)
spend = np.random.normal(50, 20, n_samples).clip(10, 150)
products = np.random.randint(1, 5, n_samples)
days_idle = np.random.exponential(30, n_samples)
satisfaction = np.random.randint(1, 6, n_samples)

prob = (
    0.4 * (complaints > 2).astype(float) +
    0.3 * (satisfaction <= 2).astype(float) +
    0.2 * (days_idle > 45).astype(float) +
    0.1 * (spend < 30).astype(float)
)
prob = prob / prob.max()
np.random.seed(42)
churn = np.random.binomial(1, prob.clip(0.05, 0.95))

data = pd.DataFrame({
    'tenure_months': np.random.randint(1, 72, n_samples),
    'complaints_6m': complaints,
    'monthly_spend': spend,
    'n_products': products,
    'days_since_last_use': days_idle,
    'satisfaction_score': satisfaction,
    'churn': churn
})

print(data.head())
print(data['churn'].value_counts())
assert not data.isna().any().any(), "NaN nel dataset"
assert data['churn'].nunique() == 2, "Label non binarie"


In [None]:
# Demo 1 (continua): sistema rule-based
# Definizione di regole IF-THEN esplicite e valutazione su train/test.

def rule_based_churn_predictor(row):
    if row['tenure_months'] < 12 and row['complaints_6m'] >= 2:
        return 1
    if row['complaints_6m'] >= 3:
        return 1
    if row['satisfaction_score'] <= 2 and row['days_since_last_use'] > 30:
        return 1
    if row['n_products'] == 1 and row['satisfaction_score'] <= 3:
        return 1
    return 0

X = data.drop(columns=['churn'])
y = data['churn']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

rule_preds_train = X_train.apply(rule_based_churn_predictor, axis=1)
rule_preds_test = X_test.apply(rule_based_churn_predictor, axis=1)

acc_rule_train = accuracy_score(y_train, rule_preds_train)
acc_rule_test = accuracy_score(y_test, rule_preds_test)
print(f"Accuracy rule-based train: {acc_rule_train:.3f}, test: {acc_rule_test:.3f}")
assert acc_rule_test > 0, "Rule-based non predice correttamente"


In [None]:
# Demo 2: modelli data-driven (LogReg, Tree, Random Forest)
# Addestriamo e valutiamo modelli supervisionati standard.
models = {
    'Logistic Regression': LogisticRegression(max_iter=200),
    'Decision Tree': DecisionTreeClassifier(max_depth=None, random_state=42),
    'Random Forest': RandomForestClassifier(n_estimators=100, random_state=42)
}

results = {}
for name, model in models.items():
    model.fit(X_train, y_train)
    preds = model.predict(X_test)
    acc = accuracy_score(y_test, preds)
    results[name] = acc
    print(f"{name} - accuracy test: {acc:.3f}")

print("
Classification report (Random Forest):")
print(classification_report(y_test, models['Random Forest'].predict(X_test), digits=3))
assert all(acc > 0 for acc in results.values()), "Modelli non addestrati"


In [None]:
# Demo 3: confronto rule-based vs data-driven
comparison = pd.DataFrame({
    'Approccio': ['Rule-Based', 'Logistic Regression', 'Decision Tree', 'Random Forest'],
    'Accuracy_test': [acc_rule_test, results['Logistic Regression'], results['Decision Tree'], results['Random Forest']]
})
print(comparison)

best = comparison.sort_values(by='Accuracy_test', ascending=False).iloc[0]
print(f"Miglior approccio: {best['Approccio']} con accuracy {best['Accuracy_test']:.3f}")


In [None]:
# Demo 3 (continua): f(x) su un singolo cliente
sample = X_test.iloc[[0]]
print("
Esempio cliente (input x):")
print(sample)

for name, model in models.items():
    pred = model.predict(sample)[0]
    proba = model.predict_proba(sample)[0][1]
    print(f"{name}: predizione={pred}, proba_churn={proba:.3f}")

rule_pred = rule_based_churn_predictor(sample.iloc[0])
print(f"Rule-based: predizione={rule_pred}")


In [None]:
# Demo 4: Rasoio di Occam (profondita' albero vs prestazioni)
from sklearn.tree import DecisionTreeClassifier

print("
Rasoio di Occam - profondita' vs accuracy")
depths = [1, 2, 3, 5, 10, None]
rows = []
for depth in depths:
    dt = DecisionTreeClassifier(max_depth=depth, random_state=42)
    dt.fit(X_train, y_train)
    acc_tr = accuracy_score(y_train, dt.predict(X_train))
    acc_te = accuracy_score(y_test, dt.predict(X_test))
    rows.append({'max_depth': depth if depth is not None else 'None', 'acc_train': acc_tr, 'acc_test': acc_te})

res_occam = pd.DataFrame(rows)
print(res_occam)
assert len(res_occam) == len(depths), "Tabella occam incompleta"


In [None]:
# ============================================================
# DIMOSTRAZIONE: RASOIO DI OCCAM - COMPLESSITÀ vs PRESTAZIONI
# ============================================================
# Confrontiamo modelli di complessità crescente

from sklearn.tree import DecisionTreeClassifier

print("=" * 60)
print("RASOIO DI OCCAM: COMPLESSITÀ vs PRESTAZIONI")
print("=" * 60)
print("\nDomanda: un modello più complesso è sempre migliore?")
print("-" * 60)

# Testiamo Decision Tree con profondità crescente
depths = [1, 2, 3, 5, 10, 20, None]  # None = nessun limite
results_occam = []

for depth in depths:
    # Creiamo modello con complessità controllata
    dt = DecisionTreeClassifier(max_depth=depth, random_state=42)
    dt.fit(X_train, y_train)
    
    # Accuracy su train e test
    acc_train = accuracy_score(y_train, dt.predict(X_train))
    acc_test = accuracy_score(y_test, dt.predict(X_test))
    
    # Numero di foglie (proxy per complessità)
    n_leaves = dt.get_n_leaves()
    
    depth_str = str(depth) if depth else "∞"
    results_occam.append({
        'Max Depth': depth_str,
        'N. Foglie': n_leaves,
        'Acc Train': acc_train,
        'Acc Test': acc_test,
        'Gap': acc_train - acc_test
    })

# Mostriamo risultati
df_occam = pd.DataFrame(results_occam)
print("\n")
print(df_occam.to_string(index=False))

print("\n" + "-" * 60)
print("INTERPRETAZIONE:")
print("-" * 60)
print("""
• Modelli troppo semplici (depth=1,2): underfitting, basse performance
• Modelli troppo complessi (depth=∞): overfitting, gap train-test alto
• Modello 'giusto' (depth~5): bilancia complessità e generalizzazione

→ Il Rasoio di Occam dice: scegli il modello più semplice che 
  raggiunge prestazioni accettabili sul test set.
""")

# 5) Esercizi svolti (passo-passo)
## Esercizio 29.1 - Classificare scenari AI
Obiettivo: classificare scenari come rule-based, ML supervisionato o altro, motivando la scelta.


In [None]:
# Soluzione esercizio 29.1
scenari = [
    {'scenario': 'Termostato accende riscaldamento se temp < 18', 'tipo_atteso': 'Rule-based'},
    {'scenario': 'Riconoscimento volti con rete neurale addestrata', 'tipo_atteso': 'ML supervisionato'},
    {'scenario': 'Filtro spam Naive Bayes su email etichettate', 'tipo_atteso': 'ML supervisionato'},
    {'scenario': 'Motore regole fiscali per bonus energia', 'tipo_atteso': 'Rule-based'},
]

for s in scenari:
    if 'regola' in s['scenario'].lower() or 'se' in s['scenario'].lower():
        s['classificazione'] = 'Rule-based'
    else:
        s['classificazione'] = 'ML supervisionato'

res_scenari = pd.DataFrame(scenari)
print(res_scenari)
assert res_scenari.shape[0] == len(scenari)


## Esercizio 29.2 - Sistema rule-based per approvazione ferie
Obiettivo: implementare regole di business per approvare o negare richieste, verificando copertura casi.


In [None]:
# Soluzione esercizio 29.2
from datetime import datetime

def approva_ferie(richiesta: dict, stato_team: dict) -> dict:
    # Regole semplici: limite membri in ferie e preavviso minimo 7 giorni
    giorni_preavviso = (richiesta['data_inizio'] - richiesta['data_richiesta']).days
    overlapping = stato_team['membri_in_ferie']
    if giorni_preavviso < 7:
        return {'approvato': False, 'motivo': 'Preavviso insufficiente'}
    if overlapping >= stato_team['totale_membri'] * 0.3:
        return {'approvato': False, 'motivo': 'Troppe persone gia in ferie'}
    if richiesta['anni_anzianita'] < 1:
        return {'approvato': False, 'motivo': 'Anzianita insufficiente'}
    return {'approvato': True, 'motivo': 'Approvato secondo regole'}

oggi = datetime(2024, 5, 1)
richieste = [
    {'dipendente': 'A', 'data_inizio': oggi + pd.Timedelta(days=10), 'data_fine': oggi + pd.Timedelta(days=15), 'data_richiesta': oggi, 'anni_anzianita': 2},
    {'dipendente': 'B', 'data_inizio': oggi + pd.Timedelta(days=3), 'data_fine': oggi + pd.Timedelta(days=8), 'data_richiesta': oggi, 'anni_anzianita': 5},
]
stato_team = {'totale_membri': 10, 'membri_in_ferie': 2}

for r in richieste:
    print(r['dipendente'], approva_ferie(r, stato_team))


## Esercizio 29.3 - No Free Lunch empirico
Obiettivo: confrontare modelli diversi su dataset con forme differenti per mostrare che nessuno vince sempre.


In [None]:
# Soluzione esercizio 29.3
from sklearn.datasets import make_classification, make_moons, make_circles
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

np.random.seed(42)

datasets = {
    'Lineare': make_classification(n_samples=500, n_features=2, n_informative=2, n_redundant=0, class_sep=2.0, random_state=42),
    'Moons': make_moons(n_samples=500, noise=0.2, random_state=42),
    'Circles': make_circles(n_samples=500, noise=0.1, factor=0.5, random_state=42)
}

models_nfl = {
    'LogReg': LogisticRegression(max_iter=200),
    'SVM RBF': SVC(kernel='rbf', probability=True),
    'KNN': KNeighborsClassifier(n_neighbors=7)
}

rows = []
for dname, (X_d, y_d) in datasets.items():
    X_tr, X_te, y_tr, y_te = train_test_split(X_d, y_d, test_size=0.2, random_state=42, stratify=y_d)
    for mname, model in models_nfl.items():
        model.fit(X_tr, y_tr)
        acc = accuracy_score(y_te, model.predict(X_te))
        rows.append({'dataset': dname, 'modello': mname, 'accuracy': acc})

res_nfl = pd.DataFrame(rows)
print(res_nfl.pivot(index='dataset', columns='modello', values='accuracy'))
assert not res_nfl.empty, "Nessun risultato calcolato"


# 6) Conclusione operativa

## 5 take-home messages

| # | Messaggio | Perché importante |
|---|-----------|-------------------|
| 1 | **Rule-based = trasparente ma rigido** | Ottimo per pochi casi semplici |
| 2 | **Data-driven = adattabile ma opaco** | Scala con i dati, rischio overfitting |
| 3 | **No Free Lunch: confronta sempre** | Nessun modello è universalmente migliore |
| 4 | **Bias-Variance: trova l'equilibrio** | Troppo semplice ≠ troppo complesso |
| 5 | **Rasoio di Occam: semplicità vince** | A parità di performance, scegli il più semplice |

---

## Confronto sintetico: quando usare cosa

| Situazione | Approccio consigliato | Perché |
|------------|----------------------|--------|
| Pochi casi, regole note | Rule-based | Trasparenza, nessun dato richiesto |
| Tanti dati, pattern complessi | Data-driven (RF) | Apprende automaticamente |
| Interpretabilità richiesta | Tree o LogReg | Coefficienti leggibili |
| Baseline veloce | Rule-based | Riferimento immediato |
| Produzione scalabile | Pipeline ML | Re-training automatico |

---

## Perché questi concetti funzionano

### 1) Il modello come funzione f(x)

```
INPUT:                     MODELLO:                    OUTPUT:
┌─────────────────┐       ┌─────────────────┐        ┌─────────────┐
│ tenure = 3      │       │                 │        │             │
│ complaints = 4  │  →    │     f(x)        │   →    │  churn = 1  │
│ monthly = 80    │       │                 │        │             │
└─────────────────┘       └─────────────────┘        └─────────────┘

Rule-based:   IF complaints > 2 AND tenure < 6 THEN 1
LogReg:       sigmoid(w1*tenure + w2*complaints + ...)
Tree:         split su complaints > 2.5, poi tenure < 5.5
```

Tutti implementano f(x), ma con logiche diverse!

### 2) Il trade-off nella pratica

| Complessità | Train Acc | Test Acc | Diagnosi |
|-------------|-----------|----------|----------|
| max_depth=1 | 0.65 | 0.64 | Underfitting |
| max_depth=5 | 0.85 | 0.82 | GIUSTO |
| max_depth=20 | 0.99 | 0.70 | Overfitting |

---

## Metodi spiegati: reference card

| Metodo | Input | Output | Quando usarlo |
|--------|-------|--------|---------------|
| Rule-based (IF-THEN) | Record | Classe | Baseline, casi semplici |
| `LogisticRegression` | X train | proba, coef_ | Baseline ML, interpretabile |
| `DecisionTreeClassifier` | X train | predict, feature_importances_ | Interpretabile, visual |
| `RandomForestClassifier` | X train | predict, importances | Potente, meno overfitting |
| `train_test_split(stratify)` | X, y | X_train, X_test | Split bilanciato |
| `accuracy_score` | y_true, y_pred | float | Metrica base |

---

## Errori comuni e debug rapido

| Errore | Perché sbagliato | Fix |
|--------|-----------------|-----|
| Nessuna baseline | Non sai se ML migliora | Sempre partire da rule-based o dummy |
| Non stratificare split | Classi sbilanciate | stratify=y |
| max_depth troppo alto | Overfitting | Prova valori bassi, cross-validation |
| Confronto solo su train | Illusione di performance | Sempre valutare su test |
| Un solo modello testato | Viola No Free Lunch | Almeno 2-3 modelli diversi |

---

## Prossimi passi

| Lezione | Argomento | Collegamento |
|---------|-----------|--------------|
| 30 | Testo e Dato | Preprocessing testo, tokenizzazione |
| 31+ | TF-IDF, Sentiment, NER | NLP applicato |

**Nuovo modulo iniziato:** AI e NLP!

# 7) Checklist di fine lezione
- [ ] Ho costruito una baseline rule-based e l'ho confrontata con almeno due modelli di ML.
- [ ] Ho usato uno split stratificato e controllato il gap train/test.
- [ ] Ho valutato le metriche su test (accuracy, report di classificazione).
- [ ] Ho verificato il teorema No Free Lunch provando modelli diversi su dati diversi.
- [ ] Ho documentato la complessita' scelta (es. max_depth) con motivazione.

Glossario
- Rule-based: sistema di regole IF-THEN definite da esperti.
- Modello data-driven: f(x) appresa dai dati per predire un output.
- Overfitting/Underfitting: modello troppo complesso o troppo semplice rispetto ai dati.
- Stratify: mantenere la proporzione di classi nello split train/test.
- Accuracy: frazione di predizioni corrette.
- No Free Lunch: nessun algoritmo e' migliore per tutti i problemi.


# 8) Changelog didattico

| Versione | Data | Modifiche |
|----------|------|-----------|
| 1.0 | 2024-01-28 | Creazione: rule-based vs ML base |
| 1.1 | 2024-02-05 | Aggiunto No Free Lunch demo |
| 2.0 | 2024-02-12 | Integrato rasoio di Occam con max_depth |
| 2.1 | 2024-02-18 | Refactor con checkpoint e assert |
| **2.3** | **2024-12-19** | **ESPANSIONE COMPLETA:** mappa lezione 8 sezioni, tabella obiettivi, ASCII tassonomia AI, confronto rule-based vs data-driven, No Free Lunch diagram, bias-variance ASCII, 5 take-home messages, f(x) unified view, trade-off tabella pratica, reference card metodi, errori comuni |

---

## Note per lo studente

Questa lezione apre il **modulo AI/NLP**:

| Concetto | Importanza |
|----------|------------|
| Rule-based vs Data-driven | Fondamento di ogni scelta AI |
| No Free Lunch | Giustifica il confronto modelli |
| Bias-Variance | Guida la scelta complessità |
| Rasoio di Occam | Principio di parsimonia |

**Dove siamo nel corso:**
- Lezioni 1-18: ML Supervised (Regressione, Classificazione)
- Lezioni 19-28: ML Unsupervised (Clustering, PCA, Anomaly)
- **Lezione 29+: AI/NLP** (Questa lezione!)

**Prossima tappa:** Lesson 30 - Testo e Dato (preprocessing NLP)