# SECTION 1 — Titolo e Obiettivo della Lezione

Prima di leggere qualsiasi formula, fissiamo un glossario chiaro. Nessun termine tecnico comparirà senza una definizione intuitiva.

- **Feature**: variabile di input che descrive un’osservazione (es. età, reddito, numero di clic).
- **Collinearità**: quando due o più feature sono quasi combinazioni lineari tra loro; rende instabili i coefficienti.
- **Modello lineare**: combina le feature con pesi e bias per produrre un output (iperpiano nello spazio delle feature).
- **Decision boundary**: la frontiera geometrica (linea/piano/iperpiano) che separa le classi previste da un classificatore lineare.
- **Logit**: trasformazione $\log \frac{p}{1-p}$ che converte una probabilità in una quantità illimitata, modellabile linearmente.
- **Odds**: rapporto tra probabilità di successo e di insuccesso, $\frac{p}{1-p}$.
- **Odds ratio**: variazione degli odds quando una feature aumenta di 1 unità; è l’esponenziale di un coefficiente logistico.
- **Sigmoid**: funzione $\sigma(z) = \frac{1}{1 + e^{-z}}$ che schiaccia il logit in un numero tra 0 e 1 (una probabilità).
- **Probability model**: modello che restituisce probabilità (non solo classi), es. Logistic Regression stima $P(y=1\mid x)$.
- **Regularizzazione**: penalità sui pesi (L1/L2) per ridurre overfitting e stabilizzare i coefficienti, utile con molte feature o collinearità.

Obiettivo della lezione: costruire una mappa mentale delle quattro famiglie di modelli di Scikit-Learn, capire la matematica di base dei modelli lineari e preparare una pipeline minimale di classificazione. Stile: chiarezza matematica, intuizione geometrica, esempi reali e passaggi operativi espliciti.


# SECTION 2 — Tassonomia delle Quattro Famiglie di Modelli

Scikit-Learn offre molti modelli, ma pensarli per **famiglie concettuali** aiuta a scegliere in modo ragionato.

Le quattro famiglie principali sono:

1. **Lineari**
2. **Tree-Based** (alberi e ensemble)
3. **Distanza / Vicinanza** (KNN)
4. **Probabilistici / Bayesiani**

Capire la famiglia significa sapere in anticipo cosa può apprendere, quale pre-processing richiede e quanto è interpretabile.

## 2.1 Modelli Lineari

- **Esempi**: `LinearRegression`, `LogisticRegression`, `Ridge`, `Lasso`, `SGDClassifier`.
- **Idea**: stimano una combinazione lineare delle feature.

Formula generale:

$$
\hat{y} = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b
$$

- **Punti di forza**: interpretabilità, velocità, ottime baseline.
- **Limiti**: relazioni quasi-lineari; sensibilità a outlier e scaling.
- **Esempi applicati**: pricing assicurativo base (premio stimato da età e storico sinistri), scoring di rischio di credito rapido, previsione di click per una campagna con poche feature aggregate.
- **Metodo di pensiero**: chiediti se un iperpiano può spiegare gran parte della variazione; se sì, parti da qui per avere un riferimento interpretabile.

## 2.2 Modelli Tree-Based (Alberi)

- **Esempi**: Decision Tree, Random Forest, Gradient Boosting.
- **Idea**: suddivisione dello spazio tramite soglie.

Esempio:

```text
if feature_3 < 2.5:
    if feature_1 >= 0.7:
        -> classe A
    else:
        -> classe B
else:
    -> classe C
```

- **Punti di forza**: catturano non-linearità, robusti, ottime performance.
- **Limiti**: rischio overfitting (alberi singoli), interpretabilità minore rispetto ai lineari.
- **Esempi applicati**: rilevazione frodi con molte interazioni tra importo e device; previsione di churn combinando uso app, ticket, campagne; scoring industriale con sensori eterogenei.
- **Metodo di pensiero**: usali quando sospetti interazioni o soglie non lineari e vuoi performance solide con poco feature engineering.

## 2.3 Modelli di Distanza (KNN)

- **Idea**: basati sui _vicini più simili_.

Distanza euclidea tipica:

$$
d(x, x_i) = \sqrt{\sum_j (x_j - x_{ij})^2}
$$

- **Pro**: nessuna assunzione forte, intuitivi.
- **Contro**: molto sensibili allo scaling; lenti in predizione.
- **Esempi applicati**: raccomandazione di prodotti per piccoli cataloghi; classificazione di immagini molto piccole; diagnosi rapida su dataset ridotti e puliti.
- **Metodo di pensiero**: funziona se i punti vicini condividono l’etichetta e le feature sono già su scale comparabili (altrimenti standardizza).

## 2.4 Modelli Probabilistici / Bayesiani

- **Esempi**: GaussianNB, MultinomialNB, BernoulliNB.
- **Formula fondamentale (Teorema di Bayes)**:

  $$
  P(y \mid x) = \frac{P(x \mid y) P(y)}{P(x)}
  $$

- **Pro**: velocissimi; ottimi su dati testuali.
- **Contro**: assumono (spesso) indipendenza tra le feature.
- **Esempi applicati**: classificazione spam con conteggi parole; intent detection di frasi corte; triage rapido di ticket testuali.
- **Metodo di pensiero**: scegli Bayes se vuoi probabilità immediate con feature quasi indipendenti (o trattate come tali) e dataset testuali leggeri.


# SECTION 3 — Matematica dei Modelli Lineari

Questa sezione espone la logica matematica dei modelli lineari e come leggerne i parametri.

## 3.1 Combinazione Lineare

Formula:

$$
\hat{y} = w_1 x_1 + w_2 x_2 + \dots + w_n x_n + b
$$

In forma vettoriale:

$$
\hat{y} = \mathbf{w}^T \mathbf{x} + b
$$

Interpretazione dei coefficienti:

- segno di \( w_j \): direzione dell’effetto;
- modulo di \( w_j \): forza dell’effetto.

**Esempi applicati**: prezzo di una casa come somma pesata di metri quadri e posizione; tempo di consegna come somma di distanza e traffico; punteggio di rischio come combinazione di reddito, debito e storico pagamenti.

## 3.2 Logistic Regression

**Step 1 — Logit**

$$
z = \mathbf{w}^T \mathbf{x} + b
$$

**Step 2 — Sigmoide**

$$
\sigma(z) = \frac{1}{1 + e^{-z}}
$$

Probabilità stimata della classe positiva:

$$
\hat{p} = P(y=1 \mid x) = \sigma(\mathbf{w}^T \mathbf{x} + b)
$$

**Esempi applicati**: rischio di default (classe 1) in funzione di reddito/debito; probabilità di click a una campagna; probabilità che una transazione sia fraudolenta.

## 3.3 Interpretazione dei coefficienti

Relazione log-odds:

$$
\log \frac{p}{1-p} = \mathbf{w}^T \mathbf{x} + b
$$

Ogni coefficiente sposta il logit: $e^{w_j}$ è l’odds ratio associato alla feature $j$ (dopo scaling), cioè quanto cambiano gli odds aumentando quella feature di un’unità.

## 3.4 Standardizzazione

StandardScaler applica:

$$
x' = \frac{x - \mu}{\sigma}
$$

Benefici:

- stabilità numerica;
- convergenza più rapida;
- coefficienti comparabili;
- assolutamente necessario per modelli lineari, KNN e SVM.

**Metodo di pensiero**: prima guarda se le feature hanno scale molto diverse; se sì, standardizza per evitare che una variabile domini l’iperpiano o la distanza. Poi interpreta i coefficienti sapendo che sono riferiti a variazioni di 1 deviazione standard.


# SECTION 4 — Pipeline Logica di Ogni Modello ML

Pipeline standard in ML supervisionato:

1. **Feature engineering**
2. **Train/test split**
3. **Scelta del modello**
4. **Fit**
5. **Predict**
6. **Score**

Schema ASCII:

```text
[Feature Eng.] -> [Split] -> [Modello] -> [Fit] -> [Predict] -> [Score]
```

È un ciclo iterativo: dopo lo score si torna indietro se necessario.

**Esempi applicati**

- **Churn**: crea feature su uso app, fai split, prova Logistic Regression come baseline, misura precision/recall.
- **Fraude**: ingegnerizza frequenze per device/merchant, scala, usa Random Forest, valuta AUROC e richiama feature eng se il recall è basso.
- **Domanda energetica**: costruisci lag temporali, split temporale, Linear Regression o Gradient Boosting, controlla RMSE e residui.

**Metodo di pensiero**: visualizza la pipeline come un nastro trasportatore. Ogni blocco è verificabile: se le metriche sono basse, chiediti se mancano feature, se il modello è troppo semplice o se la divisione dei dati è adeguata. Ripeti in modo disciplinato, non a tentativi casuali.


# SECTION 5 — Come Scegliere un Modello

Euristiche pratiche:

- dati quasi lineari → Logistic/Linear Regression;
- non linearità sospette → RandomForest;
- dataset enorme → Gradient Boosting;
- NLP classico → Naive Bayes + TF-IDF;
- dataset piccolo → KNN.

**Esempi applicati**

- **Credito retail**: parti con Logistic Regression per interpretabilità, poi confronta con Gradient Boosting se servono interazioni.
- **Ticket testuali**: MultinomialNB + TF-IDF come baseline, poi eventualmente modelli più ricchi.
- **Telemetria IoT**: Random Forest/Gradient Boosting per catturare soglie e interazioni non lineari tra sensori.

**Metodo di pensiero**: scegli la complessità minima che risolve il problema. Usa un modello lineare come riferimento interpretabile; se fallisce, passa a modelli più flessibili controllando overfitting e stabilità.


# SECTION 6 — Esempio Mentale: costruzione di un modello ML

Esempio su problema di churn: capire tipo di problema, pre-processing, scelta modello iniziale, valutazione tramite precision/recall, iterazione.

**Scenario ragionato**

1. Definisci l’obiettivo: prevedere se un utente disdirà (classe 1) nei prossimi 30 giorni.
2. Prepara feature: frequenza login, durata sessione, ticket aperti, risposta a campagne.
3. Split stratificato: preserva la classe rara (churn) nel test.
4. Baseline: Logistic Regression con standardizzazione; valuta precision e recall sulla classe positiva.
5. Itera: se intercetti poche churn (recall basso), prova Random Forest/Gradient Boosting e arricchisci le feature (es. trend temporali).

**Altri esempi rapidi**

- **Fraude**: stessa logica ma metriche focalizzate sul recall della frode e sul tasso di falsi allarmi.
- **Marketing**: ottimizza la probabilità di click; usa il modello probabilistico per selezionare top-N utenti con soglia regolata sul budget.

**Metodo di pensiero**: ogni passaggio deve avere un motivo. Dopo lo score, chiediti se l’errore viene da feature povere, modello troppo semplice o dati sbilanciati. Cambia un elemento per volta.


# SECTION 7 — DIMOSTRAZIONE: Logistic Regression Minimal Example

Implementiamo una pipeline completa: dataset sintetico → scaling → Logistic Regression → coefficienti → accuracy. Questo è il percorso minimo per ottenere un modello interpretabile e vedere subito come ogni fase impatta sul risultato.

**Esempi applicati**

- **Spam vs. ham** su poche feature di testo (lunghezza, punteggiatura, frequenze chiave).
- **Rischio credito base** con 5–6 variabili numeriche (reddito, debito, anzianità lavorativa).
- **Churn rapido** con feature aggregate giornaliere (login, durata, ticket).

**Metodo di pensiero**: esegui lo script e osserva shape, bilanciamento classi, stabilizzazione dopo lo scaling e significato dei coefficienti. Considera questa demo come checklist da riusare nei tuoi progetti.


In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

X, y = make_classification(
    n_samples=600,
    n_features=6,
    n_informative=4,
    n_redundant=0,
    class_sep=1.5,
    random_state=42,
)

print(f"Shape X: {X.shape}")
print(f"Positive class ratio: {y.mean():.2f}")

Shape X: (600, 6)
Positive class ratio: 0.50


In [2]:
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, stratify=y, random_state=42
)

print(X_train.shape, X_test.shape)

(450, 6) (150, 6)


In [3]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(X_train_scaled.mean(axis=0))

[ 7.35214359e-17 -4.49455288e-16  3.50337043e-17  2.91125149e-17
  5.21188031e-16 -1.48029737e-18]


In [4]:
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train_scaled, y_train)

coeff = pd.Series(log_reg.coef_.ravel(), index=[f"feature_{i}" for i in range(6)])
coeff.sort_values(ascending=False)

feature_1    1.158654
feature_4    0.782303
feature_5    0.598550
feature_2    0.096979
feature_3    0.065306
feature_0   -0.824411
dtype: float64

In [5]:
y_pred = log_reg.predict(X_test_scaled)
acc = accuracy_score(y_test, y_pred)
print(f"Accuracy: {acc:.3f}")

Accuracy: 0.727
