# 🎯 Advanced Preprocessing - Esercizi Pratici

## 📋 Obiettivi
Questa serie di esercizi ti guiderà attraverso la creazione di pipeline di preprocessing avanzate per progetti ML professionali.

### 🎓 Cosa Imparerai
- Costruire pipeline automatizzate con `Pipeline` e `ColumnTransformer`
- Implementare strategie di rilevamento e trattamento degli outlier
- Valutare pipeline con cross-validation
- Analizzare l'importanza delle features
- Tracciare esperimenti con MLflow
- Salvare e versionare modelli per la produzione

### 📊 Dataset
Useremo il dataset **Wine Quality** per predire la qualità del vino basandoci su caratteristiche chimiche.

### ⚠️ Importante
- Segui l'ordine degli esercizi
- Testa il tuo codice dopo ogni sezione
- Non guardare la soluzione fino a quando non hai provato!

---

## 📦 Esercizio 1: Import e Setup

**Obiettivo**: Importare tutte le librerie necessarie per il preprocessing avanzato.

**Istruzioni**:
1. Importa le librerie base: `pandas`, `numpy`, `matplotlib.pyplot`, `seaborn`
2. Importa da sklearn:
   - `train_test_split`, `cross_val_score`, `StratifiedKFold`
   - `Pipeline`, `ColumnTransformer`
   - `StandardScaler`, `MinMaxScaler`, `OneHotEncoder`, `OrdinalEncoder`
   - `SimpleImputer`, `KNNImputer`
   - `SelectKBest`, `f_classif`, `RFE`
   - `IsolationForest` da `sklearn.ensemble`
   - `RandomForestClassifier`, `LogisticRegression`
   - `classification_report`, `confusion_matrix`, `roc_auc_score`
3. Importa `stats` da `scipy`
4. Prova a importare `mlflow` (opzionale)
5. Importa `joblib`, `datetime`, `os`, `json`
6. Configura pandas per mostrare tutte le colonne
7. Stampa un messaggio di conferma

**Tips**:
- Usa `warnings.filterwarnings('ignore')` per nascondere i warning
- Imposta `plt.style.use('seaborn-v0_8')` per grafici più belli

In [None]:
# IL TUO CODICE QUI
# Importa tutte le librerie necessarie


## 📊 Esercizio 2: Caricamento e Esplorazione Dati

**Obiettivo**: Caricare il dataset Wine Quality e fare un'analisi esplorativa.

**Istruzioni**:
1. Carica il dataset da: `https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv`
2. Il separatore è `;` 
3. Crea la variabile target: `y = (data['quality'] >= 7).astype(int)` (1 = vino di alta qualità)
4. Rimuovi la colonna 'quality' da X
5. Esplora il dataset:
   - Forma del dataset
   - Informazioni sui tipi di dati
   - Distribuzione del target
   - Statistiche descrittive
   - Valori mancanti
6. Crea un grafico della distribuzione del target

**Tips**:
- Usa `pd.read_csv()` con il parametro `sep=';'`
- Usa `.info()`, `.describe()`, `.isnull().sum()` per l'esplorazione

In [None]:
# IL TUO CODICE QUI
# Carica e esplora il dataset Wine Quality


## 🔧 Esercizio 3: Identificazione delle Features

**Obiettivo**: Automatizzare l'identificazione dei tipi di feature.

**Istruzioni**:
1. Crea una funzione `identify_feature_types(df)` che:
   - Identifica le features numeriche usando `select_dtypes(include=[np.number])`
   - Identifica le features categoriche usando `select_dtypes(include=['object', 'category'])`
   - Ritorna due liste: `numerical_features`, `categorical_features`
2. Applica la funzione al tuo dataset
3. Stampa:
   - Numero e nomi delle features numeriche
   - Numero e nomi delle features categoriche
4. Verifica se ci sono valori mancanti per ogni tipo di feature

**Tips**:
- Nel dataset Wine Quality tutte le features dovrebbero essere numeriche
- Se non ci sono features categoriche, la lista sarà vuota

In [None]:
# IL TUO CODICE QUI
# Crea la funzione per identificare i tipi di feature


## 🔍 Esercizio 4: Rilevamento Outlier

**Obiettivo**: Implementare diversi metodi per rilevare outlier.

**Istruzioni**:
1. Crea una funzione `detect_outliers(X, method='iqr', contamination=0.1)` che:
   - Metodo 'iqr': Usa Q1, Q3 e IQR per trovare outlier (limite: Q1-1.5*IQR, Q3+1.5*IQR)
   - Metodo 'zscore': Usa z-score > 3 come soglia
   - Metodo 'isolation_forest': Usa IsolationForest con contamination specificata
   - Ritorna una maschera booleana (True = outlier)

2. Testa tutti e tre i metodi sui tuoi dati
3. Stampa per ogni metodo:
   - Numero di outlier trovati
   - Percentuale di outlier

4. Crea una visualizzazione che mostri gli outlier per una feature a tua scelta usando tutti e tre i metodi

**Tips**:
- Usa `np.percentile()` per Q1 e Q3
- Usa `stats.zscore()` per il z-score
- Usa `.any(axis=1)` per trovare righe con almeno un outlier

In [None]:
# IL TUO CODICE QUI
# Implementa la funzione per il rilevamento degli outlier


## ⚙️ Esercizio 5: Pipeline di Preprocessing

**Obiettivo**: Creare pipeline automatizzate per preprocessing.

**Istruzioni**:
1. Crea una pipeline per features numeriche:
   - Imputation con `KNNImputer(n_neighbors=5)`
   - Scaling con `StandardScaler()`

2. Crea una pipeline per features categoriche (se esistono):
   - Imputation con `SimpleImputer(strategy='most_frequent')`
   - Encoding con `OneHotEncoder(drop='first', handle_unknown='ignore')`

3. Combina le pipeline usando `ColumnTransformer`:
   - Assegna la pipeline numerica alle features numeriche
   - Assegna la pipeline categorica alle features categoriche
   - Usa `remainder='drop'`

4. Dividi i dati in train/test (80/20) con stratificazione
5. Applica il preprocessor ai dati e stampa:
   - Forma originale vs forma processata
   - Numero di features create

**Tips**:
- Usa `stratify=y` in `train_test_split`
- Usa `.fit_transform()` per train e `.transform()` per test

In [None]:
# IL TUO CODICE QUI
# Crea le pipeline di preprocessing


## 🎯 Esercizio 6: Trattamento Outlier

**Obiettivo**: Implementare strategie per trattare gli outlier.

**Istruzioni**:
1. Crea una classe `OutlierTreatmentTransformer` che:
   - Ha parametri `method='cap'` e `detection_method='iqr'`
   - Nel metodo `fit()`: calcola e salva i bounds per il capping
   - Nel metodo `transform()`: applica il trattamento scelto
   - Supporta il metodo 'cap' (taglia i valori ai bounds)

2. Integra il transformer nella tua pipeline completa
3. Crea una funzione `create_complete_pipeline(model, include_outlier_treatment=True)` che:
   - Combina outlier treatment + preprocessing + modello
   - Permette di includere/escludere il trattamento outlier

4. Testa la pipeline con `RandomForestClassifier`

**Tips**:
- Usa `np.clip()` per il capping
- Salva i bounds in un dizionario durante il fit

In [None]:
# IL TUO CODICE QUI
# Implementa il trattamento degli outlier


## 📊 Esercizio 7: Cross-Validation

**Obiettivo**: Valutare le pipeline con cross-validation.

**Istruzioni**:
1. Definisci una strategia di CV: `StratifiedKFold(n_splits=5, shuffle=True, random_state=42)`
2. Testa diverse combinazioni:
   - LogisticRegression con/senza outlier treatment
   - RandomForestClassifier con/senza outlier treatment
3. Per ogni combinazione:
   - Esegui cross-validation con scoring='roc_auc'
   - Calcola media, deviazione standard, min, max degli score
   - Salva i risultati in un dizionario
4. Crea un boxplot per visualizzare i risultati CV
5. Identifica la migliore configurazione

**Tips**:
- Usa `cross_val_score()` con `n_jobs=-1` per parallelizzazione
- Usa `plt.boxplot()` per la visualizzazione

In [None]:
# IL TUO CODICE QUI
# Implementa la cross-validation


## 🎯 Esercizio 8: Feature Importance

**Obiettivo**: Analizzare l'importanza delle features.

**Istruzioni**:
1. Addestra la migliore pipeline sui dati di training
2. Estrai i nomi delle features dopo il preprocessing:
   - Features numeriche: nomi originali
   - Features categoriche: usa `get_feature_names_out()` dell'encoder
3. Calcola due tipi di importanza:
   - Tree-based importance: `model.feature_importances_`
   - Permutation importance: usa `permutation_importance()`
4. Crea un DataFrame con feature names e importanze
5. Visualizza i risultati:
   - Top 15 features per tree-based importance
   - Top 15 features per permutation importance (con error bars)
6. Identifica features con bassa importanza (< 0.001) per possibile rimozione

**Tips**:
- Usa `permutation_importance(..., n_repeats=10, n_jobs=-1)`
- Usa `plt.barh()` per grafici orizzontali

In [None]:
# IL TUO CODICE QUI
# Analizza l'importanza delle features


## 📈 Esercizio 9: MLflow Experiment Tracking (Opzionale)

**Obiettivo**: Tracciare esperimenti con MLflow.

**Istruzioni** (solo se hai installato MLflow):
1. Configura un esperimento MLflow: `mlflow.set_experiment("Wine_Quality_Advanced")`
2. Crea una funzione `log_experiment()` che:
   - Inizia un run MLflow
   - Logga parametri del modello e preprocessing
   - Addestra la pipeline
   - Calcola metriche (train/test AUC)
   - Logga metriche e modello
3. Esegui esperimenti per diverse configurazioni
4. Confronta i risultati
5. Salva il modello migliore

**Se non hai MLflow**:
- Salta questo esercizio
- Vai direttamente all'esercizio 10

**Tips**:
- Usa `mlflow.start_run()` come context manager
- Usa `mlflow.sklearn.log_model()` per salvare il modello

In [None]:
# IL TUO CODICE QUI (OPZIONALE)
# Implementa MLflow experiment tracking


## 💾 Esercizio 10: Salvataggio e Versionamento

**Obiettivo**: Salvare la pipeline per la produzione.

**Istruzioni**:
1. Crea una directory `models/`
2. Addestra la migliore pipeline sui dati completi
3. Crea un dizionario `model_metadata` con:
   - Tipo di modello e parametri
   - Features utilizzate
   - Step di preprocessing
   - Performance (train/test AUC)
   - Timestamp di creazione
   - Nomi delle features dopo preprocessing
4. Salva pipeline e metadata con timestamp nel nome:
   - Pipeline: `wine_pipeline_v{timestamp}.joblib`
   - Metadata: `wine_metadata_v{timestamp}.json`
5. Crea una funzione `predict_wine_quality()` che:
   - Carica pipeline e metadata
   - Prende input nuovo vino
   - Ritorna predizione con probabilità
6. Testa la funzione con un esempio

**Tips**:
- Usa `datetime.now().strftime("%Y%m%d_%H%M%S")` per timestamp
- Usa `joblib.dump()` e `json.dump()` per salvare

In [None]:
# IL TUO CODICE QUI
# Implementa il salvataggio e versionamento


## 🎉 Esercizio 11: Sfida Finale

**Obiettivo**: Metti tutto insieme in una pipeline completa.

**Istruzioni**:
1. Crea una funzione `build_complete_ml_pipeline()` che:
   - Prende in input un dataset
   - Identifica automaticamente i tipi di feature
   - Crea preprocessing pipeline ottimale
   - Testa diversi modelli con CV
   - Seleziona il migliore
   - Salva tutto con metadata completo
   - Ritorna la pipeline addestrata e le performance

2. Testa la funzione sul dataset Wine Quality
3. **Bonus**: Prova la funzione su un altro dataset (es. Iris, Boston Housing)

**Valutazione**:
- La funzione deve essere completamente automatizzata
- Deve gestire sia features numeriche che categoriche
- Deve produrre risultati riproducibili
- Deve essere pronta per la produzione

**Tips**:
- Usa tutto quello che hai imparato negli esercizi precedenti
- Fai una funzione modulare e riutilizzabile

In [None]:
# IL TUO CODICE QUI - SFIDA FINALE
# Crea la pipeline ML completa e automatizzata


## 🏆 Congratulazioni!

Se hai completato tutti gli esercizi, ora hai le competenze per:

✅ **Creare pipeline automatizzate** per preprocessing professionale  
✅ **Gestire outlier** con strategie appropriate  
✅ **Valutare modelli** con cross-validation robusta  
✅ **Analizzare feature importance** per interpretabilità  
✅ **Tracciare esperimenti** per riproducibilità  
✅ **Versionare modelli** per deployment produzione  

### 🚀 Prossimi Passi
1. Prova la tua pipeline su altri dataset
2. Implementa hyperparameter tuning automatico
3. Aggiungi data validation con Great Expectations
4. Crea un'API REST per servire il modello
5. Configura monitoring per production

### 📚 Risorse Aggiuntive
- [Scikit-learn Pipeline Guide](https://scikit-learn.org/stable/modules/compose.html)
- [MLflow Documentation](https://mlflow.org/docs/latest/)
- [Production ML Best Practices](https://ml-ops.org/)

**🎯 Hai costruito una base solida per ML Engineering professionale!**