# Progetto Big Data: Data-Centric AI in ambito sanitario

## 1. Introduzione
In questo progetto abbiamo sviluppato un sistema di classificazione automatica delle malattie a partire dai sintomi riportati dai pazienti.
L'approccio seguito è stato fortemente orientato alla filosofia **Data-Centric AI**, ponendo l'accento sulla qualità, coerenza e rilevanza dei dati più che sulla complessità del modello.

Il dataset utilizzato è una versione rielaborata del `Disease Symptom Description Dataset` reperito da Kaggle.


## 2. Dataset e contesto
Il dataset contiene oltre 4000 osservazioni, ciascuna caratterizzata da 17 sintomi associati a una malattia (`Disease`). Ogni sintomo è stato trasformato in feature numerica attraverso un sistema di pesatura basato sulla sua **gravità clinica**.

Abbiamo inoltre introdotto una feature aggiuntiva: `symptom_count`, rappresentante il numero di sintomi attivi per ogni paziente.


## 3. Ciclo Data-Centric AI

Il ciclo è stato suddiviso in 7 moduli principali, implementati tramite notebook e orchestrati in un DAG Airflow.

| Fase                   | Descrizione sintetica                                         |
|------------------------|---------------------------------------------------------------|
| Profiling              | Statistiche descrittive, NaN, distribuzione malattie          |
| Pulizia                | Uniformazione sintomi, rimozione entry inconsistenti          |
| Augmentation           | Generazione esempi sintetici per classi sbilanciate           |
| Feature Engineering    | Sintomi pesati con severità clinica                           |
| Modellazione           | Random Forest / GBT con PySpark                               |
| Valutazione            | Accuracy, F1-score, Confusion Matrix                          |
| Tracking & Explainability | MLflow, SHAP e Cleanlab                                     |


## 4. Interpretabilità e Qualità

### SHAP
Abbiamo utilizzato SHAP per comprendere l'importanza dei singoli sintomi nelle predizioni. I sintomi `Symptom_1`, `Symptom_5` e `Symptom_2` risultano essere i più determinanti nel processo decisionale del modello.

### Cleanlab
Abbiamo testato Cleanlab introducendo manualmente 10 errori nel target. Lo strumento non ha rilevato anomalie, a testimonianza della forte separabilità tra classi nel dataset e dell’elevata sicurezza del modello.


## 5. Pipeline automatica (Airflow)

Per simulare l'integrazione in un ambiente real-world, abbiamo definito un **DAG Airflow** con i seguenti task:
- Profiling
- Cleaning
- Augmentation
- Feature Engineering
- Training
- Evaluation

Tutti implementati come `PythonOperator` in un unico script: `airflow_pipeline.py`.


## 6. Conclusioni

Il progetto dimostra come un approccio Data-Centric possa portare a **risultati affidabili e interpretabili** anche con modelli relativamente semplici. L’integrazione di strumenti di tracking (MLflow), explainability (SHAP) e qualità (Cleanlab), unita a un flusso orchestrato (Airflow), evidenzia una **visione completa del ciclo di vita del dato**.

Il sistema può essere esteso con:
- Feature linguistiche da sintomi descrittivi,
- Integrazione con referti medici,
- Dashboard interattive per medici o pazienti.
