# Predizione della Potabilità dell'Acqua mediante Algoritmi di Apprendimento Supervisionato

Questo notebook analizza il dataset sulla qualità dell'acqua per predire se è potabile o meno.

In [None]:
# Importiamo le librerie necessarie
import matplotlib.pyplot as plt
import pandas as pd
import sys
import os

# Aggiungiamo la cartella src al path per importare i moduli personalizzati
sys.path.append(os.path.abspath("src"))

from data_loader import water_data
from ml_models import water_logistic_regression, water_decision_tree, water_knn
# Se hai aggiornato anche ml_evaluation.py, importalo qui
# from ml_evaluation import metrics_graph_lr, metrics_graph_dt, metrics_graph_knn, comparison_metrics_models

### Analisi Esplorativa dei Dati (EDA)
Carichiamo il dataset e visualizziamo la correlazione tra le variabili e la distribuzione della classe target (Potability).

In [None]:
# Creiamo l'oggetto water_data
data = water_data()

# Visualizziamo le prime righe del dataset
print(data.get_data().head())

# Visualizziamo la matrice di confusione (heatmap)
data.get_heatmap()

# Visualizziamo la distribuzione della potabilità (0 = Non potabile, 1 = Potabile)
data.plot_outcomes()

### Definizione e Addestramento dei Modelli
Utilizzeremo tre algoritmi di classificazione:
1. **Regressione Logistica**
2. **Albero di Decisione**
3. **K-Nearest Neighbors (KNN)**

In [None]:
# Definizione parametri
TEST_SIZE = 0.2

# --- 1. Regressione Logistica ---
print("Addestramento Regressione Logistica...")
lr_model = water_logistic_regression(data, iterations=1000, test_size=TEST_SIZE)
lr_model.predict()
lr_model.get_confusion_matrix()
print("Metriche LR:", lr_model.scores)

# --- 2. Albero di Decisione ---
print("\nAddestramento Albero di Decisione...")
dt_model = water_decision_tree(data, max_d=5, test_size=TEST_SIZE)
dt_model.predict()
dt_model.get_confusion_matrix()
print("Metriche DT:", dt_model.scores)

# --- 3. K-Nearest Neighbors ---
print("\nAddestramento KNN...")
knn_model = water_knn(data, test_size=TEST_SIZE, neighbors=9)
knn_model.predict()
knn_model.get_confusion_matrix()
print("Metriche KNN:", knn_model.scores)

### Confronto dei Modelli
Confrontiamo le prestazioni dei tre modelli analizzando le metriche di Accuratezza, Precision, Recall e F1-Score.

In [None]:
# Creiamo un grafico comparativo
models = ['Logistic Regression', 'Decision Tree', 'KNN']
accuracies = [lr_model.get_metric("Accuracy"), dt_model.get_metric("Accuracy"), knn_model.get_metric("Accuracy")]
precisions = [lr_model.get_metric("Precision"), dt_model.get_metric("Precision"), knn_model.get_metric("Precision")]
recalls = [lr_model.get_metric("Recall"), dt_model.get_metric("Recall"), knn_model.get_metric("Recall")]

x = range(len(models))
width = 0.25

fig, ax = plt.subplots(figsize=(10, 6))
bar1 = ax.bar([i - width for i in x], accuracies, width, label='Accuracy')
bar2 = ax.bar(x, precisions, width, label='Precision')
bar3 = ax.bar([i + width for i in x], recalls, width, label='Recall')

ax.set_ylabel('Scores')
ax.set_title('Confronto metriche modelli')
ax.set_xticks(x)
ax.set_xticklabels(models)
ax.legend()

plt.show()

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# --- 4. Confronto dei Modelli (Codice diretto nel Notebook) ---

models = ['Logistic Regression', 'Decision Tree', 'KNN']

# Recuperiamo le metriche dai dizionari 'scores' dei modelli già addestrati
accuracies = [lr_model.scores["Accuracy"], dt_model.scores["Accuracy"], knn_model.scores["Accuracy"]]
precisions = [lr_model.scores["Precision"], dt_model.scores["Precision"], knn_model.scores["Precision"]]
recalls = [lr_model.scores["Recall"], dt_model.scores["Recall"], knn_model.scores["Recall"]]
f1_scores = [lr_model.scores["F1_score"], dt_model.scores["F1_score"], knn_model.scores["F1_score"]]

# Impostazioni del grafico
x = np.arange(len(models))  # posizione delle etichette
width = 0.2  # larghezza delle barre

fig, ax = plt.subplots(figsize=(12, 7))

# Creazione delle barre affiancate
rects1 = ax.bar(x - width*1.5, accuracies, width, label='Accuracy', color='#1f77b4')
rects2 = ax.bar(x - width/2, precisions, width, label='Precision', color='#ff7f0e')
rects3 = ax.bar(x + width/2, recalls, width, label='Recall', color='#2ca02c')
rects4 = ax.bar(x + width*1.5, f1_scores, width, label='F1 Score', color='#d62728')

# Etichette, titolo e legenda
ax.set_ylabel('Punteggio (0.0 - 1.0)')
ax.set_title('Confronto Prestazioni Modelli - Water Potability')
ax.set_xticks(x)
ax.set_xticklabels(models)
ax.legend(loc='lower right')

# Aggiunge una griglia orizzontale leggera per leggere meglio i valori
ax.grid(axis='y', linestyle='--', alpha=0.7)

# Mostra il grafico
plt.tight_layout()
plt.show()

In [None]:
# Cella finale del notebook
from ml_evaluation import comparison_metrics_models

# Questo farà partire tutto il calcolo CV e mostrerà il grafico completo
comparison_metrics_models(data, test_size=0.2)