# 🧪 Laboratorio 8: Clasificación de la Potabilidad del Agua con CatBoost

En este laboratorio se aplicará el algoritmo **CatBoost** para predecir la **potabilidad del agua** basándose en diversas características físico-químicas.

In [None]:
# 📂 Carga de librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix
from catboost import CatBoostClassifier, Pool

In [None]:
# 📥 Carga del conjunto de datos
df = pd.read_csv('water_potability.csv')
df.head()

In [None]:
# 🔍 Exploración y preprocesamiento
df.isnull().sum()
df.fillna(df.median(), inplace=True)
sns.countplot(x='Potability', data=df)
plt.title('Distribución de la Potabilidad del Agua')
plt.show()

In [None]:
# 📊 División del conjunto de datos
X = df.drop('Potability', axis=1)
y = df['Potability']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# 🧠 Entrenamiento del modelo CatBoost
model = CatBoostClassifier(verbose=0, random_state=42)
model.fit(X_train, y_train)

In [None]:
# 📈 Evaluación del modelo
y_pred = model.predict(X_test)
print("Reporte de Clasificación:")
print(classification_report(y_test, y_pred))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.title('Matriz de Confusión')
plt.xlabel('Predicción')
plt.ylabel('Real')
plt.show()

In [None]:
# 📌 Importancia de características
feature_importances = model.get_feature_importance()
features = X.columns
importance_df = pd.DataFrame({'Característica': features, 'Importancia': feature_importances})
importance_df.sort_values(by='Importancia', ascending=False, inplace=True)
sns.barplot(x='Importancia', y='Característica', data=importance_df)
plt.title('Importancia de las Características')
plt.show()