# 🤖 Modelado Predictivo - Calidad del Agua del Río Cauca

Este notebook explora técnicas de modelado predictivo aplicadas a variables clave de calidad del agua. En particular, se busca predecir el nivel de **oxígeno disuelto**, un indicador crítico de salud ecológica del río.

## Contenido:
- Selección de variables
- Preparación del dataset
- División entrenamiento/prueba
- Entrenamiento de modelos de regresión
- Evaluación de desempeño


In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

# Cargar dataset limpio
df = pd.read_csv("../data/cleaned/agua_rio_cauca_limpio.csv", parse_dates=["FECHA DE MUESTREO"])
df = df.dropna(subset=["OXIGENO DISUELTO (mg O2/l)"])  # Variable objetivo
df.head()


In [None]:
# Selección de variables predictoras (puedes ajustar)
features = [
    'pH',
    'TEMPERATURA (°C)',
    'TURBIEDAD (UNT)',
    'DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)',
    'DUREZA TOTAL (mg CaCO3/l)',
    'SOLIDOS DISUELTOS (mg SD/l)'
]

df_model = df[features + ['OXIGENO DISUELTO (mg O2/l)']].dropna()
X = df_model[features]
y = df_model['OXIGENO DISUELTO (mg O2/l)']


In [None]:
# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)


In [None]:
# Regresión lineal
lr = LinearRegression()
lr.fit(X_train, y_train)
y_pred_lr = lr.predict(X_test)

# Random Forest
rf = RandomForestRegressor(random_state=42)
rf.fit(X_train, y_train)
y_pred_rf = rf.predict(X_test)


In [None]:
def evaluar_modelo(nombre, y_true, y_pred):
    print(f"🔍 {nombre}")
    print(f"R2 Score: {r2_score(y_true, y_pred):.4f}")
    print(f"RMSE: {mean_squared_error(y_true, y_pred, squared=False):.4f}")
    print("-" * 30)

evaluar_modelo("Regresión Lineal", y_test, y_pred_lr)
evaluar_modelo("Random Forest", y_test, y_pred_rf)


In [None]:
# Comparación de predicciones
plt.figure(figsize=(8,4))
plt.plot(y_test.values[:100], label="Real", linewidth=2)
plt.plot(y_pred_lr[:100], label="Lineal", linestyle='--')
plt.plot(y_pred_rf[:100], label="Random Forest", linestyle=':')
plt.title("Comparación de predicciones - Oxígeno Disuelto")
plt.legend()
plt.tight_layout()
plt.show()
