# 📊 Análisis Exploratorio - Calidad del Agua del Río Cauca

Este notebook presenta un análisis exploratorio del dataset limpio. Se revisan las principales variables ambientales relacionadas con la calidad del agua del Río Cauca, buscando patrones, anomalías y relaciones entre variables.

## Contenido:
- Distribución de variables clave
- Tendencias temporales
- Comparación entre estaciones
- Correlaciones


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración visual
sns.set(style="whitegrid")

# Cargar dataset limpio
df = pd.read_csv("../data/cleaned/agua_rio_cauca_limpio.csv", parse_dates=["FECHA DE MUESTREO"])
df.head()


In [None]:
# Histograma de algunas variables clave
variables = ['pH', 'OXIGENO DISUELTO (mg O2/l)', 'TURBIEDAD (UNT)', 'DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)']

for var in variables:
    plt.figure(figsize=(8, 4))
    sns.histplot(df[var].dropna(), kde=True, bins=30)
    plt.title(f"Distribución de {var}")
    plt.xlabel(var)
    plt.ylabel("Frecuencia")
    plt.tight_layout()
    plt.show()


In [None]:
# Tendencia de oxígeno disuelto a lo largo del tiempo
plt.figure(figsize=(10, 5))
sns.lineplot(data=df.sort_values("FECHA DE MUESTREO"), x="FECHA DE MUESTREO", y="OXIGENO DISUELTO (mg O2/l)")
plt.title("Evolución del Oxígeno Disuelto a lo largo del tiempo")
plt.ylabel("mg O2/l")
plt.xlabel("Fecha de Muestreo")
plt.tight_layout()
plt.show()


In [None]:
# Boxplot por estación para comparar pH
plt.figure(figsize=(12, 5))
top_estaciones = df['ESTACIONES'].value_counts().nlargest(10).index
sns.boxplot(data=df[df['ESTACIONES'].isin(top_estaciones)], x='ESTACIONES', y='pH')
plt.xticks(rotation=45)
plt.title("Distribución de pH por estación de muestreo")
plt.tight_layout()
plt.show()


In [None]:
# Mapa de calor de correlaciones
vars_corr = df.select_dtypes(include='float64').dropna(axis=1).corr()
plt.figure(figsize=(14, 10))
sns.heatmap(vars_corr, cmap='coolwarm', annot=False)
plt.title("Mapa de calor de correlaciones entre variables numéricas")
plt.tight_layout()
plt.show()
