# **Análisis Exploratorio de Datos**
___

### **Calidad del agua del Rio Cauca**
____
**Descripción:**  
Contiene información de calidad de agua en el Rio Cauca, en 19 estaciones de muestreo.  
Se miden aproximadamente 50 parámetros de calidad en el agua, entre Fisicoquímicos, Microbiológicos y Biológicos.  
Contiene datos desde el año 1990.  

  
**Última Actualización**  
15 de julio de 2024  
  
**Datos suministrados por**  
Corporación Autónoma Regional del Valle del Cauca  
  
**Fuente:**  
[Calidad del agua del Río Cauca](https://www.datos.gov.co/Ambiente-y-Desarrollo-Sostenible/Calidad-del-agua-del-Rio-Cauca/d3ft-wu2b/about_data)
___

### **Información de los Datos:**  
**Tamaño de muestra:** 2254 datos  
**Número de Variables:** 56 

**NOTA:** Originalmente los datos vienen con un total de 56 variables pero para este análisis **usaré las 23 variables más representativas.**
___

### **Diccionario de Datos:** (Las 23 con que se trabajará en el presente análisis)

|   | **Nombre de la Variable**          | **Descripción** | **Tipo de Variable** | **Escala de Medición** | **Unidades de Medición** |
|----|------------------------------------|----------------|----------------------|------------------------|----------------------|
| 1  | **FECHA DE MUESTREO** | Fecha en la que se tomó la muestra de agua. | Cualitativa | Nominal | Fecha |
| 2  | **ESTACIONES** | Lugar donde se tomó la muestra. | Cualitativa | Nominal | Nombre de la estación |
| 3  | **pH** | Nivel de acidez o alcalinidad del agua. | Cuantitativa | Intervalar | - |
| 4  | **TEMPERATURA (°C)** | Temperatura del agua en el momento del muestreo. | Cuantitativa | Razón | °C |
| 5  | **COLOR (UPC)** | Medida de la coloración del agua en unidades de platino-cobalto. | Cuantitativa | Razón | UPC |
| 6  | **OXIGENO DISUELTO (mg O2/l)** | Cantidad de oxígeno presente en el agua. | Cuantitativa | Razón | mg O₂/l |
| 7  | **DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)** | Cantidad de oxígeno consumido por microorganismos. | Cuantitativa | Razón | mg O₂/l |
| 8  | **DEMANDA QUIMICA DE OXIGENO (mg O2/l)** | Cantidad de oxígeno requerido para oxidar la materia orgánica. | Cuantitativa | Razón | mg O₂/l |
| 9  | **TURBIEDAD (UNT)** | Medición de la pérdida de transparencia del agua. | Cuantitativa | Razón | UNT |
| 10 | **CONDUCTIVIDAD ELÉCTRICA (µS/cm)** | Capacidad del agua para conducir electricidad. | Cuantitativa | Razón | µS/cm |
| 11 | **SOLIDOS DISUELTOS (mg SD/l)** | Cantidad de materia disuelta en el agua. | Cuantitativa | Razón | mg/l |
| 12 | **NITRATOS (mg N-NO3/l)** | Concentración de nitratos en el agua. | Cuantitativa | Razón | mg N-NO₃/l |
| 13 | **FOSFATOS (mg PO4/l)** | Concentración de fosfatos en el agua. | Cuantitativa | Razón | mg PO₄/l |
| 14 | **CLORUROS (mg Cl/l)** | Concentración de cloruros en el agua. | Cuantitativa | Razón | mg Cl/l |
| 15 | **SULFATOS (mg SO4/l)** | Concentración de sulfatos en el agua. | Cuantitativa | Razón | mg SO₄/l |
| 16 | **PLOMO TOTAL (mg Pb/l)** | Cantidad de plomo presente en el agua. | Cuantitativa | Razón | mg Pb/l |
| 17 | **MERCURIO (µg Hg/l)** | Cantidad de mercurio presente en el agua. | Cuantitativa | Razón | µg Hg/l |
| 18 | **CROMO TOTAL (mg Cr/l)** | Cantidad de cromo presente en el agua. | Cuantitativa | Razón | mg Cr/l |
| 19 | **CADMIO TOTAL (mg Cd/l)** | Cantidad de cadmio presente en el agua. | Cuantitativa | Razón | mg Cd/l |
| 20 | **HIERRO TOTAL (mg Fe/l)** | Cantidad de hierro presente en el agua. | Cuantitativa | Razón | mg Fe/l |
| 21 | **COLIFORMES TOTALES (NMP/100 ml)** | Cantidad de bacterias coliformes totales. | Cuantitativa | Razón | NMP/100 ml |
| 22 | **COLIFORMES FECALES (NMP/100 ml)** | Cantidad de bacterias coliformes fecales. | Cuantitativa | Razón | NMP/100 ml |
| 23 | **CAUDAL (m3/s)** | Volumen de agua que pasa por un punto del río en un segundo. | Cuantitativa | Razón | m³/s |


___

In [2]:
# Importando librerías pertinentes:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import plotly.express as px
import warnings


warnings.filterwarnings('ignore')

In [3]:
# Carga de los datos:
df = pd.read_csv("Calidad_del_agua_del_Rio_Cauca_20250327.csv")

In [5]:
# Discriminando únicamente las variables con las que voy a trabajar (23 en este caso):

df = df[["FECHA DE MUESTREO", "ESTACIONES", "pH","TEMPERATURA (°C)","COLOR (UPC)", "OXIGENO DISUELTO (mg O2/l)", 
         "DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)", "DEMANDA QUIMICA DE OXIGENO (mg O2/l)", 
         "TURBIEDAD (UNT)", "CONDUCTIVIDAD ELÉCTRICA (µS/cm)", "SOLIDOS DISUELTOS (mg SD/l)", 
         "NITRATOS (mg N-NO3/l)", "FOSFATOS (mg PO4/l)", "CLORUROS (mg Cl/l)", 
         "SULFATOS (mg SO4/l)", "PLOMO TOTAL (mg Pb/l)", "MERCURIO (µg Hg/l)", 
         "CROMO TOTAL (mg Cr/l)", "CADMIO TOTAL (mg Cd/l)", "HIERRO TOTAL (mg Fe/l)", 
         "COLIFORMES TOTALES (NMP/100 ml)", "COLIFORMES FECALES (NMP/100 ml)","CAUDAL (m3/s)"]]

### Vistazo rápido de algunos de los datos:

In [6]:
df.sample(10)

Unnamed: 0,FECHA DE MUESTREO,ESTACIONES,pH,TEMPERATURA (°C),COLOR (UPC),OXIGENO DISUELTO (mg O2/l),DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l),DEMANDA QUIMICA DE OXIGENO (mg O2/l),TURBIEDAD (UNT),CONDUCTIVIDAD ELÉCTRICA (µS/cm),...,CLORUROS (mg Cl/l),SULFATOS (mg SO4/l),PLOMO TOTAL (mg Pb/l),MERCURIO (µg Hg/l),CROMO TOTAL (mg Cr/l),CADMIO TOTAL (mg Cd/l),HIERRO TOTAL (mg Fe/l),COLIFORMES TOTALES (NMP/100 ml),COLIFORMES FECALES (NMP/100 ml),CAUDAL (m3/s)
1885,05/09/2017 12:00:00 AM,PUENTE HORMIGUERO,7.45,22.6,146.0,7.84,1.2,30.8,150.0,1706.0,...,5.04,,"<0,313",,"<0,294","<0,0400",0.656,1.50E+04,9.30E+03,
623,04/19/1998 12:00:00 AM,VIJES,6.9,27.7,25.0,0,13.7,35.4,68.0,243.0,...,15.74,52.243,"<0,01",,"<0,003","<0,001",4.116,">2,4E+07",">2,4E+07",
235,11/19/1992 12:00:00 AM,PASO DE LA BOLSA,6.5,,,5.4,1.7,7.3,,170.0,...,9.7,40.8,<0.01,,<0.003,<0.001,1.54,2.40E+05,2.40E+05,
1675,03/18/2015 12:00:00 AM,PUERTO ISAACS,7.08,21,143.0,"*3,18",4.76,31.4,175.0,128.0,...,5.56,18.7,"<0,343",,"<0,294","<0,0400",7.8,4.30E+06,2.30E+06,
318,06/04/1994 12:00:00 AM,ANTES RIO OVEJAS,7.0,14,120.0,5.8,1.7,105.8,84.0,59.79,...,3.8,39.34,<0.01,,<0.003,<0.001,3.83,2.4*10E5,2.4*10E5,
389,01/19/1995 12:00:00 AM,YOTOCO,6.9,*,50.0,0.8,16.5,24.8,30.0,170.5,...,10.0,21.4,"<0,01",,"<0,003","<0,001",0.62,2.40E+06,2.40E+06,
38,05/16/1990 12:00:00 AM,LA VICTORIA,6.7,,,2.3,0.1,23.9,,117.0,...,5.0,15.8,,,,,16.68,2.4*10E4,2.4*10E4,
85,01/03/1991 12:00:00 AM,PUENTE GUAYABAL,7.6,,,2.2,2.7,15.6,44.0,141.4,...,14.0,,0,,0,0,4.29,2.40E+07,2.40E+06,
1558,07/11/2012 12:00:00 AM,PASO DE LA BOLSA,7.13,25.3,37.9,7.04,1.15,5.85,36.0,84.5,...,3.72,15.8,"<0,343",,"<0,294","<0,0400",2.15,6.60E+04,4.30E+03,
841,01/31/2001 12:00:00 AM,PASO DEL COMERCIO,7.06,24.1,60.0,5.1,8.4,13.4,50.0,120.0,...,5.55,18.7,"<0,06",,"<0,2","<0,01",2.34,">2,40E+08",">2,40E+08",


### Información de los datos.
Se observa que a excepción de la variable 'MERCURIO (µg Hg/l)',  
todas las variables son de tipo object, por lo que procederé a cambiarlas  
según sea pertinente.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2254 entries, 0 to 2253
Data columns (total 23 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   FECHA DE MUESTREO                        2254 non-null   object 
 1   ESTACIONES                               2254 non-null   object 
 2   pH                                       2208 non-null   object 
 3   TEMPERATURA (°C)                         1967 non-null   object 
 4   COLOR (UPC)                              1888 non-null   object 
 5   OXIGENO DISUELTO (mg O2/l)               2224 non-null   object 
 6   DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)  2231 non-null   object 
 7   DEMANDA QUIMICA DE OXIGENO (mg O2/l)     2229 non-null   object 
 8   TURBIEDAD (UNT)                          2099 non-null   object 
 9   CONDUCTIVIDAD ELÉCTRICA (µS/cm)          2197 non-null   object 
 10  SOLIDOS DISUELTOS (mg SD/l)              2191 no

___
  
## **Calidad de los datos:**

In [8]:
df_procesado = df.copy()

### Cambio de tipo de datos:

Cambio de la variable "FECHA DE MUESTREO" de tipo object a tipo DateTime:

In [9]:
df_procesado["FECHA DE MUESTREO"] = pd.to_datetime(df_procesado["FECHA DE MUESTREO"], errors='coerce')
df_procesado.sample(3)

Unnamed: 0,FECHA DE MUESTREO,ESTACIONES,pH,TEMPERATURA (°C),COLOR (UPC),OXIGENO DISUELTO (mg O2/l),DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l),DEMANDA QUIMICA DE OXIGENO (mg O2/l),TURBIEDAD (UNT),CONDUCTIVIDAD ELÉCTRICA (µS/cm),...,CLORUROS (mg Cl/l),SULFATOS (mg SO4/l),PLOMO TOTAL (mg Pb/l),MERCURIO (µg Hg/l),CROMO TOTAL (mg Cr/l),CADMIO TOTAL (mg Cd/l),HIERRO TOTAL (mg Fe/l),COLIFORMES TOTALES (NMP/100 ml),COLIFORMES FECALES (NMP/100 ml),CAUDAL (m3/s)
1335,2009-05-27,PASO DE LA BOLSA,7.24,23.8,18.5,7.01,"<1,94",11.0,82.0,70.4,...,3.05,7.73,"<0,06",,"<0,20","<0,04",3.05,6600.0,6600.0,
170,1992-02-19,ANTES INTERCEPTOR SUR,6.6,,,,,36.0,,75.0,...,7.36,,0.75,,0.054,<0.001,20.5,,,
686,1999-07-19,YOTOCO,6.8,20.0,420.0,4.3,2.8,18.5,380.0,97.1,...,2.02,8.56,< 0.06,,< 0.2,< 0.04,17.8,240000000.0,240000000.0,


Cambio de la variable "ESTACIONES" de tipo object a tipo category:

In [10]:
df_procesado["ESTACIONES"] = df_procesado["ESTACIONES"].astype("category")
df_procesado.sample(3)

Unnamed: 0,FECHA DE MUESTREO,ESTACIONES,pH,TEMPERATURA (°C),COLOR (UPC),OXIGENO DISUELTO (mg O2/l),DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l),DEMANDA QUIMICA DE OXIGENO (mg O2/l),TURBIEDAD (UNT),CONDUCTIVIDAD ELÉCTRICA (µS/cm),...,CLORUROS (mg Cl/l),SULFATOS (mg SO4/l),PLOMO TOTAL (mg Pb/l),MERCURIO (µg Hg/l),CROMO TOTAL (mg Cr/l),CADMIO TOTAL (mg Cd/l),HIERRO TOTAL (mg Fe/l),COLIFORMES TOTALES (NMP/100 ml),COLIFORMES FECALES (NMP/100 ml),CAUDAL (m3/s)
556,1997-02-19,PASO DE LA TORRE,6.7,20.0,75.0,4.5,4.6,29.9,105,113.4,...,3.85,21.87,<0.01,,<0.003,<0.001,8.35,2400000.0,2400.0,
1211,2007-07-25,PUENTE GUAYABAL,8.1,23.4,47.6,1.27,3.26,18.48,82,163.5,...,5.35,16.29,<0.06,,<0.2,<0.04,4.64,,,
2129,2021-09-14,PASO DEL COMERCIO,6.41,23.0,34.0,5.05,5.14,15.7,29,114.0,...,5.61,14.1,"< 0,0499",,"< 0,108","< 0,0299",3.68,24000.0,9300.0,


Cambio de las variables númericas de tipo object a tipo float64:

In [11]:
# Lista de variables numéricas (todas menos 'FECHA DE MUESTREO' y 'ESTACIONES'):

variables_numericas = [
                      "pH", "TEMPERATURA (°C)", "COLOR (UPC)", "OXIGENO DISUELTO (mg O2/l)",
                      "DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)", "DEMANDA QUIMICA DE OXIGENO (mg O2/l)",
                      "TURBIEDAD (UNT)", "CONDUCTIVIDAD ELÉCTRICA (µS/cm)", "SOLIDOS DISUELTOS (mg SD/l)",
                      "NITRATOS (mg N-NO3/l)", "FOSFATOS (mg PO4/l)", "CLORUROS (mg Cl/l)", "SULFATOS (mg SO4/l)",
                      "PLOMO TOTAL (mg Pb/l)", "MERCURIO (µg Hg/l)", "CROMO TOTAL (mg Cr/l)", "CADMIO TOTAL (mg Cd/l)",
                      "HIERRO TOTAL (mg Fe/l)", "COLIFORMES TOTALES (NMP/100 ml)", "COLIFORMES FECALES (NMP/100 ml)", 
                      "CAUDAL (m3/s)"
                    ]

# Convertir las variables numéricas:

for col in variables_numericas:
    df_procesado[col] = pd.to_numeric(df_procesado[col], errors='coerce')  # Convierte y pone NaN si hay errores

# Verificar cambios
df_procesado.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2254 entries, 0 to 2253
Data columns (total 23 columns):
 #   Column                                   Non-Null Count  Dtype         
---  ------                                   --------------  -----         
 0   FECHA DE MUESTREO                        2243 non-null   datetime64[ns]
 1   ESTACIONES                               2254 non-null   category      
 2   pH                                       2151 non-null   float64       
 3   TEMPERATURA (°C)                         1905 non-null   float64       
 4   COLOR (UPC)                              1849 non-null   float64       
 5   OXIGENO DISUELTO (mg O2/l)               2125 non-null   float64       
 6   DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l)  2036 non-null   float64       
 7   DEMANDA QUIMICA DE OXIGENO (mg O2/l)     2019 non-null   float64       
 8   TURBIEDAD (UNT)                          2088 non-null   float64       
 9   CONDUCTIVIDAD ELÉCTRICA (µS/cm)          

### **Nota:**  
Luego de cambiar el tipo de datos de la variable "FECHA DE MUESTREO" de object a datetime, el número  
de valores no nulos disminuyó de 2254 a 2243, lo que sugiere la presencia datos erróneos en la variable,  
que fueron convertidos a valores nulos (NaT).

### Porcentaje de Datos faltantes por variable:

In [13]:
# Calcular el porcentaje de datos faltantes
porcentaje_nulos = df_procesado.isnull().sum() / len(df_procesado) * 100

# Ordenar de mayor a menor
porcentaje_nulos = porcentaje_nulos.sort_values(ascending=True)

# Crear la gráfica
fig = px.bar(
    x=porcentaje_nulos.values,
    y=porcentaje_nulos.index,
    orientation='h',
    text=porcentaje_nulos.apply(lambda x: f"{x:.2f}%"),  # Etiquetas con el porcentaje
    title="Porcentaje de Datos Faltantes por Variable",
    labels={'x': 'Porcentaje de Datos Faltantes (%)', 'y': 'Variables'},
)

# Ajustar diseño para evitar que los nombres se corten
fig.update_layout(
    autosize=False,
    width=1000,  # Ancho más grande
    height=max(400, len(porcentaje_nulos) * 20),  # Altura dinámica según el número de variables
    margin=dict(l=250, r=20, t=50, b=50),  # Más espacio a la izquierda para nombres largos
    xaxis=dict(showgrid=True, gridcolor="lightgray"),
    yaxis=dict(title="Variables", automargin=True, tickfont=dict(size=10)),  # Reduce tamaño de fuente en eje Y
)

fig.update_traces(marker_color='skyblue', textposition='outside')

fig.show()


Vemos que no existen datos para la variable "MERCURIO (µg Hg/l)" por lo que procederé a eliminarla.  
Las demás variables aunque tengan datos faltantes (algunas más del 80% de datos faltantes) voy a mantenerlas.  
**Para un mejor análisis** sería pertinente preguntar si los datos faltantes equivalen a mediciones cuyo resultado fué 0  
o si simplemente no se realizaron dichas mediciones.  
Para el presente análisis, **asumiré que los datos faltantes son datos cuya medición no fué realizada**.

In [14]:
df_procesado = df_procesado.drop("MERCURIO (µg Hg/l)",axis=1)

### Valores Nulos en la variable "FECHA DE MUESTREO"

In [15]:
df[df_procesado["FECHA DE MUESTREO"].isnull()]

Unnamed: 0,FECHA DE MUESTREO,ESTACIONES,pH,TEMPERATURA (°C),COLOR (UPC),OXIGENO DISUELTO (mg O2/l),DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l),DEMANDA QUIMICA DE OXIGENO (mg O2/l),TURBIEDAD (UNT),CONDUCTIVIDAD ELÉCTRICA (µS/cm),...,CLORUROS (mg Cl/l),SULFATOS (mg SO4/l),PLOMO TOTAL (mg Pb/l),MERCURIO (µg Hg/l),CROMO TOTAL (mg Cr/l),CADMIO TOTAL (mg Cd/l),HIERRO TOTAL (mg Fe/l),COLIFORMES TOTALES (NMP/100 ml),COLIFORMES FECALES (NMP/100 ml),CAUDAL (m3/s)
63,05/12/1290 12:00:00 AM,RIOFRIO,6.6,,,3.2,2.6,156.0,350,150.0,...,16.0,,,,,,12.95,2.4*10E6,2.4*10E6,
66,05/12/1290 12:00:00 AM,MEDIACANOA,6.6,,,2.8,3.5,60.0,400,130.0,...,9.0,,,,,,3.52,2.4*10E6,2.4*10E6,
282,10/12/1193 12:00:00 AM,ANTES RIO OVEJAS,6.3,14.0,50.0,4.4,0.6,6.4,17,104.6,...,6.56,32.8,<0.01,,<0.003,<0.001,1.01,2.40E+03,2.40E+03,
284,10/12/1193 12:00:00 AM,PASO DE LA BALSA,6.9,15.0,100.0,7.3,0.9,67.7,91,72.0,...,5.25,34.2,<0.01,,<0.003,<0.001,2.88,2.40E+05,2.40E+05,103.0
285,11/12/1193 12:00:00 AM,PASO DE LA BOLSA,6.06,20.4,300.0,6.2,2.7,43.8,160,62.0,...,3.94,56.08,<0.01,,<0.003,<0.001,3.66,2.40E+08,2.40E+05,213.0
286,11/12/1193 12:00:00 AM,PUENTE HORMIGUERO,7.0,23.0,100.0,5.9,2.3,47.8,120,87.0,...,5.25,37.62,<0.01,,<0.003,<0.0010,2.48,2.40E+07,2.40E+06,274.0
331,06/12/1194 12:00:00 AM,RIOFRIO,7.0,16.0,22.5,2.4,5.6,39.4,44,163.2,...,7.1,24.38,<0.01,,<0.003,<0.001,1.25,2.4*10E5,2.4*10E5,
332,06/12/1194 12:00:00 AM,PUENTE GUAYABAL,7.0,16.0,20.0,2.4,3.8,19.7,35,173.4,...,6.7,23.25,<0.01,,<0.003,<0.001,2.93,2.4*10E5,2.4*10E5,
333,06/12/1194 12:00:00 AM,LA VICTORIA,7.5,16.0,22.5,3.2,2.3,23.6,47,173.4,...,7.2,25.51,<0.01,,<0.003,<0.001,3.97,2.4*10E5,2.4*10E4,
334,06/12/1194 12:00:00 AM,ANACARO,7.9,16.0,22.5,2.9,1.9,74.8,36,173.4,...,7.3,26.64,<0.01,,<0.003,<0.001,2.52,2.4*10E5,2.4*10E5,


El error en las fechas se debe a valores registrados entre los años 1193 y 1290, lo que sugiere un posible error de tipeo. Es probable que estas fechas debieran corresponder a 1990-1993. No obstante, utilizaré estos datos únicamente para analizar la presencia de valores atípicos en otras variables. Para el resto del análisis, serán descartados.

### Errores de digitación para la variable "ESTACIONES"  
Como lo dice la descripción de los datos, son en total 19 estaciones de muestreo  
por lo que se espera que en dicha variable sólo hayan 19 datos únicos.

In [17]:
pd.Series(df_procesado["ESTACIONES"].unique())

0                    YOTOCO
1                MEDIACANOA
2          PASO DE LA TORRE
3              ANTES SUAREZ
4          ANTES RIO OVEJAS
5           ANTES RIO TIMBA
6          PASO DE LA BALSA
7          PASO DE LA BOLSA
8         PUENTE HORMIGUERO
9     ANTES INTERCEPTOR SUR
10                JUANCHITO
11        PASO DEL COMERCIO
12            PUERTO ISAACS
13                    VIJES
14                  RIOFRIO
15          PUENTE GUAYABAL
16              LA VICTORIA
17                  ANACARO
18       PUENTE LA VIRGINIA
19        PASO DE  LA BALSA
20        PASO DE  LA BOLSA
21       PUENTE  HORMIGUERO
22        ANTES INTERCEPTOR
23        PASO DE  LA TORRE
dtype: category
Categories (24, object): ['ANACARO', 'ANTES INTERCEPTOR', 'ANTES INTERCEPTOR SUR', 'ANTES RIO OVEJAS', ..., 'PUERTO ISAACS', 'RIOFRIO', 'VIJES', 'YOTOCO']

Se observa que hay un total de 24 datos únicos, por lo que procederé a realizar la limpieza de los datos.  

In [18]:
# Eliminar espacios extra al inicio y final
df_procesado["ESTACIONES"] = df_procesado["ESTACIONES"].str.strip()

# Reemplazar nombres inconsistentes
correcciones = {
    "PASO DE  LA BALSA": "PASO DE LA BALSA",
    "PASO DE  LA BOLSA": "PASO DE LA BOLSA",
    "PUENTE  HORMIGUERO": "PUENTE HORMIGUERO",
    "ANTES INTERCEPTOR": "ANTES INTERCEPTOR SUR",
    "PASO DE  LA TORRE": "PASO DE LA TORRE"
}

df_procesado["ESTACIONES"] = df_procesado["ESTACIONES"].replace(correcciones)

# Verificar los valores únicos después de la corrección
pd.Series(df_procesado["ESTACIONES"].unique())


0                    YOTOCO
1                MEDIACANOA
2          PASO DE LA TORRE
3              ANTES SUAREZ
4          ANTES RIO OVEJAS
5           ANTES RIO TIMBA
6          PASO DE LA BALSA
7          PASO DE LA BOLSA
8         PUENTE HORMIGUERO
9     ANTES INTERCEPTOR SUR
10                JUANCHITO
11        PASO DEL COMERCIO
12            PUERTO ISAACS
13                    VIJES
14                  RIOFRIO
15          PUENTE GUAYABAL
16              LA VICTORIA
17                  ANACARO
18       PUENTE LA VIRGINIA
dtype: object

___  
## **Estadísticas Descriptivas:**

### Fecha:

In [19]:
df_procesado['FECHA DE MUESTREO'].agg(['min', 'max'])

min   1990-01-10
max   2023-11-10
Name: FECHA DE MUESTREO, dtype: datetime64[ns]

### Variables numéricas:

In [18]:
df_procesado.select_dtypes(include=['number']).describe()


Unnamed: 0,pH,TEMPERATURA (°C),COLOR (UPC),OXIGENO DISUELTO (mg O2/l),DEMANDA BIOQUIMICA DE OXIGENO (mg O2/l),DEMANDA QUIMICA DE OXIGENO (mg O2/l),TURBIEDAD (UNT),CONDUCTIVIDAD ELÉCTRICA (µS/cm),SOLIDOS DISUELTOS (mg SD/l),NITRATOS (mg N-NO3/l),FOSFATOS (mg PO4/l),CLORUROS (mg Cl/l),SULFATOS (mg SO4/l),PLOMO TOTAL (mg Pb/l),CROMO TOTAL (mg Cr/l),CADMIO TOTAL (mg Cd/l),HIERRO TOTAL (mg Fe/l),COLIFORMES TOTALES (NMP/100 ml),COLIFORMES FECALES (NMP/100 ml),CAUDAL (m3/s)
count,2151.0,1905.0,1849.0,2125.0,2036.0,2019.0,2088.0,2162.0,2188.0,1906.0,1104.0,2026.0,1881.0,172.0,195.0,100.0,1991.0,1814.0,1870.0,222.0
mean,7.03924,21.985701,137.262125,4.092809,5.249136,29.755235,130.851624,125.183793,117.538071,118221.0,0.103874,7.270358,18.671384,0.279458,0.119874,3.401,8.124948,5694182000.0,12834560000000.0,116669.1
std,0.406411,3.633884,246.364937,2.98806,16.463874,37.510858,171.071341,107.923378,63.663964,3630743.0,0.628373,20.861612,17.824992,0.282435,0.163972,7.26224,15.897478,112880200000.0,554996700000000.0,641635.9
min,4.1,0.0,0.0,0.0,0.1,1.46,1.0,0.0,0.0,0.0,0.0,0.167,0.0,0.0,0.0,0.0,0.005,0.0,0.0,1.0
25%,6.8,20.9,39.3,2.33,2.0475,14.0,30.0,88.125,83.0,0.184,0.035,4.25,14.0,0.01,0.011,0.001,1.76,24000.0,4850.0,156.0
50%,7.06,22.4,72.4,3.81,3.1,20.6,65.0,118.0,108.0,0.3685,0.07,6.0,17.5,0.22,0.057,0.017,3.62,210000.0,42000.0,233.5
75%,7.27,24.1,136.0,5.67,4.8,31.58,156.4,151.0,136.0,0.676575,0.103,8.2475,21.562,0.4825,0.1435,0.044,8.79,2100000.0,240000.0,401.75
max,9.7,32.7,2956.0,51.5,427.0,706.0,1900.0,4259.0,864.4,150000000.0,20.1,738.0,696.8,1.54,0.997,24.4,186.0,2400000000000.0,2.4e+16,6600000.0


### Estaciones de muestreo:

In [19]:
tabla_estaciones = df_procesado['ESTACIONES'].value_counts().reset_index()
tabla_estaciones.columns = ['ESTACIÓN', 'CONTEO']

# Agregar el porcentaje con 4 decimales
tabla_estaciones['PORCENTAJE'] = (tabla_estaciones['CONTEO'] / tabla_estaciones['CONTEO'].sum() * 100).round(4)

# Mostrar la tabla
tabla_estaciones

Unnamed: 0,ESTACIÓN,CONTEO,PORCENTAJE
0,JUANCHITO,130,5.7675
1,MEDIACANOA,128,5.6788
2,PASO DE LA TORRE,127,5.6344
3,PUERTO ISAACS,126,5.5901
4,VIJES,125,5.5457
5,PASO DEL COMERCIO,124,5.5013
6,PUENTE HORMIGUERO,122,5.4126
7,YOTOCO,121,5.3682
8,PASO DE LA BOLSA,116,5.1464
9,ANTES RIO TIMBA,115,5.102


___  
## **Gráficos:**
**Tener en cuenta:**  
Para el análisis me apoyé de un documento técnico de la CVC sobre el tema:   
[Objetivos de calidad del río Cauca – Tramo Valle del Cauca: Documento técnico de soporte](https://www.cvc.gov.co/sites/default/files/2023-06/Res.%200298%20de%202023%20-%20Objetivos%20de%20calidad%20del%20r%C3%ADo%20Cuaca%20-%20Tramo%20Valle%20del%20Cauca.pdf)

In [21]:
columnas = df_procesado.columns.to_list()
columnas.remove('FECHA DE MUESTREO',)
columnas.remove('ESTACIONES',)

In [35]:
df_filtrado = df_procesado.sort_values("FECHA DE MUESTREO",ignore_index=True)

### Boxplots:

In [36]:
for col in columnas:
    
    fig = px.box(df_filtrado, 
                x="ESTACIONES", 
                y=col, 
                title=f"Distribución de {col} por Estación",
                points="all",  # Muestra todos los outliers
                color="ESTACIONES",
                hover_data=["FECHA DE MUESTREO"])  # Agrega la fecha en el tooltip

    fig.update_layout(xaxis_tickangle=-45)  # Inclina etiquetas para mejor lectura
    fig.show()
# puente hormiguero 2019 03 19


### **Mapa de Calor:**

In [37]:
# Seleccionar solo las columnas numéricas
df_numerico = df_filtrado.select_dtypes(include=["number"])

# Calcular la matriz de correlación
corr_matrix = df_numerico.corr()

# Crear el heatmap
fig = px.imshow(corr_matrix,
                text_auto=".2f",  # Mostrar valores con 2 decimales
                color_continuous_scale="RdBu_r",  # Escala de colores
                title="Mapa de Calor de Correlaciones",
                labels={'color': 'Correlación'})

# Ajustar formato
fig.update_layout(width=800, height=800)  # Ajustar tamaño del gráfico

fig.show()



Se observa que las variables con correlaciones más fuertes son aquellas cuyo porcentaje de valores nulos es igual o superior al 90%  
 lo que sugiere que estas relaciones pueden estar sesgadas debido a la escasez de datos.
 ___

### **Oxigeno Disuelto:**
"El oxígeno disuelto nos permite cuantificar la cantidad de oxigeno presente 
en el medio acuoso el cual puede ser aprovechado por los diferentes 
organismos, utilizado en los procesos de oxidación y demás consumos que 
se requieran dependiendo de la carga contaminante que transporta el cuerpo 
de agua, la Corporación identificó que el valor mínimo de oxígeno disuelto 
que se debe garantizar en un cuerpo de agua para no afectar sus dinámicas 
naturales ni generar alteraciones o afectaciones en los organismos que en él 
habitan debe ser mayor o igual a 4 mg/l."  
(CVC, 2023, p. 36).  
  
**Referencia:**  
Corporación Autónoma Regional del Valle del Cauca (CVC). (2023).  
[Objetivos de calidad del río Cauca – Tramo Valle del Cauca: Documento técnico de soporte (p. 36). Dirección Técnica Ambiental.](https://www.cvc.gov.co/sites/default/files/2023-06/Res.%200298%20de%202023%20-%20Objetivos%20de%20calidad%20del%20r%C3%ADo%20Cuaca%20-%20Tramo%20Valle%20del%20Cauca.pdf)



En el reporte de la CVC se puede identificar el orden en que están ubicadas algunas de las estaciones presentes en los datos. Esta información es útil para analizar cómo evoluciona la calidad del agua a medida que el río avanza por su cauce.

![image.png](attachment:image.png)  
**Figura 1.** Estaciones de monitoreo de la calidad del agua sobre el río Cauca, 
en jurisdicción de la CVC.  
**Tomado de** Objetivos de calidad del río Cauca – Tramo Valle del Cauca (CVC, 2023, p. 33).
___
**Orden de las estaciones identificadas:**  
1 ANTES RIO TIMBA   
2 PASO DE LA BALSA  
3 PASO DE LA BOLSA  
4 PUENTE HORMIGUERO  
5 **[Estación no identificada]**  
6 JUANCHITO  
7 PASO DEL COMERCIO  
8 PUERTO ISAACS  
9 PASO DE LA TORRE  
10 VIJES  
11 YOTOCO  
12 MEDIACANOA  
13 RIOFRIO  
14 PUENTE GUAYABAL  
15 LA VICTORIA  
16 ANACARO  
17 PUENTE LA VIRGINIA  

In [45]:

# Ordenar las estaciones en el orden correcto
orden_estaciones = [
    "ANTES RIO TIMBA", "PASO DE LA BALSA", "PASO DE LA BOLSA", "PUENTE HORMIGUERO",
    "JUANCHITO", "PASO DEL COMERCIO", "PUERTO ISAACS", "PASO DE LA TORRE",
    "VIJES", "YOTOCO", "MEDIACANOA", "RIOFRIO", "PUENTE GUAYABAL", "LA VICTORIA",
    "ANACARO", "PUENTE LA VIRGINIA"
]

# Calcular el promedio de oxígeno disuelto por estación
df_promedio = df_filtrado.groupby("ESTACIONES")["OXIGENO DISUELTO (mg O2/l)"].mean().reset_index()

# Aplicar el orden correcto a las estaciones
df_promedio["ESTACIONES"] = pd.Categorical(df_promedio["ESTACIONES"], categories=orden_estaciones, ordered=True)
df_promedio = df_promedio.sort_values("ESTACIONES")  # Ordenar por la categoría

# Crear el gráfico de barras
fig = px.bar(df_promedio, 
             x="ESTACIONES", 
             y="OXIGENO DISUELTO (mg O2/l)", 
             title="Promedio de Oxígeno Disuelto por Estación",
             labels={"OXIGENO DISUELTO (mg O2/l)": "Oxígeno Disuelto (mg O2/l)"},
             color="ESTACIONES")  # Colorea cada estación diferente

fig.update_layout(xaxis_tickangle=-45)  # Rotar etiquetas para mejor lectura
fig.show()


En la gráfica del promedio de oxígeno disuelto a lo largo de los años (1990-2023) por estación, se observa una tendencia decreciente en sus niveles a medida que el río avanza por las estaciones de monitoreo. **En la estación "Puerto Isaacs"**, el promedio de oxígeno disuelto **cae por debajo del umbral crítico de 4 mg/L**, y **en "Yotoco" desciende aún más**, llegando **a menos de 2 mg/L**. Aunque a partir de "Mediacanoa" los niveles comienzan a recuperarse, en el resto de las estaciones el oxígeno disuelto se mantiene por debajo de 4 mg O₂/L, lo que indica una condición preocupante para la calidad del agua y la vida acuática.  
  
**Nota:**  
Para un análisis más preciso debería identificarse la posición en la que se encuentran las estaciones "ANTES INTERCEPTOR SUR", "ANTES SUAREZ" y "ANTES RIO OVEJAS".

### **Evolución del OXIGENO DISUELTO (mg O2/l) a partir del año 2015 por estación:**

In [46]:
# Filtrar datos desde el año 2015
df_filtrado = df_procesado[df_procesado['FECHA DE MUESTREO'].dt.year >= 2015].sort_values("FECHA DE MUESTREO")

variable = "OXIGENO DISUELTO (mg O2/l)"
# Crear gráfico de líneas
fig = px.line(df_filtrado, 
              x="FECHA DE MUESTREO", 
              y=variable, 
              color="ESTACIONES", 
              markers=True,  # Agregar puntos en las líneas
              title=f"Evolución del {variable} a partir del año 2015 por estación")

# Ajustar diseño
fig.update_layout(xaxis_tickangle=-45)  # Rotar etiquetas del eje X

fig.show()
# a partir de la estación Anacaro el nivel de oxigeno disuelto en el agua cae de manera significativa




In [44]:
# # Filtrar datos desde el año 2015
# df_filtrado = df_procesado[df_procesado['FECHA DE MUESTREO'].dt.year >= 2015].sort_values("FECHA DE MUESTREO")

# variable = "COLIFORMES TOTALES (NMP/100 ml)"
# # Crear gráfico de líneas
# fig = px.line(df_filtrado, 
#               x="FECHA DE MUESTREO", 
#               y=variable, 
#               color="ESTACIONES", 
#               markers=True,  # Agregar puntos en las líneas
#               title=f"Evolución de {variable} a partir del año 2015 por estación")

# # Ajustar diseño
# fig.update_layout(xaxis_tickangle=-45)  # Rotar etiquetas del eje X

# fig.show()
# # a partir de la estación Anacaro el nivel de oxigeno disuelto en el agua cae de manera significativa



