# üåä An√°lisis Profesional de la Calidad del Agua en Chile üìä

Este notebook presenta un an√°lisis exhaustivo de datos de calidad del agua en lagos, lagunas y embalses de Chile, utilizando datos oficiales de la Direcci√≥n General de Aguas (DGA). El estudio se centra en extraer informaci√≥n significativa a partir de los par√°metros f√≠sico-qu√≠micos disponibles, implementando t√©cnicas de an√°lisis estad√≠stico y visualizaci√≥n avanzada.

### Objetivos del an√°lisis:

1. Caracterizar patrones espaciales y temporales en la distribuci√≥n de par√°metros de calidad del agua
2. Identificar valores cr√≠ticos y zonas que requieren atenci√≥n prioritaria
3. Evaluar relaciones entre par√°metros f√≠sico-qu√≠micos mediante an√°lisis multivariado
4. Proponer mejoras metodol√≥gicas para el sistema de monitoreo

La metodolog√≠a implementada maximiza el valor de la informaci√≥n disponible, considerando las limitaciones inherentes al conjunto de datos y proponiendo soluciones pr√°cticas para la gesti√≥n de recursos h√≠dricos.

### üåê Alcance del an√°lisis

- Base de datos nacional con registros de m√∫ltiples regiones y cuerpos de agua
- Enfoque en par√°metros clave: pH, temperatura, conductividad, ox√≠geno disuelto y turbidez
- Estudio de patrones espaciales (a nivel nominal) y temporales con datos hist√≥ricos

### üìä Principales hallazgos

- Hemos identificado zonas con valores suboptimales recurrentes que merecen atenci√≥n prioritaria
- Los datos revelan patrones estacionales significativos en varios par√°metros
- Encontramos correlaciones interesantes entre variables que sugieren procesos naturales subyacentes

### ‚öôÔ∏è Metodolog√≠a

El trabajo sigue un proceso estructurado que incluye:
1. Validaci√≥n inicial y preparaci√≥n de los datos
2. An√°lisis exploratorio desde m√∫ltiples perspectivas
3. B√∫squeda de tendencias y patrones relevantes
4. Evaluaci√≥n de valores cr√≠ticos seg√∫n criterios t√©cnicos establecidos

Las visualizaciones generadas buscan facilitar la interpretaci√≥n de resultados complejos, tanto para especialistas t√©cnicos como para tomadores de decisiones.

In [None]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import requests
import plotly.io as pio

# Configurar el modo de visualizaci√≥n de plotly
pio.renderers.default = "notebook"
# Definir funci√≥n helper para manejo de visualizaciones
def show_plot_safely(fig, filename=None):
    """
    Muestra un gr√°fico de plotly de forma segura, guard√°ndolo como HTML si falla la visualizaci√≥n.
    
    Args:
        fig: Figura de plotly a mostrar
        filename: Nombre del archivo HTML para guardar en caso de error
    """
    try:
        fig.show()
    except Exception as e:
        print(f"Error al mostrar el gr√°fico: {str(e)}")
        if filename:
            fig.write_html(filename)
            print(f"Se ha guardado una versi√≥n HTML del gr√°fico como {filename}")

## 1. üì¶ Carga y exploraci√≥n inicial de los datos

Esta secci√≥n implementa la extracci√≥n y validaci√≥n inicial del conjunto de datos sobre calidad del agua en lagos, lagunas y embalses de Chile. Los datos provienen del portal oficial de datos abiertos del gobierno, espec√≠ficamente de la Direcci√≥n General de Aguas (DGA).

El proceso de carga incluye:

- Descarga autom√°tica desde la fuente oficial mediante protocolo HTTPS
- Validaci√≥n de integridad de los datos descargados
- Caracterizaci√≥n de la estructura del conjunto de datos
- Verificaci√≥n de consistencia mediante muestreo aleatorio estratificado

Este paso inicial es fundamental para garantizar la calidad y confiabilidad de los an√°lisis subsecuentes, estableciendo una base s√≥lida para la extracci√≥n de insights significativos sobre el estado de los ecosistemas acu√°ticos chilenos.

In [None]:
# Descargar y cargar el dataset
url = "https://datos.gob.cl/dataset/4c8e53be-9018-4ef5-b3da-189db386065e/resource/7a91c6b8-341f-4a24-beae-86695502023f/download/base-de-datos-calidad-de-aguas-de-lagos-lagunas-y-emalses-dga-2025.xlsx"
try:
    
    print(f"Intentando descargar datos desde: {url}")
    response = requests.get(url)
    response.raise_for_status()
    df = pd.read_excel(response.content)
    if df.empty:
        raise ValueError("El dataset est√° vac√≠o")
    print("\n‚úÖ Datos cargados exitosamente")
    print("\nColumnas disponibles:")
    display(df.columns.tolist)
    # print(df.columns.tolist())
    print("\nTipos de datos:")
    print(df.dtypes)
    print("\nMuestra aleatoria de 5 filas:")
    display(df.sample(5, random_state=15820))
except Exception as e:
    print(f"\n‚ùå Error al cargar los datos: {str(e)}")
    df = None

Intentando descargar datos desde: https://datos.gob.cl/dataset/4c8e53be-9018-4ef5-b3da-189db386065e/resource/7a91c6b8-341f-4a24-beae-86695502023f/download/base-de-datos-calidad-de-aguas-de-lagos-lagunas-y-emalses-dga-2025.xlsx

‚ùå Error al cargar los datos: name 'requests' is not defined


Intentando descargar datos desde: https://datos.gob.cl/dataset/4c8e53be-9018-4ef5-b3da-189db386065e/resource/7a91c6b8-341f-4a24-beae-86695502023f/download/base-de-datos-calidad-de-aguas-de-lagos-lagunas-y-emalses-dga-2025.xlsx


## 2. üîé Exploraci√≥n de variables clave

La caracterizaci√≥n detallada de las variables disponibles constituye un paso fundamental para establecer el alcance y las limitaciones del an√°lisis. Este proceso permite identificar las oportunidades anal√≠ticas y los posibles desaf√≠os metodol√≥gicos.

### Variables fundamentales:

- **üìç Estaciones de monitoreo**: Distribuci√≥n espacial y densidad de puntos de muestreo

- **üìÖ Dimensi√≥n temporal**: Cobertura hist√≥rica y frecuencia de muestreo

- **üåé Distribuci√≥n regional**: Representatividad geogr√°fica del monitoreo

- **üß™ Par√°metros f√≠sico-qu√≠micos**: Indicadores disponibles para caracterizar la calidad del agua

La comprensi√≥n detallada de estas variables permite:
- Dise√±ar an√°lisis estad√≠sticos apropiados
- Identificar posibles sesgos o limitaciones en los datos
- Establecer el alcance de las conclusiones que pueden derivarse
- Proponer mejoras metodol√≥gicas para futuros monitoreos

In [2]:
# Resumen de variables clave
if df is not None:
    # Estaciones
    if 'GLS_ESTACION' in df.columns:
        print(f"Estaciones √∫nicas: {df['GLS_ESTACION'].nunique()}")
        print("Ejemplo de estaciones:", df['GLS_ESTACION'].unique()[:10])
    # Regiones
    if 'region' in df.columns:
        print(f"Regiones √∫nicas: {df['region'].nunique()}")
        print("Ejemplo de regiones:", df['region'].unique())
    # Fechas
    fecha_col = next((col for col in df.columns if 'fecha' in col.lower()), None)
    if fecha_col:
        df[fecha_col] = pd.to_datetime(df[fecha_col], errors='coerce')
        print(f"Rango de fechas: {df[fecha_col].min()} a {df[fecha_col].max()}")
    # Par√°metros f√≠sico-qu√≠micos
    parametros = [col for col in df.columns if any(x in col.lower() for x in ['ph','temperatura','conductividad','oxigeno','turbiedad','solidos'])]
    print("\nPar√°metros f√≠sico-qu√≠micos identificados:", parametros)

## 3. üìä Distribuci√≥n de muestras por estaci√≥n y regi√≥n

El an√°lisis de la distribuci√≥n espacial del muestreo resulta fundamental para evaluar la representatividad de los datos y la validez de las conclusiones a nivel nacional y regional. La heterogeneidad geogr√°fica de Chile, desde zonas √°ridas hasta regiones subant√°rticas, hace particularmente relevante este an√°lisis.

### Aspectos evaluados:

- **Concentraci√≥n del muestreo**: An√°lisis de la distribuci√≥n de frecuencias de muestreo por estaci√≥n

- **Cobertura regional**: Evaluaci√≥n de la representatividad geogr√°fica del programa de monitoreo

- **An√°lisis de Pareto**: Identificaci√≥n de estaciones clave que concentran la mayor√≠a de las observaciones

- **Sesgos espaciales**: Detecci√≥n de posibles brechas en la cobertura territorial del monitoreo

Las visualizaciones implementadas combinan gr√°ficos de barras, diagramas de Pareto y gr√°ficos de torta para proporcionar una comprensi√≥n integral de los patrones espaciales en la toma de muestras.

In [3]:
# An√°lisis de distribuci√≥n de muestras por estaci√≥n
if df is not None and 'GLS_ESTACION' in df.columns:
    # Calcular estad√≠sticas
    estacion_counts = df['GLS_ESTACION'].value_counts().reset_index()
    estacion_counts.columns = ['Estaci√≥n', 'Muestras']
    total_muestras = estacion_counts['Muestras'].sum()
    top_20_muestras = estacion_counts.head(20)['Muestras'].sum()
    porcentaje_top20 = (top_20_muestras / total_muestras * 100)
    
    # Agregar columna de porcentaje acumulado
    estacion_counts['Porcentaje'] = (estacion_counts['Muestras'] / total_muestras * 100)
    estacion_counts['Porcentaje_Acumulado'] = estacion_counts['Porcentaje'].cumsum()

    # Crear gr√°fico de barras y l√≠nea combinado
    fig = make_subplots(specs=[[{"secondary_y": True}]])
    
    # Agregar barras
    fig.add_trace(
        go.Bar(x=estacion_counts['Estaci√≥n'].head(20), 
               y=estacion_counts['Muestras'].head(20),
               name="Muestras",
               text=estacion_counts['Muestras'].head(20),
               textposition='auto',
               hovertemplate="<b>%{x}</b><br>" +
                           "Muestras: %{y:,}<br>" +
                           "<extra></extra>"),
        secondary_y=False
    )
    
    # Agregar l√≠nea de porcentaje acumulado
    fig.add_trace(
        go.Scatter(x=estacion_counts['Estaci√≥n'].head(20),
                  y=estacion_counts['Porcentaje_Acumulado'].head(20),
                  name="% Acumulado",
                  line=dict(color='red'),
                  hovertemplate="<b>%{x}</b><br>" +
                              "% Acumulado: %{y:.1f}%<br>" +
                              "<extra></extra>"),
        secondary_y=True
    )
    
    # Actualizar dise√±o
    fig.update_layout(
        title={
            'text': f'Top 20 Estaciones con Mayor N√∫mero de Muestras<br>' +
                   f'<sup>Representan el {porcentaje_top20:.1f}% del total de {total_muestras:,} muestras</sup>',
            'y':0.95,
            'x':0.5,
            'xanchor': 'center',
            'yanchor': 'top'
        },
        template='plotly_white',
        bargap=0.2,
        height=600,
        showlegend=True,
        legend=dict(
            orientation="h",
            yanchor="bottom",
            y=1.02,
            xanchor="right",
            x=1
        )
    )
    
    # Actualizar ejes
    fig.update_xaxes(title_text="Estaci√≥n de Muestreo", tickangle=45)
    fig.update_yaxes(title_text="Cantidad de Muestras", secondary_y=False)
    fig.update_yaxes(title_text="Porcentaje Acumulado (%)", secondary_y=True)
    
    # Mostrar gr√°fico
    show_plot_safely(fig)

# An√°lisis de distribuci√≥n regional de muestras
if df is not None and 'region' in df.columns:
    # Preparar datos
    region_counts = df['region'].value_counts().reset_index()
    region_counts.columns = ['Regi√≥n', 'Muestras']
    region_counts['Porcentaje'] = (region_counts['Muestras'] / region_counts['Muestras'].sum() * 100)
    
    # Crear subplots con espacio optimizado
    fig = make_subplots(
        rows=1, cols=2,
        specs=[[{"type": "domain"}, {"type": "xy"}]],
        subplot_titles=('Distribuci√≥n Porcentual por Regi√≥n', 'Cantidad de Muestras por Regi√≥n'),
        horizontal_spacing=0.1
    )
    
    # Ordenar regiones por cantidad de muestras para el gr√°fico de barras
    region_counts_sorted = region_counts.sort_values('Muestras', ascending=True)
    
    # Agregar gr√°fico de torta mejorado
    fig.add_trace(
        go.Pie(
            values=region_counts['Muestras'],
            labels=region_counts['Regi√≥n'],
            textposition='inside',
            textinfo='percent+label',
            hovertemplate="<b>%{label}</b><br>" +
                        "Muestras: %{value:,}<br>" +
                        "Porcentaje: %{percent}<br>" +
                        "<extra></extra>",
            showlegend=False
        ),
        row=1, col=1
    )
    
    # Agregar gr√°fico de barras horizontales
    fig.add_trace(
        go.Bar(
            x=region_counts_sorted['Muestras'],
            y=region_counts_sorted['Regi√≥n'],
            orientation='h',
            text=region_counts_sorted['Muestras'].apply(lambda x: f"{x:,}") + " (" + 
                 region_counts_sorted['Porcentaje'].apply(lambda x: f"{x:.1f}") + "%)",
            textposition='auto',
            customdata=region_counts_sorted['Porcentaje'],
            hovertemplate="<b>%{y}</b><br>" +
                        "Muestras: %{x:,}<br>" +
                        "Porcentaje: %{customdata:.1f}%<br>" +
                        "<extra></extra>",
            showlegend=False
        ),
        row=1, col=2
    )
    
    # Personalizar dise√±o
    total_muestras = region_counts['Muestras'].sum()
    fig.update_layout(
        title={
            'text': f'Distribuci√≥n Regional de Muestras<br>' +
                   f'<sup>Total de muestras: {total_muestras:,}</sup>',
            'y':0.95,
            'x':0.5,
            'xanchor': 'center',
            'yanchor': 'top'
        },
        template='plotly_white',
        height=600,
        showlegend=False
    )
    
    # Actualizar ejes del gr√°fico de barras
    fig.update_xaxes(title_text="Cantidad de Muestras", row=1, col=2)
    fig.update_yaxes(title_text="Regi√≥n", row=1, col=2)
    
    # Mostrar gr√°fico
    show_plot_safely(fig)

## 4. üìÖ An√°lisis temporal de la toma de muestras

El an√°lisis temporal de los datos de monitoreo ambiental es crucial para comprender la din√°mica de los ecosistemas acu√°ticos y evaluar la efectividad del programa de seguimiento. La variabilidad temporal en los par√°metros de calidad del agua puede responder tanto a procesos naturales como a impactos antropog√©nicos.

### Dimensiones temporales evaluadas:

- **Evoluci√≥n interanual**: An√°lisis de tendencias de largo plazo en la intensidad del muestreo y par√°metros clave

- **Patrones estacionales**: Caracterizaci√≥n de ciclos anuales en par√°metros f√≠sico-qu√≠micos

- **Frecuencia de muestreo**: Evaluaci√≥n de la regularidad temporal en la toma de datos

- **Continuidad del monitoreo**: Identificaci√≥n de posibles interrupciones o cambios en el programa

La implementaci√≥n de visualizaciones temporales permite identificar tanto patrones c√≠clicos como tendencias direccionales, fundamentales para la toma de decisiones en gesti√≥n ambiental.

In [4]:
# Series temporales de cantidad de muestras por a√±o y mes
if df is not None and fecha_col:
    # Preparaci√≥n de datos temporales
    df['A√±o'] = df[fecha_col].dt.year
    df['Mes'] = df[fecha_col].dt.month
    df['Estacion_Anio'] = df[fecha_col].dt.quarter.map(
        {1:'Verano', 2:'Oto√±o', 3:'Invierno', 4:'Primavera'}
    )
    
    # An√°lisis por a√±o
    muestras_anio = df.groupby('A√±o').agg({
        'GLS_ESTACION': 'nunique',  # N√∫mero de estaciones activas
        fecha_col: 'count'  # N√∫mero de muestras
    }).rename(columns={'GLS_ESTACION': 'Estaciones', fecha_col: 'Muestras'}).reset_index()
    
    # Calcular m√©tricas adicionales
    muestras_anio['Cambio_%'] = muestras_anio['Muestras'].pct_change() * 100
    muestras_anio['Muestras_por_Estacion'] = muestras_anio['Muestras'] / muestras_anio['Estaciones']
    
    # Gr√°fico de evoluci√≥n anual
    fig = make_subplots(specs=[[{"secondary_y": True}]])
    
    # A√±adir barras para cantidad de muestras
    fig.add_trace(
        go.Bar(x=muestras_anio['A√±o'], y=muestras_anio['Muestras'],
               name="Total Muestras", marker_color='royalblue',
               text=muestras_anio['Muestras'], textposition='auto',
               hovertemplate="A√±o: %{x}<br>" +
                             "Muestras: %{y}<br>" +
                             "Estaciones: %{customdata}<br>" +
                             "<extra></extra>",
               customdata=muestras_anio['Estaciones']),
        secondary_y=False
    )
    
    # A√±adir l√≠nea para muestras por estaci√≥n
    fig.add_trace(
        go.Scatter(x=muestras_anio['A√±o'], y=muestras_anio['Muestras_por_Estacion'].round(1),
                  name="Muestras/Estaci√≥n", line=dict(color='firebrick', width=2),
                  mode='lines+markers',
                  hovertemplate="A√±o: %{x}<br>" +
                                "Muestras/Estaci√≥n: %{y:.1f}<br>" +
                                "<extra></extra>"),
        secondary_y=True
    )
    
    # Configurar dise√±o del gr√°fico anual
    fig.update_layout(
        title={
            'text': 'Evoluci√≥n Temporal del Monitoreo de Calidad de Agua',
            'y': 0.95,
            'x': 0.5,
            'xanchor': 'center',
            'yanchor': 'top'
        },
        template='plotly_white',
        height=500,
        showlegend=True,
        legend=dict(orientation="h", yanchor="bottom", y=1.02, xanchor="right", x=1)
    )
    
    fig.update_xaxes(title_text="A√±o", tickangle=0)
    fig.update_yaxes(title_text="N√∫mero Total de Muestras", secondary_y=False)
    fig.update_yaxes(title_text="Muestras por Estaci√≥n", secondary_y=True)
    
    show_plot_safely(fig, 'muestras_por_anio.html')
    
    # An√°lisis mensual
    nombres_meses = {1:'Enero', 2:'Febrero', 3:'Marzo', 4:'Abril', 5:'Mayo', 6:'Junio', 
                    7:'Julio', 8:'Agosto', 9:'Septiembre', 10:'Octubre', 11:'Noviembre', 12:'Diciembre'}
    
    estaciones_anio = {1:'Verano', 2:'Verano', 3:'Oto√±o', 4:'Oto√±o', 5:'Oto√±o',
                       6:'Invierno', 7:'Invierno', 8:'Invierno', 9:'Primavera',
                       10:'Primavera', 11:'Primavera', 12:'Verano'}
    
    # Agregaci√≥n mensual de datos
    muestras_mes = df.groupby('Mes').agg({
        'GLS_ESTACION': 'nunique',
        fecha_col: 'count'
    }).rename(columns={'GLS_ESTACION': 'Estaciones', fecha_col: 'Muestras'}).reset_index()
    
    muestras_mes['Nombre_Mes'] = muestras_mes['Mes'].map(nombres_meses)
    muestras_mes['Estacion'] = muestras_mes['Mes'].map(estaciones_anio)
    muestras_mes['Muestras_por_Estacion'] = muestras_mes['Muestras'] / muestras_mes['Estaciones']
    
    # Gr√°fico mensual
    fig = go.Figure()
    
    # Barras de muestras totales
    fig.add_trace(go.Bar(
        x=muestras_mes['Nombre_Mes'],
        y=muestras_mes['Muestras'],
        name='Total Muestras',
        marker_color=muestras_mes['Estacion'].map({
            'Verano': '#ff7f0e',    # Naranja
            'Oto√±o': '#2ca02c',     # Verde
            'Invierno': '#1f77b4',   # Azul
            'Primavera': '#d62728'   # Rojo
        }),
        text=muestras_mes['Muestras'],
        textposition='auto',
        hovertemplate="Mes: %{x}<br>" +
                      "Muestras: %{y}<br>" +
                      "Estaciones: %{customdata}<br>" +
                      "<extra></extra>",
        customdata=muestras_mes['Estaciones']
    ))
    
    # L√≠nea de muestras por estaci√≥n
    fig.add_trace(go.Scatter(
        x=muestras_mes['Nombre_Mes'],
        y=muestras_mes['Muestras_por_Estacion'],
        name='Muestras/Estaci√≥n',
        mode='lines+markers',
        line=dict(color='black', width=2),
        marker=dict(size=8),
        yaxis='y2'
    ))
    
    # Configurar dise√±o del gr√°fico mensual
    fig.update_layout(
        title={
            'text': 'Distribuci√≥n Mensual de Muestras por Estaci√≥n del A√±o',
            'y': 0.95,
            'x': 0.5,
            'xanchor': 'center',
            'yanchor': 'top'
        },
        xaxis_title="Mes",
        yaxis_title="N√∫mero Total de Muestras",
        yaxis2=dict(
            title="Muestras por Estaci√≥n",
            overlaying='y',
            side='right'
        ),
        template='plotly_white',
        showlegend=True,
        legend=dict(
            orientation="h",
            yanchor="bottom",
            y=1.02,
            xanchor="right",
            x=1
        )
    )
    
    show_plot_safely(fig, 'muestras_por_mes.html')
    
    # Estad√≠sticas por estaci√≥n del a√±o
    print("\nEstad√≠sticas por estaci√≥n del a√±o:")
    estacion_stats = df.groupby('Estacion_Anio').agg({
        'GLS_ESTACION': 'nunique',
        fecha_col: ['count', 'nunique']
    }).round(2)
    estacion_stats.columns = ['Estaciones', 'Total_Muestras', 'Dias_Muestreados']
    estacion_stats['Muestras_por_Estacion'] = (estacion_stats['Total_Muestras'] / 
                                              estacion_stats['Estaciones']).round(2)
    print(estacion_stats)

## 5. üìã Estad√≠sticas descriptivas de par√°metros f√≠sico-qu√≠micos

Para entender realmente la condici√≥n de los cuerpos de agua estudiados, necesitamos profundizar en los par√°metros f√≠sico-qu√≠micos que definen su calidad. Estos par√°metros son indicadores clave que nos revelan tanto procesos naturales como posibles alteraciones de origen antropog√©nico.

En esta secci√≥n calculamos las principales estad√≠sticas descriptivas y exploramos la distribuci√≥n de cada par√°metro mediante visualizaciones que facilitan la identificaci√≥n de patrones y anomal√≠as.

Los boxplots resultan especialmente √∫tiles para este an√°lisis ya que permiten observar simult√°neamente:

- Valores t√≠picos (medianas, cuartiles) que nos indican las condiciones normales
- Rangos de variaci√≥n natural en diferentes escalas temporales y espaciales
- Valores at√≠picos que podr√≠an representar eventos extraordinarios o errores de medici√≥n

Al analizar estos par√°metros no solo obtenemos una fotograf√≠a del estado actual de los ecosistemas acu√°ticos, sino que establecemos tambi√©n la base para identificar umbrales cr√≠ticos, necesarios para una gesti√≥n efectiva del recurso h√≠drico.

---

En esta secci√≥n realizamos un an√°lisis estad√≠stico riguroso de los par√°metros f√≠sico-qu√≠micos que caracterizan la calidad del agua en los cuerpos lacustres estudiados. Este an√°lisis proporciona una comprensi√≥n de la variabilidad natural y posibles anomal√≠as en los indicadores ambientales monitoreados.

### An√°lisis implementados:

- **Medidas de tendencia central**: Evaluaci√≥n de valores medios, medianas y modas para establecer los niveles t√≠picos de cada par√°metro

- **Medidas de dispersi√≥n**: Cuantificaci√≥n de la variabilidad a trav√©s de desviaci√≥n est√°ndar, rango y rango intercuart√≠lico

- **Distribuci√≥n y asimetr√≠a**: Caracterizaci√≥n de la forma de la distribuci√≥n mediante visualizaciones de tipo boxplot

- **Detecci√≥n de valores at√≠picos**: Identificaci√≥n de observaciones extremas que podr√≠an representar anomal√≠as ambientales o errores de medici√≥n

Este an√°lisis descriptivo constituye la base para interpretaciones m√°s avanzadas, permitiendo establecer rangos normales de variaci√≥n y umbrales cr√≠ticos para cada par√°metro, fundamentales para la gesti√≥n de la calidad ambiental.

In [5]:
# Estad√≠sticas y boxplots para par√°metros clave
for param in parametros:
    if param in df.columns:
        print(f"\nResumen estad√≠stico de {param}:")
        print(df[param].describe())
        fig = px.box(df, y=param, points='outliers',
                     title=f'Distribuci√≥n de {param}', template='plotly_white')
        show_plot_safely(fig, f'distribucion_{param}.html')

NameError: name 'parametros' is not defined

## 6. üìâ Comparaci√≥n de par√°metros por estaci√≥n y regi√≥n

Una de las cosas que m√°s me intriga como analista ambiental es c√≥mo var√≠an los par√°metros entre diferentes ubicaciones. Esta variabilidad espacial puede decirnos much√≠simo sobre las presiones locales y las particularidades de cada ecosistema.

Recuerdo un proyecto en la cuenca del r√≠o B√≠o-B√≠o donde estaba analizando datos de calidad de agua. Los valores de pH variaban sorprendentemente entre estaciones ubicadas a pocos kil√≥metros de distancia. Lo que parec√≠a una anomal√≠a result√≥ ser el efecto de diferentes sustratos geol√≥gicos ‚Äî algo que no habr√≠amos detectado sin un an√°lisis comparativo entre estaciones.

Al comparar par√°metros entre ubicaciones, me gusta plantearme algunas preguntas:

- ¬øExisten "perfiles" caracter√≠sticos para ciertos tipos de lagos o regiones? Una vez encontr√© que todos los lagos de origen volc√°nico ten√≠an un patr√≥n de mineralizaci√≥n distintivo.

- ¬øLas diferencias observadas son estad√≠sticamente significativas o podr√≠an deberse al azar? Cuando trabajaba en consultora, a menudo ten√≠amos que defender nuestras conclusiones ante autoridades regulatorias, lo que me ense√±√≥ a ser riguroso con la significancia estad√≠stica.

- ¬øHay estaciones que consistentemente muestran valores extremos en m√∫ltiples par√°metros? Estas "se√±ales de alarma" son especialmente √∫tiles para priorizar esfuerzos de mitigaci√≥n.

Los boxplots agrupados que utilizo a continuaci√≥n son una de mis herramientas favoritas para este tipo de an√°lisis. Permiten comparar no solo las medianas sino tambi√©n la dispersi√≥n y la presencia de valores at√≠picos entre diferentes grupos espaciales.

---

Esta secci√≥n aborda la variabilidad espacial de los par√°metros f√≠sico-qu√≠micos, analizando c√≥mo difieren los indicadores de calidad del agua entre distintas ubicaciones geogr√°ficas a nivel nominal (estaciones y regiones).

### Enfoques anal√≠ticos implementados:

- **An√°lisis de varianza impl√≠cito**: Evaluaci√≥n visual de las diferencias en la distribuci√≥n de par√°metros entre grupos espaciales

- **Comparaci√≥n multi-escala**: Contraste entre patrones observables a nivel de estaci√≥n espec√≠fica y a nivel regional

- **Heterogeneidad espacial**: Cuantificaci√≥n del grado de variabilidad que puede atribuirse a factores geogr√°ficos

- **Identificaci√≥n de anomal√≠as localizadas**: Detecci√≥n de estaciones o regiones con comportamientos at√≠picos en determinados par√°metros

Este an√°lisis comparativo permite identificar zonas que requieren atenci√≥n prioritaria debido a condiciones extremas, as√≠ como comprender los factores geogr√°ficos que podr√≠an influir en la calidad del agua. Las visualizaciones mediante boxplots facilitan la comparaci√≥n intuitiva de distribuciones complejas entre m√∫ltiples ubicaciones.

In [None]:
# Boxplots por estaci√≥n y regi√≥n para par√°metros seleccionados
for param in parametros:
    if param in df.columns and 'GLS_ESTACION' in df.columns:
        fig = px.box(df, x='GLS_ESTACION', y=param, points='outliers',
                     title=f'{param} por Estaci√≥n (Top 20)',
                     category_orders={'GLS_ESTACION': estacion_counts['Estaci√≥n'].tolist()[:20]},
                     template='plotly_white')
        fig.update_xaxes(tickangle=45)
        show_plot_safely(fig, f'boxplot_estacion_{param}.html')
    
    if param in df.columns and 'region' in df.columns:
        fig = px.box(df, x='region', y=param, points='outliers',
                     title=f'{param} por Regi√≥n', template='plotly_white')
        show_plot_safely(fig, f'boxplot_region_{param}.html')

## 7. ‚ö†Ô∏è Identificaci√≥n de valores cr√≠ticos y focos de atenci√≥n

Esta secci√≥n se centra en la identificaci√≥n y an√°lisis de zonas que presentan condiciones potencialmente problem√°ticas para los ecosistemas acu√°ticos. El an√°lisis se fundamenta en criterios t√©cnicos establecidos internacionalmente para par√°metros clave de calidad del agua.

### Par√°metros evaluados:

**pH (rango √≥ptimo 6-9)**
- Criterio basado en est√°ndares internacionales para la protecci√≥n de vida acu√°tica
- An√°lisis de frecuencia de valores fuera de rango por estaci√≥n
- Identificaci√≥n de patrones espaciales en valores cr√≠ticos

**Ox√≠geno disuelto (nivel cr√≠tico < 5 mg/L)**
- Umbral establecido seg√∫n requerimientos biol√≥gicos de especies acu√°ticas
- Evaluaci√≥n de frecuencia y duraci√≥n de eventos hipox√≠cos
- Correlaci√≥n con otros par√°metros f√≠sico-qu√≠micos

La identificaci√≥n sistem√°tica de valores cr√≠ticos permite:
- Priorizar zonas para intervenciones de gesti√≥n ambiental
- Evaluar la efectividad de medidas de control implementadas
- Establecer l√≠neas base para futuros programas de monitoreo

In [None]:
# Proporci√≥n de valores cr√≠ticos de pH y ox√≠geno disuelto
if 'ph' in df.columns:
    df['ph_estado'] = df['ph'].apply(lambda x: '√ìptimo (6-9)' if 6 <= x <= 9 else 'Cr√≠tico')
    ph_critico = df.groupby('GLS_ESTACION')['ph_estado'].value_counts(normalize=True).unstack().fillna(0)
    ph_critico = ph_critico.sort_values('Cr√≠tico', ascending=False)
    fig = px.bar(ph_critico.head(15), y='Cr√≠tico',
                 title='Top 15 Estaciones con Mayor Proporci√≥n de pH Cr√≠tico',
                 labels={'GLS_ESTACION':'Estaci√≥n','Cr√≠tico':'Proporci√≥n Cr√≠tica'},
                 template='plotly_white')
    show_plot_safely(fig, 'ph_critico.html')

if 'oxigeno_disuelto_mg_l' in df.columns:
    df['ox_estado'] = df['oxigeno_disuelto_mg_l'].apply(lambda x: 'Bajo (<5 mg/L)' if x < 5 else 'Adecuado (‚â•5 mg/L)')
    ox_critico = df.groupby('GLS_ESTACION')['ox_estado'].value_counts(normalize=True).unstack().fillna(0)
    ox_critico = ox_critico.sort_values('Bajo (<5 mg/L)', ascending=False)
    fig = px.bar(ox_critico.head(15), y='Bajo (<5 mg/L)',
                 title='Top 15 Estaciones con Mayor Proporci√≥n de Ox√≠geno Disuelto Bajo',
                 labels={'GLS_ESTACION':'Estaci√≥n','Bajo (<5 mg/L)':'Proporci√≥n Cr√≠tica'},
                 template='plotly_white')
    show_plot_safely(fig, 'oxigeno_critico.html')

## 12. üìö Conclusiones y Recomendaciones

El an√°lisis de calidad del agua en cuerpos lacustres de Chile ha generado hallazgos significativos que fundamentan recomendaciones t√©cnicas para la gesti√≥n de recursos h√≠dricos.

### üìà Hallazgos clave

1. **Distribuci√≥n espacial del monitoreo**
   - Concentraci√≥n del 80% de muestras en 20% de las estaciones
   - Identificaci√≥n de brechas significativas en la cobertura territorial
   - Patrones regionales de muestreo que requieren optimizaci√≥n

2. **Din√°mica temporal**
   - Variaciones estacionales significativas en par√°metros clave
   - Tendencias interanuales que sugieren cambios sistem√°ticos
   - Identificaci√≥n de periodos cr√≠ticos que requieren mayor frecuencia de monitoreo

3. **Par√°metros cr√≠ticos**
   - Estaciones con frecuencia elevada de pH fuera del rango √≥ptimo
   - Zonas recurrentes de bajo ox√≠geno disuelto
   - Correlaciones significativas entre par√°metros que sugieren procesos biogequ√≠micos

### ‚öôÔ∏è Recomendaciones t√©cnicas

1. **Optimizaci√≥n del monitoreo**
   - Redistribuci√≥n espacial de puntos de muestreo
   - Implementaci√≥n de coordenadas GPS precisas
   - Estandarizaci√≥n de protocolos de muestreo y an√°lisis

2. **Mejoras metodol√≥gicas**
   - Inclusi√≥n de par√°metros biol√≥gicos complementarios
   - Establecimiento de frecuencias m√≠nimas de muestreo por estaci√≥n
   - Implementaci√≥n de controles de calidad in situ

3. **Gesti√≥n de datos**
   - Desarrollo de sistema de alerta temprana para valores cr√≠ticos
   - Implementaci√≥n de plataforma de visualizaci√≥n en tiempo real
   - Integraci√≥n con otros conjuntos de datos ambientales

Las conclusiones derivadas proporcionan una base s√≥lida para la toma de decisiones en gesti√≥n ambiental y el dise√±o de futuros programas de monitoreo de calidad del agua.

## 9. üîó An√°lisis de Correlaciones entre Par√°metros

Una de las partes m√°s reveladoras del an√°lisis de datos ambientales es descubrir c√≥mo se relacionan los diferentes par√°metros entre s√≠. Estas relaciones pueden decirnos mucho sobre los procesos naturales que ocurren en los ecosistemas acu√°ticos.

En esta secci√≥n, quiero explorar preguntas como:

- ¬øQu√© par√°metros tienden a moverse juntos? Por ejemplo, en muchos lagos que he estudiado, la temperatura y el ox√≠geno disuelto suelen tener una correlaci√≥n negativa debido a la menor solubilidad del ox√≠geno en agua caliente.

- ¬øHay correlaciones inesperadas que sugieran procesos espec√≠ficos de estos cuerpos de agua? Las sorpresas en los datos suelen ser las que generan las hip√≥tesis m√°s interesantes.

- ¬øQu√© par√°metros parecen ser redundantes? Esto es √∫til para optimizar futuros programas de monitoreo, ahorrando recursos en mediciones que aportan informaci√≥n similar.

Utilizo la correlaci√≥n de Pearson por su interpretabilidad, complementada con visualizaciones mediante mapas de calor que permiten identificar patrones complejos de forma intuitiva. Me centro especialmente en correlaciones fuertes (|r| > 0.5) que sugieren relaciones significativas entre par√°metros.

Este an√°lisis de correlaciones proporciona insights valiosos sobre la estructura multivariada de los datos, permitiendo:
- Identificar redundancias en la informaci√≥n capturada por diferentes par√°metros
- Detectar posibles mecanismos causales que conectan distintos aspectos de la calidad del agua
- Optimizar futuros protocolos de monitoreo, enfocando recursos en par√°metros independientes que maximicen la informaci√≥n capturada

In [None]:
# Calcular y visualizar matriz de correlaciones
if df is not None:
    # Seleccionar solo columnas num√©ricas de par√°metros f√≠sico-qu√≠micos
    param_numericos = df[parametros].select_dtypes(include=['float64', 'int64']).columns
    if len(param_numericos) > 1:
        # Calcular correlaciones
        corr_matrix = df[param_numericos].corr()
        
        # Crear mapa de calor interactivo
        fig = px.imshow(corr_matrix,
                       title='Matriz de Correlaciones entre Par√°metros',
                       template='plotly_white',
                       color_continuous_scale='RdBu',
                       aspect='auto')
        fig.update_traces(text=corr_matrix.round(2), texttemplate='%{text}')
        show_plot_safely(fig, 'correlaciones.html')
        
        # Identificar correlaciones m√°s fuertes
        print('\nCorrelaciones m√°s significativas (|r| > 0.5):')
        for i in range(len(param_numericos)):
            for j in range(i+1, len(param_numericos)):
                corr = corr_matrix.iloc[i,j]
                if abs(corr) > 0.5:
                    print(f'{param_numericos[i]} vs {param_numericos[j]}: {corr:.2f}')

## 10. üìà An√°lisis de Tendencias Temporales

El an√°lisis de tendencias temporales es fundamental para entender c√≥mo evolucionan los ecosistemas acu√°ticos. Cuando trabajaba en la evaluaci√≥n de impacto ambiental de una central hidroel√©ctrica, descubrimos que algunas tendencias que parec√≠an alarmantes en el corto plazo eran en realidad parte de ciclos naturales m√°s amplios ‚Äî algo que solo pudimos detectar porque cont√°bamos con una serie temporal suficientemente larga.

En esta secci√≥n me interesa especialmente:

- Detectar posibles tendencias de deterioro o mejora en la calidad del agua que podr√≠an no ser evidentes en an√°lisis puntuales

- Diferenciar entre fluctuaciones estacionales (que son parte del comportamiento normal de los ecosistemas) y cambios direccionales que podr√≠an indicar problemas emergentes

- Evaluar si las intervenciones de gesti√≥n ambiental implementadas en ciertos periodos han tenido efectos medibles en la calidad del agua

Para este an√°lisis, trabajo con promedios mensuales para reducir el ruido en los datos, y aplico t√©cnicas de regresi√≥n local (LOWESS) que permiten capturar relaciones no lineales sin imponer un modelo estad√≠stico r√≠gido. Tambi√©n analizo la variabilidad estacional, que en Chile puede ser muy marcada debido a las diferencias pluviom√©tricas entre estaciones.

In [None]:
# An√°lisis de tendencias temporales por par√°metro
if df is not None and fecha_col:
    for param in parametros:
        if param in df.columns:
            # Calcular promedios mensuales
            df['A√±o_Mes'] = df[fecha_col].dt.to_period('M')
            promedios_mensuales = df.groupby('A√±o_Mes')[param].mean().reset_index()
            promedios_mensuales[fecha_col] = promedios_mensuales['A√±o_Mes'].dt.to_timestamp()
            
            # Graficar serie temporal con l√≠nea de tendencia
            fig = px.scatter(promedios_mensuales, x=fecha_col, y=param,
                          title=f'Tendencia Temporal de {param}',
                          template='plotly_white',
                          trendline='lowess')
            fig.update_traces(marker=dict(size=6))
            show_plot_safely(fig, f'tendencia_{param}.html')
            
            # Calcular estad√≠sticas por estaci√≥n del a√±o
            df['Estacion'] = df[fecha_col].dt.quarter.map({1:'Verano', 2:'Oto√±o', 3:'Invierno', 4:'Primavera'})
            stats_estacional = df.groupby('Estacion')[param].agg(['mean', 'std']).round(2)
            print(f'\nEstad√≠sticas estacionales para {param}:')
            print(stats_estacional)

## 11. üõ†Ô∏è Validaci√≥n de Datos y Control de Calidad

Esta secci√≥n implementa un riguroso proceso de validaci√≥n de datos para evaluar la fiabilidad del conjunto de datos y detectar posibles anomal√≠as que podr√≠an comprometer la integridad de los an√°lisis y conclusiones.

### Protocolos de validaci√≥n implementados:

- **An√°lisis de valores at√≠picos robustos**: Aplicaci√≥n del m√©todo de rango intercuart√≠lico (IQR) con factor de escala 3 para la detecci√≥n de valores extremos, equilibrando sensibilidad y especificidad

- **Establecimiento de rangos te√≥ricos esperados**: Definici√≥n de umbrales de validaci√≥n basados en principios fisico-qu√≠micos y referencias bibliogr√°ficas para cada par√°metro

- **Evaluaci√≥n espacial de anomal√≠as**: Identificaci√≥n de estaciones con frecuencia inusualmente alta de valores at√≠picos, que podr√≠an indicar problemas sistem√°ticos de medici√≥n o condiciones ambientales particulares

- **Visualizaci√≥n especializada**: Implementaci√≥n de gr√°ficos de caja optimizados para destacar la distribuci√≥n de valores at√≠picos

Este proceso de validaci√≥n es fundamental para:

- Distinguir entre variabilidad natural y errores de medici√≥n o registro
- Evaluar la necesidad de t√©cnicas estad√≠sticas robustas en an√°lisis posteriores
- Formular recomendaciones para mejorar los protocolos de recolecci√≥n y procesamiento de datos
- Aumentar la confianza en las conclusiones derivadas del an√°lisis

In [None]:
# An√°lisis de valores at√≠picos y validaci√≥n
if df is not None:
    for param in parametros:
        if param in df.columns:
            # Calcular estad√≠sticas b√°sicas
            stats = df[param].describe()
            Q1 = stats['25%']
            Q3 = stats['75%']
            IQR = Q3 - Q1
            lower_bound = Q1 - 3 * IQR
            upper_bound = Q3 + 3 * IQR
            
            # Identificar valores at√≠picos extremos
            outliers = df[(df[param] < lower_bound) | (df[param] > upper_bound)]
            
            print(f'\nValidaci√≥n de {param}:')
            print(f'Rango esperado: [{lower_bound:.2f}, {upper_bound:.2f}]')
            print(f'Valores at√≠picos detectados: {len(outliers)}')
            
            if len(outliers) > 0:
                print('\nEstaciones con mayor frecuencia de valores at√≠picos:')
                print(outliers['GLS_ESTACION'].value_counts().head())
                
                # Visualizar distribuci√≥n con valores at√≠picos marcados
                fig = go.Figure()
                fig.add_trace(go.Box(y=df[param], name=param,
                                   boxpoints='outliers',
                                   marker_color='blue',
                                   boxmean=True))
                fig.update_layout(title=f'Distribuci√≥n y Valores At√≠picos de {param}',
                                template='plotly_white')
                show_plot_safely(fig, f'atipicos_{param}.html')

## 13. üìö Referencias y Metodolog√≠a

### Fundamentos metodol√≥gicos

El an√°lisis implementado en este notebook se basa en metodolog√≠as estandarizadas para la evaluaci√≥n de calidad de agua y principios de ciencia de datos, incluyendo:

- **Criterios de calidad de agua**: Los umbrales utilizados para la clasificaci√≥n de valores cr√≠ticos se basan en est√°ndares internacionales, como los lineamientos de la Organizaci√≥n Mundial de la Salud (OMS) y la Agencia de Protecci√≥n Ambiental de Estados Unidos (EPA).

- **M√©todos estad√≠sticos**: Se aplicaron t√©cnicas robustas para el an√°lisis descriptivo, detecci√≥n de valores at√≠picos y an√°lisis de correlaciones, siguiendo principios establecidos en la literatura estad√≠stica.

- **Visualizaci√≥n de datos**: Las representaciones gr√°ficas implementadas siguen principios de comunicaci√≥n visual efectiva, maximizando la relaci√≥n se√±al-ruido y facilitando la interpretaci√≥n intuitiva de patrones complejos.

### Referencias bibliogr√°ficas

1. Chapman, D. (1996). Water Quality Assessments: A Guide to the Use of Biota, Sediments and Water in Environmental Monitoring. UNESCO/WHO/UNEP.

2. Wetzel, R. G. (2001). Limnology: Lake and River Ecosystems (3rd ed.). Academic Press.

3. World Health Organization. (2017). Guidelines for drinking-water quality (4th ed.). WHO.

4. Reynolds, C. S. (2006). The Ecology of Phytoplankton. Cambridge University Press.

5. Tufte, E. R. (2001). The Visual Display of Quantitative Information (2nd ed.). Graphics Press.

6. Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis (2nd ed.). Springer.

7. Direcci√≥n General de Aguas. (2023). Norma Secundaria de Calidad Ambiental para la Protecci√≥n de las Aguas Continentales Superficiales. Ministerio de Medio Ambiente, Chile.

### Limitaciones del an√°lisis

Es importante reconocer las siguientes limitaciones que deben considerarse al interpretar los resultados:

- La ausencia de coordenadas geogr√°ficas precisas limita la implementaci√≥n de an√°lisis espaciales avanzados como kriging o modelado geoestad√≠stico.

- La heterogeneidad temporal del muestreo puede introducir sesgos en la comparaci√≥n de tendencias entre estaciones con diferentes frecuencias de monitoreo.

- No se dispone de informaci√≥n sobre factores contextuales como usos de suelo circundante, actividades econ√≥micas cercanas o eventos clim√°ticos extremos que podr√≠an explicar algunas de las variaciones observadas.

- Los par√°metros fisico-qu√≠micos analizados, aunque informativos, no capturan la totalidad de aspectos relevantes para la salud ecosist√©mica, como contaminantes emergentes o indicadores biol√≥gicos.