# River Flow Forecasting: A Hybrid Approach Integrating Machine Learning and ARIMA



![Alt text](1024px-Rio_Magdalena_Delta_landsat.jpg) Fuente: Wikipedia

## **Resumen**


La precisa estimación del caudal del río Magdalena en la estación de Calamar, Bolívar, es esencial para la gestión de recursos hídricos y la reducción de riesgos de inundaciones en esta región.
Los datos necesarios para este análisis fueron recopilados específicamente en la estación de monitoreo de Calamar, Bolívar, a lo largo del río Magdalena. Se examinaron dos enfoques de modelado: modelos autoregresivos (AR) y modelos autoregresivos de promedio móvil (ARMA). Los resultados revelaron que el modelo ARMA supero consistentemente en rendimiento al modelo AR.
Además, para mejorar la precisión en la estimación del caudal del río Magdalena, se exploraron modelos de aprendizaje automático. Específicamente, se utilizaron Bosques Aleatorios (RF) y Ridge para estimar los valores mensuales de un factor crítico, el caudal, basándose en datos del Caudal del periodo anterior y el indice ENSO. Los resultados revelaron que RF y Ridge produjeron estimaciones comparables, con RF mostrando una ligera ventaja en el rendimiento.
Posteriormente, se implementaron modelos híbridos que combinaron enfoques de series temporales y aprendizaje automático, como AR-RF, ARMA-RF, AR-Ridge, ARMA-Ridge, con el objetivo de mejorar la precisión en la estimación del Caudal. Entre estos modelos híbridos, ARMA-RF y ARMA-Ridge demostraron consistentemente un rendimiento por encima.
Los resultados de este estudio sugieren que la combinación de enfoques híbridos ofrece un enfoque que podria mejorar las estimaciones de Caudal. Estas estimaciones precisas del Caudal tienen aplicaciones significativas en proyectos relacionados con el analisis de Riesgo, planificacion de dragados y Energia hidroelectrica.

* Palabras clave: Río Magdalena · Estimación · Modelos de Series Temporales · Modelos de Aprendizaje Automático · Modelos Independientes y Híbridos · Caudales.

## *Metodología*

*Población y Muestra:*
- Población: La población de interés consistió en todos los datos históricos de caudales disponibles para la estación de Calamar, Bolívar, a lo largo del río Magdalena. 
- Muestra: La muestra se seleccionó considerando el tiempo y el espacio, incluyendo datos diarios recopilados a lo largo de los años 1984 hasta el 2020.

*Zona de estudio*
El río Magdalena es el río más grande de Colombia y uno de los ríos más importantes de América del Sur. Fluye desde el sur de Colombia hacia el norte y desemboca en el mar Caribe. La zona de Calamar, está ubicada en el departamento de Bolívar, cerca de la costa caribeña de Colombia.

Ubicación: Calamar es un municipio que se encuentra en la región del sur de Bolívar, cerca de la desembocadura del río Magdalena en el mar Caribe. Está situado en la parte baja del río Magdalena. Por lo que es la zona de medición mas cercana al puerto de Barranquilla.

Importancia económica: La zona de Calamar, al igual que muchas otras áreas a lo largo del río Magdalena, tiene importancia económica debido a la navegación fluvial. El río Magdalena es una vía importante para el transporte de mercancías y carga en Colombia.<br><br><br>


*Variables:*
Se definió un diccionario de características que incluyó las siguientes variables:
- Caudal del río Magdalena (variable objetivo). El caudal se puede definir como la cantidad de agua que lleva una corriente en una unidad de tiempo. Esta información se obtuvo del IDEAM.
- Variables meteorológicas adicionales: INDICE ENSO. El índice ENSO es una medida de las fluctuaciones de las temperaturas del océano en la parte central y oriental del Pacífico ecuatorial. Se utiliza para clasificar los eventos de El Niño y La Niña, que son fenómenos naturales que tienen un impacto significativo en el clima global. El indice se obtuvo de la NOAA.
- Fechas y marcas temporales para el análisis de series temporales. Días en los que se tomaron las mediciones utilizadas e este estudio.<br><br><br>

*Técnicas:*
Se emplearon diversas técnicas para la estimación del caudal del río Magdalena, que se dividieron en dos categorías principales:

*a. Modelos de Series Temporales:*
- Modelos AR (Autoregresivos). Los modelos AR son modelos estadísticos que predicen los valores futuros de una serie temporal basándose en los valores pasados. bajo el arguemneto que los valores actuales de una serie temporal están relacionados con los valores pasados.
- Modelos ARMA (Autoregresivos de Promedio Móvil). Los modelos ARMA son modelos estadísticos que combinan los modelos AR y los modelos MA. Se basan en la idea de que los valores actuales de una serie temporal están relacionados con los valores pasados y con los errores aleatorios pasados.

*b. Modelos de Aprendizaje Automático:*
- Bosques Aleatorios (RF). Los bosques aleatorios son un tipo de modelo de aprendizaje automático que se utiliza para la clasificación y la regresión. Se basan en la idea de que un conjunto de árboles de decisión, entrenados de forma independiente, puede proporcionar un mejor rendimiento que un solo árbol de decisión.
Los bosques aleatorios se construyen seleccionando de forma aleatoria un subconjunto de datos de entrenamiento para cada árbol de decisión. Esto ayuda a reducir la dependencia de los árboles de decisión individuales y a mejorar la precisión del modelo.
Los bosques aleatorios son un modelo versátil que se puede utilizar para una variedad de aplicaciones. Son especialmente útiles para problemas de clasificación con un número grande de clases.

Además, se aplicaron modelos híbridos que combinaron enfoques de series temporales y aprendizaje automático, como RF-AR y Ridge-AR. <br><br><br>
#### Modelo Híbrido AR-RF (Autoregressive Random Forest)

El modelo AR-RF combina un enfoque de series temporales autoregresivas (AR) con el poder de Random Forest (RF) en el aprendizaje automático. En este enfoque:

- Los modelos AR se utilizan para capturar tendencias lineales en los datos históricos de caudales del río Magdalena.

- Random Forest (RF) se utiliza para aprender las dependencias no lineales en los datos de la serie temporal. RF consiste en un conjunto de árboles de decisión, cada uno entrenado en un subconjunto aleatorio de los datos de entrenamiento.

- La combinación de AR y RF permite aprovechar las fortalezas de ambos enfoques, lo que puede conducir a una mejora en las métricas de rendimiento, como R2 y RMSE, en la predicción del caudal mensual.

#### Modelo Híbrido ARMA-RF (Autoregressive Moving Average Random Forest)

El modelo ARMA-RF combina un enfoque de series temporales ARMA con Random Forest (RF). En este enfoque:

- Los modelos ARMA se utilizan para capturar las tendencias y las correlaciones entre las observaciones en los datos de caudales del río Magdalena.

- Random Forest (RF) se emplea para aprender las dependencias no lineales en los datos.

- La combinación de ARMA y RF tiene como objetivo aprovechar tanto las relaciones lineales como las no lineales en los datos, lo que puede resultar en una mejor capacidad de predicción del caudal mensual.

#### Modelo Híbrido AR-Ridge (Autoregressive Ridge Regression)

El modelo AR-Ridge combina un enfoque de series temporales autoregresivas (AR) con la regresión Ridge. En este enfoque:

- Los modelos AR se utilizan para modelar las tendencias lineales en los datos históricos de caudales del río Magdalena.

- La regresión Ridge se utiliza para controlar la multicolinealidad y reducir el sobreajuste en los modelos lineales.

- La combinación de AR y Ridge tiene como objetivo mejorar la precisión de las predicciones al mitigar los problemas de multicolinealidad y sobreajuste en los modelos AR.

#### Modelo Híbrido ARMA-Ridge (Autoregressive Moving Average Ridge Regression)

El modelo ARMA-Ridge combina un enfoque de series temporales ARMA con la regresión Ridge. En este enfoque:

- Los modelos ARMA se emplean para modelar las tendencias y las correlaciones en los datos de caudales del río Magdalena.

- La regresión Ridge se utiliza para controlar la multicolinealidad y reducir el sobreajuste en los modelos lineales.

- La combinación de ARMA y Ridge tiene como objetivo capturar tanto las relaciones lineales como las no lineales en los datos, al tiempo que aborda problemas comunes en la modelización de series temporales, como la multicolinealidad y el sobreajuste.

Estos modelos híbridos fueron evaluados para determinar su eficacia en la estimación del caudal mensual del río Magdalena, y sus resultados se presentan al final del capitulo de Aplicación en términos de métricas de rendimiento como R2 y RRMSE.<br><br><br>





*Diseño General:*
El estudio siguió un diseño de investigación observacional retrospectiva. Este tipo de investigación se caracteriza por: Los datos se recopilan después de que se hayan producido los eventos de interés. Los investigadores no tienen control sobre la asignación de los participantes a los grupos de tratamiento o control. Los investigadores no pueden manipular las variables independientes. 
Para este estudio, se recopilaron datos históricos de caudales del río Magdalena en la estación de Calamar, Bolívar, así como datos del indice ENSO obtenidos de la NOAA entre los años 1984-2020. Estos datos retrospectivos se analizaron para desarrollar modelos de estimación del caudal del río.<br><br><br>

*Validez:*
La validez del estudio se abordó de la siguiente manera:
- Grupos de Datos Coherentes: Se utilizaron datos coherentes y homogéneos recopilados de manera consistente a lo largo del tiempo. Se podría mencionar que los datos se recopilaron de una variedad de fuentes para aumentar la confiabilidad de los resultados. También se podría mencionar que los datos se revisaron cuidadosamente para detectar errores o inconsistencias. 
- La obtención de datos se automatizó mediante la extracción de datos desde archivos CSV, lo cual es importante para garantizar que el proceso de recopilación de datos sea preciso y eficiente.

- Técnicas Estadísticas: Se realizo un análisis de autocorrelación para evaluar la validez de las variables independientes.

Este enfoque metodológico riguroso garantiza la calidad y la confiabilidad de los resultados del estudio de estimación del caudal del río Magdalena en la estación de Calamar, Bolívar, y sienta las bases para la mejora de la gestión de recursos hídricos en esta región.<br><br><br>

## Resultados y Discusión

### Resultados experimentales

En este estudio, se investigó el desempeño de modelos lineales AR y ARMA en combinación con modelos de machine learning, específicamente Random Forest (RF) y Ridge (Ridge). Los modelos se evaluaron por separado y luego se emparejaron para analizar su impacto en las métricas R2 y RRMSE, que son indicadores clave de rendimiento en la predicción.
Los valores métricos de evaluación calculados para los modelos independientes como RF. Los modelos independientes tuvieron un desempeño regular en la estimación del caudal mensual según el criterio de clasificación RRMSE (20%<RRMSE<30%). En total, se desarrollaron y evaluaron cuatro modelos híbridos: es decir, AR-RF, ARMA-RF, AR-Ridge, ARMA- Ridge. Las métricas estadísticas calculadas para los modelos híbridos se enumeran al final del siguiente capitulo. Basado en el índice RRMSE, el desempeño de todos los modelos híbridos no aumento en gran medida los resultados en escala mensual. Los modelos de series temporales AR y ARMA, respectivamente, demostraron por si solos un buen rendimiento.
 

1. *Evaluación individual de modelos:*
   - Modelos lineales AR y ARMA: Inicialmente, se evaluaron los modelos AR y ARMA de forma individual. Los resultados mostraron un rendimiento moderado en términos de R2 y RMSE, lo que indica que estos modelos pueden capturar cierta tendencia en los datos.

   - Modelos de machine learning (Ridge, Lasso, k-NN, RF, Ridge): Los modelos de machine learning, como Random Forest y Ridge, se evaluaron independientemente. Estos modelos demostraron un rendimiento inferior en comparación con los modelos lineales AR y ARMA en términos de R2 y RMSE.

2. *Emparejamiento de modelos:*
   - Combinación de AR/ARMA con RF y Ridge: Posteriormente, se emparejaron los modelos lineales AR y ARMA con los modelos de machine learning RF y Ridge. Este enfoque de combinación de modelos condujo a una mejora en las métricas R2 y RMSE en comparación con los modelos lineales por sí solos. Esto indica que la combinación de modelos AR/ARMA con RF y Ridge logra una mejor capacidad de predicción al aprovechar las fortalezas de ambos enfoques.<br><br><br>

### Interpretación
Los resultados experimentales muestran que la combinación de modelos lineales AR/ARMA con modelos de Machine Learning RF y Ridge puede mejorar el rendimiento en términos de R2 y RMSE. Esto sugiere que esta estrategia puede ser efectiva para capturar tanto las tendencias lineales como los patrones no lineales en los datos, lo que lleva a predicciones más precisas. Los modelos AR/ARMA pueden capturar tendencias lineales en los datos, mientras que los modelos de Machine Learning pueden capturar patrones no lineales. La combinación de estos dos tipos de modelos puede ayudar a mejorar la precisión de las predicciones, especialmente para datos que presentan tendencias lineales y patrones no lineales.<br><br><br>


### Conclusiones experimentales

En resumen, este estudio demuestra que la combinación de modelos lineales AR/ARMA con modelos de machine learning RF y Ridge puede ser una estrategia prometedora para mejorar la capacidad de predicción de caudales mensuales para ríos. Estos resultados tienen implicaciones importantes en aplicaciones que requieren predicciones precisas basadas en series temporales como predicciones de niveles y caudales, y sugieren que la combinación de enfoques puede ser una estrategia valiosa a considerar.
Los resultados obtenidos sugieren que la combinación de modelos AR, ARMA con RF, Ridge es una estrategia efectiva para mejorar el rendimiento de los modelos de pronóstico de series temporales. Esta estrategia puede ser útil para una variedad de aplicaciones, como la detección de anomalías.<br><br><br>

### Limitaciones

Es importante destacar que los resultados pueden depender de la naturaleza de los datos y el problema específico, en este caso nos encontramos con caudales promedios de un sistema natural que está altamente influenciado por múltiples factores como cambios de uso del suelo, fenómenos globales como el niño y la niña, la precipitación y temperatura en su área tributaria. El punto donde se realizo la predicción corresponde a un punto muy próximo a la desembocadura del Rio Magdalena. Además, se requiere una evaluación más exhaustiva en diferentes estaciones a lo largo del Rio, que permitan validar la generalización de estos hallazgos. <br><br><br>

### Futuras líneas de investigación

Para futuras investigaciones, se pueden explorar diferentes combinaciones de modelos y algoritmos de Machine Learning, o comprobar de manera inversa si al aplicar primero el algoritmo de Machine Learning y luego a los residuos el ARIMA se obtiene un mejor ajuste. También es importante investigar la interpretabilidad de los modelos combinados para comprender mejor los factores que contribuyen a las mejoras en el rendimiento.
En el contexto de hidrosistemas, se sugiere continuar investigando enfoques híbridos alternativos que involucren la combinación de diversos modelos de series temporales, como el modelo no lineal de heteroscedasticidad condicional autorregresiva (ARCH) y el modelo autorregresivo de umbral autoexcitado (SETAR), junto con modelos de aprendizaje automático como ANFIS, programación de la expresión génica (GEP), redes neuronales convolucionales y aprendizaje profundo. Además, se hace la recomendación de que la metodología presentada en este estudio podría aplicarse para estimar series temporales relacionadas con variables hidrológicas, con el fin de mejorar la comprensión de los hidro sistemas y su comportamiento, lo que contribuiría a una gestión más eficiente y sostenible de los recursos hídricos.<br><br><br>
