# **ANÁLISIS DEL ESTADO Y EVOLUCIÓN DE LOS EMBALSES DE AGUA NACIONALES**


Este notebook explica el trabajo de preprocesamiento, análisis y modelado para entender el estado y la evolución de la reserva hídrica en España. A lo largo del proyecto, se trabajará con datos históricos y geográficos para explorar tendencias, identificar patrones y realizar predicciones sobre el agua embalsada en el país.

Antes de empezar con los análisis y modelos, se seguirán los siguientes pasos:




# Pasos que se seguirán para preparar los datos
1. Importación de librerías y configuración inicial.
2. Carga de archivos de datos a utilizar.
3. Modificación y ajuste de las variables.
4. Detección y tratamiento de datos ausentes (NAs).
5. Generación de nuevas variables.
6. Enriquecimiento del dataset con datos climáticos y/o económicos.
7. Análisis exploratorio de los datos.
8. Modelado predictivo y comparativa de modelos.
9. Visualización de resultados.
10. Creación de tablas y exportación de datos.
11. Desarrollo de un prototipo interactivo.
12. Conclusiones y recomendaciones.





## 1. Importación de librerias
Lo primero que debemos hacer es instalar y cargar las librerías necesarias para el manejo, análisis y visualización de datos, además de configurar el entorno de trabajo. Usaremos algunas de las librerías más populares de Python para garantizar un flujo de trabajo eficiente.



In [4]:
# Importamos las librerías a utilizar
import pandas as pd  # Manejo y análisis de datos
import numpy as np  # Operaciones matemáticas
import matplotlib.pyplot as plt  # Visualización básica
import seaborn as sns  # Visualización estadística avanzada
from sklearn.model_selection import train_test_split  # Dividir datos para modelado
from sklearn.linear_model import LinearRegression  # Modelo de regresión lineal
from statsmodels.tsa.arima.model import ARIMA  # Modelos ARIMA para series temporales

# Configuramos el entorno
import warnings
warnings.filterwarnings("ignore")  # Ignoramos warnings para evitar distracciones

# Configuración de pandas para mostrar más datos
pd.set_option("display.max_columns", None)
pd.set_option("display.max_rows", 100)

# Configuramos el estilo de los gráficos
print("Estilos disponibles en Matplotlib:", plt.style.available)  # Listamos estilos disponibles
plt.style.use("ggplot")  # Cambiamos a un estilo seguro como 'ggplot'
plt.rcParams["figure.figsize"] = (10, 6)
plt.rcParams["font.size"] = 12

# Confirmación de configuración
print("Librerías cargadas y entorno configurado correctamente.")



Estilos disponibles en Matplotlib: ['Solarize_Light2', '_classic_test_patch', '_mpl-gallery', '_mpl-gallery-nogrid', 'bmh', 'classic', 'dark_background', 'fast', 'fivethirtyeight', 'ggplot', 'grayscale', 'petroff10', 'seaborn-v0_8', 'seaborn-v0_8-bright', 'seaborn-v0_8-colorblind', 'seaborn-v0_8-dark', 'seaborn-v0_8-dark-palette', 'seaborn-v0_8-darkgrid', 'seaborn-v0_8-deep', 'seaborn-v0_8-muted', 'seaborn-v0_8-notebook', 'seaborn-v0_8-paper', 'seaborn-v0_8-pastel', 'seaborn-v0_8-poster', 'seaborn-v0_8-talk', 'seaborn-v0_8-ticks', 'seaborn-v0_8-white', 'seaborn-v0_8-whitegrid', 'tableau-colorblind10']
Librerías cargadas y entorno configurado correctamente.


## 2. Carga de datos

Para realizar el análisis y predicciones sobre el agua embalsada, es necesario cargar los datasets que contienen información histórica y geográfica de los embalses. Estos archivos están alojados en un repositorio de GitHub.

Archivos a cargar:
Datos embalses: Contiene datos históricos sobre el volumen de agua embalsada en diferentes fechas.
Embalses enriquecido: Contiene información geográfica y detalles adicionales sobre los embalses.


In [5]:
# Importamos pandas para manejar los datasets
import pandas as pd

# URLs de los archivos en el repositorio de GitHub
url_historicos = "https://raw.githubusercontent.com/cddogaru/Proyecto-de-Computaci-n-I/main/Datos%20embalses.xlsx"
url_geo = "https://raw.githubusercontent.com/cddogaru/Proyecto-de-Computaci-n-I/main/Embalses_enriquecido.xlsx"

# Cargar los datasets desde GitHub
try:
    # Cargar archivo histórico
    embalses = pd.read_excel(url_historicos)
    print("Datos embalses cargados con éxito.")

    # Cargar archivo geográfico
    embalses_geo = pd.read_excel(url_geo)
    print("Embalses enriquecido cargado con éxito.")
except Exception as e:
    print(f"Error al cargar los datasets: {e}")

# Resumen de los datos históricos
print("\nResumen de 'Datos embalses':")
print(embalses.info())
print("\nPrimeras filas de 'Datos embalses':")
print(embalses.head())

# Resumen de los datos geográficos
print("\nResumen de 'Embalses enriquecido':")
print(embalses_geo.info())
print("\nPrimeras filas de 'Embalses enriquecido':")
print(embalses_geo.head())


Datos embalses cargados con éxito.
Embalses enriquecido cargado con éxito.

Resumen de 'Datos embalses':
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 637606 entries, 0 to 637605
Data columns (total 6 columns):
 #   Column          Non-Null Count   Dtype         
---  ------          --------------   -----         
 0   AMBITO_NOMBRE   637606 non-null  object        
 1   EMBALSE_NOMBRE  637606 non-null  object        
 2   FECHA           637606 non-null  datetime64[ns]
 3   AGUA_TOTAL      637604 non-null  object        
 4   AGUA_ACTUAL     637604 non-null  object        
 5   ELECTRICO_FLAG  637606 non-null  int64         
dtypes: datetime64[ns](1), int64(1), object(4)
memory usage: 29.2+ MB
None

Primeras filas de 'Datos embalses':
  AMBITO_NOMBRE EMBALSE_NOMBRE      FECHA AGUA_TOTAL AGUA_ACTUAL  \
0    Miño - Sil     Albarellos 1988-01-05      91,00       32,00   
1    Miño - Sil     Albarellos 1988-01-12      91,00       44,00   
2    Miño - Sil     Albarellos 1988-01-19    

Estructura Documentada del Punto 2

1. Explicación Breve: Introducimos el propósito de cargar los datos y describimos los archivos utilizados.

2. Cargar Datos: Se usan las URLs de los archivos en GitHub para cargarlos directamente en el entorno Colab.

3. Validación:

  *   Se usa info() para mostrar un resumen de los datos (columnas, tipos,  
    valores nulos).
  *   Se usa head() para visualizar las primeras filas y asegurarnos de que los datos se cargaron correctamente.

## 3. Modificación y ajuste de las variables

Una de las primeras acciones que hay que realizar tras la carga de los datos, es verificar las variables y **modificarlas buscando que se adecuen a nuestras tablas de trabajo**. En este caso, renombraremos , modificaremos el tipo , eliminaremos las que no nos interesan para el análisis y sustituiremos los valores decimales con coma por punto.

*   Para renombrar las variables utilizamos la función [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)


*   Para convertir el nombre de una variable a letras minúsculas utilizamos la función [.str.lower()](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.lower.html?)

*   Para sustituir los valores decimales con coma por punto utilizamos la función [.str.replace()](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html?)

*   Para modificar el tipo de variable utilizamos la función [.astype()](https://pandas.pydata.org/docs/reference/api/pandas.Series.astype.html?)

*    Para modificar el tipo de variable a una fecha utilizamos la función [.to_datetime()](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)

*   Para eliminar una variable utilizamos la función [.drop()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)




Para el dataset **"embalses"** realizamos los siguientes pasos:

In [None]:
# Renombramos las variables
embalses = embalses.rename(columns= {"AMBITO_NOMBRE": "demarcacion_hidrografica", "AGUA_TOTAL": "capacidad_total", "AGUA_ACTUAL": "volumen_actual"})

# Modificamos el nombre de los encabezados a letras minúsculas
embalses= embalses.rename(columns=str.lower)

# Sustituimos los valores decimales con coma por punto
embalses["capacidad_total"] = embalses["capacidad_total"].str.replace(",",".")
embalses["volumen_actual"] = embalses["volumen_actual"].str.replace(",",".")

# Transformamos el tipo de variable a floats
embalses["capacidad_total"]= embalses["capacidad_total"].astype(float)
embalses["volumen_actual"] = embalses["volumen_actual"].astype(float)

# Transformamos el tipo de variable a fecha dandole el formato deseado
embalses["fecha"] = pd.to_datetime(embalses["fecha"], format = "%d/%m/%Y")

# Eliminamos las columnas que contienen variables que no interesan para el análisis
embalses = embalses.drop(axis=1, columns= ["electrico_flag"])
embalses.head()


Visualizamos las 5 primeras filas del dataset para comprobar que las **modificaciónes y ajustes** de las variables se ha realizado correctamente.

Para el sataset **"embalses_geo"** realizamos los siguientes pasos:

In [None]:
# Filtramos las variables que nos interesan para el análisis
embalses_geo = embalses_geo[["X","Y","NOMBRE","DEMARC","CAUCE","Google","OpenStreetMap","Wikidata", "image","Imagen", "USO", "PROVINCIA"]]

# Renombramos las variables
embalses_geo = embalses_geo.rename(columns= {"DEMARC": "demarcación_hidrografica","NOMBRE":"embalse_nombre"})

# Modificamos el nombre de los encabezados a letras minúsculas
embalses_geo= embalses_geo.rename(columns=str.lower)
embalses_geo.head()

Visualizamos las 5 primeras filas del dataset para comprobar que las **modificaciónes y ajustes** de las variables se ha realizado correctamente.

## 4. Detención y tratamiento de datos ausentes (NAs)

La presencia de datos ausentes es una **problemática habitual** en muchos conjuntos de datos. Tratar con conjuntos de datos en los que existan puede generar problemas durante los posteriores análisis.


*   Para buscar los datos ausentes en cada variable utilizamos la función [is.null()](https://pandas.pydata.org/docs/reference/api/pandas.isnull.html?)

*   Para eliminar los datos ausentes en el dataset utilizamos la función [.drop.na()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)

Para el dataset **"embalses"** realizamos los siguientes pasos:

In [None]:
# Búsqueda de datos ausentes.
embalses.isnull().sum()

Obtenemos la **suma de valores nulos por variable**. En este caso observamos que dentro del dataset hay 2 valores nulos en la columna "capacidad_total" y otros 2 en la columna "volumen_actual". Debido a que el conjunto de datos es lo suficientemente grande y no se pierde información relevante al **eliminar** esas filas, procedemos a eliminarlas.

In [None]:
# Eliminamos las filas con valores ausentes
embalses = embalses.dropna()

Para el dataset **"embalses_geo"** realizamos los siguientes pasos:

In [None]:
# Búsqueda de datos ausentes
embalses_geo.isnull().sum()

Obtenemos la suma de valores nulos por variable. En este caso observamos que dentro del dataset hay **grandes cantidades** de valores nulos en las columnas "google", "openstreetmap" y "wikidata". En esta ocasión **no se eliminan** las filas que presentan valores nulos ya que significaría una pérdida importante de la información.

## 5. Generación de nuevas variables

Una acción muy común en el análisis de datos, es la creación de nuevas variables a partir de las variables existentes en los datos, ya que en ocasiones interesa **trabajar con datos calculados**, en lugar de los datos de origen.


Para el dataset **"embalses"** realizamos los siguientes pasos:

Creamos la variable **"porcentaje_actual"** dentro de
una nueva columna con el valor del porcentaje de agua embalsado en cada momento sobre la capacidad total (porcentaje de llenado). Para ello se utilizan los datos de las variables "volumen_actual" y "capacidad_total".

In [None]:
# Generamos una nueva variable con el porcentaje de llenado del ambalse
embalses["porcentaje_actual"] = round(100*(embalses["volumen_actual"]/embalses["capacidad_total"]), 2)
embalses.head()



Visualizamos las 5 primeras filas del dataset para comprobar que la **nueva variable "porcentaje_actual"** ha sido creada correctamente

Dividimos la variable fecha en **dos nuevas variables** correspondientes a dos columnas, una con el año y la otra con el mes.

*   Para obtener el valor del año y del mes de la variable fecha utilizamos las funciones [.dt.year](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.year.html) y [.dt.month](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.month.html)


In [None]:
# Generamos dos nuevas columnas a partir de la columna "fecha". Una con el año y la otra con el mes
embalses["mes"] = embalses["fecha"].dt.month
embalses["año"] = embalses["fecha"].dt.year
embalses.head()


Visualizamos las 5 primeras filas del dataset para comprobar que las **nuevas variables "mes" y "año"** han sido creadas correctamente.


Para el dataset **"embalses_geo"** realizamos los siguientes pasos:

Creeamos la varible "**coordenadas**" uniendo las variables "x" e "y" y sustituimos caracteres que no son procesables por herramientas de visualización en las variables **"uso"** y **"provincia"**

In [None]:
# Generamos una nueva variable con las coordenadas X e Y juntas
embalses_geo["coordenadas"] = embalses_geo['x'].astype(str)+","+embalses_geo['y'].astype(str)

# Sustituimos caracterres no procesables por herramientas de visualización
embalses_geo["uso"] = embalses_geo["uso"].str.replace("\n", ",")
embalses_geo["provincia"] = embalses_geo["provincia"].str.replace("/", ",")
embalses_geo.head()

Una vez hemos realizado el tratamiento previo de los datos desarrollado hasta ahora, pasamos a crear las **tablas de datos** para alimentar a la herramienta de visualización.

## 6. Creación de tabla para visualización "Evolución histórica de la reserva hídrica entre los años 2012 y 2022"
Generamos la primera tabla de datos preparada para alimentar la herramienta de visualización que vamos a utilizar, Google Data Studio.

Para ello **filtramos** el dataset para obtener los datos entre el **01/01/2012 y el 01/01/2022**






In [None]:
# Filtramos el dataset para quedarnos con los valores históricos del 2012 al 2022
tabla_lin = embalses[(embalses["fecha"]>"01/01/2012") & (embalses["fecha"]<"01/01/2022")]
tabla_lin.head()

Visualizamos las 5 primeras filas de la tabla y comprobamos que se ha **filtrado** correctamente.

## 7. Creación de tabla para visualización "Reserva hídrica (hm3) entre los años 2012 y 2022"

Generamos **una nueva tabla de datos** preparada para alimentar la herramienta de visualización que vamos a utilizar, Google Data Studio.

Para ello partimos del **dataset filtrado** en el apartado anterior. **Agrupamos** las variables por embalse, **calculamos la media** de los registros del volumen de agua y **renombramos** la nueva variable.


*   Para agrupar las varibles utilizamos la función [.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

*   Para renombrar las variables utilizamos las funciones [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)







In [None]:
# Agrupamos el dataset por nombre del embalse y generamos una columna con la media del volumen
tabla_vol = round(tabla_lin.groupby(["demarcacion_hidrografica", "embalse_nombre"])["volumen_actual"].mean().reset_index(),2)

# Renombramos la nueva columna generada
tabla_vol = tabla_vol.rename(columns= {"volumen_actual": "volumen_medio_10"})
tabla_vol.head()


Una vez generada la tabla **"tabla_vol"** la visualizamos para comprobar que los datos son correctos. En este caso se comprueba que se ha calculado el valor medio de volumen de agua por embalse y ha sido almacenada en una nueva variable "**"volumen_medio_10"**


## 8. Creación de tabla para visualización "Reserva hídrica (%) entre los años 2012 y 2022"

Generamos una **nueva tabla de datos** preparada para alimentar la herramienta de visualización que vamos a utilizar, Google Data Studio.

Para ello partimos del **dataset filtrado** en el apartado anterior. **Agrupamos** las variables por embalse, **calculamos la media** de los registros del porcentaje de llenado y **renombramos** la nueva variable.


*   Para agrupar las varibles utilizamos la función [.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

*   Para renombrar las variables utilizamos las funciones [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)



In [None]:
# Agrupamos el dataset por nombre del embalse y generamos una columna con la media del porcentaje
tabla_por = round(tabla_lin.groupby(["demarcacion_hidrografica", "embalse_nombre"])["porcentaje_actual"].mean().reset_index(),2)

# Renombramos la nueva columna generada
tabla_por = tabla_por.rename(columns= {"porcentaje_actual": "porcentaje_medio_10"})
tabla_por.head()

Una vez generada la tabla **"tabla_por"** la visualizamos para comprobar que los datos son correctos. En este caso se comprueba que ha sido calculado el valor medio de porcentaje de llenado por embalse y ha sido almacenado en una nueva variable "**"porcentaje_medio_10"**

## 9. Creación de tabla para visualización "Evolución mensual de la reserva hídrica (hm3)"

Generamos una **nueva tabla de datos** preparada para alimentar la herramienta de visualización que vamos a utilizar, **Google Data Studio**.

Esta tabla contiene los datos medios de volumen de agua embalsada por mes para distintas series temporales. Esta series temporales corresponden a los años **2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020 y 2021**.

Para ello partimos del **dataset filtrado en el apartado 5** con los datos pertenecientes al periodo temporal entre el 01/01/2012 y el 01/01/2022. Una vez filtrado, **agrupamos** las variables por embalse y mes, **calculamos la media** de los registros del volumen de agua y **renombramos** la nueva variable.


*   Para agrupar las varibles utilizamos la función [groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

*   Para renombrar las variables utilizamos la funciones [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

*   Para unir las tablas en utilizamos la función [.merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

In [None]:
# Creamos una lista con las fechas iniciales y finales de las series temporales
lista = ["01/01/2012", "01/01/2013", "01/01/2014", "01/01/2015", "01/01/2016", "01/01/2017", "01/01/2018", "01/01/2019", "01/01/2020", "01/01/2021", "01/01/2022"]

# Creamos un bucle que recorra la lista anterior
for i in range(len(lista)-1):
    # Filtramos el dataset con los datos correspondientes a cada una de las series temporales
    tabla_mini = tabla_lin[(embalses["fecha"] > lista[i]) & (embalses["fecha"]<lista[i+1])]
    # Agrupamos el dataset por demarcación hidrográfica, nombre del embalse y mes. Generamos una columna con la media del volumen
    lin = tabla_mini.groupby(["demarcacion_hidrografica","embalse_nombre", "mes"])["volumen_actual"].mean().reset_index()
    # Renombramos la nueva columna generada con el valor medio
    lin = lin.rename(columns= {"volumen_actual": lista[i].split("/")[2]})

    # Unificamos los datos de las distintas series temporales en una misma tabla
    if i == 0:
      tabla_lin_mes = lin
    else:
      tabla_lin_mes = tabla_lin_mes.merge(lin, on=["demarcacion_hidrografica","embalse_nombre","mes"], how = "inner")

tabla_lin_mes.head()

Una vez generada la tabla **"tabla_lin_mes"** la visualizamos para comprobar que los datos son correctos. En este caso se comprueba que los datos del "volumen_actual" han sido agrupados por **mes** y en las **distintas series temporales** previamente especificadas.

## 10. Guardado de las tablas para la generación de la visualización.

Una vez que tenemos las tablas con la estructura y variables que nos interesan para realizar la visualización de los datos, lo guardaremos como archivo de datos en formato **CSV** para posteriormente realizar otros análisis estadísticos o utilizarlo en otras herramientas de visualización de datos como la que abordamos a continuación. Es importante guardarlo con una codificación **UTF-8** (Formato de Transformación Unicode) para que los caracteres especiales sean identificados de manera correcta por cualquier software.

*   Para guardar las tablas como archivos CSV utilizamos la función [.to_csv()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)




In [None]:
# Guardamos las tablas como archivos csv.
tabla_lin.to_csv("lineas.csv", index = False, encoding = "utf-8")
tabla_vol.to_csv("volumen.csv", index = False, encoding = "utf-8")
tabla_por.to_csv("porcentaje.csv", index = False, encoding = "utf-8")
tabla_lin_mes.to_csv("lineas_mensual.csv", index = False, encoding = "utf-8")
embalses_geo.to_csv("geo.csv", index = False, encoding = "utf-8")





Una vez generados los archivos, en el menú desplegable de la izquierda de esta pantalla, en la sección "Archivos" (el icono de la carpeta), encontraremos los archivos que acabamos de guardar dentro de la carpeta "sample_data". Usando el menú contextual, los ficheros pueden ser descargados.

No obstante, dispones de estos conjuntos de datos preprocesados en esta carpeta del Laboratorio de datos del GitHub de datos.gob.es.

A contintuación, puedes seguir los siguientes pasos para visualizar los datos que acabamos de preprocesar utilizando la herramienta Google Data Studio en el post *(añadir nombre y enlace al post)*