# **ANÁLISIS DEL ESTADO Y EVOLUCIÓN DE LOS EMBALSES DE AGUA NACIONALES**


Este notebook explica el trabajo de preprocesamiento y preparación de los datos para implementar una serie de visualizaciónes que expliquen el estado y la evolución temporal de la reserva hídrica del país para los embalses con capacidad superior a 5hm3.

Para llevar a cabo esta tarea de manera práctica hemos escogido conjuntos de datos que contienen información relevante sobre los embalses a largo de los últimos años. A partir de estos datos observaremos las características principales y las comparativas en sus evoluciones.

Pero antes tenemos que realizar una serie de tareas para preparar los datos que posteriormente utilizaremos. A continuación, te explicamos cómo lo hacemos.




# Pasos que se seguirán para preparar los datos
1. Importación de librerias
2. Carga de archivos de datos a utilizar
3. Modificación y ajuste de las variables
4. Detención y tratamiento de datos ausentes(NAs)
5. Generación de nuevas variables 
6. Creación de tabla para visualización "Evolución histórica de la reserva hídrica entre los años 2012 y 2022"
7. Creación de tabla para visualización "Reserva hídrica (hm3) entre los años 2012 y 2022"
8. Creación de tabla para visualización "Reserva hídrica (%) entre los años 2012 y 2022"
9. Creación de tabla para visualización "Evolución mensual de la reserva hídrica (hm3)"
10. Guardado de las tablas con los datos preprocesados

Una vez que has iniciado sesión con tu cuenta Gmail, podrás ejecutar cada script o celda de código. Tan solo debes hacer click en el símbolo de la esquina superior izquierda de cada celda con código. El resultado de la ejecución aparecera justo debajo de cada script.

También puedes ejecutar todos los scripts pulsando Ctrl+F9 o eligiendo en el menú superior la opción "Entorno de ejecución" y seleccionando "Ejecutar todas".





## 1. Importación de librerias
Lo primero que debemos hacer es instalar y cargar las librerías para el preprocesamiento de los datos. Existen una gran cantidad de librerías disponibles en Python, pero una de las más populares y adecuadas para trabajar con conjuntos de datos es la librería **Pandas**.

*    [Pandas](https://pandas.pydata.org/) es una librería de Python especializada en el manejo y análisis de estructuras de datos.



In [1]:
# Importamos las librerías a utilizar
import pandas as pd


## 2. Carga de datos

Cargamos los conjuntos de datos para explorarlos y realizar algunas tareas básicas de limpieza y procesado de datos.

Los conjuntos de datos con los cuales vamos a trabajar, se encuentran almacenados en el repositorio del **[Laboratorio de datos](https://github.com/datosgobes/Laboratorio-de-Datos/tree/main/Visualizaciones/Estudio%20estado%20de%20los%20embalses%20nacionales/Datasets%20originales)** de GitHub de datos.gob.es, desde donde pueden ser descargados o cargados directamente como es el caso. 

*   Para la carga de los datos recurriremos a la función [.read_excel()](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html), donde le indicaremos la ruta del dataset dentro del repositorio de Github.

*   Para visualizar la información principal del dataset cargado utilizamos la función [.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)


In [None]:
# Cargamos desde Github el dataset que contiene la información de los datos históricos de la reserva hídrica 
url = "https://github.com/Admindatosgobes/Laboratorio-de-Datos/blob/b5e65d268f88323b95b98d04e1a24a6d87ce53c6/Visualizaciones/Estado%20embalses%20nacionales/Datasets%20originales/Datos%20embalses.xlsx?raw=true"
embalses = pd.read_excel(url)

# Visualizamos la información principal del dataset de datos históricos
embalses.info()

Observamos la **principal información del dataset "embalses"**, donde se muestra el nombre, número, tipo y cantidad de datos de cada variable.

In [None]:
# Cargamos desde Github el dataset que contiene la información con datos geográficos 
url = "https://github.com/Admindatosgobes/Laboratorio-de-Datos/blob/da405383c5fae3811ecb0dbc72baa4060ae218cf/Visualizaciones/Estado%20embalses%20nacionales/Datasets%20originales/Embalses_enriquecido.xlsx?raw=true"
embalses_geo = pd.read_excel(url)

# Visualizamos la información principal del dataset de datos geográficos
embalses_geo.info()


Observamos la **principal información del dataset "embalses_geo"**, donde se muestra el nombre, número, tipo y cantidad de datos de cada variable.

## 3. Modificación y ajuste de las variables 

Una de las primeras acciones que hay que realizar tras la carga de los datos, es verificar las variables y **modificarlas buscando que se adecuen a nuestras tablas de trabajo**. En este caso, renombraremos , modificaremos el tipo , eliminaremos las que no nos interesan para el análisis y sustituiremos los valores decimales con coma por punto.

*   Para renombrar las variables utilizamos la función [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)


*   Para convertir el nombre de una variable a letras minúsculas utilizamos la función [.str.lower()](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.lower.html?)

*   Para sustituir los valores decimales con coma por punto utilizamos la función [.str.replace()](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.replace.html?)

*   Para modificar el tipo de variable utilizamos la función [.astype()](https://pandas.pydata.org/docs/reference/api/pandas.Series.astype.html?)

*    Para modificar el tipo de variable a una fecha utilizamos la función [.to_datetime()](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)

*   Para eliminar una variable utilizamos la función [.drop()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html)




Para el dataset **"embalses"** realizamos los siguientes pasos:

In [None]:
# Renombramos las variables
embalses = embalses.rename(columns= {"AMBITO_NOMBRE": "demarcacion_hidrografica", "AGUA_TOTAL": "capacidad_total", "AGUA_ACTUAL": "volumen_actual"})

# Modificamos el nombre de los encabezados a letras minúsculas
embalses= embalses.rename(columns=str.lower)

# Sustituimos los valores decimales con coma por punto
embalses["capacidad_total"] = embalses["capacidad_total"].str.replace(",",".")
embalses["volumen_actual"] = embalses["volumen_actual"].str.replace(",",".")

# Transformamos el tipo de variable a floats
embalses["capacidad_total"]= embalses["capacidad_total"].astype(float)
embalses["volumen_actual"] = embalses["volumen_actual"].astype(float)

# Transformamos el tipo de variable a fecha dandole el formato deseado
embalses["fecha"] = pd.to_datetime(embalses["fecha"], format = "%d/%m/%Y")

# Eliminamos las columnas que contienen variables que no interesan para el análisis
embalses = embalses.drop(axis=1, columns= ["electrico_flag"])
embalses.head()


Visualizamos las 5 primeras filas del dataset para comprobar que las **modificaciónes y ajustes** de las variables se ha realizado correctamente.

Para el sataset **"embalses_geo"** realizamos los siguientes pasos:

In [None]:
# Filtramos las variables que nos interesan para el análisis
embalses_geo = embalses_geo[["X","Y","NOMBRE","DEMARC","CAUCE","Google","OpenStreetMap","Wikidata", "image","Imagen", "USO", "PROVINCIA"]]

# Renombramos las variables
embalses_geo = embalses_geo.rename(columns= {"DEMARC": "demarcación_hidrografica","NOMBRE":"embalse_nombre"})

# Modificamos el nombre de los encabezados a letras minúsculas
embalses_geo= embalses_geo.rename(columns=str.lower)
embalses_geo.head()

Visualizamos las 5 primeras filas del dataset para comprobar que las **modificaciónes y ajustes** de las variables se ha realizado correctamente.

## 4. Detención y tratamiento de datos ausentes (NAs)

La presencia de datos ausentes es una **problemática habitual** en muchos conjuntos de datos. Tratar con conjuntos de datos en los que existan puede generar problemas durante los posteriores análisis.


*   Para buscar los datos ausentes en cada variable utilizamos la función [is.null()](https://pandas.pydata.org/docs/reference/api/pandas.isnull.html?)

*   Para eliminar los datos ausentes en el dataset utilizamos la función [.drop.na()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)

Para el dataset **"embalses"** realizamos los siguientes pasos:

In [None]:
# Búsqueda de datos ausentes.
embalses.isnull().sum()

Obtenemos la **suma de valores nulos por variable**. En este caso observamos que dentro del dataset hay 2 valores nulos en la columna "capacidad_total" y otros 2 en la columna "volumen_actual". Debido a que el conjunto de datos es lo suficientemente grande y no se pierde información relevante al **eliminar** esas filas, procedemos a eliminarlas.

In [7]:
# Eliminamos las filas con valores ausentes
embalses = embalses.dropna()

Para el dataset **"embalses_geo"** realizamos los siguientes pasos:

In [None]:
# Búsqueda de datos ausentes
embalses_geo.isnull().sum()

Obtenemos la suma de valores nulos por variable. En este caso observamos que dentro del dataset hay **grandes cantidades** de valores nulos en las columnas "google", "openstreetmap" y "wikidata". En esta ocasión **no se eliminan** las filas que presentan valores nulos ya que significaría una pérdida importante de la información.

## 5. Generación de nuevas variables

Una acción muy común en el análisis de datos, es la creación de nuevas variables a partir de las variables existentes en los datos, ya que en ocasiones interesa **trabajar con datos calculados**, en lugar de los datos de origen.


Para el dataset **"embalses"** realizamos los siguientes pasos:

Creamos la variable **"porcentaje_actual"** dentro de 
una nueva columna con el valor del porcentaje de agua embalsado en cada momento sobre la capacidad total (porcentaje de llenado). Para ello se utilizan los datos de las variables "volumen_actual" y "capacidad_total".

In [None]:
# Generamos una nueva variable con el porcentaje de llenado del ambalse
embalses["porcentaje_actual"] = round(100*(embalses["volumen_actual"]/embalses["capacidad_total"]), 2)
embalses.head()



Visualizamos las 5 primeras filas del dataset para comprobar que la **nueva variable "porcentaje_actual"** ha sido creada correctamente

Dividimos la variable fecha en **dos nuevas variables** correspondientes a dos columnas, una con el año y la otra con el mes.

*   Para obtener el valor del año y del mes de la variable fecha utilizamos las funciones [.dt.year](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.year.html) y [.dt.month](https://pandas.pydata.org/docs/reference/api/pandas.Series.dt.month.html)


In [None]:
# Generamos dos nuevas columnas a partir de la columna "fecha". Una con el año y la otra con el mes
embalses["mes"] = embalses["fecha"].dt.month
embalses["año"] = embalses["fecha"].dt.year
embalses.head()


Visualizamos las 5 primeras filas del dataset para comprobar que las **nuevas variables "mes" y "año"** han sido creadas correctamente.


Para el dataset **"embalses_geo"** realizamos los siguientes pasos:

Creeamos la varible "**coordenadas**" uniendo las variables "x" e "y" y sustituimos caracteres que no son procesables por herramientas de visualización en las variables **"uso"** y **"provincia"**

In [None]:
# Generamos una nueva variable con las coordenadas X e Y juntas
embalses_geo["coordenadas"] = embalses_geo['x'].astype(str)+","+embalses_geo['y'].astype(str)

# Sustituimos caracterres no procesables por herramientas de visualización
embalses_geo["uso"] = embalses_geo["uso"].str.replace("\n", ",")
embalses_geo["provincia"] = embalses_geo["provincia"].str.replace("/", ",")
embalses_geo.head()

Una vez hemos realizado el tratamiento previo de los datos desarrollado hasta ahora, pasamos a crear las **tablas de datos** para alimentar a la herramienta de visualización.

## 6. Creación de tabla para visualización "Evolución histórica de la reserva hídrica entre los años 2012 y 2022"
Generamos la primera tabla de datos preparada para alimentar la herramienta de visualización que vamos a utilizar, Google Data Studio.

Para ello **filtramos** el dataset para obtener los datos entre el **01/01/2012 y el 01/01/2022**






In [None]:
# Filtramos el dataset para quedarnos con los valores históricos del 2012 al 2022
tabla_lin = embalses[(embalses["fecha"]>"01/01/2012") & (embalses["fecha"]<"01/01/2022")]
tabla_lin.head()

Visualizamos las 5 primeras filas de la tabla y comprobamos que se ha **filtrado** correctamente.

## 7. Creación de tabla para visualización "Reserva hídrica (hm3) entre los años 2012 y 2022"

Generamos **una nueva tabla de datos** preparada para alimentar la herramienta de visualización que vamos a utilizar, Google Data Studio.

Para ello partimos del **dataset filtrado** en el apartado anterior. **Agrupamos** las variables por embalse, **calculamos la media** de los registros del volumen de agua y **renombramos** la nueva variable.


*   Para agrupar las varibles utilizamos la función [.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

*   Para renombrar las variables utilizamos las funciones [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)







In [None]:
# Agrupamos el dataset por nombre del embalse y generamos una columna con la media del volumen
tabla_vol = round(tabla_lin.groupby(["demarcacion_hidrografica", "embalse_nombre"])["volumen_actual"].mean().reset_index(),2)

# Renombramos la nueva columna generada
tabla_vol = tabla_vol.rename(columns= {"volumen_actual": "volumen_medio_10"})
tabla_vol.head()


Una vez generada la tabla **"tabla_vol"** la visualizamos para comprobar que los datos son correctos. En este caso se comprueba que se ha calculado el valor medio de volumen de agua por embalse y ha sido almacenada en una nueva variable "**"volumen_medio_10"**


## 8. Creación de tabla para visualización "Reserva hídrica (%) entre los años 2012 y 2022"

Generamos una **nueva tabla de datos** preparada para alimentar la herramienta de visualización que vamos a utilizar, Google Data Studio.

Para ello partimos del **dataset filtrado** en el apartado anterior. **Agrupamos** las variables por embalse, **calculamos la media** de los registros del porcentaje de llenado y **renombramos** la nueva variable.


*   Para agrupar las varibles utilizamos la función [.groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

*   Para renombrar las variables utilizamos las funciones [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)



In [None]:
# Agrupamos el dataset por nombre del embalse y generamos una columna con la media del porcentaje
tabla_por = round(tabla_lin.groupby(["demarcacion_hidrografica", "embalse_nombre"])["porcentaje_actual"].mean().reset_index(),2)

# Renombramos la nueva columna generada
tabla_por = tabla_por.rename(columns= {"porcentaje_actual": "porcentaje_medio_10"})
tabla_por.head()

Una vez generada la tabla **"tabla_por"** la visualizamos para comprobar que los datos son correctos. En este caso se comprueba que ha sido calculado el valor medio de porcentaje de llenado por embalse y ha sido almacenado en una nueva variable "**"porcentaje_medio_10"**

## 9. Creación de tabla para visualización "Evolución mensual de la reserva hídrica (hm3)"

Generamos una **nueva tabla de datos** preparada para alimentar la herramienta de visualización que vamos a utilizar, **Google Data Studio**.

Esta tabla contiene los datos medios de volumen de agua embalsada por mes para distintas series temporales. Esta series temporales corresponden a los años **2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020 y 2021**.

Para ello partimos del **dataset filtrado en el apartado 5** con los datos pertenecientes al periodo temporal entre el 01/01/2012 y el 01/01/2022. Una vez filtrado, **agrupamos** las variables por embalse y mes, **calculamos la media** de los registros del volumen de agua y **renombramos** la nueva variable.


*   Para agrupar las varibles utilizamos la función [groupby()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)

*   Para renombrar las variables utilizamos la funciones [.rename()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rename.html)

*   Para unir las tablas en utilizamos la función [.merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

In [None]:
# Creamos una lista con las fechas iniciales y finales de las series temporales
lista = ["01/01/2012", "01/01/2013", "01/01/2014", "01/01/2015", "01/01/2016", "01/01/2017", "01/01/2018", "01/01/2019", "01/01/2020", "01/01/2021", "01/01/2022"]

# Creamos un bucle que recorra la lista anterior
for i in range(len(lista)-1):
    # Filtramos el dataset con los datos correspondientes a cada una de las series temporales
    tabla_mini = tabla_lin[(embalses["fecha"] > lista[i]) & (embalses["fecha"]<lista[i+1])]
    # Agrupamos el dataset por demarcación hidrográfica, nombre del embalse y mes. Generamos una columna con la media del volumen
    lin = tabla_mini.groupby(["demarcacion_hidrografica","embalse_nombre", "mes"])["volumen_actual"].mean().reset_index()
    # Renombramos la nueva columna generada con el valor medio
    lin = lin.rename(columns= {"volumen_actual": lista[i].split("/")[2]})

    # Unificamos los datos de las distintas series temporales en una misma tabla
    if i == 0:
      tabla_lin_mes = lin
    else:
      tabla_lin_mes = tabla_lin_mes.merge(lin, on=["demarcacion_hidrografica","embalse_nombre","mes"], how = "inner")

tabla_lin_mes.head()

Una vez generada la tabla **"tabla_lin_mes"** la visualizamos para comprobar que los datos son correctos. En este caso se comprueba que los datos del "volumen_actual" han sido agrupados por **mes** y en las **distintas series temporales** previamente especificadas.

## 10. Guardado de las tablas para la generación de la visualización.

Una vez que tenemos las tablas con la estructura y variables que nos interesan para realizar la visualización de los datos, lo guardaremos como archivo de datos en formato **CSV** para posteriormente realizar otros análisis estadísticos o utilizarlo en otras herramientas de visualización de datos como la que abordamos a continuación. Es importante guardarlo con una codificación **UTF-8** (Formato de Transformación Unicode) para que los caracteres especiales sean identificados de manera correcta por cualquier software.

*   Para guardar las tablas como archivos CSV utilizamos la función [.to_csv()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)




In [16]:
# Guardamos las tablas como archivos csv.
tabla_lin.to_csv("lineas.csv", index = False, encoding = "utf-8")
tabla_vol.to_csv("volumen.csv", index = False, encoding = "utf-8")
tabla_por.to_csv("porcentaje.csv", index = False, encoding = "utf-8")
tabla_lin_mes.to_csv("lineas_mensual.csv", index = False, encoding = "utf-8")
embalses_geo.to_csv("geo.csv", index = False, encoding = "utf-8")





Una vez generados los archivos, en el menú desplegable de la izquierda de esta pantalla, en la sección "Archivos" (el icono de la carpeta), encontraremos los archivos que acabamos de guardar dentro de la carpeta "sample_data". Usando el menú contextual, los ficheros pueden ser descargados.

No obstante, dispones de estos conjuntos de datos preprocesados en esta carpeta del Laboratorio de datos del GitHub de datos.gob.es.

A contintuación, puedes seguir los siguientes pasos para visualizar los datos que acabamos de preprocesar utilizando la herramienta Google Data Studio en el post *(añadir nombre y enlace al post)*