<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_amarillo@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio ETL: Análisis del Sistema Energético en España

## Objetivo

Durante todos los laboratorios de esta semana realizarás un proceso completo de ETL para analizar la relación entre la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de un año. Además, complementarán este análisis con datos demográficos y económicos extraídos del Instituto Nacional de Estadística (INE). El **objetivo principal** del análisis es **examinar cómo la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de los años están influenciados por factores demográficos y económicos, como la población y el PIB provincial**. El análisis busca identificar patrones y correlaciones entre estas variables para comprender mejor las dinámicas energéticas regionales y su relación con el desarrollo socioeconómico en España.

Antes de realizar el análisis, vamos a definir las hipótesis con las que vamos a trabajar, las cuales definirán todo tu análisis y planteamiento de los laboratorios: 

- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con el consumo eléctrico.** Las provincias con un PIB más alto o en crecimiento experimentan un mayor consumo de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.


## Tareas Laboratorio Transformación

En este laboratorio, tu objetivo será limpiar y preparar los datos extraídos previamente de diferentes fuentes para su posterior análisis. Trabajarás con datos provenientes de la API de Red Eléctrica Española (REE) y del Instituto Nacional de Estadística (INE). Estos datos incluyen información sobre demanda y generación eléctrica a nivel provincial, así como datos demográficos y económicos. 


- Cargar los Datos Extraídos:

  - **Demanda Eléctrica:** Carga los datos de demanda eléctrica extraídos de la API de REE.

  - **Generación Eléctrica:** Carga los datos de generación eléctrica diferenciados por tipo de energía (eólica, solar, hidroeléctrica, etc.) a nivel provincial.

  - **Datos Demográficos:** Carga los datos demográficos por provincia extraídos de la web del INE.

  - **Datos Económicos:** Carga los datos del PIB por provincia obtenidos del INE.


-Limpieza de Datos:

- Datos de la API de REE:

  - **Demanda Eléctrica:**

    - **Conversión de Timestamps:** Asegúrate de que las fechas estén correctamente formateadas en `datetime`. Si es necesario, convierte los datos a un formato uniforme (por ejemplo, `YYYY-MM` para datos mensuales).

    - **Tratamiento de Valores Nulos:** Identifica y maneja los valores nulos en caso de que los haya. Puedes optar por eliminar filas con valores faltantes.

    - **Estandarización de Nombres de Provincias:** Verifica que los nombres de las provincias estén estandarizados y coincidan en todos los conjuntos de datos. Si hay inconsistencias, corrígelas.

  - **Generación Eléctrica:**

    - **Desagregación de Tecnologías:** Asegúrate de que los datos estén correctamente desglosados por tipo de energía. Revisa que los campos correspondientes a energía eólica, solar, hidroeléctrica, etc., estén bien identificados y sin errores.

    - **Normalización de Unidades:** Verifica que las unidades de energía estén estandarizadas (por ejemplo, MWh). Realiza las conversiones necesarias si se encuentran en otras unidades.

    - **Identificación de Outliers:** Revisa los valores extremos o atípicos en la generación de energía y decide si deben ser tratados o eliminados.

- Datos del INE:

  - **Datos Demográficos:**

    - **Consistencia en la Codificación de Provincias:** Asegúrate de que los nombres de las provincias en los datos demográficos coincidan con los nombres utilizados en los datos eléctricos.

    - **Revisión de Categorías:** Verifica que las categorías de edad, sexo, y nacionalidad estén correctamente etiquetadas y sean consistentes en todo el dataset.

    - **Manejo de Valores Faltantes:** Revisa la presencia de valores faltantes y decide cómo tratarlos (relleno, eliminación o sustitución).

  - **Datos Económicos:**

    - **Normalización del PIB:** Si los datos del PIB están en diferentes unidades o escalas, asegúrate de normalizarlos para que sean comparables entre provincias.

    - **Agrupación Temporal:** Si los datos económicos están disponibles en diferentes periodos temporales, agrúpalos y normalízalos para que coincidan con los datos eléctricos en términos de granularidad temporal (mensual o anual).

NOTA: Ten en cuenta que los datos los vamos a tener que insertar en una base de datos mañana, por lo que toda esta limpieza os recomendamos que la penséis para poder crear e insertar los datos mañana. 

In [None]:
# Imports
# ----------------------------------------------------------
import os
import sys
sys.path.append("../")
from src import soporte_limpieza as sl
import pandas as pd
import numpy as np
import dotenv
dotenv.load_dotenv()

# Carga de datos

### REE - Demanda electrica

In [None]:
ruta_ree_demanda = os.getenv("ruta_ree_demanda")

df_demanda_electrica = sl.formatear_datos_ree(ruta_ree_demanda)
df_demanda_electrica.to_csv("datos/descargas/ree/demanda_electrica_final.csv")
df_demanda_electrica

Unnamed: 0,provincia,año,value,percentage,datetime,COD-CCAA
0,Andalucía,2019,3668893.328,1,2019-01-01T00:00:00.000+01:00,4
1,Andalucía,2019,3152278.091,1,2019-02-01T00:00:00.000+01:00,4
2,Andalucía,2019,3216356.360,1,2019-03-01T00:00:00.000+01:00,4
3,Andalucía,2019,3029639.973,1,2019-04-01T00:00:00.000+02:00,4
4,Andalucía,2019,3154123.467,1,2019-05-01T00:00:00.000+02:00,4
...,...,...,...,...,...,...
679,Región de Murcia,2021,901082.855,1,2021-08-01T00:00:00.000+02:00,21
680,Región de Murcia,2021,793300.950,1,2021-09-01T00:00:00.000+02:00,21
681,Región de Murcia,2021,707168.960,1,2021-10-01T00:00:00.000+02:00,21
682,Región de Murcia,2021,723781.406,1,2021-11-01T00:00:00.000+01:00,21


### REE - Generación electrica

In [None]:
ruta_ree_generacion = os.getenv("ruta_ree_generacion").format()

df_generacion_electrica = sl.formatear_datos_ree(ruta_ree_generacion)
df_generacion_electrica.to_csv("datos/descargas/ree/generacion_electrica_final.csv")

### INE - Datos demograficos

In [None]:
ruta = os.getenv("ruta_ine_demograficos").format()

try:
    # Muevo de ubicacion el csv
    if len(os.listdir(ruta)) > 0:
        archivo = os.listdir(ruta)[0]
        ruta_archivo = os.path.join(ruta, archivo)
        ruta = ruta.replace(f"\\datos_demograficos", "")
        os.rename(ruta_archivo, f"{ruta}\\datos_demograficos.csv")
        ruta_original = os.getenv("ruta_ine_demograficos").format()
        os.removedirs(ruta_original)
except FileNotFoundError:
    print("No se ha encontrado el archivo")
    ruta_archivo = "datos/descargas/ine/datos_demograficos.csv"
    df_datos_demograficos = pd.read_csv(ruta_archivo, encoding="latin-1")

In [None]:
df_datos_demograficos = pd.read_csv("datos/descargas/ine/datos_demograficos.csv", encoding="latin-1", on_bad_lines="skip")
df_datos_demograficos

### INE - Datos economicos

In [None]:
ruta = os.getenv("ruta_ine_economicos").format()

# Muevo de ubicacion el csv
if len(os.listdir(ruta)) > 0:
    archivo = os.listdir(ruta)[0]
    ruta_archivo = os.path.join(ruta, archivo)
    ruta = ruta.replace("\\datos_economicos", "")
    os.rename(ruta_archivo, f"{ruta}\\datos_economicos.csv")
    ruta_original = os.getenv("ruta_ine_economicos").format()
    os.removedirs(ruta_original)

In [None]:
df_datos_economicos = pd.read_csv("datos/descargas/ine/datos_economicos.csv", encoding="latin-1", on_bad_lines="skip")
df_datos_economicos

# Limpieza de datos

### REE - Demanda electrica

In [None]:
df_demanda_electrica = pd.read_csv("datos/descargas/ree/demanda_electrica_final.csv", index_col=0, parse_dates=["datetime"])

df_demanda_electrica = sl.estandarizar_provincias(df_demanda_electrica, "provincia")

df_demanda_electrica["datetime"] = pd.to_datetime(df_demanda_electrica["datetime"], utc=True)

# Formateo la fecha en formato 'YYYY-MM'
df_demanda_electrica["datetime"] = df_demanda_electrica["datetime"].dt.strftime("%Y-%m")
df_demanda_electrica.isnull().sum()

df_demanda_electrica = sl.estandarizar_provincias(df_demanda_electrica, "provincia")

### REE - Generación electrica

In [None]:
df_generacion_electrica = pd.read_csv("datos/descargas/ree/generacion_electrica_final.csv", index_col=0, parse_dates=["datetime"])

df_demanda_electrica = sl.estandarizar_provincias(df_generacion_electrica, "provincia")

df_generacion_electrica["datetime"] = pd.to_datetime(df_generacion_electrica["datetime"], utc=True)

# Formateo la fecha en formato 'YYYY-MM'
df_generacion_electrica["datetime"] = df_generacion_electrica["datetime"].dt.strftime("%Y-%m")
df_generacion_electrica.isnull().sum()

# Normalizamos los datos
energia_columns = ["eolica", "solar", "hidroelectrica"]
for col in energia_columns:
    if col not in df_generacion_electrica.columns:
        df_generacion_electrica[col] = np.nan

conversion_factor = {"GWh": 1000, "KWh": 0.001}
for unidad, factor in conversion_factor.items():
    mask = df_generacion_electrica["unidad"] == unidad
    df_generacion_electrica.loc[mask, energia_columns] *= factor
    df_generacion_electrica.loc[mask, "unidad"] = "MWh"

for col in energia_columns:
    q1, q3 = df_generacion_electrica[col].quantile([0.25, 0.75])
    iqr = q3 - q1
    lower_bound = q1 - 1.5 * iqr
    upper_bound = q3 + 1.5 * iqr
    df_generacion_electrica = df_generacion_electrica[(df_generacion_electrica[col] >= lower_bound) & (df_generacion_electrica[col] <= upper_bound)]

df_generacion_electrica = sl.estandarizar_provincias(df_generacion_electrica, "provincia")


### INE - Datos demograficos

In [None]:
df_datos_demograficos = pd.read_csv("datos/descargas/ine/datos_demograficos.csv", encoding="latin-1", on_bad_lines="skip", sep=";")

df_datos_demograficos["Provincias"] = df_datos_demograficos["Provincias"].str.split(" ")
df_datos_demograficos["Provincias"] = df_datos_demograficos["Provincias"].apply(lambda x: x[1])
df_demanda_electrica = sl.estandarizar_provincias(df_generacion_electrica, "Provincias")
df_datos_demograficos.isnull().sum()
df_datos_demograficos

# Estandarizamos las columnas
df_datos_demograficos = sl.estandarizar_provincias(df_datos_demograficos, "provincia")

if "edad" in df_datos_demograficos.columns:
    df_datos_demograficos["edad"] = pd.to_numeric(df_datos_demograficos["edad"], errors="coerce")

df_datos_demograficos.fillna(method="ffill", inplace=True)

### INE - Datos economicos

In [None]:
df_datos_economicos = pd.read_csv("datos/descargas/ine/datos_economicos.csv", encoding="latin-1", on_bad_lines="skip", sep=";")

df_datos_economicos["Provincias"] = df_datos_economicos["Provincias"].str.split(" ")
df_datos_economicos["Provincias"] = df_datos_economicos["Provincias"].apply(lambda x: x[1])
df_datos_economicos["periodo"] = df_datos_economicos["periodo"].str.replace("(P)", "")
df_demanda_electrica = sl.estandarizar_provincias(df_generacion_electrica, "Provincias")
df_datos_economicos.isnull().sum()
df_datos_economicos

# Normalizamos datos
if df_datos_economicos["PIB"].max() > 1000000:
    df_datos_economicos["PIB"] = df_datos_economicos["PIB"] / 1000000

df_datos_economicos["año"] = pd.to_datetime(df_datos_economicos["año"], format="%Y").dt.year
datos_economicos = df_datos_economicos.groupby(["provincia", "año"]).agg({"PIB": "sum"}).reset_index()
datos_economicos = sl.estandarizar_provincias(datos_economicos, "provincia")