
<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_amarillo@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio ETL: Análisis del Sistema Energético en España

## Objetivo

Durante todos los laboratorios de esta semana realizarás un proceso completo de ETL para analizar la relación entre la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de un año. Además, complementarán este análisis con datos demográficos y económicos extraídos del Instituto Nacional de Estadística (INE). El **objetivo principal** del análisis es **examinar cómo la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de los años están influenciados por factores demográficos y económicos, como la población y el PIB provincial**. El análisis busca identificar patrones y correlaciones entre estas variables para comprender mejor las dinámicas energéticas regionales y su relación con el desarrollo socioeconómico en España.

Antes de realizar el análisis, vamos a definir las hipótesis con las que vamos a trabajar, las cuales definirán todo tu análisis y planteamiento de los laboratorios: 

- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con la demanda eléctrica.** Las provincias con un PIB más alto o en crecimiento experimentan una mayor demanda de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.


## Tareas Laboratorio Extracción

En el laboratorio de hoy tendrás que extraer la información necesaria para obtener tu objetivo de las siguientes fuentes de datos (deberás usar API's y herramientas de *web scrapping*):

- **Datos de la API de Red Eléctrica Española (REE):** Deberás extraer datos mensuales a nivel provincial de los siguientes aspectos:

  - **Demanda Eléctrica:** Nos proporciona los datos de demanda eléctrica a nivel provincial, agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/demanda/evolucion", añadiendo los parámetros que sean necesarios. 

  - **Generación Eléctrica:** Nos proporciona los datos de generación eléctrica a nivel provincial, diferenciando entre fuentes de energía (eólica, solar, hidroeléctrica, etc.), agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/generacion/estructura-renovables", añadiendo los parámetros que sean necesarios.

  La documentación de la API la encontrarás en [este link](https://www.ree.es/es/apidatos). Recuerda leer en detenimiento la documentación. 

- **Datos del Instituto Nacional de Estadística (INE):** Además de los datos de la REE, debes extraer y utilizar datos socioeconómicos de las siguientes páginas del INE:

- **Datos Demográficos:** Extraer los datos de población por provincias, diferenciando por grupos de edad, sexo, y extrajeros. Estos datos serán utilizados para analizar cómo la población afecta a la demanda eléctrica en cada provincia.

  - **Página web:** [INE - Población por provincias](https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=resultados&idp=1254734710990)

  - "Principales series 1998-2022" --> "Por provincia" --> " Población por provincias, edad (3 grupos de edad), españoles/Extranjeros, Sexo y año"

- **Datos Económicos:**

  - **Página web:** [INE - PIB por provincias](https://www.ine.es/dynt3/inebase/es/index.htm?padre=10426&capsel=10429). 

  - **Pasos para la extracción**:" Resultados provinciales. Serie contable 2016-2021" --> "P.I.B. a precios de mercado y valor añadido bruto a precios básicos por ramas de actividad: Precios corrientes por provincias y periodo."



NOTA1: Tienes que sacar muchos datos, pero recuerda que hemos aprendido herramientas de asincronia que te pueden ayudar en este paso de la ETL. 

NOTA2: Todos estos datos los debes sacar para los años 2019-2020-2021

1 - EXTRACCIÓN API

In [2]:
# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd
import numpy as np
from datetime import datetime
pd.set_option('display.float_format', '{:.2f}'.format)

# Uso de API's
# -----------------------------------------------------------------------
import requests

# Para incluir una barra de proceso en for loops
# -----------------------------------------------------------------------
from tqdm import tqdm


# Para introducir tiempo entre las llamadas
# -----------------------------------------------------------------------
from time import sleep
import json

# Para trabajar con archivos dotenv y los tokens
# -----------------------------------------------------------------------
import os
import dotenv
dotenv.load_dotenv()

False

# SCRAP API GENERACION ELECTRICA


In [3]:
diccionario_provincias = {}
for i in tqdm(range (4,22)):
    url = f"https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2019-01-01&end_date=2021-01-31&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={i}"

    headers = {"Accept": "application/json",
    "Content-Type": "application/json",
    "Host": "apidatos.ree.es"}

    res = requests.get(url, headers=headers)
    print(f"La respuesta para {i} es {res}")

    diccionario_provincias[f"ccaa_{i}"] = (res.json())

  6%|▌         | 1/18 [00:06<01:54,  6.75s/it]

La respuesta para 4 es <Response [200]>


 11%|█         | 2/18 [00:13<01:50,  6.92s/it]

La respuesta para 5 es <Response [200]>


 17%|█▋        | 3/18 [00:20<01:43,  6.92s/it]

La respuesta para 6 es <Response [200]>


 22%|██▏       | 4/18 [00:27<01:35,  6.81s/it]

La respuesta para 7 es <Response [200]>


 28%|██▊       | 5/18 [00:34<01:31,  7.07s/it]

La respuesta para 8 es <Response [200]>


 33%|███▎      | 6/18 [00:41<01:23,  6.92s/it]

La respuesta para 9 es <Response [200]>


 39%|███▉      | 7/18 [00:47<01:14,  6.78s/it]

La respuesta para 10 es <Response [200]>


 44%|████▍     | 8/18 [00:54<01:06,  6.69s/it]

La respuesta para 11 es <Response [200]>


 50%|█████     | 9/18 [01:01<00:59,  6.65s/it]

La respuesta para 12 es <Response [200]>


 56%|█████▌    | 10/18 [01:07<00:53,  6.63s/it]

La respuesta para 13 es <Response [200]>


 61%|██████    | 11/18 [01:14<00:47,  6.84s/it]

La respuesta para 14 es <Response [200]>


 61%|██████    | 11/18 [01:22<00:52,  7.48s/it]


KeyboardInterrupt: 

In [None]:
diccionario_provincias

{'ccaa_4': {'data': {'type': 'Generación por tecnología',
   'id': 'gen1',
   'attributes': {'title': 'Generación por tecnología',
    'last-update': '2020-01-10T08:15:41.000+01:00',
    'description': None},
   'meta': {'cache-control': {'cache': 'HIT',
     'expireAt': '2025-01-15T08:46:48'}}},
  'included': [{'type': 'Hidráulica',
    'id': '10330',
    'groupId': '1',
    'attributes': {'title': 'Hidráulica',
     'description': None,
     'color': '#0090d1',
     'type': 'Renovable',
     'magnitude': None,
     'composite': False,
     'last-update': '2020-01-24T13:30:10.000+01:00',
     'values': [{'value': 608527.078,
       'percentage': 0.01789010549416024,
       'datetime': '2019-01-01T00:00:00.000+01:00'},
      {'value': 545362.181,
       'percentage': 0.01948753631170254,
       'datetime': '2020-01-01T00:00:00.000+01:00'},
      {'value': 35682.265,
       'percentage': 0.017121860756572058,
       'datetime': '2021-01-01T00:00:00.000+01:00'}]}},
   {'type': 'Turbinaci

In [None]:
df_concat = pd.DataFrame()
for indice,subdic in (diccionario_provincias.items()):
    #Entramos dentro de la lista "included" para sacar todos los tipos de energía
    lista_energias = subdic.get("included")

    # #Creamos un diccionario con cada tipo de energía, sus porcentajes de generación total y sus valores de generación por año
    valores_energia = {}
    for energia in lista_energias:
        valores_energia[energia.get("type")] = (energia.get("attributes").get("values"))
    
    #Aquí creamos un dataframe con todos los tipos de energías
    for tipo_energia in valores_energia:
        df = pd.DataFrame(valores_energia.get(tipo_energia))
        df["tipo_energia"] = tipo_energia
        df["ccaa"] = indice

        df_concat = pd.concat([df_concat,df],axis = 0)
    
    

In [None]:
df_concat

Unnamed: 0,value,percentage,datetime,tipo_energia,ccaa
0,608527.08,0.02,2019-01-01T00:00:00.000+01:00,Hidráulica,ccaa_4
1,545362.18,0.02,2020-01-01T00:00:00.000+01:00,Hidráulica,ccaa_4
2,35682.26,0.02,2021-01-01T00:00:00.000+01:00,Hidráulica,ccaa_4
0,107323.72,0.00,2019-01-01T00:00:00.000+01:00,Turbinación bombeo,ccaa_4
1,224246.11,0.01,2020-01-01T00:00:00.000+01:00,Turbinación bombeo,ccaa_4
...,...,...,...,...,...
1,1684695.42,0.16,2020-01-01T00:00:00.000+01:00,Cogeneración,ccaa_21
2,166099.46,0.29,2021-01-01T00:00:00.000+01:00,Cogeneración,ccaa_21
0,10472484.35,1.00,2019-01-01T00:00:00.000+01:00,Generación total,ccaa_21
1,10274698.28,1.00,2020-01-01T00:00:00.000+01:00,Generación total,ccaa_21


In [None]:
#Formateamos correctamente la fecha
df_concat.reset_index(drop= True)
df_concat["datetime"] = pd.to_datetime(df_concat["datetime"],format='ISO8601')

In [None]:
df_concat.dtypes

value                             float64
percentage                        float64
datetime        datetime64[ns, UTC+01:00]
tipo_energia                       object
ccaa                               object
dtype: object

In [None]:
df_concat.head()

Unnamed: 0,value,percentage,datetime,tipo_energia,ccaa
0,608527.08,0.02,2019-01-01 00:00:00+01:00,Hidráulica,ccaa_4
1,545362.18,0.02,2020-01-01 00:00:00+01:00,Hidráulica,ccaa_4
2,35682.26,0.02,2021-01-01 00:00:00+01:00,Hidráulica,ccaa_4
0,107323.72,0.0,2019-01-01 00:00:00+01:00,Turbinación bombeo,ccaa_4
1,224246.11,0.01,2020-01-01 00:00:00+01:00,Turbinación bombeo,ccaa_4


In [None]:
df_concat.head()

Unnamed: 0,value,percentage,datetime,tipo_energia,ccaa
0,608527.08,0.02,2019-01-01 00:00:00+01:00,Hidráulica,ccaa_4
1,545362.18,0.02,2020-01-01 00:00:00+01:00,Hidráulica,ccaa_4
2,35682.26,0.02,2021-01-01 00:00:00+01:00,Hidráulica,ccaa_4
0,107323.72,0.0,2019-01-01 00:00:00+01:00,Turbinación bombeo,ccaa_4
1,224246.11,0.01,2020-01-01 00:00:00+01:00,Turbinación bombeo,ccaa_4


In [None]:
df_concat.rename(columns ={"datetime":"fecha_generacion", "value": "energia_generada"}, inplace= True)
df_concat.reset_index(inplace = True)

In [None]:
df_concat.head()

Unnamed: 0,index,energia_generada,percentage,fecha_generacion,tipo_energia,ccaa
0,0,608527.08,0.02,2019-01-01 00:00:00+01:00,Hidráulica,ccaa_4
1,1,545362.18,0.02,2020-01-01 00:00:00+01:00,Hidráulica,ccaa_4
2,2,35682.26,0.02,2021-01-01 00:00:00+01:00,Hidráulica,ccaa_4
3,0,107323.72,0.0,2019-01-01 00:00:00+01:00,Turbinación bombeo,ccaa_4
4,1,224246.11,0.01,2020-01-01 00:00:00+01:00,Turbinación bombeo,ccaa_4


In [None]:
df_concat["ccaa"].unique()

array(['ccaa_4', 'ccaa_5', 'ccaa_6', 'ccaa_7', 'ccaa_8', 'ccaa_9',
       'ccaa_10', 'ccaa_11', 'ccaa_12', 'ccaa_13', 'ccaa_14', 'ccaa_15',
       'ccaa_16', 'ccaa_17', 'ccaa_18', 'ccaa_19', 'ccaa_20', 'ccaa_21'],
      dtype=object)

In [12]:
diccionario_renaming = {
    'ccaa_10':"Pais_Vasco", 
    'ccaa_11':"Asturias", 
    'ccaa_12':"Desconocido", 
    'ccaa_13':"Madrid", 
    'ccaa_14':"Navarra", 
    'ccaa_15':"Valencia",
    'ccaa_16':"Extremadura", 
    'ccaa_17':"Galicia", 
    'ccaa_18':"Desconocido", 
    'ccaa_19':"Desconocido", 
    'ccaa_20':"La_rioja", 
    'ccaa_21':"Murcia",
    'ccaa_4':"Andalucia", 
    'ccaa_5':"Aragon", 
    'ccaa_6':"Cantabria", 
    'ccaa_7':"C_LM", 
    'ccaa_8':"C_leon", 
    'ccaa_9':"Cataluña"}

In [None]:
df_concat["ccaa"].replace(diccionario_renaming,inplace= True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_concat["ccaa"].replace(diccionario_renaming,inplace= True)


In [None]:
df_concat.head()

Unnamed: 0,index,energia_generada,percentage,fecha_generacion,tipo_energia,ccaa
0,0,608527.08,0.02,2019-01-01 00:00:00+01:00,Hidráulica,Andalucia
1,1,545362.18,0.02,2020-01-01 00:00:00+01:00,Hidráulica,Andalucia
2,2,35682.26,0.02,2021-01-01 00:00:00+01:00,Hidráulica,Andalucia
3,0,107323.72,0.0,2019-01-01 00:00:00+01:00,Turbinación bombeo,Andalucia
4,1,224246.11,0.01,2020-01-01 00:00:00+01:00,Turbinación bombeo,Andalucia


In [None]:
df_concat.to_csv("../../datos_extraccion/df_generacion.csv")

# SCRAP API DEMANDA ELECTRICA

In [4]:
diccionario_demanda = {}
for i in range (4,22):
    url = f"https://apidatos.ree.es/es/datos/demanda/evolucion?start_date=2019-01-01T00:00&end_date=2020-12-31T23:59&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={i}"

    headers = {"Accept": "application/json",
        "Content-Type": "application/json",
        "Host": "apidatos.ree.es"}

    res = requests.get(url, headers=headers)
    print(f"La respuesta de {i} es {res}")

    diccionario_demanda[f"ccaa_{i}"] = (res.json())

La respuesta de 4 es <Response [200]>
La respuesta de 5 es <Response [200]>
La respuesta de 6 es <Response [200]>
La respuesta de 7 es <Response [200]>
La respuesta de 8 es <Response [200]>
La respuesta de 9 es <Response [200]>
La respuesta de 10 es <Response [200]>
La respuesta de 11 es <Response [200]>
La respuesta de 12 es <Response [200]>
La respuesta de 13 es <Response [200]>
La respuesta de 14 es <Response [200]>
La respuesta de 15 es <Response [200]>
La respuesta de 16 es <Response [200]>
La respuesta de 17 es <Response [200]>
La respuesta de 18 es <Response [200]>
La respuesta de 19 es <Response [200]>
La respuesta de 20 es <Response [200]>
La respuesta de 21 es <Response [200]>


In [5]:
diccionario_demanda

{'ccaa_4': {'data': {'type': 'Evolución de la demanda',
   'id': 'dem1',
   'attributes': {'title': 'Evolución de la demanda',
    'last-update': '2020-01-10T08:15:41.000+01:00',
    'description': None},
   'meta': {'cache-control': {'cache': 'MISS'}}},
  'included': [{'type': 'Demanda',
    'id': '10339',
    'groupId': None,
    'attributes': {'title': 'Demanda',
     'description': None,
     'color': '#ffea00',
     'type': None,
     'magnitude': None,
     'composite': False,
     'last-update': '2020-01-24T13:30:15.000+01:00',
     'values': [{'value': 39870702.169,
       'percentage': 1,
       'datetime': '2019-01-01T00:00:00.000+01:00'},
      {'value': 39022612.104,
       'percentage': 1,
       'datetime': '2020-01-01T00:00:00.000+01:00'}]}}]},
 'ccaa_5': {'data': {'type': 'Evolución de la demanda',
   'id': 'dem1',
   'attributes': {'title': 'Evolución de la demanda',
    'last-update': '2020-01-10T08:15:41.000+01:00',
    'description': None},
   'meta': {'cache-contro

In [6]:
df_concat2 = pd.DataFrame()
for indice,subdic in diccionario_demanda.items():
    #Entramos dentro de la lista "included" para sacar todos los tipos de energía
    lista_dda_xprovincia = subdic.get("included")
   
    #Extraemos los valores de demanda mensuales 
    indice_dda = list(lista_dda_xprovincia[0].values())
    
    dda_x_meses = indice_dda[3].get("values")
  
    print(dda_x_meses)
    # #Creamos un dataframe con la información de la demanda por mes en cada provincia
    df_dda = pd.DataFrame(dda_x_meses)
    df_dda["ccaa"] = indice

    df_concat2 = pd.concat([df_concat2,df_dda])


    

[{'value': 39870702.169, 'percentage': 1, 'datetime': '2019-01-01T00:00:00.000+01:00'}, {'value': 39022612.104, 'percentage': 1, 'datetime': '2020-01-01T00:00:00.000+01:00'}]
[{'value': 10808818.015, 'percentage': 1, 'datetime': '2019-01-01T00:00:00.000+01:00'}, {'value': 10114221.67, 'percentage': 1, 'datetime': '2020-01-01T00:00:00.000+01:00'}]
[{'value': 4188300.887, 'percentage': 1, 'datetime': '2019-01-01T00:00:00.000+01:00'}, {'value': 3905845.888, 'percentage': 1, 'datetime': '2020-01-01T00:00:00.000+01:00'}]
[{'value': 12135216.022, 'percentage': 1, 'datetime': '2019-01-01T00:00:00.000+01:00'}, {'value': 11760353.41, 'percentage': 1, 'datetime': '2020-01-01T00:00:00.000+01:00'}]
[{'value': 14182223.164, 'percentage': 1, 'datetime': '2019-01-01T00:00:00.000+01:00'}, {'value': 13429496.684, 'percentage': 1, 'datetime': '2020-01-01T00:00:00.000+01:00'}]
[{'value': 47025484.111, 'percentage': 1, 'datetime': '2019-01-01T00:00:00.000+01:00'}, {'value': 44056916.396, 'percentage': 1, 

In [7]:
df_concat2.rename(columns = {"value":"energía_dda", "datetime": "fecha_dda"}, inplace= True)

In [8]:
df_concat2.head()

Unnamed: 0,energía_dda,percentage,fecha_dda,ccaa
0,39870702.17,1,2019-01-01T00:00:00.000+01:00,ccaa_4
1,39022612.1,1,2020-01-01T00:00:00.000+01:00,ccaa_4
0,10808818.02,1,2019-01-01T00:00:00.000+01:00,ccaa_5
1,10114221.67,1,2020-01-01T00:00:00.000+01:00,ccaa_5
0,4188300.89,1,2019-01-01T00:00:00.000+01:00,ccaa_6


In [9]:
pd.set_option("display.max_rows",None)


In [10]:
df_dda_agrupado = df_concat2.groupby(["ccaa", "fecha_dda"])[["energía_dda"]].mean()
df_dda_media =  pd.DataFrame(df_dda_agrupado)
df_dda_media.reset_index(inplace = True)

In [13]:
df_dda_media["ccaa"].replace(diccionario_renaming,inplace= True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_dda_media["ccaa"].replace(diccionario_renaming,inplace= True)


In [15]:
df_dda_media.to_csv("../../datos_extraccion/df_dda.csv")

In [None]:
df_dda_media.head()

Unnamed: 0,ccaa,fecha_dda,energía_dda
0,Pais_Vasco,2019-01-01T00:00:00.000+01:00,16284370.32
1,Pais_Vasco,2020-01-01T00:00:00.000+01:00,14937556.61
2,Asturias,2019-01-01T00:00:00.000+01:00,9393095.49
3,Asturias,2020-01-01T00:00:00.000+01:00,8724907.93
4,Desconocido,2019-01-01T00:00:00.000+01:00,206048.24


In [None]:
df_dda_gen = df_dda_media.merge(right = df_concat, on = "ccaa")

In [None]:
df_dda_gen.to_csv("../../datos_extraccion/df_dda_gen")