# ETL 1

In [57]:
import pandas as pd
import requests

from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = "all"

**Usaremos la API de REData la cual nos da mucha información sobre el mercado energético en España. La documentación de la API la encontraréis [aquí](https://www.ree.es/es/apidatos).**

1. Nuestros jefes están especialmente interesados en los datos de generación de las energías renovables y no renovables a nivel nacional. En concreto, nos piden sacar toda la información para las fechas de 1 de Enero del 2011 hasta el 31 de Diciembre del 2022. De toda la información que tenemos de generación queremos la evolucion de renovable y no renovable. Además deberemos incluir una columna nueva identificando si el dato corresponde a energía renovable o no renovable. **NOTA: nos piden que el código debe estar en una función.**

In [58]:
def energy_spain():

    df_años = pd.DataFrame()

    #Creamos un dataframe vacío en el que se vayan uniendo nuestros resultados. 

    
    for año in range(2011, 2023):

        url = f"https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=day"
        
        response = requests.get(url)

        print(response.status_code)

        for i in range(len(pd.json_normalize(response.json()["included"]))):

            df = pd.json_normalize(response.json()["included"][i]["attributes"]["values"])

            #Creamos un dataframe únicamente con los valores que nos interesan, que son "value", "percentage",
            # y "datetime"

            df["id"] = response.json()["included"][i]["id"]


            df["tipo_energia"] = response.json()["included"][i]["attributes"]["type"]

            df["description"] = response.json()["included"][i]["attributes"]["description"]

            #Creamos columnas con otros elementos que nos interesaban de la API, dejando fuera lo que no nos interesaba.


            df_años = pd.concat([df_años, df], axis = 0)

            # Hacemos un concat para que cada for se vaya añadiendo al DataFrame vacío creado anteriormente.
            
    return df_años

In [59]:
df_energia = energy_spain()

200
200
200
200
200
200
200
200
200
200
200
200


In [60]:
df_energia

Unnamed: 0,value,percentage,datetime,id,tipo_energia,description
0,182024.9820,0.290121,2011-01-01T00:00:00.000+01:00,10299,Renovable,"Energía renovable: incluye hidráulica, hidroeó..."
1,265705.8895,0.387418,2011-01-02T00:00:00.000+01:00,10299,Renovable,"Energía renovable: incluye hidráulica, hidroeó..."
2,249489.5735,0.295983,2011-01-03T00:00:00.000+01:00,10299,Renovable,"Energía renovable: incluye hidráulica, hidroeó..."
3,270981.7130,0.310937,2011-01-04T00:00:00.000+01:00,10299,Renovable,"Energía renovable: incluye hidráulica, hidroeó..."
4,379833.0150,0.452824,2011-01-05T00:00:00.000+01:00,10299,Renovable,"Energía renovable: incluye hidráulica, hidroeó..."
...,...,...,...,...,...,...
360,358731.2295,0.559412,2022-12-27T00:00:00.000+01:00,10298,No renovable,
361,317788.1640,0.467272,2022-12-28T00:00:00.000+01:00,10298,No renovable,
362,310099.6885,0.454803,2022-12-29T00:00:00.000+01:00,10298,No renovable,
363,275312.5870,0.387124,2022-12-30T00:00:00.000+01:00,10298,No renovable,


2. Sacaremos la misma información que en el ejericio anterior, pero en este caso por CCAA. Para esto necesitaremos los códigos de cada una de las comunidades autónomas que encontraréis en el siguiente diccionario:

In [61]:
cod_comunidades = {'Ceuta': 8744,
                    'Melilla': 8745,
                    'Andalucía': 4,
                    'Aragón': 5,
                    'Cantabria': 6,
                    'Castilla - La Mancha': 7,
                    'Castilla y León': 8,
                    'Cataluña': 9,
                    'País Vasco': 10,
                    'Principado de Asturias': 11,
                    'Comunidad de Madrid': 13,
                    'Comunidad Foral de Navarra': 14,
                    'Comunitat Valenciana': 15,
                    'Extremadura': 16,
                    'Galicia': 17,
                    'Illes Balears': 8743,
                    'Canarias': 8742,
                    'Región de Murcia': 21,
                    'La Rioja': 20}

In [62]:
def energy_ccaa():


    cod_comunidades = {'Ceuta': 8744,
                    'Melilla': 8745,
                    'Andalucía': 4,
                    'Aragón': 5,
                    'Cantabria': 6,
                    'Castilla - La Mancha': 7,
                    'Castilla y León': 8,
                    'Cataluña': 9,
                    'País Vasco': 10,
                    'Principado de Asturias': 11,
                    'Comunidad de Madrid': 13,
                    'Comunidad Foral de Navarra': 14,
                    'Comunitat Valenciana': 15,
                    'Extremadura': 16,
                    'Galicia': 17,
                    'Illes Balears': 8743,
                    'Canarias': 8742,
                    'Región de Murcia': 21,
                    'La Rioja': 20}

    df_comunidades = pd.DataFrame()
    #Creamos un dataframe vacío en el que se vayan uniendo nuestros resultados. 

    
    for año in range(2011, 2023):

        for key, value in cod_comunidades.items(): 

            url = f"https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={value}"
            
            response = requests.get(url)

            print(response.status_code)

            for i in range(len(pd.json_normalize(response.json()["included"]))):

                df2 = pd.json_normalize(response.json()["included"][i]["attributes"]["values"])

                #Creamos un dataframe únicamente con los valores que nos interesan, que son "value", "percentage",
                # y "datetime"

                df2["id"] = response.json()["included"][i]["id"]


                df2["tipo_energia"] = response.json()["included"][i]["attributes"]["type"]

                df2["description"] = response.json()["included"][i]["attributes"]["description"]

                df2["location"] = key

                #Cremos columnas con otros elementos que nos interesaban de la API, dejando fuera lo que no nos interesaba.


                df_comunidades = pd.concat([df_comunidades, df2], axis = 0)

                # Hacemos un concat para que cada for se vaya añadiendo al DataFrame vacío creado anteriormente.
            
    return df_comunidades

In [63]:
df_ccaa = energy_ccaa()

200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200
200


In [65]:
df_ccaa.head()

Unnamed: 0,value,percentage,datetime,id,tipo_energia,description,location
0,202972.9,1.0,2011-01-01T00:00:00.000+01:00,10298,No renovable,,Ceuta
0,3589.082,0.016703,2011-01-01T00:00:00.000+01:00,10299,Renovable,"Energía renovable: incluye hidráulica, hidroeó...",Melilla
0,211290.0,0.983297,2011-01-01T00:00:00.000+01:00,10298,No renovable,,Melilla
0,10996920.0,0.284857,2011-01-01T00:00:00.000+01:00,10343,Renovable,"Energía renovable: incluye hidráulica, hidroeó...",Andalucía
0,27608110.0,0.715143,2011-01-01T00:00:00.000+01:00,10342,No renovable,,Andalucía


3. Guardad los csv ya que mañana los seguiremos usando en los siguientes pairs.

In [66]:
df_energia.to_csv("data/energias_años.csv")

In [67]:
df_ccaa.to_csv("data/energias_comunidades.csv")