#### PAIR PROGRAMMING - ETL 1

En el marco de un proyecto de análisis de datos, se requiere realizar una ETL para integrar información de distintas fuentes de datos. La empresa para la que trabajamos cuenta con una base de datos de la informacion sobre el número de personas censadas en las distintas Comunidades Autónomas españolas desde el año 1998 hasta el 2022. Quieren enriquecer los datos con información de la generación de energías renovables y no renovables y crear una base de datos más completa. Para esto nos piden que usemos la API de REData la cual nos da mucha información sobre el mercado energético en España. La documentación la encontraréis aquí (Gitbook)

In [3]:
from IPython.core.interactiveshell import InteractiveShell # Nos permite mostar más de una salida por celda
InteractiveShell.ast_node_interactivity = "all" # Nos permite mostar más de una salida por celda

import requests
import pandas as pd
import numpy as np

##### Requisitos de este ejercicio de pair programming:

1. Nuestros jefes están especialmente interesados en los datos de generación de las energías renovables y no renovables a nivel nacional. En concreto, nos piden sacar toda la información para las fechas de 1 de Enero del 2011 hasta el 31 de Diciembre del 2022. De toda la información que tenemos de generación queremos la evolucion de renovable y no renovable. Además deberemos incluir una columna nueva identificando si el dato corresponde a energía renovable o no renovable. 

NOTA: nos piden que el código debe estar en una función. Al final deberemos tener un dataframe como el siguiente:

In [4]:
# url1 = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date=2011-01-01T00:00&end_date=2022-01-31T23:59&time_trunc=year'

In [5]:
url1 = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año_inicio}-01-01T00:00&end_date={año_inicio + 1}-01-31T23:59&time_trunc=year'

In [6]:
url = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date=2011-01-01T00:00&end_date=2011-12-31T23:59&time_trunc=year'

In [7]:
response = requests.get(url)

In [8]:
response.status_code

200

In [9]:
response.reason

'OK'

In [10]:
response.json()['included'][0]['attributes']['values']

[{'value': 86667052.8500005,
  'percentage': 0.31024115642116423,
  'datetime': '2011-01-01T00:00:00.000+01:00'}]

In [15]:
df_no_renovables = pd.json_normalize(response.json()['included'][1]['attributes']['values']) #no renovables

In [11]:
df_renovables = pd.json_normalize(response.json()['included'][0]['attributes']['values'])

In [13]:
df_renovables ['tipo_energía'] = "Renovable"

In [57]:
df = pd.DataFrame()
df.shape

(0, 0)

In [28]:
df = pd.DataFrame()
año_inicio = 2011
año_final = 2023

for año in range(año_inicio, año_final):
    
    print(año)

    response = requests.get(f'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year')

    response.status_code
    print(response.status_code)

    response.reason
    print(response.reason)

    df_renovables = pd.json_normalize(response.json()['included'][0]['attributes']['values'])
    df_renovables ['tipo_energía'] = "Renovable"

    df = pd.concat([df, df_renovables], axis = 0)

    df_no_renovables = pd.json_normalize(response.json()['included'][1]['attributes']['values']) 
    df_no_renovables ['tipo_energía'] = "No_renovable"

    df = pd.concat([df, df_no_renovables], axis = 0)




2011


200

200


'OK'

OK
2012


200

200


'OK'

OK
2013


200

200


'OK'

OK
2014


200

200


'OK'

OK
2015


200

200


'OK'

OK
2016


200

200


'OK'

OK
2017


200

200


'OK'

OK
2018


200

200


'OK'

OK
2019


200

200


'OK'

OK
2020


200

200


'OK'

OK
2021


200

200


'OK'

OK
2022


200

200


'OK'

OK


In [29]:
df

Unnamed: 0,value,percentage,datetime,tipo_energía
0,86667050.0,0.310241,2011-01-01T00:00:00.000+01:00,Renovable
0,192686800.0,0.689759,2011-01-01T00:00:00.000+01:00,No_renovable
0,85338720.0,0.301424,2012-01-01T00:00:00.000+01:00,Renovable
0,197779900.0,0.698576,2012-01-01T00:00:00.000+01:00,No_renovable
0,109757700.0,0.401622,2013-01-01T00:00:00.000+01:00,Renovable
0,163528600.0,0.598378,2013-01-01T00:00:00.000+01:00,No_renovable
0,107876100.0,0.404771,2014-01-01T00:00:00.000+01:00,Renovable
0,158635600.0,0.595229,2014-01-01T00:00:00.000+01:00,No_renovable
0,94088110.0,0.351792,2015-01-01T00:00:00.000+01:00,Renovable
0,173365700.0,0.648208,2015-01-01T00:00:00.000+01:00,No_renovable


2. Sacaremos la misma información que en el ejericio anterior, pero en este caso por CCAA. Para esto necesitaremos los códigos de cada una de las comunidades autónomas que encontraréis en el siguiente diccionario:

In [None]:
url2 = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={id}'

In [None]:
'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year'

In [30]:
cod_comunidades = {'Ceuta': 8744,
                    'Melilla': 8745,
                    'Andalucía': 4,
                    'Aragón': 5,
                    'Cantabria': 6,
                    'Castilla - La Mancha': 7,
                    'Castilla y León': 8,
                    'Cataluña': 9,
                    'País Vasco': 10,
                    'Principado de Asturias': 11,
                    'Comunidad de Madrid': 13,
                    'Comunidad Foral de Navarra': 14,
                    'Comunitat Valenciana': 15,
                    'Extremadura': 16,
                    'Galicia': 17,
                    'Illes Balears': 8743,
                    'Canarias': 8742,
                    'Región de Murcia': 21,
                    'La Rioja': 20}

In [32]:
cod_comunidades.keys()

dict_keys(['Ceuta', 'Melilla', 'Andalucía', 'Aragón', 'Cantabria', 'Castilla - La Mancha', 'Castilla y León', 'Cataluña', 'País Vasco', 'Principado de Asturias', 'Comunidad de Madrid', 'Comunidad Foral de Navarra', 'Comunitat Valenciana', 'Extremadura', 'Galicia', 'Illes Balears', 'Canarias', 'Región de Murcia', 'La Rioja'])

In [31]:
cod_comunidades.values()

dict_values([8744, 8745, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 8743, 8742, 21, 20])

In [52]:
response = requests.get(f'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date=2011-01-01T00:00&end_date=2011-12-31T23:59&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids=4')

response.status_code
print(response.status_code)

response.reason
print(response.reason)


200

200


'OK'

OK


In [53]:
response.json()['included'][0]['attributes']['values'] #no renovable

[{'value': 10996921.237,
  'percentage': 0.28485723952509545,
  'datetime': '2011-01-01T00:00:00.000+01:00'}]

In [59]:
len(response.json()['included'])

2

In [69]:
renovables_ccaa = pd.json_normalize(response.json()['included'][0]['attributes']['values']) #renovables
renovables_ccaa

Unnamed: 0,value,percentage,datetime
0,10996920.0,0.284857,2011-01-01T00:00:00.000+01:00


In [70]:
no_renovables_ccaa = pd.json_normalize(response.json()['included'][1]['attributes']['values']) #no renovables
no_renovables_ccaa

Unnamed: 0,value,percentage,datetime
0,27608105.11,0.715143,2011-01-01T00:00:00.000+01:00


In [33]:
df2 = pd.DataFrame()
año_inicio = 2011
año_final = 2023

for año in range(año_inicio, año_final):

    for k, v in cod_comunidades.items():
        
    
        print(año)

        response = requests.get(f'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={v}')

        response.status_code
        print(response.status_code)

        response.reason
        print(response.reason)

        if len(response.json()['included']) == 2:
            renovables_ccaa = pd.json_normalize(response.json()['included'][0]['attributes']['values']) #renovables
            renovables_ccaa ['tipo_energía'] = "Renovable"
            renovables_ccaa ['comunidad'] = k 
            renovables_ccaa ['id_comunidad'] = v
        else: #tenemos que completar esta parte y hacer lo mismo con no renovables 
        

        df_renovables = pd.json_normalize(response.json()['included'][0]['attributes']['values'])
        df_renovables ['tipo_energía'] = "Renovable"
        df_renovables ['comunidad'] = k 
        df_renovables ['id_comunidad'] = v

        df2 = pd.concat([df2, df_renovables], axis = 0)

        df_no_renovables = pd.json_normalize(response.json()['included'][1]['attributes']['values']) 
        df_no_renovables ['tipo_energía'] = "No_renovable"
        df_no_renovables ['comunidad'] = k 
        df_no_renovables ['id_comunidad'] = v

        df2 = pd.concat([df2, df_no_renovables], axis = 0)

2011


200

200


'OK'

OK


IndexError: list index out of range

In [None]:
# cod_comunidades = {'Ceuta': 8744,
#                     'Melilla': 8745,
#                     'Andalucía': 4,
#                     'Aragón': 5,
#                     'Cantabria': 6,
#                     'Castilla - La Mancha': 7,
#                     'Castilla y León': 8,
#                     'Cataluña': 9,
#                     'País Vasco': 10,
#                     'Principado de Asturias': 11,
#                     'Comunidad de Madrid': 13,
#                     'Comunidad Foral de Navarra': 14,
#                     'Comunitat Valenciana': 15,
#                     'Extremadura': 16,
#                     'Galicia': 17,
#                     'Illes Balears': 8743,
#                     'Canarias': 8742,
#                     'Región de Murcia': 21,
#                     'La Rioja': 20}

El resultado final de este conjunto de datos debe ser el siguiente (VER EN GITBOOK)

3. Guardad los csv ya que mañana los seguiremos usando en los siguientes pairs