#### PAIR PROGRAMMING - ETL 1

En el marco de un proyecto de análisis de datos, se requiere realizar una ETL para integrar información de distintas fuentes de datos. La empresa para la que trabajamos cuenta con una base de datos de la informacion sobre el número de personas censadas en las distintas Comunidades Autónomas españolas desde el año 1998 hasta el 2022. Quieren enriquecer los datos con información de la generación de energías renovables y no renovables y crear una base de datos más completa. Para esto nos piden que usemos la API de REData la cual nos da mucha información sobre el mercado energético en España. La documentación la encontraréis aquí (Gitbook)

In [5]:
from IPython.core.interactiveshell import InteractiveShell # Nos permite mostar más de una salida por celda
InteractiveShell.ast_node_interactivity = "all" # Nos permite mostar más de una salida por celda

import requests
import pandas as pd
import numpy as np

##### Requisitos de este ejercicio de pair programming:

1. Nuestros jefes están especialmente interesados en los datos de generación de las energías renovables y no renovables a nivel nacional. En concreto, nos piden sacar toda la información para las fechas de 1 de Enero del 2011 hasta el 31 de Diciembre del 2022. De toda la información que tenemos de generación queremos la evolucion de renovable y no renovable. Además deberemos incluir una columna nueva identificando si el dato corresponde a energía renovable o no renovable. 

NOTA: nos piden que el código debe estar en una función. Al final deberemos tener un dataframe como el siguiente:

In [1]:
# url1 = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date=2011-01-01T00:00&end_date=2022-01-31T23:59&time_trunc=year'

In [None]:
url1 = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año_inicio}-01-01T00:00&end_date={año_inicio + 1}-01-31T23:59&time_trunc=year'

In [25]:
año_inicio = 2011
año_final = 2023

In [46]:
url = 'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date=2011-01-01T00:00&end_date=2011-12-31T23:59&time_trunc=month'

In [47]:
response = requests.get(url)

In [48]:
response.status_code

200

In [49]:
response.reason

'OK'

In [50]:
response.json()['included'][0]['attributes']['values']

[{'value': 9918268.536,
  'percentage': 0.3827907635999176,
  'datetime': '2011-01-01T00:00:00.000+01:00'},
 {'value': 7991499.8525,
  'percentage': 0.34539728666246566,
  'datetime': '2011-02-01T00:00:00.000+01:00'},
 {'value': 9606067.697,
  'percentage': 0.38313491871765465,
  'datetime': '2011-03-01T00:00:00.000+01:00'},
 {'value': 8123455.767,
  'percentage': 0.374645327606978,
  'datetime': '2011-04-01T00:00:00.000+02:00'},
 {'value': 7251163.8615,
  'percentage': 0.3315832492156598,
  'datetime': '2011-05-01T00:00:00.000+02:00'},
 {'value': 6452804.794,
  'percentage': 0.28622384987819477,
  'datetime': '2011-06-01T00:00:00.000+02:00'},
 {'value': 6498576.444,
  'percentage': 0.2712500834748904,
  'datetime': '2011-07-01T00:00:00.000+02:00'},
 {'value': 5727787.99,
  'percentage': 0.24520399433014006,
  'datetime': '2011-08-01T00:00:00.000+02:00'},
 {'value': 4933369.656,
  'percentage': 0.21408577261430467,
  'datetime': '2011-09-01T00:00:00.000+02:00'},
 {'value': 5622637.3765

In [41]:
response.json()['included'][1]['attributes']['values']

[{'value': 159732166.7370002,
  'percentage': 0.5780793447830334,
  'datetime': '2022-01-01T00:00:00.000+01:00'}]

In [51]:
df_renovables = pd.json_normalize(response.json()['included'][0]['attributes']['values'])

In [52]:
df_renovables

Unnamed: 0,value,percentage,datetime
0,9918269.0,0.382791,2011-01-01T00:00:00.000+01:00
1,7991500.0,0.345397,2011-02-01T00:00:00.000+01:00
2,9606068.0,0.383135,2011-03-01T00:00:00.000+01:00
3,8123456.0,0.374645,2011-04-01T00:00:00.000+02:00
4,7251164.0,0.331583,2011-05-01T00:00:00.000+02:00
5,6452805.0,0.286224,2011-06-01T00:00:00.000+02:00
6,6498576.0,0.27125,2011-07-01T00:00:00.000+02:00
7,5727788.0,0.245204,2011-08-01T00:00:00.000+02:00
8,4933370.0,0.214086,2011-09-01T00:00:00.000+02:00
9,5622637.0,0.252821,2011-10-01T00:00:00.000+02:00


In [53]:
df_renovables ['tipo_energía'] = "Renovable"

In [54]:
df_renovables

Unnamed: 0,value,percentage,datetime,tipo_energía
0,9918269.0,0.382791,2011-01-01T00:00:00.000+01:00,Renovable
1,7991500.0,0.345397,2011-02-01T00:00:00.000+01:00,Renovable
2,9606068.0,0.383135,2011-03-01T00:00:00.000+01:00,Renovable
3,8123456.0,0.374645,2011-04-01T00:00:00.000+02:00,Renovable
4,7251164.0,0.331583,2011-05-01T00:00:00.000+02:00,Renovable
5,6452805.0,0.286224,2011-06-01T00:00:00.000+02:00,Renovable
6,6498576.0,0.27125,2011-07-01T00:00:00.000+02:00,Renovable
7,5727788.0,0.245204,2011-08-01T00:00:00.000+02:00,Renovable
8,4933370.0,0.214086,2011-09-01T00:00:00.000+02:00,Renovable
9,5622637.0,0.252821,2011-10-01T00:00:00.000+02:00,Renovable


In [57]:
df = pd.DataFrame()
df.shape

(0, 0)

In [23]:
diccionario = {}

for año in range(año_inicio, año_final):
    
    print(año)

    response = requests.get(f'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year')

    response.status_code
    print(response.status_code)

    response.reason
    print(response.reason)


In [27]:
for año in range(año_inicio, año_final):
    print(año)

    response = requests.get(f'https://apidatos.ree.es/es/datos/generacion/evolucion-renovable-no-renovable?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=year')

    response.status_code
    print(response.status_code)

    response.reason
    print(response.reason)


2011


200

200


'OK'

OK
2012


200

200


'OK'

OK
2013


200

200


'OK'

OK
2014


200

200


'OK'

OK
2015


200

200


'OK'

OK
2016


200

200


'OK'

OK
2017


200

200


'OK'

OK
2018


200

200


'OK'

OK
2019


200

200


'OK'

OK
2020


200

200


'OK'

OK
2021


200

200


'OK'

OK
2022


200

200


'OK'

OK


In [None]:
if año_inicio > año_final:
        break
    else:
        pass

    diccionario.update(response.json())

2. Sacaremos la misma información que en el ejericio anterior, pero en este caso por CCAA. Para esto necesitaremos los códigos de cada una de las comunidades autónomas que encontraréis en el siguiente diccionario:

In [None]:
url2 = 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2014-01-01T00:00&end_date=2018-12-31T23:59&time_trunc=year&geo_trunc=electric_system&geo_limit=ccaa&geo_ids=7'

In [None]:
# cod_comunidades = {'Ceuta': 8744,
#                     'Melilla': 8745,
#                     'Andalucía': 4,
#                     'Aragón': 5,
#                     'Cantabria': 6,
#                     'Castilla - La Mancha': 7,
#                     'Castilla y León': 8,
#                     'Cataluña': 9,
#                     'País Vasco': 10,
#                     'Principado de Asturias': 11,
#                     'Comunidad de Madrid': 13,
#                     'Comunidad Foral de Navarra': 14,
#                     'Comunitat Valenciana': 15,
#                     'Extremadura': 16,
#                     'Galicia': 17,
#                     'Illes Balears': 8743,
#                     'Canarias': 8742,
#                     'Región de Murcia': 21,
#                     'La Rioja': 20}

El resultado final de este conjunto de datos debe ser el siguiente (VER EN GITBOOK)

3. Guardad los csv ya que mañana los seguiremos usando en los siguientes pairs