# Pair programming API
Ejercicios de API's: Enunciado - Obtener datos energéticos usando la API de Red Eléctrica. Descripción: La empresa para la que trabajamos dispone de una base de datos que contiene información sobre el número de personas censadas en las distintas Comunidades Autónomas españolas desde 1998 hasta 2022. El objetivo es enriquecer estos datos con información sobre la generación de energía renovable y no renovable, utilizando la API de REData, la cual proporciona información sobre el mercado energético en España. Puedes encontrar la documentación de la API .

1. Extracción de Datos a Nivel Nacional: Extraer datos de generación de energía renovable y no renovable a nivel nacional desde el 1 de enero de 2011 hasta el 31 de diciembre de 2022. La información debe ser recopilada a nivel mensual. Transformar los datos para incluir una columna nueva que identifique si la energía es renovable o no renovable. Almacenar los datos en un DataFrame con la siguiente estructura:

In [12]:
# Instalación de herramientas
!pip install requests



In [6]:
# Librerias para exploración y trasnformación de datos

# Tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd

# Uso de API's
# -----------------------------------------------------------------------
import requests

# Importar librerías para procesamiento de texto
# -----------------------------------------------------------------------
import re

# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

import numpy as np

In [None]:
# Configuración para poder visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames


In [7]:
# Ejercicio realizado con los datos del 2011!

# Definir la url o endpoint a la que ha haremos la llamada y extraer datos en json.

url_energia = "https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2011-01-01T00:00&end_date=2011-12-31T23:59&time_trunc=month"

# Realiza una solicitud GET a la URL proporcionada
energia = requests.get(url_energia)

# Llamada y estado 
print(energia.status_code)   # Se imprime el status.
  
if energia.status_code != 200:   # si el status es diferente a 200 , imprime : 

    print(f"El motivo por el que la llamada falló es {energia.reason}")  # Imprime la razón de la falla.

else: 
    print(f"La llamada fue exitosa {energia.status_code}")  # y si la llamada, fue exitosa, devuelve los datos en formato json en la variable resultados.
    resultados = energia.json()


200
La llamada fue exitosa 200


In [8]:
print(resultados)

{'data': {'type': 'Generación por tecnología', 'id': 'gen1', 'attributes': {'title': 'Generación por tecnología', 'last-update': '2019-06-12T15:32:24.000+02:00', 'description': None}, 'meta': {'cache-control': {'cache': 'HIT', 'expireAt': '2024-03-25T13:45:34'}}}, 'included': [{'type': 'Hidráulica', 'id': '10288', 'groupId': '1', 'attributes': {'title': 'Hidráulica', 'description': None, 'color': '#0090d1', 'type': 'Renovable', 'magnitude': None, 'composite': False, 'last-update': '2019-06-12T15:32:24.000+02:00', 'values': [{'value': 5119512.38, 'percentage': 0.19757364151478785, 'datetime': '2011-01-01T00:00:00.000+01:00'}, {'value': 2998051.279, 'percentage': 0.12956959110916957, 'datetime': '2011-02-01T00:00:00.000+01:00'}, {'value': 3910363.276, 'percentage': 0.15594663753166463, 'datetime': '2011-03-01T00:00:00.000+01:00'}, {'value': 3537937.995, 'percentage': 0.16314748356694456, 'datetime': '2011-04-01T00:00:00.000+02:00'}, {'value': 2797500.027, 'percentage': 0.1279110558374734

In [9]:
resultados.keys() #Vemos cuales son las keys del diccionario resultados.

dict_keys(['data', 'included'])

In [10]:
resultados["included"][0]

{'type': 'Hidráulica',
 'id': '10288',
 'groupId': '1',
 'attributes': {'title': 'Hidráulica',
  'description': None,
  'color': '#0090d1',
  'type': 'Renovable',
  'magnitude': None,
  'composite': False,
  'last-update': '2019-06-12T15:32:24.000+02:00',
  'values': [{'value': 5119512.38,
    'percentage': 0.19757364151478785,
    'datetime': '2011-01-01T00:00:00.000+01:00'},
   {'value': 2998051.279,
    'percentage': 0.12956959110916957,
    'datetime': '2011-02-01T00:00:00.000+01:00'},
   {'value': 3910363.276,
    'percentage': 0.15594663753166463,
    'datetime': '2011-03-01T00:00:00.000+01:00'},
   {'value': 3537937.995,
    'percentage': 0.16314748356694456,
    'datetime': '2011-04-01T00:00:00.000+02:00'},
   {'value': 2797500.027,
    'percentage': 0.1279110558374734,
    'datetime': '2011-05-01T00:00:00.000+02:00'},
   {'value': 2070305.344,
    'percentage': 0.09182271836090777,
    'datetime': '2011-06-01T00:00:00.000+02:00'},
   {'value': 1661925.007,
    'percentage': 0.

In [None]:
# Datos que necesitamos estan dentro de included en 'attributes' : 'title' (tipo_energia) , 'type' (tipo_generacion) , 'values' que esta dentro de attributes 'datetime' y 'value'

In [None]:
# Habia intentado hacer dos bucles for separados, y obvio no funcionaba uno va dentro de otro.

# Dentro de included tenemos attributes con title y type, pero dentro de attributes tenemos una lista de diccionarios de values. 

In [11]:
diccionario_energia = {"tipo_energia":[], "tipo_generacion":[], "fecha":[], "valor":[]}

for r in resultados["included"]:
    for e in r["attributes"]["values"]:
        diccionario_energia["tipo_energia"].append(r["attributes"]['title'])
        diccionario_energia["tipo_generacion"].append(r["attributes"]['type'])
        diccionario_energia["fecha"].append(e["datetime"])
        diccionario_energia["valor"].append(e["value"])



In [12]:
df_energia = pd.DataFrame(diccionario_energia)
df_energia

Unnamed: 0,tipo_energia,tipo_generacion,fecha,valor
0,Hidráulica,Renovable,2011-01-01T00:00:00.000+01:00,5.119512e+06
1,Hidráulica,Renovable,2011-02-01T00:00:00.000+01:00,2.998051e+06
2,Hidráulica,Renovable,2011-03-01T00:00:00.000+01:00,3.910363e+06
3,Hidráulica,Renovable,2011-04-01T00:00:00.000+02:00,3.537938e+06
4,Hidráulica,Renovable,2011-05-01T00:00:00.000+02:00,2.797500e+06
...,...,...,...,...
199,Generación total,Generación total,2011-08-01T00:00:00.000+02:00,2.335928e+07
200,Generación total,Generación total,2011-09-01T00:00:00.000+02:00,2.304389e+07
201,Generación total,Generación total,2011-10-01T00:00:00.000+02:00,2.223963e+07
202,Generación total,Generación total,2011-11-01T00:00:00.000+01:00,2.263136e+07


In [13]:
# Ejercicio realizado para el rango de 2011 a 2023:

# Creamos lista vacía donde incluiremos las url que vamos a appendear desde el 2011 al 2022. 

url_lista = []

for año in range(2011,2023):  # Iteramos en un rango de años que deseamos buscar, y creamos la URL de energia en dinamica. 

    url_energia = f"https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=month"

    url_lista.append(url_energia)  # Añadimos en nuestra lista vacía las url que se extraen del bucle "dinamico".

# Imprimimos la lista fuera del FOR.

url_lista

['https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2011-01-01T00:00&end_date=2011-12-31T23:59&time_trunc=month',
 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2012-01-01T00:00&end_date=2012-12-31T23:59&time_trunc=month',
 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2013-01-01T00:00&end_date=2013-12-31T23:59&time_trunc=month',
 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2014-01-01T00:00&end_date=2014-12-31T23:59&time_trunc=month',
 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2015-01-01T00:00&end_date=2015-12-31T23:59&time_trunc=month',
 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2016-01-01T00:00&end_date=2016-12-31T23:59&time_trunc=month',
 'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2017-01-01T00:00&end_date=2017-12-31T23:59&time_trunc=month',
 'https://api

In [14]:
# Tenemos que extraer los datos en formato json de cada url.

url_lista_json = [] 

for url in url_lista: # Iteramos sobre la lista de url arriba extraida.

    energia = requests.get(url_energia) # Hacemos la llamada  a la url. 

    if energia.status_code != 200:   # Si el status es diferente a 200 , imprime : 

        print(f"El motivo por el que la llamada falló es {energia.reason}")  # Imprime la razón de la falla.

    else: 
        print(f"La llamada fue exitosa {energia.status_code}")  # Y si la llamada, fue exitosa, devuelve los datos en formato json en la variable resultados.
        resultados = energia.json()
        url_lista_json.append(resultados)

url_lista_json

# Hemos repetido el mismo proceso que en el primero, pero aqui le estamos diciendo que incluya en la lista vacia de los json url los resultados de la llamada.

La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200
La llamada fue exitosa 200


[{'data': {'type': 'Generación por tecnología',
   'id': 'gen1',
   'attributes': {'title': 'Generación por tecnología',
    'last-update': '2022-12-12T12:48:47.000+01:00',
    'description': None},
   'meta': {'cache-control': {'cache': 'HIT',
     'expireAt': '2024-03-25T14:32:40'}}},
  'included': [{'type': 'Hidráulica',
    'id': '10288',
    'groupId': '1',
    'attributes': {'title': 'Hidráulica',
     'description': None,
     'color': '#0090d1',
     'type': 'Renovable',
     'magnitude': None,
     'composite': False,
     'last-update': '2022-12-12T12:48:38.000+01:00',
     'values': [{'value': 2085857.451,
       'percentage': 0.08582950714262061,
       'datetime': '2022-01-01T00:00:00.000+01:00'},
      {'value': 1174970.17,
       'percentage': 0.05563114753653532,
       'datetime': '2022-02-01T00:00:00.000+01:00'},
      {'value': 1775478.144,
       'percentage': 0.07797540348807623,
       'datetime': '2022-03-01T00:00:00.000+01:00'},
      {'value': 1802751.588,
    

In [15]:
# Volvemos a repetir el proceso del diccionario con la nueva lista de json.

diccionario_energia2 = {"tipo_energia":[], "tipo_generacion":[], "fecha":[], "valor":[]}

for j in url_lista_json: # Iteramos entrando en cada lista json de las urls.

    for js in j["included"]: # Accedemos a included que es una de las key.

        for jn in js["attributes"]["values"]: # Accedemos a attributes donde dentro estan los values para el datatime y value. 

            diccionario_energia2["tipo_energia"].append(js["attributes"]['title'])
            diccionario_energia2["tipo_generacion"].append(js["attributes"]['type'])
            diccionario_energia2["fecha"].append(jn["datetime"])
            diccionario_energia2["valor"].append(jn["value"])

In [16]:
#Imprimimos los datos en un Dataframe

df_total_energias = pd.DataFrame(diccionario_energia2)
df_total_energias

Unnamed: 0,tipo_energia,tipo_generacion,fecha,valor
0,Hidráulica,Renovable,2022-01-01T00:00:00.000+01:00,2.085857e+06
1,Hidráulica,Renovable,2022-02-01T00:00:00.000+01:00,1.174970e+06
2,Hidráulica,Renovable,2022-03-01T00:00:00.000+01:00,1.775478e+06
3,Hidráulica,Renovable,2022-04-01T00:00:00.000+02:00,1.802752e+06
4,Hidráulica,Renovable,2022-05-01T00:00:00.000+02:00,1.923715e+06
...,...,...,...,...
2467,Generación total,Generación total,2022-08-01T00:00:00.000+02:00,2.528589e+07
2468,Generación total,Generación total,2022-09-01T00:00:00.000+02:00,2.366621e+07
2469,Generación total,Generación total,2022-10-01T00:00:00.000+02:00,2.195664e+07
2470,Generación total,Generación total,2022-11-01T00:00:00.000+01:00,2.152262e+07


2. Extracción de Datos por Comunidad Autónoma: Extraer datos de generación de energía renovable y no renovable por Comunidad Autónoma. Utilizar el diccionario cod_comunidades para obtener los códigos de cada comunidad autónoma. Transformar los datos para incluir una columna que especifique la comunidad autónoma y su identificador. Almacenar los datos en un DataFrame con la siguiente estructura:

In [None]:
# Extraer datos de generación de energía renovable y no renovable por Comunidad Autónoma 

# ID , Transformar los datos para incluir una columna que especifique la comunidad autónoma y su identificador.

# tipo_energia , tipo_generacion, fecha, valor , ccca

In [34]:
# El diccionario de cod_comunidades es:
# diccionario , key y valor : ceuta (key) , 8744(valor) id. 

cod_comunidades = {'Ceuta': 8744,
                    'Melilla': 8745,
                    'Andalucía': 4,
                    'Aragón': 5,
                    'Cantabria': 6,
                    'Castilla - La Mancha': 7,
                    'Castilla y León': 8,
                    'Cataluña': 9,
                    'País Vasco': 10,
                    'Principado de Asturias': 11,
                    'Comunidad de Madrid': 13,
                    'Comunidad Foral de Navarra': 14,
                    'Comunitat Valenciana': 15,
                    'Extremadura': 16,
                    'Galicia': 17,
                    'Illes Balears': 8743,
                    'Canarias': 8742,
                    'Región de Murcia': 21,
                    'La Rioja': 20}

In [18]:
cod_comunidades.items()


dict_items([('Ceuta', 8744), ('Melilla', 8745), ('Andalucía', 4), ('Aragón', 5), ('Cantabria', 6), ('Castilla - La Mancha', 7), ('Castilla y León', 8), ('Cataluña', 9), ('País Vasco', 10), ('Principado de Asturias', 11), ('Comunidad de Madrid', 13), ('Comunidad Foral de Navarra', 14), ('Comunitat Valenciana', 15), ('Extremadura', 16), ('Galicia', 17), ('Illes Balears', 8743), ('Canarias', 8742), ('Región de Murcia', 21), ('La Rioja', 20)])

In [19]:
cod_comunidades.keys()

dict_keys(['Ceuta', 'Melilla', 'Andalucía', 'Aragón', 'Cantabria', 'Castilla - La Mancha', 'Castilla y León', 'Cataluña', 'País Vasco', 'Principado de Asturias', 'Comunidad de Madrid', 'Comunidad Foral de Navarra', 'Comunitat Valenciana', 'Extremadura', 'Galicia', 'Illes Balears', 'Canarias', 'Región de Murcia', 'La Rioja'])

In [20]:
cod_comunidades.values()

dict_values([8744, 8745, 4, 5, 6, 7, 8, 9, 10, 11, 13, 14, 15, 16, 17, 8743, 8742, 21, 20])

In [None]:
# Construccion URL dinamica - CCAA

# geo_limit=ccaa  - Query para indicar todas las CCAA
# &
# geo_ids={v}  - Query para indicar que el valor es el identificador, para poder iterar. 

# v = value (identificador)

In [33]:
# Creamos una variable para almancenar los datos vacia

lista_energia_ccaa={'ccaa':[], 'tipo_energia':[],'tipo_generacion':[],'fecha': [], 'valor':[], 'id':[]}

for k,v in cod_comunidades.items():     # Vamos a iterar por cada clave/valor del diccionario de todos los item que tiene el diccionario. V es el valor indicado al identificador.

    for año in range(2020,2023): # iteramos dentro de cada año del rango indicado

        url_ccaa = f'https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date={año}-01-01T00:00&end_date={año}-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids={v}'

        print(url_ccaa)

        energia = requests.get(url_ccaa) # llamamos a las url para convertirlas en json

        energia_json = energia.json()

        for info in energia_json['included']:  # accedemos al json por cada clave/valor solicitado
            
            lista_energia_ccaa['tipo_energia'].append(info['attributes']['title'])
            lista_energia_ccaa['tipo_generacion'].append(info['attributes']['type'])
            lista_energia_ccaa['fecha'].append(info['attributes']['values'][0]['datetime'])
            lista_energia_ccaa['valor'].append(info['attributes']['values'][0]['value'])
            lista_energia_ccaa['ccaa'].append(k)
            lista_energia_ccaa['id'].append(v)

https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2020-01-01T00:00&end_date=2020-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids=8744
https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2021-01-01T00:00&end_date=2021-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids=8744
https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2022-01-01T00:00&end_date=2022-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids=8744
https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2020-01-01T00:00&end_date=2020-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids=8745
https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2021-01-01T00:00&end_date=2021-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids=8745
https://apidatos.ree.es/es/datos/generacion/estructura-generacion?start_date=2022-01-01T00:00&end_date=2022-12-31T23:59&time_trunc=month&&geo_limit=ccaa&geo_ids=8745
http

In [None]:
# El append esta simplificado de :

#     tipo_energia = info['attributes']['title']
#     tipo_generacion = info['attributes']['type']  
#     fecha = info['attributes']['values'][0]['datetime']
#     valor = info['attributes']['values'][0]['value']

In [35]:
# Convertimos el diccionario de comunidades autónomas en un DataFrame
df_ccaa = pd.DataFrame(lista_energia_ccaa)

# Imprimimos el DataFrame de las comunidades
df_ccaa

Unnamed: 0,ccaa,tipo_energia,tipo_generacion,fecha,valor,id
0,Ceuta,Motores diésel,No-Renovable,2020-01-01T00:00:00.000+01:00,17833.799,8744
1,Ceuta,Turbina de gas,No-Renovable,2020-01-01T00:00:00.000+01:00,1.314,8744
2,Ceuta,Generación total,Generación total,2020-01-01T00:00:00.000+01:00,17835.113,8744
3,Ceuta,Motores diésel,No-Renovable,2021-01-01T00:00:00.000+01:00,18537.330,8744
4,Ceuta,Turbina de gas,No-Renovable,2021-01-01T00:00:00.000+01:00,1.326,8744
...,...,...,...,...,...,...
500,La Rioja,Eólica,Renovable,2022-01-01T00:00:00.000+01:00,97861.890,20
501,La Rioja,Solar fotovoltaica,Renovable,2022-01-01T00:00:00.000+01:00,10301.269,20
502,La Rioja,Otras renovables,Renovable,2022-01-01T00:00:00.000+01:00,717.291,20
503,La Rioja,Cogeneración,No-Renovable,2022-01-01T00:00:00.000+01:00,149.672,20
