
<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_amarillo@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio ETL: Análisis del Sistema Energético en España

## Objetivo

Durante todos los laboratorios de esta semana realizarás un proceso completo de ETL para analizar la relación entre la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de un año. Además, complementarán este análisis con datos demográficos y económicos extraídos del Instituto Nacional de Estadística (INE). El **objetivo principal** del análisis es **examinar cómo la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de los años están influenciados por factores demográficos y económicos, como la población y el PIB provincial**. El análisis busca identificar patrones y correlaciones entre estas variables para comprender mejor las dinámicas energéticas regionales y su relación con el desarrollo socioeconómico en España.

Antes de realizar el análisis, vamos a definir las hipótesis con las que vamos a trabajar, las cuales definirán todo tu análisis y planteamiento de los laboratorios: 

- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con la demanda eléctrica.** Las provincias con un PIB más alto o en crecimiento experimentan una mayor demanda de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.


## Tareas Laboratorio Extracción

En el laboratorio de hoy tendrás que extraer la información necesaria para obtener tu objetivo de las siguientes fuentes de datos (deberás usar API's y herramientas de *web scrapping*):

- **Datos de la API de Red Eléctrica Española (REE):** Deberás extraer datos mensuales a nivel provincial de los siguientes aspectos:

  - **Demanda Eléctrica:** Nos proporciona los datos de demanda eléctrica a nivel provincial, agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/demanda/evolucion", añadiendo los parámetros que sean necesarios. 

  - **Generación Eléctrica:** Nos proporciona los datos de generación eléctrica a nivel provincial, diferenciando entre fuentes de energía (eólica, solar, hidroeléctrica, etc.), agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/generacion/estructura-renovables", añadiendo los parámetros que sean necesarios.

  La documentación de la API la encontrarás en [este link](https://www.ree.es/es/apidatos). Recuerda leer en detenimiento la documentación. 

- **Datos del Instituto Nacional de Estadística (INE):** Además de los datos de la REE, debes extraer y utilizar datos socioeconómicos de las siguientes páginas del INE:

- **Datos Demográficos:** Extraer los datos de población por provincias, diferenciando por grupos de edad, sexo, y extrajeros. Estos datos serán utilizados para analizar cómo la población afecta a la demanda eléctrica en cada provincia.

  - **Página web:** [INE - Población por provincias](https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=resultados&idp=1254734710990)

  - "Principales series 1998-2022" --> "Por provincia" --> " Población por provincias, edad (3 grupos de edad), españoles/Extranjeros, Sexo y año"

- **Datos Económicos:**

  - **Página web:** [INE - PIB por provincias](https://www.ine.es/dynt3/inebase/es/index.htm?padre=10426&capsel=10429). 

  - **Pasos para la extracción**:" Resultados provinciales. Serie contable 2016-2021" --> "P.I.B. a precios de mercado y valor añadido bruto a precios básicos por ramas de actividad: Precios corrientes por provincias y periodo."



NOTA1: Tienes que sacar muchos datos, pero recuerda que hemos aprendido herramientas de asincronia que te pueden ayudar en este paso de la ETL. 

NOTA2: Todos estos datos los debes sacar para los años 2019-2020-2021

In [2]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from time import sleep
# Selenium para establecer la configuración del driver
# -----------------------------------------------------------------------
from selenium import webdriver

# Para generar una barra de proceso en los bucles for
# -----------------------------------------------------------------------

from tqdm import tqdm

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os

import re

import zipfile
import shutil

#Para leer los dataframes
#-------------------------------------------------------------------------
import pandas as pd

In [4]:
#Scrapeo INE datos demográficos por provincia

# lo primero que vamos a hacer es configurar nuestras preferencias del navegador para el driver
chrome_options = webdriver.ChromeOptions()

# establacemos las preferencias que queremos
prefs = {
    "download.default_directory": "C:\\Users\\Victor\\Desktop\\Hackio\\Modulos\\Modulo_5\\datos_extraccion",  # AQUÍ CADA UNO TENDREMOS QUE PONER LA RUTA QUE QUERAMOS PARA QUE SE GUARDEN LOS ARCHIVOS DESCARGADOS
    "download.prompt_for_download": False,   # desactiva el diálogo que Chrome normalmente muestra para pedir confirmación del usuario antes de descargar un archivo
    "directory_upgrade": True,    # hace que Chrome actualice el directorio de descarga predeterminado a la nueva ubicación especificada por download.default_directory si esta ha cambiado.
    "safebrowsing.enabled": True # protegemos al driver de sitios web peligrosos
}

# configuramos el navegador Chrome con preferencias específicas definidas en el diccionario prefs
chrome_options.add_experimental_option("prefs", prefs)


Usamos web scraping para descargar del INE los datos de población:

In [None]:
try:
    url_INE = ("https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=resultados&idp=1254734710990")


    driver=webdriver.Chrome(chrome_options)
    driver.get(url_INE)    
    print("entramos en la web")
    driver.maximize_window()
    sleep(2)
    driver.execute_script("window.scrollTo(0, 300)")
    WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/main/section[2]/div[1]/div[1]/div[1]/ul/li/ul/li[2]/a"))
        ).click()
    print("Hemos clickeado en provincias")
    sleep(3)
    
    driver.execute_script("window.scrollTo(0, 500)")
    WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/main/div[2]/ul/li[4]/ul/li[1]/a"))).click()
    print("Hemos entrado en la población por provincias")
    sleep(5)
    driver.execute_script("window.scrollTo(0, 300)")
    sleep(2)
    cantidad_provincias = (driver.find_elements(By.CSS_SELECTOR, "#cri0" ))
    cantidad_provincias[0].find_elements("css selector", "option")[0].click()
    sleep(2)
    
    print(f"hemos seleccionado provincias")
    cantidad_edad = (driver.find_elements(By.CSS_SELECTOR, "#cri1" ))
    for i in range(0,4):
        cantidad_edad[0].find_elements("css selector", "option")[i].click()

    print(f"hemos clickeado edades")
    type(cantidad_provincias)
    sleep(2)

    cantidad_ext = (driver.find_elements(By.CSS_SELECTOR, "#cri2"))

    for i in range(0,3):
        cantidad_ext[0].find_elements("css selector", "option")[i].click()
    print(f"hemos seleccionado extranjeros")
    sleep(2)

    sexo = (driver.find_elements(By.CSS_SELECTOR, "#cri3"))
    for i in range (1,3):
        sexo[0].find_elements("css selector", "option")[i].click()
    print(f"hemos encontrado sexo")
    sleep(2)
    anio = driver.find_elements(By.CSS_SELECTOR,"#periodo")
    for i in range (1,4):
        anio[0].find_elements("css selector", "option")[i].click()
    print(f"hemos encontrado años")
    sleep(2)
    
    driver.execute_script("window.scrollTo(0, 500)")
    WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable(("xpath","/html/body/div[1]/main/form/div[5]/input[3]")
    )).click()
    print("Hemos clickeado el botón de selección")

    sleep(5)

    WebDriverWait(driver, 20).until(
    EC.element_to_be_clickable(("xpath","/html/body/div[1]/main/ul/li/div/div/form[2]/button/i"))).click()
    print("vamos a descargar")
    sleep(4)

# Ya estamos en el sub de descarga, vamos a por los datos del iframe:
    iframe = driver.find_element(By.XPATH, "/html/body/div[7]/article/div/div/iframe")
    print("cambio de iframe")
    driver.switch_to.frame(iframe)
    print("estamos en el iframe")
    lista_carga = WebDriverWait(driver,10).until(EC.element_to_be_clickable(("xpath","/html/body/form/ul/li[3]/label"))).click()
    print("hemos descargado el panel")
    driver.close()


#driver.switch_to.default_content()
except Exception as e:
     
     print(f"{e}")
     driver.close()

entramos en la web
Hemos clickeado en provincias
Hemos entrado en la población por provincias
hemos seleccionado provincias
hemos clickeado edades
hemos seleccionado extranjeros
hemos encontrado sexo
hemos encontrado años
Hemos clickeado el botón de selección


KeyboardInterrupt: 

In [35]:
df_demo = pd.read_csv("../../datos_extraccion/03001.csv", sep = ";", encoding="Latin1")

In [59]:
df_demo["Provincias"].unique()

array(['02 Albacete', '03 Alicante/Alacant', '04 Almería',
       '01 Araba/Álava', '33 Asturias', '05 Ávila', '06 Badajoz',
       '07 Balears, Illes', '08 Barcelona', '48 Bizkaia', '09 Burgos',
       '10 Cáceres', '11 Cádiz', '39 Cantabria', '12 Castellón/Castelló',
       '13 Ciudad Real', '14 Córdoba', '15 Coruña, A', '16 Cuenca',
       '20 Gipuzkoa', '17 Girona', '18 Granada', '19 Guadalajara',
       '21 Huelva', '22 Huesca', '23 Jaén', '24 León', '25 Lleida',
       '27 Lugo', '28 Madrid', '29 Málaga', '30 Murcia', '31 Navarra',
       '32 Ourense', '34 Palencia', '35 Palmas, Las', '36 Pontevedra',
       '26 Rioja, La', '37 Salamanca', '38 Santa Cruz de Tenerife',
       '40 Segovia', '41 Sevilla', '42 Soria', '43 Tarragona',
       '44 Teruel', '45 Toledo', '46 Valencia/València', '47 Valladolid',
       '49 Zamora', '50 Zaragoza', '51 Ceuta', '52 Melilla'], dtype=object)

In [66]:
cols = df_demo["Provincias"].str.split(" ", expand=True)
df_demo["codigo"] = cols[0]
df_demo["provincia"] = cols[1]
df_demo.drop(columns="Provincias", inplace= True)

In [67]:
df_demo.head()

Unnamed: 0,Edad (3 grupos de edad),Españoles/Extranjeros,Sexo,Año,Total,codigo,provincia
0,0-15 años,Españoles,Ambos sexos,2022,51.924,2,Albacete
1,0-15 años,Españoles,Ambos sexos,2021,52.851,2,Albacete
2,0-15 años,Españoles,Ambos sexos,2020,53.932,2,Albacete
3,0-15 años,Españoles,Ambos sexos,2019,55.028,2,Albacete
4,0-15 años,Españoles,Hombres,2022,26.845,2,Albacete


In [None]:
df_demo.to_csv("../../datos_extraccion/df_demografia_ine.csv")

Extracción datos económicos

In [5]:
url_eco = "https://www.ine.es/dynt3/inebase/es/index.htm?padre=10426&capsel=10429"

try:
    driver=webdriver.Chrome(chrome_options)
    driver.get(url_eco)    
    print("entramos en la web")
    driver.maximize_window()

    WebDriverWait(driver, 10).until(
                EC.element_to_be_clickable((By.XPATH, '/html/body/div[1]/main/div[2]/ul/li[3]/ul/li[1]/a'))
            ).click()
    print("Hemos clickeado en provincias")
    #Las provincias y el PIB que necesitamos ya están seleccionados, así que cogemos los años directamente 
    sleep(3)

    sleep(2)
    periodos_eco = (driver.find_elements(By.CSS_SELECTOR, "#periodo"))
    for i in range(1,3):
        periodos_eco[0].find_elements("css selector", "option")[i].click()
    
    print("hemos seleccionado los años")

    driver.execute_script("window.scrollTo(0, 500)")
    WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable(("xpath","/html/body/div[1]/main/form/div[5]/input[3]")
    )).click()
    print("Hemos clickeado el botón de selección")

    sleep(5)

    WebDriverWait(driver, 20).until(
    EC.element_to_be_clickable(("xpath","/html/body/div[1]/main/ul/li/div/div/form[2]/button/i"))).click()
    print("vamos a descargar")
    sleep(4)

# Ya estamos en el sub de descarga, vamos a por los datos del iframe:
    iframe = driver.find_element(By.XPATH, "/html/body/div[7]/article/div/div/iframe")
    print("cambio de iframe")
    driver.switch_to.frame(iframe)
    print("estamos en el iframe")
    lista_carga = WebDriverWait(driver,10).until(EC.element_to_be_clickable(("xpath","/html/body/form/ul/li[3]/label"))).click()
    print("hemos descargado el panel")
    driver.close()
    
#driver.switch_to.default_content()
except Exception as e:
     
     print(f"{e}")
     driver.close()

entramos en la web
Hemos clickeado en provincias
hemos seleccionado los años
Hemos clickeado el botón de selección
vamos a descargar
cambio de iframe
estamos en el iframe
hemos descargado el panel


In [6]:
df_eco = pd.read_csv("../../datos_extraccion/67284.csv", sep = ";", encoding= "Latin1")

In [7]:
#Limpiamos el df

df_eco.drop(columns = "Ramas de actividad", inplace = True)

cols = df_eco["Provincias"].str.split(" ", expand=True)
df_eco["codigo"] = cols[0]
df_eco["provincia"] = cols[1]
df_eco.drop(columns="Provincias", inplace= True)

df_eco["periodo"].replace("2021(P)", "2021",inplace = True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_eco["periodo"].replace("2021(P)", "2021",inplace = True)


In [8]:
df_eco.head()

Unnamed: 0,periodo,Total,codigo,provincia
0,2021,8.663.814,2,Albacete
1,2020,7.855.556,2,Albacete
2,2019,8.475.070,2,Albacete
3,2021,37.279.735,3,Alicante/Alacant
4,2020,33.979.911,3,Alicante/Alacant


In [10]:
df_eco.to_csv("../../datos_extraccion/df_datos_economicos_ine.csv")