- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con la demanda eléctrica.** Las provincias con un PIB más alto o en crecimiento experimentan una mayor demanda de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.

## Tareas Laboratorio Extracción

En el laboratorio de hoy tendrás que extraer la información necesaria para obtener tu objetivo de las siguientes fuentes de datos (deberás usar API's y herramientas de *web scrapping*):

- **Datos de la API de Red Eléctrica Española (REE):** Deberás extraer datos mensuales a nivel provincial de los siguientes aspectos:

  - **Demanda Eléctrica:** Nos proporciona los datos de demanda eléctrica a nivel provincial, agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/demanda/evolucion", añadiendo los parámetros que sean necesarios. 

  - **Generación Eléctrica:** Nos proporciona los datos de generación eléctrica a nivel provincial, diferenciando entre fuentes de energía (eólica, solar, hidroeléctrica, etc.), agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/generacion/estructura-renovables", añadiendo los parámetros que sean necesarios.

  La documentación de la API la encontrarás en [este link](https://www.ree.es/es/apidatos). Recuerda leer en detenimiento la documentación. 

- **Datos del Instituto Nacional de Estadística (INE):** Además de los datos de la REE, debes extraer y utilizar datos socioeconómicos de las siguientes páginas del INE:

- **Datos Demográficos:** Extraer los datos de población por provincias, diferenciando por grupos de edad, sexo, y extrajeros. Estos datos serán utilizados para analizar cómo la población afecta a la demanda eléctrica en cada provincia.

  - **Página web:** [INE - Población por provincias](https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=resultados&idp=1254734710990)

  - "Principales series 1998-2022" --> "Por provincia" --> " Población por provincias, edad (3 grupos de edad), españoles/Extranjeros, Sexo y año"

- **Datos Económicos:**

  - **Página web:** [INE - PIB por provincias](https://www.ine.es/dynt3/inebase/es/index.htm?padre=10426&capsel=10429). 

  - **Pasos para la extracción**:" Resultados provinciales. Serie contable 2016-2021" --> "P.I.B. a precios de mercado y valor añadido bruto a precios básicos por ramas de actividad: Precios corrientes por provincias y periodo."



NOTA1: Tienes que sacar muchos datos, pero recuerda que hemos aprendido herramientas de asincronia que te pueden ayudar en este paso de la ETL. 

NOTA2: Todos estos datos los debes sacar para los años 2019-2020-2021

In [1]:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from time import sleep
# Selenium para establecer la configuración del driver
# -----------------------------------------------------------------------
from selenium import webdriver

# Para generar una barra de proceso en los bucles for
# -----------------------------------------------------------------------
from tqdm import tqdm

# Para trabajar con ficheros
# -----------------------------------------------------------------------
import os

import re


In [2]:
chrome_options = webdriver.ChromeOptions()

url = "https://www.ine.es/dynt3/inebase/es/index.htm?type=pcaxis&path=/t20/e245/p08/&file=pcaxis&dh=0&capsel=2"

driver = webdriver.Chrome(options= chrome_options) # le decimos las opciones que hemos hecho previamente

driver.get(url)
driver.maximize_window()
driver.implicitly_wait(5)

In [3]:
try:
    driver.find_element('xpath', '/html/body/div/main/section[2]/div[1]/div[1]/div[1]/ul/li/ul/li[3]/a').click()
except: 
    print('No encuentro el botón')


No encuentro el botón


In [4]:
driver.execute_script("window.scrollBy(0, 500);") 
sleep(3)

In [5]:
try:
    driver.find_element('xpath', '/html/body/div[1]/main/div[2]/ul/li[4]/ul/li[1]/a').click()
except:
    print('No encuentro provincia')
sleep(3)


In [6]:
try:
    driver.find_element('xpath', '/html/body/div/main/form/ul/li[1]/ul/li[1]/div/fieldset/select/option[1]').click()
except:
    print('No encuentro las provincias')
sleep(3)


In [7]:
try:
    driver.find_element('css selector', '#cri1').click()
except:
    print('No encuentro las edades')
sleep(3)

No encuentro las edades


In [8]:
try:
    driver.find_element('css selector', '#cri2').click()
except:
    print('No encuentro si son españoles o extranjeros')
sleep(3)

No encuentro si son españoles o extranjeros


In [None]:
try:
    driver.find_element('css selector', '#cri3').click()
except:
    print('No encuentro si son españoles o extranjeros')
sleep(3)

In [9]:
try:
    driver.find_element('xpath', '/html/body/div/main/form/ul/li[1]/ul/li[5]/div/fieldset/select/option[2]').click()
except:
    print('No encuentro si es 2021')
sleep(3)

In [10]:
try:
    driver.find_element('xpath', '/html/body/div/main/form/ul/li[1]/ul/li[5]/div/fieldset/select/option[3]').click()
except:
    print('No encuentro si es 2020')
sleep(3)


In [11]:
try:
    driver.find_element('css selector', '/html/body/div/main/form/ul/li[1]/ul/li[5]/div/fieldset/select/option[4]').click()
except:
    print('No encuentro si es 2019')
sleep(3)

No encuentro si es 2019


In [12]:
# hacer click a el download
# try:
#     driver.find_element('xpath', '/html/body/div[1]/main/div[2]/ul/li[4]/ul/li[1]/div/a[1]').click()
# except:
#     print('No encuentro provincia')
# sleep(2)

In [13]:
# try:
#     driver.find_element('xpath', '').click()
# except:
#     print('No encuentro el botón')
# sleep(2)


In [14]:
    # cod_comunidades = {'Ceuta': 8744,
    #                     'Melilla': 8745,
    #                     'Andalucía': 4,
    #                     'Aragón': 5,
    #                     'Cantabria': 6,
    #                     'Castilla - La Mancha': 7,
    #                     'Castilla y León': 8,
    #                     'Cataluña': 9,
    #                     'País Vasco': 10,
    #                     'Principado de Asturias': 11,
    #                     'Comunidad de Madrid': 13,
    #                     'Comunidad Foral de Navarra': 14,
    #                     'Comunitat Valenciana': 15,
    #                     'Extremadura': 16,
    #                     'Galicia': 17,
    #                     'Illes Balears': 8743,
    #                     'Canarias': 8742,
    #                     'Región de Murcia': 21,
    #                     'La Rioja': 20}

In [15]:
# no tocar, esto llama el download
# iframe = WebDriverWait(driver, 10).until(EC.presence_of_element_located(('xpath', '//*[@id="thickBoxINEfrm"]'))) # usamos xpath porque si
# driver.switch_to.frame(iframe) # para que busque por delante

# # espera hasta que encuentre un elemento localizado 
# # p### para buscar la web de las cookies, inspeccionar y luego ctrl + f
# try: 
#     driver.find_element("xpath", '/html/body/ul/li[4]/a').click()
# except:
#     print('No encuentro el botón')
# sleep(5)
# driver.switch_to.default_content()