
<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_amarillo@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio ETL: Análisis del Sistema Energético en España

## Objetivo

Durante todos los laboratorios de esta semana realizarás un proceso completo de ETL para analizar la relación entre la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de un año. Además, complementarán este análisis con datos demográficos y económicos extraídos del Instituto Nacional de Estadística (INE). El **objetivo principal** del análisis es **examinar cómo la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de los años están influenciados por factores demográficos y económicos, como la población y el PIB provincial**. El análisis busca identificar patrones y correlaciones entre estas variables para comprender mejor las dinámicas energéticas regionales y su relación con el desarrollo socioeconómico en España.

Antes de realizar el análisis, vamos a definir las hipótesis con las que vamos a trabajar, las cuales definirán todo tu análisis y planteamiento de los laboratorios: 

- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con la demanda eléctrica.** Las provincias con un PIB más alto o en crecimiento experimentan una mayor demanda de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.


## Tareas Laboratorio Extracción

En el laboratorio de hoy tendrás que extraer la información necesaria para obtener tu objetivo de las siguientes fuentes de datos (deberás usar API's y herramientas de *web scrapping*):

- **Datos de la API de Red Eléctrica Española (REE):** Deberás extraer datos mensuales a nivel provincial de los siguientes aspectos:

  - **Demanda Eléctrica:** Nos proporciona los datos de demanda eléctrica a nivel provincial, agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/demanda/evolucion", añadiendo los parámetros que sean necesarios. 

  - **Generación Eléctrica:** Nos proporciona los datos de generación eléctrica a nivel provincial, diferenciando entre fuentes de energía (eólica, solar, hidroeléctrica, etc.), agregados de manera mensual. Tendrás que usar el endpoint de "https://apidatos.ree.es/es/datos/generacion/estructura-renovables", añadiendo los parámetros que sean necesarios.

  La documentación de la API la encontrarás en [este link](https://www.ree.es/es/apidatos). Recuerda leer en detenimiento la documentación. 

- **Datos del Instituto Nacional de Estadística (INE):** Además de los datos de la REE, debes extraer y utilizar datos socioeconómicos de las siguientes páginas del INE:

- **Datos Demográficos:** Extraer los datos de población por provincias, diferenciando por grupos de edad, sexo, y extrajeros. Estos datos serán utilizados para analizar cómo la población afecta a la demanda eléctrica en cada provincia.

  - **Página web:** [INE - Población por provincias](https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=resultados&idp=1254734710990)

  - "Principales series 1998-2022" --> "Por provincia" --> " Población por provincias, edad (3 grupos de edad), españoles/Extranjeros, Sexo y año"

- **Datos Económicos:**

  - **Página web:** [INE - PIB por provincias](https://www.ine.es/dynt3/inebase/es/index.htm?padre=10426&capsel=10429). 

  - **Pasos para la extracción**:" Resultados provinciales. Serie contable 2016-2021" --> "P.I.B. a precios de mercado y valor añadido bruto a precios básicos por ramas de actividad: Precios corrientes por provincias y periodo."



NOTA1: Tienes que sacar muchos datos, pero recuerda que hemos aprendido herramientas de asincronia que te pueden ayudar en este paso de la ETL. 

NOTA2: Todos estos datos los debes sacar para los años 2019-2020-2021

In [1]:
from tqdm import tqdm
import pandas as pd
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from time import sleep
import os
import re
from datetime import datetime

from src import support_llamadas_asincronas as sup_llam
from src import support_base_de_datos as sup_bds

In [2]:
cod_comunidades = {'Ceuta': 8744,
                    'Melilla': 8745,
                    'Andalucía': 4,
                    'Aragón': 5,
                    'Cantabria': 6,
                    'Castilla - La Mancha': 7,
                    'Castilla y León': 8,
                    'Cataluña': 9,
                    'País Vasco': 10,
                    'Principado de Asturias': 11,
                    'Comunidad de Madrid': 13,
                    'Comunidad Foral de Navarra': 14,
                    'Comunitat Valenciana': 15,
                    'Extremadura': 16,
                    'Galicia': 17,
                    'Illes Balears': 8743,
                    'Canarias': 8742,
                    'Región de Murcia': 21,
                    'La Rioja': 20}

anios = ['2019', '2020', '2021']

headers = {
    'Accept': 'application/json;',
    'Content-Type': 'application/json',
    'Host': 'apidatos.ree.es'
}

## Construimos las urls de las que tenemos que obtener la informacion para la 'demanda energetica'.

In [3]:
urls = []

for clave, valor in tqdm(cod_comunidades.items()):
    for anio in anios:
        urls.append({
            'cod_comunidad': valor,
            'nombre_comunidad': clave,
            'anio': anio,
            'url': f'https://apidatos.ree.es/es/datos/demanda/evolucion?start_date={anio}-01-01T00:00&end_date={anio}-12-31T23:59&time_trunc=month&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={valor}'
        })


100%|██████████| 19/19 [00:00<00:00, 18978.75it/s]


In [5]:
resultado = await sup_llam.realizar_solicitudes(urls, headers)

In [6]:
len(resultado)

57

In [8]:
dict_demanda_electrica = []

for i in resultado:
    for valor in i['valores']:
        dict_demanda_electrica.append({
            'valor': valor['value'],
            'porcentaje': valor['percentage'],
            'fecha': valor['datetime'],
            'cod_comunidad': i['cod_comunidad'],
            'nombre_comunidad': i['nombre_comunidad'],
            'anio': i['anio'],
        })

In [9]:
pd.DataFrame(dict_demanda_electrica).to_csv('datos/df_demanad_electrica.csv')

## Ahora hacemos las urls para la generacion electrica

In [3]:
urls_generacion = []

for clave, valor in tqdm(cod_comunidades.items()):
    for anio in anios:
        urls_generacion.append({
            'cod_comunidad': valor,
            'nombre_comunidad': clave,
            'anio': anio,
            'url': f'https://apidatos.ree.es/es/datos/generacion/estructura-renovables?start_date={anio}-01-01T00:00&end_date={anio}-12-31T23:59&time_trunc=month&geo_trunc=electric_system&geo_limit=ccaa&geo_ids={valor}'
        })

100%|██████████| 19/19 [00:00<?, ?it/s]


In [4]:
resultado = await sup_llam.realizar_solicitudes_generacion(urls_generacion, headers)

Error en {'cod_comunidad': 8744, 'nombre_comunidad': 'Ceuta', 'anio': '2019', 'url': 'https://apidatos.ree.es/es/datos/generacion/estructura-renovables?start_date=2019-01-01T00:00&end_date=2019-12-31T23:59&time_trunc=month&geo_trunc=electric_system&geo_limit=ccaa&geo_ids=8744'}: 502
Error en {'cod_comunidad': 8744, 'nombre_comunidad': 'Ceuta', 'anio': '2020', 'url': 'https://apidatos.ree.es/es/datos/generacion/estructura-renovables?start_date=2020-01-01T00:00&end_date=2020-12-31T23:59&time_trunc=month&geo_trunc=electric_system&geo_limit=ccaa&geo_ids=8744'}: 502
Error en {'cod_comunidad': 8744, 'nombre_comunidad': 'Ceuta', 'anio': '2021', 'url': 'https://apidatos.ree.es/es/datos/generacion/estructura-renovables?start_date=2021-01-01T00:00&end_date=2021-12-31T23:59&time_trunc=month&geo_trunc=electric_system&geo_limit=ccaa&geo_ids=8744'}: 502


In [9]:
resultado_bueno = [i for i in resultado if i is not None]

In [11]:
dict_demanda_electrica = []

for i in resultado_bueno:
    for categoria, valores in i["categorias"].items():
        for valor in valores:
            dict_demanda_electrica.append({
                'categoria': categoria,
                'valor': valor['valor'],
                'porcentaje': valor['porcentaje'],
                'fecha': valor['fecha'],
                'color': valor['color'],
                'title': valor['title'],
                'last-update': valor['last-update'],
                'cod_comunidad': i['cod_comunidad'],
                'nombre_comunidad': i['nombre_comunidad'],
                'anio': i['anio'],
            })

In [13]:
pd.DataFrame(dict_demanda_electrica).to_csv('datos/df_generacion_electrica.csv')

## Ahora vamos con la parte del Scrapping

In [2]:
prefs = {
    "download.default_directory": r'C:\HACKIO_DATA\BOOTCAMP\DATA SCIENCIE AR\Modelo5\lab_etl_extra\datos\INE',  # AQUÍ CADA UNO TENDREMOS QUE PONER LA RUTA QUE QUERAMOS PARA QUE SE GUARDEN LOS ARCHIVOS DESCARGADOS
    "download.prompt_for_download": False,   # desactiva el diálogo que Chrome normalmente muestra para pedir confirmación del usuario antes de descargar un archivo
    "directory_upgrade": True,    # hace que Chrome actualice el directorio de descarga predeterminado a la nueva ubicación especificada por download.default_directory si esta ha cambiado.
}

chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("prefs", prefs)

url = 'https://www.ine.es/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177012&menu=resultados&idp=1254734710990'

driver = webdriver.Chrome(options=chrome_options)
driver.get(url)
sleep(2)
driver.find_element(By.ID, "aceptarCookie").click()
driver.find_element(By.LINK_TEXT, 'Por provincia').click()
sleep(0.5)
driver.find_element('xpath', '/html/body/div[1]/main/div[2]/ul/li[4]/ul/li[1]/a').click()
sleep(1)
driver.find_element('xpath', '//*[@id="tg0"]/div/fieldset/div[2]/button[1]').click()
driver.find_element('xpath', '//*[@id="tg1"]/div/fieldset/div[2]/button[1]').click()
driver.find_element('xpath', '//*[@id="tg2"]/div/fieldset/div[2]/button[1]').click()
driver.find_element('xpath', '//*[@id="tg3"]/div/fieldset/div[2]/button[1]').click()
anios = driver.find_element('xpath', '//*[@id="periodo"]').find_elements(By.TAG_NAME, 'option')
for a in anios:
    if (int(a.text) in range(2019,2022)) or (a.get_attribute('selected') == 'true' and int(a.text) not in range(2019,2022)):
        sleep(0.1)
        a.click()
    else:
        break

driver.find_element('xpath', '//*[@id="botonConsulSele"]').click()
WebDriverWait(driver, 20).until(EC.element_to_be_clickable(('xpath', '//*[@id="btnDescargaForm"]'))).click()
download_frame = driver.find_element('xpath', '//*[@id="thickBoxINEfrm"]')
driver.switch_to.frame(download_frame)
WebDriverWait(driver, 20).until(EC.element_to_be_clickable(('xpath', '//*[@id="export"]/ul/li[4]/label'))).click()
sleep(2)
driver.quit()

In [3]:
ine_dir = r'C:\HACKIO_DATA\BOOTCAMP\DATA SCIENCIE AR\Modelo5\lab_etl_extra\datos\INE'
filename = os.listdir(ine_dir)[0]
os.rename(os.path.join(ine_dir, filename), os.path.join(ine_dir, 'datos_demograficos.csv'))

In [2]:
prefs = {
    "download.default_directory": r'C:\HACKIO_DATA\BOOTCAMP\DATA SCIENCIE AR\Modelo5\lab_etl_extra\datos\INE',  # AQUÍ CADA UNO TENDREMOS QUE PONER LA RUTA QUE QUERAMOS PARA QUE SE GUARDEN LOS ARCHIVOS DESCARGADOS
    "download.prompt_for_download": False,   # desactiva el diálogo que Chrome normalmente muestra para pedir confirmación del usuario antes de descargar un archivo
    "directory_upgrade": True,    # hace que Chrome actualice el directorio de descarga predeterminado a la nueva ubicación especificada por download.default_directory si esta ha cambiado.
}

chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option("prefs", prefs)

url = 'https://www.ine.es/dynt3/inebase/es/index.htm?padre=10426&capsel=10429'
driver = webdriver.Chrome(options=chrome_options)
driver.get(url)
sleep(1)
driver.find_element(By.ID, "aceptarCookie").click()
driver.find_element('xpath', '/html/body/div[1]/main/div[2]/ul/li[3]/ul/li[1]/a').click()
sleep(1)
driver.find_element('xpath', '//*[@id="tg0"]/div/fieldset/div[2]/button[1]').click()
driver.find_element('xpath', '//*[@id="tg1"]/div/fieldset/div[2]/button[1]').click()

anios = driver.find_element('xpath', '//*[@id="periodo"]').find_elements(By.TAG_NAME, 'option')
for a in anios:
    a_text = re.search(pattern='\d{4}', string = a.text).group()
    if a.get_attribute('selected') == 'true' and int(a_text) in range(2019,2022):
        continue
    elif (int(a_text) in range(2019,2022)):
        sleep(0.1)
        a.click()
driver.find_element('xpath', '//*[@id="botonConsulSele"]').click()
sleep(2)
WebDriverWait(driver, 20).until(EC.element_to_be_clickable(('xpath', '//*[@id="btnDescargaForm"]'))).click()
download_frame = driver.find_element('xpath', '//*[@id="thickBoxINEfrm"]')
driver.switch_to.frame(download_frame)
WebDriverWait(driver, 20).until(EC.element_to_be_clickable(('xpath', '//*[@id="export"]/ul/li[4]/label'))).click()
sleep(2)
driver.quit()

  a_text = re.search(pattern='\d{4}', string = a.text).group()


In [3]:
ine_dir = r'C:\HACKIO_DATA\BOOTCAMP\DATA SCIENCIE AR\Modelo5\lab_etl_extra\datos\INE'
filename = os.listdir(ine_dir)[0]
os.rename(os.path.join(ine_dir, filename), os.path.join(ine_dir, 'datos_pib.csv'))

<h1 style="color: purple"><b>SEGUNAD PARTE DEL LAB</b></h1>

## Cargamos los datos extraidos

In [13]:
df_generacion = pd.read_csv('datos/df_generacion_electrica.csv', index_col=0)
df_demanda = pd.read_csv('datos/df_demanad_electrica.csv', index_col=0)
df_datos_demograficos= pd.read_csv('datos/INE/datos_demograficos.csv', delimiter=';', encoding='latin1')
df_pib = pd.read_csv('datos/INE/datos_pib.csv', delimiter=';', encoding='latin1')

## Limpieza de los datos

![image.png](attachment:image.png)

In [17]:
df_demanda.sample()

Unnamed: 0,valor,porcentaje,fecha,cod_comunidad,nombre_comunidad,anio,mes,dia
453,2092023.643,1,2020-10-01,15,Comunitat Valenciana,2020,10,1


In [15]:
df_demanda['fecha'] =  df_demanda['fecha'].apply(lambda fecha: pd.to_datetime(pd.to_datetime(fecha).strftime("%Y-%m-%d %H:%M:%S")))
df_demanda['anio'] = df_demanda['fecha'].dt.year
df_demanda['mes'] = df_demanda['fecha'].dt.month
df_demanda['dia'] = df_demanda['fecha'].dt.day

In [32]:
df_demanda.info()

<class 'pandas.core.frame.DataFrame'>
Index: 684 entries, 0 to 683
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   valor             684 non-null    float64       
 1   porcentaje        684 non-null    int64         
 2   fecha             684 non-null    datetime64[ns]
 3   cod_comunidad     684 non-null    int64         
 4   nombre_comunidad  684 non-null    object        
 5   anio              684 non-null    int32         
 6   mes               684 non-null    int32         
 7   dia               684 non-null    int32         
dtypes: datetime64[ns](1), float64(1), int32(3), int64(2), object(1)
memory usage: 40.1+ KB


## Vemos si tenemos nulos

In [34]:
df_demanda.isna().sum()

valor               0
porcentaje          0
fecha               0
cod_comunidad       0
nombre_comunidad    0
anio                0
mes                 0
dia                 0
dtype: int64

## en principio no tenemos inconsistencias en los nombres

In [35]:
df_demanda['nombre_comunidad'].unique()

array(['Ceuta', 'Melilla', 'Andalucía', 'Aragón', 'Cantabria',
       'Castilla - La Mancha', 'Castilla y León', 'Cataluña',
       'País Vasco', 'Principado de Asturias', 'Comunidad de Madrid',
       'Comunidad Foral de Navarra', 'Comunitat Valenciana',
       'Extremadura', 'Galicia', 'Illes Balears', 'Canarias',
       'Región de Murcia', 'La Rioja'], dtype=object)

In [18]:
df_demanda.to_csv('datos/df_demanad_electrica.csv')

![image.png](attachment:image.png)

## Vemos si los campos correspondientes a la energia eolica, solar e hidroelectrica estan bien identificadas

In [36]:
df_generacion.sample()

Unnamed: 0,categoria,valor,porcentaje,fecha,color,title,last-update,cod_comunidad,nombre_comunidad,anio
2965,Hidroeólica,2218.351,0.017476,2019-09-01T00:00:00.000+02:00,#00FFFF,Hidroeólica,2020-01-10T08:42:39.000+01:00,8742,Canarias,2019


In [39]:
df_generacion['categoria'].value_counts()

categoria
Generación renovable    648
Solar fotovoltaica      647
Otras renovables        612
Hidráulica              576
Eólica                  574
Residuos renovables     249
Solar térmica           215
Hidroeólica              36
Name: count, dtype: int64

## vemos los valores atipicos

In [6]:
df_generacion.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
valor,3557.0,185537.049259,358128.907251,0.19,7193.698,30693.045,178686.785,3102351.322
porcentaje,3557.0,0.364633,0.373216,2e-06,0.035674,0.206367,0.653753,1.0
cod_comunidad,3557.0,1246.396964,3042.81371,4.0,8.0,13.0,20.0,8745.0
anio,3557.0,2020.000562,0.816726,2019.0,2019.0,2020.0,2021.0,2021.0


### (vemos que tenemos valores atipicos)

### (esta funcion seria para obtener los valores atipicos)

In [None]:
# Detectar valores atípicos en cada columna numérica
for col in df_generacion[[' ']].columns:
    Q1 = df_generacion[col].quantile(0.25)
    Q3 = df_generacion[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # Filtrar valores atípicos
    outliers = df_generacion[(df_generacion[col] < lower_bound) | (df_generacion[col] > upper_bound)]
    print(f"Valores atípicos en la columna {col}:")
    print(outliers[[col]])


![image.png](attachment:image.png)

In [23]:
df_datos_demograficos.head()

Unnamed: 0,Provincias,Edad (3 grupos de edad),Españoles/Extranjeros,Sexo,Año,Total
0,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2021,47.385.107
1,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2020,47.450.795
2,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Ambos sexos,2019,47.026.208
3,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Hombres,2021,23.222.953
4,TOTAL ESPAÑA,TOTAL EDADES,TOTAL,Hombres,2020,23.255.590


In [31]:
df_datos_demograficos.sample(3)

Unnamed: 0,Provincias,Edad (3 grupos de edad),Españoles/Extranjeros,Sexo,Año,Total
7114,49 Zamora,0-15 años,Extranjeros,Hombres,2020,515.0
3733,22 Huesca,65 y más,Extranjeros,Mujeres,2020,445.0
2241,12 Castellón/Castelló,16-64 años,Españoles,Ambos sexos,2021,312.603


In [8]:
df_datos_demograficos['id'] = df_datos_demograficos['Provincias'].apply(lambda x: x.split()[0] if x != 'TOTAL ESPAÑA' else '999')
df_datos_demograficos['Provincias'] = df_datos_demograficos['Provincias'].apply(lambda x: ' '.join(x.split()[1:]) if x != 'TOTAL ESPAÑA' else x)

### guardamos el dataframe tratado

In [None]:
#df_datos_demograficos.to_csv('datos/INE/tratados/df_datos_demograficos_tratado.csv')

In [9]:
df_datos_demograficos.sample(2)

Unnamed: 0,Provincias,Edad (3 grupos de edad),Españoles/Extranjeros,Sexo,Año,Total,id
2027,Cantabria,TOTAL EDADES,Españoles,Ambos sexos,2019,548.295,39
3931,León,0-15 años,TOTAL,Mujeres,2020,24.934,24


## Eliminamos los datos registrados en '% Extranjeros'

In [18]:
df_datos_demograficos['Españoles/Extranjeros'] = df_datos_demograficos['Españoles/Extranjeros'].str.replace('% ','')

In [31]:
df_datos_demograficos.drop(index=df_datos_demograficos[df_datos_demograficos['Edad (3 grupos de edad)'] == 'TOTAL EDADES'].index, inplace=True)

In [38]:
df_datos_demograficos.drop(index=df_datos_demograficos[df_datos_demograficos['Provincias'] == 'TOTAL ESPAÑA'].index, inplace=True)

In [None]:
#df_datos_demograficos.to_csv('datos/INE/tratados/df_datos_demograficos_tratado.csv')

![image.png](attachment:image.png)

In [45]:
df_pib.sample()

Unnamed: 0,Provincias,Ramas de actividad,periodo,Total
898,25 Lleida,"B_E. Industrias extractivas, industria manufac...",2020,1.208.932


In [46]:
df_pib['id'] = df_pib['Provincias'].apply(lambda x: x.split()[0])
df_pib['Provincias'] = df_pib['Provincias'].apply(lambda x: " ".join(x.split()[1:]))

In [50]:
df_pib['periodo'] = df_pib['periodo'].str.replace('(P)','')

In [51]:
df_pib['periodo'].unique()

array(['2021', '2020', '2019'], dtype=object)

In [52]:
df_pib.to_csv('datos/INE/tratados/df_pib_tratados.csv')

## Ahora creamos las tablas e insertamos los datos

In [5]:
con, cur = sup_bds.obtener_conexion_bd()

In [6]:
cur.execute("""
CREATE TABLE IF NOT EXISTS generacion_electrica (
    id INTEGER PRIMARY KEY,
    categoria TEXT,
    valor NUMERIC,
    porcentaje NUMERIC,
    fecha DATE,
    color TEXT,
    title TEXT,
    last_update DATE,
    cod_comunidad INTEGER,
    nombre_comunidad TEXT,
    anio INTEGER
);
""")

cur.execute("""
CREATE TABLE IF NOT EXISTS demanda_electrica (
    id INTEGER PRIMARY KEY,
    valor NUMERIC,
    porcentaje INTEGER,
    fecha DATE,
    cod_comunidad INTEGER,
    nombre_comunidad TEXT,
    anio INTEGER,
    mes INTEGER,
    dia INTEGER
);
""")

cur.execute("""
CREATE TABLE IF NOT EXISTS pib (
    id INTEGER PRIMARY KEY,
    provincias TEXT,
    ramas_actividad TEXT,
    periodo INTEGER,
    total NUMERIC
);
""")

cur.execute("""
CREATE TABLE IF NOT EXISTS datos_demograficos (
    id INTEGER PRIMARY KEY,
    provincias TEXT,
    grupo_edad TEXT,
    espanoles_extranjeros TEXT,
    sexo TEXT,
    anio INTEGER,
    total INTEGER
);
""")

In [7]:
sup_bds.guardar_cambios_cerrar_conexion(con, cur)

## Insertamos los datos

In [8]:
con, cur = sup_bds.obtener_conexion_bd()

In [9]:
df_generacion_electrica = pd.read_csv('datos/df_demanad_electrica.csv', index_col=0)
df_demanad_electrica = pd.read_csv('datos/df_demanad_electrica.csv', index_col=0)
df_pib_tratados = pd.read_csv('datos/INE/tratados/df_pib_tratados.csv')
df_datos_demograficos_tratado = pd.read_csv('datos/INE/tratados/df_datos_demograficos_tratado.csv')


In [12]:
df_generacion_electrica.sample(4)

Unnamed: 0,valor,porcentaje,fecha,cod_comunidad,nombre_comunidad,anio
588,756953.464,1,2020-01-01T00:00:00.000+01:00,8742,Canarias,2020
108,957420.099,1,2019-01-01T00:00:00.000+01:00,5,Aragón,2019
215,1048655.126,1,2021-12-01T00:00:00.000+01:00,7,Castilla - La Mancha,2021
644,793300.95,1,2021-09-01T00:00:00.000+02:00,21,Región de Murcia,2021


In [11]:
df_generacion_electrica[df_generacion_electrica['nombre_comunidad'] == 'Ceuta']

Unnamed: 0,valor,porcentaje,fecha,cod_comunidad,nombre_comunidad,anio
0,17830.239,1,2019-01-01T00:00:00.000+01:00,8744,Ceuta,2019
1,16019.527,1,2019-02-01T00:00:00.000+01:00,8744,Ceuta,2019
2,16598.235,1,2019-03-01T00:00:00.000+01:00,8744,Ceuta,2019
3,15221.094,1,2019-04-01T00:00:00.000+02:00,8744,Ceuta,2019
4,16753.54,1,2019-05-01T00:00:00.000+02:00,8744,Ceuta,2019
5,16642.239,1,2019-06-01T00:00:00.000+02:00,8744,Ceuta,2019
6,18185.252,1,2019-07-01T00:00:00.000+02:00,8744,Ceuta,2019
7,18656.52,1,2019-08-01T00:00:00.000+02:00,8744,Ceuta,2019
8,17603.892,1,2019-09-01T00:00:00.000+02:00,8744,Ceuta,2019
9,17669.152,1,2019-10-01T00:00:00.000+02:00,8744,Ceuta,2019


In [10]:
sql_insert_generacion_electrica = sup_bds.generate_insert_script("generacion_electrica", df_generacion_electrica)
sql_insert_demanad_electrica = sup_bds.generate_insert_script("demanad_electrica", df_demanad_electrica)
sql_insert_pib_tratados = sup_bds.generate_insert_script("pib_tratados", df_pib_tratados)
sql_insert_datos_demograficos_tratado = sup_bds.generate_insert_script("datos_demograficos_tratado", df_datos_demograficos_tratado)

In [10]:
sql_insert_generacion_electrica

"INSERT INTO generacion_electrica (valor, porcentaje, fecha, cod_comunidad, nombre_comunidad, anio) VALUES\n(17830.239, 1, '2019-01-01T00:00:00.000+01:00', 8744, 'Ceuta', 2019),\n(16019.527, 1, '2019-02-01T00:00:00.000+01:00', 8744, 'Ceuta', 2019),\n(16598.235, 1, '2019-03-01T00:00:00.000+01:00', 8744, 'Ceuta', 2019),\n(15221.094, 1, '2019-04-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(16753.54, 1, '2019-05-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(16642.239, 1, '2019-06-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(18185.252, 1, '2019-07-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(18656.52, 1, '2019-08-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(17603.892, 1, '2019-09-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(17669.152, 1, '2019-10-01T00:00:00.000+02:00', 8744, 'Ceuta', 2019),\n(17157.331, 1, '2019-11-01T00:00:00.000+01:00', 8744, 'Ceuta', 2019),\n(17711.219, 1, '2019-12-01T00:00:00.000+01:00', 8744, 'Ceuta', 2019),\n(17835.113, 1, '2020-01-01T00:00:00.000+01

In [None]:
cur.execute(sql_insert_generacion_electrica)
cur.execute(sql_insert_demanad_electrica)
cur.execute(sql_insert_pib_tratados)
cur.execute(sql_insert_datos_demograficos_tratado)

In [None]:
sup_bds.guardar_cambios_cerrar_conexion(con, cur)