<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_amarillo@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio ETL: Análisis del Sistema Energético en España

## Objetivo

Durante todos los laboratorios de esta semana realizarás un proceso completo de ETL para analizar la relación entre la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de un año. Además, complementarán este análisis con datos demográficos y económicos extraídos del Instituto Nacional de Estadística (INE). El **objetivo principal** del análisis es **examinar cómo la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de los años están influenciados por factores demográficos y económicos, como la población y el PIB provincial**. El análisis busca identificar patrones y correlaciones entre estas variables para comprender mejor las dinámicas energéticas regionales y su relación con el desarrollo socioeconómico en España.

Antes de realizar el análisis, vamos a definir las hipótesis con las que vamos a trabajar, las cuales definirán todo tu análisis y planteamiento de los laboratorios: 

- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con el consumo eléctrico.** Las provincias con un PIB más alto o en crecimiento experimentan un mayor consumo de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.


## Tareas Laboratorio Carga

En este laboratorio, tu objetivo será diseñar la estructura de una base de datos relacional, crear las tablas necesarias y cargar en ellas los datos limpios y preparados que obtuviste en el laboratorio anterior. Trabajarás con datos relacionados con la demanda, generación eléctrica, y variables socioeconómicas, almacenándolos de manera eficiente para facilitar el análisis y las consultas posteriores.


- **Diseño de la Base de Datos:** Define una estructura de base de datos relacional que sea adecuada para almacenar los datos de demanda eléctrica, generación eléctrica, población y PIB por provincia.

- **Creación de la Base de Datos:** Escribe los scripts SQL necesarios para crear las tablas definidas en la estructura de la base de datos. Asegúrate de definir correctamente los tipos de datos y las restricciones (e.g., `NOT NULL`, `UNIQUE`).

- **Carga de Datos en la Base de Datos:** Utiliza Python para cargar los datos limpios y preparados en las tablas de la base de datos. Asegúrate de que los datos se insertan correctamente, manejando posibles errores o inconsistencias en los datos.


In [1]:
import numpy as np
import pandas as pd
import sys

from src import creacion_insercion_bbdd as ci
from src import soporte_queries_creacion as sqc
from src import soporte_queries_insercion as sqi


Creamos la base de datos y nos conectamos

In [2]:
nombre_bbdd = "energia"

In [3]:
ci.crear_db(nombre_bbdd, "postgres", "admin")

La base de datos ya existe


In [4]:
conexion = ci.establecer_conn(nombre_bbdd, "postgres", "admin")

Creamos las tablas:

In [5]:
conexion.cursor().execute(sqc.query_creation_comunidades)
conexion.cursor().execute(sqc.query_creation_demanda)
conexion.cursor().execute(sqc.query_creation_energia)
conexion.cursor().execute(sqc.query_creation_generacion)
conexion.cursor().execute(sqc.query_creation_provincia)
conexion.cursor().execute(sqc.query_creation_ramas)
conexion.cursor().execute(sqc.query_creation_pib_total)
conexion.cursor().execute(sqc.query_creation_pib_ramas)
conexion.cursor().execute(sqc.query_creation_edades)
conexion.cursor().execute(sqc.query_creation_poblacion)

Insertar datos en las tablas:

In [None]:
df_comunidades = pd.read_csv("datos/DataFrameFinales/df_comunidades.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_comunidades.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_comunidades, lista_tuplas)

In [None]:
df_demanda = pd.read_csv("datos/DataFrameFinales/df_demanda.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_demanda.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_demanda, lista_tuplas)

In [None]:
df_energia = pd.read_csv("datos/DataFrameFinales/df_energia.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_energia.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_energia, lista_tuplas)

In [None]:
df_generacion = pd.read_csv("datos/DataFrameFinales/df_generacion.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_generacion.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_generacion, lista_tuplas)

In [None]:
df_provincia = pd.read_csv("datos/DataFrameFinales/df_provincias.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_provincia.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_provincia, lista_tuplas)

In [None]:
df_edades = pd.read_csv("datos/DataFrameFinales/df_edades.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_edades.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_edades, lista_tuplas)

In [None]:
df_ramas = pd.read_csv("datos/DataFrameFinales/df_ramas.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_ramas.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_ramas, lista_tuplas)

In [None]:
df_pib_total = pd.read_csv("datos/DataFrameFinales/df_pib_total.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_pib_total.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_pib_total, lista_tuplas)

In [None]:
df_pib_ramas = pd.read_csv("datos/DataFrameFinales/df_pib_ramas.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_pib_ramas.values]
tuplas_float = [tuple(float(valor) for valor in tupla) for tupla in lista_tuplas]

ci.dbeaver_commitmany(conexion, sqi.query_carga_pib_ramas, tuplas_float)

In [15]:
df_poblacion = pd.read_csv("datos/DataFrameFinales/df_poblacion.csv", index_col=0)
lista_tuplas = [tuple(fila) for fila in df_poblacion.values]
ci.dbeaver_commitmany(conexion, sqi.query_carga_poblacion, lista_tuplas)