<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_amarillo@4x.png?raw=true" alt="esquema" />
</div>


# Laboratorio ETL: Análisis del Sistema Energético en España

## Objetivo

Durante todos los laboratorios de esta semana realizarás un proceso completo de ETL para analizar la relación entre la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de un año. Además, complementarán este análisis con datos demográficos y económicos extraídos del Instituto Nacional de Estadística (INE). El **objetivo principal** del análisis es **examinar cómo la demanda, el consumo y la generación eléctrica en diferentes provincias de España a lo largo de los años están influenciados por factores demográficos y económicos, como la población y el PIB provincial**. El análisis busca identificar patrones y correlaciones entre estas variables para comprender mejor las dinámicas energéticas regionales y su relación con el desarrollo socioeconómico en España.

Antes de realizar el análisis, vamos a definir las hipótesis con las que vamos a trabajar, las cuales definirán todo tu análisis y planteamiento de los laboratorios: 

- **Hipótesis 1: La demanda eléctrica está correlacionada con la población de la provincia.** Provincias con mayor población tienden a tener una mayor demanda eléctrica.
  
- **Hipótesis 2: El crecimiento económico (medido por el PIB) está correlacionado con el consumo eléctrico.** Las provincias con un PIB más alto o en crecimiento experimentan un mayor consumo de energía.

- **Hipótesis 3: La proporción de generación renovable está relacionada con factores económicos o geográficos.** Provincias con un mayor desarrollo económico o con condiciones geográficas favorables (como más horas de sol o viento) tienden a generar más energía renovable.


## Tareas Laboratorio Carga

En este laboratorio, tu objetivo será diseñar la estructura de una base de datos relacional, crear las tablas necesarias y cargar en ellas los datos limpios y preparados que obtuviste en el laboratorio anterior. Trabajarás con datos relacionados con la demanda, generación eléctrica, y variables socioeconómicas, almacenándolos de manera eficiente para facilitar el análisis y las consultas posteriores.





In [40]:
# Manipulación de DataFrames y variables de entorno
# -----------------------------------------------------------------------
import pandas as pd                             # Manipulación y análisis de datos en estructuras DataFrame
import dotenv                                   # Manejo de variables de entorno (.env)
import os                                       # Interacción con el sistema operativo (lectura de variables de entorno)
from datetime import datetime                   # Importación específica de datetime para facilitar manejo de fechas
pd.set_option('display.max_columns', None)
import sys
sys.path.append("../")                          # Añadir rutas externas para importar módulos desde carpetas superiores
from src.SupportCreacionDB import (
    conectarse_a_bd,
    modificar_bd,
    insertar_muchos_datos_bd,
    generar_tupla,
)

from src.SupportInsercionDB import(
    crear_dictio
)

In [41]:
df_demanda = pd.read_csv("datos\DatosFinales\RedElectrica\DemandaElectrica.csv",index_col="Unnamed: 0")
df_generacion = pd.read_csv("datos\DatosFinales\RedElectrica\GeneracionElectrica.csv",index_col="Unnamed: 0")
df_demograficos = pd.read_csv("datos\DatosFinales\INE\DatosDemograficos2019-2021.csv",index_col="Unnamed: 0")
df_pib = pd.read_csv("datos\DatosFinales\INE\DatosPIB2019-2021.csv",index_col="Unnamed: 0")

- **Diseño de la Base de Datos:** Define una estructura de base de datos relacional que sea adecuada para almacenar los datos de demanda eléctrica, generación eléctrica, población y PIB por provincia.


- **Creación de la Base de Datos:** Escribe los scripts SQL necesarios para crear las tablas definidas en la estructura de la base de datos. Asegúrate de definir correctamente los tipos de datos y las restricciones (e.g., `NOT NULL`, `UNIQUE`).


- **Carga de Datos en la Base de Datos:** Utiliza Python para cargar los datos limpios y preparados en las tablas de la base de datos. Asegúrate de que los datos se insertan correctamente, manejando posibles errores o inconsistencias en los datos.

# Unicas
- comunidad
- provincia
- año
- mes

### año

In [42]:
key = os.getenv("sql")
user = "postgres"
db = "modulo5"

In [43]:
conexion = conectarse_a_bd(db,user,key)
cursor = conexion.cursor()

Conectado a la base de datos: modulo5


In [44]:
df_demanda = pd.read_csv("datos\DatosFinales\RedElectrica\DemandaElectrica.csv",index_col="Unnamed: 0")
df_years = pd.DataFrame({"anio" : df_demanda["año"].unique()})
df_months = pd.DataFrame({"mes" : df_demanda["mes"].unique()})

In [45]:
df_years.index = df_years.index + 1
df_years.reset_index(inplace=True)
df_years

Unnamed: 0,index,anio
0,1,2019
1,2,2020
2,3,2021


In [46]:
df_months.index = df_months.index + 1
df_months.reset_index(inplace=True)
df_months

Unnamed: 0,index,mes
0,1,1
1,2,2
2,3,3
3,4,4
4,5,5
5,6,6
6,7,7
7,8,8
8,9,9
9,10,10


In [31]:
tupla_years = generar_tupla(df_years)
tupla_month = generar_tupla(df_months)

# Creamos años

In [29]:
conexion = conectarse_a_bd(db,user,key)
query = """CREATE TABLE IF NOT EXISTS years (
            id_year INT PRIMARY KEY,
            year INT UNIQUE NOT NULL
            );"""
modificar_bd(conexion,query)

Conectado a la base de datos: modulo5
Se ha modificado correctamente la base de Datos


### Insertamos datos

In [11]:
conexion = conectarse_a_bd(db,user,key)
query = """ INSERT INTO years(id_year,year) VALUES (%s,%s)"""
insertar_muchos_datos_bd(conexion,query,tupla_years)

Conectado a la base de datos: modulo5
Se han añadido los valores correctamente


# Creamos años

In [32]:
conexion = conectarse_a_bd(db,user,key)
query = """CREATE TABLE IF NOT EXISTS month (
            id_month INT PRIMARY KEY,
            month INT UNIQUE NOT NULL
            );"""
modificar_bd(conexion,query)

Conectado a la base de datos: modulo5
Se ha modificado correctamente la base de Datos


### Insertamos datos

In [33]:
conexion = conectarse_a_bd(db,user,key)
query = """ INSERT INTO month(id_month,month) VALUES (%s,%s)"""
insertar_muchos_datos_bd(conexion,query,tupla_month)

Conectado a la base de datos: modulo5
Se han añadido los valores correctamente


# Creamos comunidades_autonomas

In [47]:
df_demograficos = pd.read_csv("datos\DatosFinales\INE\DatosDemograficos2019-2021.csv",index_col="Unnamed: 0")

In [48]:
df_demograficos.sample()

Unnamed: 0,comunidad_autonoma,provincias,edad (3 grupos de edad),españoles/extranjeros,sexo,año,total
177,Asturias,Asturias,65 y más,Extranjeros,Mujeres,2021,1440


In [49]:
df_ccaas = pd.DataFrame({"ccaa" : df_demograficos["comunidad_autonoma"].unique()})

In [50]:
df_ccaas.index = df_ccaas.index + 1
df_ccaas.reset_index(inplace=True)
df_ccaas

Unnamed: 0,index,ccaa
0,1,Castilla-La Mancha
1,2,Comunidad Valenciana
2,3,Andalucía
3,4,País Vasco
4,5,Asturias
5,6,Castilla y León
6,7,Extremadura
7,8,Islas Baleares
8,9,Cataluña
9,10,Cantabria


In [8]:
conexion = conectarse_a_bd(db,user,key)
query = """CREATE TABLE IF NOT EXISTS comunidades_autonomas (
            id_ccaas INT PRIMARY KEY,
            comunidad_autonoma VARCHAR(100) UNIQUE NOT NULL
            );"""
modificar_bd(conexion,query)

Conectado a la base de datos: modulo5
Se ha modificado correctamente la base de Datos


In [9]:
tupla_ccaas = generar_tupla(df_ccaas)

### Insertamos Datos

In [12]:
conexion = conectarse_a_bd(db,user,key)
query = """ INSERT INTO comunidades_autonomas(id_ccaas,comunidad_autonoma) VALUES (%s,%s)"""
insertar_muchos_datos_bd(conexion,query,tupla_ccaas)

Conectado a la base de datos: modulo5
Se han añadido los valores correctamente


# Creamos provincias

In [21]:
df_provincias = pd.DataFrame({"provincias":df_pib["provincias"].unique()})

In [22]:
df_provincias.index = df_provincias.index + 1
df_provincias.reset_index(inplace=True)


In [28]:
conexion = conectarse_a_bd(db,user,key)
query = """CREATE TABLE IF NOT EXISTS provincias (
            id_provincia INT PRIMARY KEY,
            provincia VARCHAR(100) UNIQUE NOT NULL
            );"""
modificar_bd(conexion,query)

Conectado a la base de datos: modulo5
Se ha modificado correctamente la base de Datos


In [29]:
tupla_provincias = generar_tupla(df_provincias)

### Insertamos Datos

In [30]:
conexion = conectarse_a_bd(db,user,key)
query = """ INSERT INTO provincias(id_provincia,provincia) VALUES (%s,%s)"""
insertar_muchos_datos_bd(conexion,query,tupla_provincias)

Conectado a la base de datos: modulo5
Se han añadido los valores correctamente


# Ahora es hora de hacer cosas

In [132]:
df_demanda = pd.read_csv("datos\DatosFinales\RedElectrica\DemandaElectrica.csv",index_col="Unnamed: 0")
df_generacion = pd.read_csv("datos\DatosFinales\RedElectrica\GeneracionElectrica.csv",index_col="Unnamed: 0")
df_demograficos = pd.read_csv("datos\DatosFinales\INE\DatosDemograficos2019-2021.csv",index_col="Unnamed: 0")
df_pib = pd.read_csv("datos\DatosFinales\INE\DatosPIB2019-2021.csv",index_col="Unnamed: 0")

In [120]:
df_provincias.sample()


Unnamed: 0,index,provincias
33,34,Ourense


In [88]:
df_years.sample()


Unnamed: 0,index,anio
2,3,2021


In [54]:
df_months.sample()


Unnamed: 0,index,mes
4,5,5


In [55]:
df_ccaas.sample()

Unnamed: 0,index,ccaa
13,14,Región de Murcia


In [38]:
df_demanda.sample()

Unnamed: 0,comunidad_autónoma,demanda (MW),porcentaje (%),mes,año
0,Extremadura,457953.307,1,1,2019


In [133]:
dictio_ccaas = crear_dictio(df_ccaas,"ccaa")
dictio_months = crear_dictio(df_months,"mes")
dictio_years = crear_dictio(df_years,"anio")
dictio_provincias = crear_dictio(df_provincias,"provincias")

In [134]:
df_demanda["comunidad_autónoma"] = df_demanda["comunidad_autónoma"].map(dictio_ccaas)
df_generacion["comunidad_autónoma"] = df_generacion["comunidad_autónoma"].map(dictio_ccaas)
df_demograficos["comunidad_autonoma"] = df_demograficos["comunidad_autonoma"].map(dictio_ccaas)
df_pib["comunidad_autonoma"] = df_pib["comunidad_autonoma"].map(dictio_ccaas)
df_demanda = df_demanda.dropna(subset="comunidad_autónoma")
df_generacion = df_generacion.dropna(subset="comunidad_autónoma")
df_demograficos = df_demograficos.dropna(subset="comunidad_autonoma")
df_pib = df_pib.dropna(subset="comunidad_autonoma")

In [135]:
df_demanda.head()

Unnamed: 0,comunidad_autónoma,demanda (MW),porcentaje (%),mes,año
0,3.0,3668893.328,1,1,2019
1,3.0,3152278.091,1,2,2019
2,3.0,3216356.36,1,3,2019
3,3.0,3029639.973,1,4,2019
4,3.0,3154123.467,1,5,2019


In [136]:
df_demanda["mes"] = df_demanda["mes"].map(dictio_months)

In [137]:
df_generacion.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2118 entries, 0 to 2908
Data columns (total 6 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   comunidad_autónoma  2118 non-null   float64
 1   categoria           2118 non-null   object 
 2   generacion (MW)     2118 non-null   float64
 3   porcentaje (%)      2118 non-null   float64
 4   mes                 2118 non-null   int64  
 5   año                 2118 non-null   int64  
dtypes: float64(3), int64(2), object(1)
memory usage: 115.8+ KB


In [138]:
df_demanda["año"] = df_demanda["año"].map(dictio_years)
df_generacion["año"] = df_generacion["año"].map(dictio_years)
df_pib["periodo"] = df_pib["periodo"].map(dictio_years)
df_demograficos["año"] = df_demograficos["año"].map(dictio_years)

In [139]:
df_demanda["comunidad_autónoma"] = df_demanda["comunidad_autónoma"].astype(int)
df_generacion["comunidad_autónoma"] = df_generacion["comunidad_autónoma"].astype(int)

In [140]:
df_generacion

Unnamed: 0,comunidad_autónoma,categoria,generacion (MW),porcentaje (%),mes,año
0,3,Hidráulica,25288.605,2.951685,1,1
1,3,Hidráulica,33933.350,3.077894,2,1
2,3,Hidráulica,35913.000,2.964454,3,1
3,3,Hidráulica,44050.848,4.133966,4,1
4,3,Hidráulica,88535.452,6.849683,5,1
...,...,...,...,...,...,...
2904,14,Otras renovables,3862.063,1.634825,8,3
2905,14,Otras renovables,3315.853,1.525090,9,3
2906,14,Otras renovables,3266.095,1.744503,10,3
2907,14,Otras renovables,2672.051,1.382990,11,3


In [141]:
df_demanda

Unnamed: 0,comunidad_autónoma,demanda (MW),porcentaje (%),mes,año
0,3,3668893.328,1,1,1
1,3,3152278.091,1,2,1
2,3,3216356.360,1,3,1
3,3,3029639.973,1,4,1
4,3,3154123.467,1,5,1
...,...,...,...,...,...
7,14,901082.855,1,8,3
8,14,793300.950,1,9,3
9,14,707168.960,1,10,3
10,14,723781.406,1,11,3


In [143]:
df_pib

Unnamed: 0,comunidad_autonoma,provincias,ramas de actividad,magnitud,periodo,total
0,1,Albacete,"A. Agricultura, ganadería, silvicultura y pesca",Empleo total (miles de personas),3,15.3
1,1,Albacete,"A. Agricultura, ganadería, silvicultura y pesca",Empleo total (miles de personas),2,15.3
2,1,Albacete,"A. Agricultura, ganadería, silvicultura y pesca",Empleo total (miles de personas),1,14.3
3,1,Albacete,"A. Agricultura, ganadería, silvicultura y pesca",Empleo asalariado (miles de personas),3,11.5
4,1,Albacete,"A. Agricultura, ganadería, silvicultura y pesca",Empleo asalariado (miles de personas),2,10.9
...,...,...,...,...,...,...
2179,19,Melilla,"O_U. Administración pública y defensa, segurid...",Empleo total (miles de personas),2,18.0
2180,19,Melilla,"O_U. Administración pública y defensa, segurid...",Empleo total (miles de personas),1,17.7
2181,19,Melilla,"O_U. Administración pública y defensa, segurid...",Empleo asalariado (miles de personas),3,18.3
2182,19,Melilla,"O_U. Administración pública y defensa, segurid...",Empleo asalariado (miles de personas),2,17.5


In [144]:
df_demograficos

Unnamed: 0,comunidad_autonoma,provincias,edad (3 grupos de edad),españoles/extranjeros,sexo,año,total
0,1,Albacete,0-15 años,Españoles,Hombres,3,27304
1,1,Albacete,0-15 años,Españoles,Hombres,2,27979
2,1,Albacete,0-15 años,Españoles,Hombres,1,28513
3,1,Albacete,0-15 años,Españoles,Mujeres,3,25547
4,1,Albacete,0-15 años,Españoles,Mujeres,2,25953
...,...,...,...,...,...,...,...
1867,19,Melilla,65 y más,Extranjeros,Hombres,2,447
1868,19,Melilla,65 y más,Extranjeros,Hombres,1,422
1869,19,Melilla,65 y más,Extranjeros,Mujeres,3,489
1870,19,Melilla,65 y más,Extranjeros,Mujeres,2,486
