# Tarjeta de datos 1

<hr style="border: none; border-top: 2px solid #ccc;" />

### Hipótesis 2: "Existe una relación entre el porcentaje de viviendas de bajo consumo o esporádicas, de viviendas de consumo medio y de viviendas de alto consumo de una provincia y su tendencia a adoptar dispositivos de energía renovable"

Las viviendas de bajo consumo o esporádicas suelen corresponder a residencias secundarias, utilizadas principalmente durante periodos vacacionales o de forma ocasional. Debido a esto, las provincias con mayor porcentaje de este tipo de residencias suelen tener menor tendencia a adquirir dispositivos de energías renovables debido al poco tiempo que sus propietarios pasan en ellas.

Por otro lado, en las viviendas de alto consumo, sus propietarios suelen tener un poder adquisitivo mayor, y generalmente, prefieren contratar la electricidad a lidiar con los posibles problemas técnicos de este tipo de instalaciones.

Por último, las viviendas de consumo medio representan un equilibrio entre los costes y beneficios de las energías renovables. Por ello, la instalación de dispositivos de energía renovable puede ser una opción atractiva para los propietarios, ya que permite reducir gastos energéticos de manera significativa a medio y largo plazo.

<hr style="border: none; border-top: 1px solid #ccc;" />

### Preparación del entorno

In [None]:
import pandas as pd
import os

SILVER_DATA_PATH = os.path.join("..", "data", "silver")

<hr style="border: none; border-top: 1px solid #ccc;" />

### Definición de datos y estructura de la tarjeta de datos

Para esta segunda hipótesis, se quiere realizar una triple comparación entre cada uno de los tres grupos según la intensidad de uso eléctrico. Estos grupos son los siguientes:

- **<u>Viviendas de bajo consumo</u>**: Pertenecerán a este grupo todas las viviendas con consumo mayor a **0 kwh** (para evitar contabilizar las viviendas vacías) y menor o igual a **750 kwh**.

- **<u>Viviendas de consumo medio</u>**: Este grupo está compuesto por todas aquellas viviendas cuyo consumo eléctrico se sitúa entre **1001 kwh** y **4000 kwh**.

- **<u>Viviendas de alto consumo</u>**: Se considerán viviendas de alto consumo aquellas que superen un umbral de consumo de **6000 kwh**.

En cuanto a la creación de la tarjeta de datos, se utilizarán datasets previamente preprocesados y almacenados en la capa silver. Estos conjuntos de datos contienen información relacionada con la intensidad de uso en viviendas y el uso de dispositivos renovables, desglosada por provincias de España.

Además, se realizarán una serie de transformaciones con los datos disponibles para crear un dataset para esta segunda hipótesis. Este dataset estará listo pra ser utilizado directamente en los modelos de machine learning que se emplearán, sin necesidad de realizar transformaciones adicionales. 

La estructura de la tarjeta de datos es la siguiente:

<table style="border-collapse: collapse; width: 100%; text-align: center;">
  <thead>
    <tr style="background-color: #c7e7c1; color: #000;">
      <th style="border: 1px solid #8bc48a; padding: 8px;">Provincia</th>
      <th style="border: 1px solid #8bc48a; padding: 8px;">Índice de Viviendas de Bajo Consumo</th>
      <th style="border: 1px solid #8bc48a; padding: 8px;">Índice de Viviendas de Consumo Medio</th>
      <th style="border: 1px solid #8bc48a; padding: 8px;">Índice de Viviendas de Alto Consumo</th>
      <th style="border: 1px solid #8bc48a; padding: 8px;">Índice de Viviendas con Dispositivos Renovables</th>
    </tr>
  </thead>
  <tbody>
    <tr style="background-color: #eaf7e6; color: #111">
      <td style="border: 1px solid #8bc48a; padding: 8px;">Albacete</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
    </tr>
    <tr style="background-color: #dff4dc;color: #111"">
      <td style="border: 1px solid #8bc48a; padding: 8px;">Alicante/Alacant</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
    </tr>
    <tr style="background-color: #eaf7e6;color: #111"">
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
      <td style="border: 1px solid #8bc48a; padding: 8px;">~</td>
    </tr>
  </tbody>
</table>


<hr style="border: none; border-top: 1px solid #ccc;" />

### Datos

Inicialmente, se cargan los datasets que se utilizarán para esta tarjeta de datos.

In [None]:
# Dispositivos de energía renovable
dispositivos_renovables_df = pd.read_csv(os.path.join(SILVER_DATA_PATH, "dispositivos_renovable.csv"), sep=";", encoding="latin")
dispositivos_renovables_df.info()

In [None]:
# Intensidad de uso en viviendas
intensidad_uso_viviendas_df = pd.read_csv(os.path.join(SILVER_DATA_PATH, "intensidad_de_uso_en_viviendas.csv"), sep=";", encoding="latin", dtype=str)
intensidad_uso_viviendas_df.info()

<hr style="border: none; border-top: 1px solid #ccc;" />

### Procesamiento

En esta fase, se realizarán las modificaciones y transformaciones necesarias para obtener datos útiles para la tarjeta de datos. Este proceso incluirá la limpieza, la reestructuración y la integración de los datos, asegurando que puedan ser utilizados en fases posteriores.

#### dispositivos_renovables_df

Del dataset `dispositivos_renovable.csv` queremos obtener información sobre el índice de viviendas que tienen al menos algún dispositivo de energía renovable por provincia. Para ello, se deberán realizar los siguientes pasos:

- Eliminar la columna `Ingresos netos`, ya que, para esta hipótesis no nos aporta ninguna información útil.

- Agrupar los registros del dataframe por las columnas `Provincias` y `Dispone de dispositivo de energía renovable` y sumar todos los valores de cada uno de los registros fusionados.

- Para cada provincia, calcular el número total de viviendas mediante la suma de las que no tienen ningún dispositivo de energía renovable y las que si disponen de alguno.

- Calcular el índice de viviendas que tienen algún dispositivo de energía renovable para cada provincia de España.

In [None]:
# Paso 1: Eliminar la columna "Ingresos netos"
dispositivos_renovables_df.drop(columns=["Ingresos netos"], inplace=True)
dispositivos_renovables_df.info()

In [None]:
# Paso 2: Agrupar los registros del dataframe por las columnas `Provincias` y 
# `Dispone de dispositivo de energía renovable` y sumar todos los valores de 
# cada uno de los registros fusionados.
dispositivos_renovables_df = dispositivos_renovables_df.groupby(["Provincias", "Dispone de dispositivo de energía renovable"]).sum()
dispositivos_renovables_df.reset_index(inplace=True)
dispositivos_renovables_df.head()

In [None]:
# Paso 3: Para cada provincia, calcular el número total de viviendas mediante 
# la suma de las que no tienen ningún dispositivo de energía renovable y las 
# que si disponen de alguno.

# Obtener todos los valores unique de la columna `Provincias`
provincias = dispositivos_renovables_df["Provincias"].unique()

# Para cada provincia, calcular el número total de viviendas mediante la suma
viviendas_list = []
for provincia in provincias:
    viviendas = dispositivos_renovables_df[dispositivos_renovables_df["Provincias"] == provincia].sum()
    # Añadir al listado la provincia y el número total de viviendas
    viviendas_list.append({"Provincias": provincia, "Viviendas": viviendas["Total"]})

# Convertir el listado a un dataframe
viviendas_df = pd.DataFrame(viviendas_list)
viviendas_df.head()

In [None]:
# Paso 4: Calcular el índice de viviendas que tienen algún dispositivo de 
# energía renovable para cada provincia de España.

indice_viviendas_renovables_list = []
for provincia in provincias:
    viviendas_renovables = dispositivos_renovables_df[(dispositivos_renovables_df["Provincias"] == provincia) & (dispositivos_renovables_df["Dispone de dispositivo de energía renovable"] == "Sí")].sum()
    viviendas_totales = viviendas_df[viviendas_df["Provincias"] == provincia]["Viviendas"].values[0]
    indice_viviendas_renovables = (viviendas_renovables["Total"] / viviendas_totales)
    indice_viviendas_renovables_list.append({"Provincias": provincia, "Índice de viviendas renovables": indice_viviendas_renovables})

# Convertir el listado a un dataframe
indice_viviendas_renovables_df = pd.DataFrame(indice_viviendas_renovables_list)
indice_viviendas_renovables_df.head()