# Tarjeta de datos 1

### Hipótesis 1: "Las provincias con una edad media menor y una renta media por hogar mayor a la nacional, suelen estar más concienciadas con el uso de energías renovables y utilizan más dispositivos que aprovechan este tipo de energía."

La justificación de esta hipótesis es que las personas jóvenes suelen estar más concienciadas con el medio ambiente, además de que tienen más tiempo para amortizar la inversión de este tipo de tecnología a lo largo de su vida.
<br>
<br>

### Preparación del entorno

In [86]:
import pandas as pd
import os 

SILVER_DATA_PATH = os.path.join("..", "data/silver/")

### Datos

Primero, cargamos los datasets que utilizaremos en esta tarjeta, los cuales han sido generados a partir del procesamiento inicial de los datos y corresponden a la capa silver.

In [87]:
# Distribución de edad
distribucion_edad_df=pd.read_csv(SILVER_DATA_PATH+"distribucion_edad.csv", sep = ";", encoding = "latin")
distribucion_edad_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 987 entries, 0 to 986
Data columns (total 3 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Provincias                  987 non-null    object 
 1   Edad (grupos quinquenales)  987 non-null    object 
 2   Total                       987 non-null    float64
dtypes: float64(1), object(2)
memory usage: 23.3+ KB


In [88]:
# Renta media
renta_media_hogar_df = pd.read_csv(SILVER_DATA_PATH+"renta_media_hogar.csv", sep = ";", encoding = "latin")
renta_media_hogar_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 141 entries, 0 to 140
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Provincias  141 non-null    object 
 1   Periodo     141 non-null    int64  
 2   Total       141 non-null    float64
dtypes: float64(1), int64(1), object(1)
memory usage: 3.4+ KB


In [89]:
# Dispositivos de energía renovable
dispositivos_renovable_df=pd.read_csv(SILVER_DATA_PATH+"dispositivos_renovable.csv", sep = ";", encoding = "latin")
dispositivos_renovable_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 470 entries, 0 to 469
Data columns (total 4 columns):
 #   Column                                       Non-Null Count  Dtype 
---  ------                                       --------------  ----- 
 0   Provincias                                   470 non-null    object
 1   Ingresos netos                               470 non-null    object
 2   Dispone de dispositivo de energía renovable  470 non-null    object
 3   Total                                        470 non-null    int64 
dtypes: int64(1), object(3)
memory usage: 14.8+ KB


### Procesamiento

#### distribucion_edad_df

Del dataset distribucion_edad_df.csv queremos obtener la información sobre los intervalos de edad de cada año por provincia, además de:

- El total nacional del número de habitantes.
- La edad media a nivel nacional.
- El número de habitantes por provincia.

In [90]:
# Ejemplo de los datos que presenta la tabla
distribucion_edad_df.head(5)

Unnamed: 0,Provincias,Edad (grupos quinquenales),Total
0,Almería,De 0 a 4 años,36.36
1,Almería,De 5 a 9 años,41.033
2,Almería,De 10 a 14 años,43.411
3,Almería,De 15 a 19 años,40.722
4,Almería,De 20 a 24 años,41.532


Total nacional del número de habitantes.

In [91]:
# Elimina los puntos y convierte los valores de 'Total' a enteros
distribucion_edad_df['Total'] = distribucion_edad_df['Total'].apply(lambda x: f"{x:.3f}").str.replace('.', '', regex=False).astype(int)
distribucion_edad_df.head(5)

Unnamed: 0,Provincias,Edad (grupos quinquenales),Total
0,Almería,De 0 a 4 años,36360
1,Almería,De 5 a 9 años,41033
2,Almería,De 10 a 14 años,43411
3,Almería,De 15 a 19 años,40722
4,Almería,De 20 a 24 años,41532


In [92]:
# Sumatorio
poblacion_total = distribucion_edad_df['Total'].sum()
print(f"Población total: {poblacion_total} habitantes")


Población total: 66706996 habitantes


Edad media a nivel nacional

Número de habitantes por provincia

<br>
<br>

#### dispositivos_renovable_df

In [93]:
# Ejemplo de los datos que presenta la tabla
dispositivos_renovable_df.head(12)

Unnamed: 0,Provincias,Ingresos netos,Dispone de dispositivo de energía renovable,Total
0,Albacete,3.000 euros o más,No,13390
1,Albacete,3.000 euros o más,Si,1344
2,Albacete,De 1.000 euros a menos de 1.500 euros,No,38883
3,Albacete,De 1.000 euros a menos de 1.500 euros,Si,2260
4,Albacete,De 1.500 euros a menos de 2.000 euros,No,22329
5,Albacete,De 1.500 euros a menos de 2.000 euros,Si,956
6,Albacete,De 2.000 euros a menos de 3.000 euros,No,24122
7,Albacete,De 2.000 euros a menos de 3.000 euros,Si,1080
8,Albacete,Menos de 1.000 euros,No,47531
9,Albacete,Menos de 1.000 euros,Si,954


Queremos generar un dataset que indique el porcentaje de la provincia que utiliza dispositivos de energía renovable

In [None]:
# Paso 1: Agrupar por 'Provincias' y 'Dispone de dispositivo de energía renovable' y sumar la columna 'Total'
resultado = dispositivos_renovable_df.groupby(['Provincias', 'Dispone de dispositivo de energía renovable'])['Total'].sum().unstack(fill_value=0)
