# DATA PROCESSING

El objetivo de este notebook es cargar cada uno de los archivos csv que contienen los datos de los diferentes datasets y realizar un preprocesamiento de los mismos para posteriormente combinarlos en un único dataFrame.

En el preprocesamiento se realizarán las siguientes tareas:
- Cargar los datos en un dataFrame
- Eliminar las columnas o filas de datos totales
- Eliminar los datos a nivel nacional
- Eliminar las columnas con el nombre de la comunidad autónoma para evitar duplicidad.

## Preparación del entorno

In [320]:
import pandas as pd
import os

RAW_DATA_PATH = os.path.join("..", "data/raw/")


## Consumo Electrico Anual

## Dispositivos de energía renovable

## Distribución de edad de la población española

In [321]:
edad_df=pd.read_csv(RAW_DATA_PATH+"Distribución de edad de la población española.csv", sep = ";", encoding = "latin")

edad_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12672 entries, 0 to 12671
Data columns (total 8 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Total Nacional                    12672 non-null  object
 1   Comunidades y Ciudades Autónomas  12496 non-null  object
 2   Provincias                        9152 non-null   object
 3   Españoles/Extranjeros             12672 non-null  object
 4   Edad (grupos quinquenales)        12672 non-null  object
 5   Sexo                              12672 non-null  object
 6   Periodo                           12672 non-null  object
 7   Total                             12672 non-null  object
dtypes: object(8)
memory usage: 792.1+ KB


In [322]:
# ejemplo de los datos de la tabla para una provincia
edad_df.head(600).tail(8)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Españoles/Extranjeros,Edad (grupos quinquenales),Sexo,Periodo,Total
592,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2022,83.985
593,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2021,87.048
594,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2020,90.338
595,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2019,93.464
596,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2018,96.477
597,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2017,99.754
598,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2016,102.768
599,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2015,104.523


In [323]:
print(edad_df[['Total Nacional', 'Españoles/Extranjeros','Sexo']].nunique())

Total Nacional           1
Españoles/Extranjeros    1
Sexo                     1
dtype: int64


Observamos que las columnas 'Total Nacional', 'Españoles/Extranjeros' y 'Sexo' no aportan ninguna información, por lo que se pueden eliminar.

In [324]:
edad_df.drop(columns=['Total Nacional', 'Españoles/Extranjeros', 'Sexo'], inplace=True)

Hemos decidido quedarnos solo con los datos del 2022, por lo que se pueden eliminar las filas de otros años y después la columna 'Periodo'.

In [325]:
edad_df.drop(edad_df[edad_df['Periodo'] != '1 de enero de 2022'].index, inplace=True)
edad_df.drop(columns=['Periodo'], inplace=True)

Los primeros registros del dataset son los datos a nivel nacional, donde la comunidad autónoma y la provincia son valores nulos, por lo que se pueden eliminar. Además, se eliminará la columna 'Comunidades y Ciudades Autónomas' y las filas con los totales en 'Edad'.

In [326]:
edad_df.head()

Unnamed: 0,Comunidades y Ciudades Autónomas,Provincias,Edad (grupos quinquenales),Total
0,,,Todas las edades,47.475.420
8,,,De 0 a 4 años,1.809.768
16,,,De 5 a 9 años,2.236.911
24,,,De 10 a 14 años,2.517.373
32,,,De 15 a 19 años,2.471.599


In [327]:
edad_df.dropna(subset=["Comunidades y Ciudades Autónomas", "Provincias"], inplace=True)
edad_df.drop(columns=['Comunidades y Ciudades Autónomas'], inplace=True)
edad_df.drop(edad_df[edad_df['Edad (grupos quinquenales)'] == 'Todas las edades'].index, inplace=True)

Se eliminará el número que identifica a cada provincia para dejar solo el nombre.

In [328]:
edad_df["Provincias"] = edad_df["Provincias"].str.replace(r"^\d+\s", "", regex=True)

Una vez finalizado el preprocesamiento, el dataset queda con 1092 entradas y 3 columnas.

In [329]:
edad_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1092 entries, 360 to 12664
Data columns (total 3 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Provincias                  1092 non-null   object
 1   Edad (grupos quinquenales)  1092 non-null   object
 2   Total                       1092 non-null   object
dtypes: object(3)
memory usage: 34.1+ KB


## Intensidad de uso en viviendas

## Producción de energía por lugar

## Renta por hogar por comunidades autónomas

## Salario medio de la población española

## Tipo de núcleo familiar

In [330]:
tipo_nucleo_familiar_df=pd.read_csv(RAW_DATA_PATH+"Tipo de núcleo familiar.csv", sep = ";", encoding = "latin")

tipo_nucleo_familiar_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1855 entries, 0 to 1854
Data columns (total 4 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Provincias               1855 non-null   object
 1   Tipo de núcleo familiar  1855 non-null   object
 2   Número de hijos          1855 non-null   object
 3   Total                    1855 non-null   object
dtypes: object(4)
memory usage: 58.1+ KB


In [331]:
# Ejemplo de los datos que presenta la tabla
tipo_nucleo_familiar_df.head(800).tail(10)

Unnamed: 0,Provincias,Tipo de núcleo familiar,Número de hijos,Total
790,Granada,"Pareja no casada, con o sin hijos convivientes",Total,35.412
791,Granada,Padre sólo con hijos convivientes,0 hijos conviviendo,0.0
792,Granada,Padre sólo con hijos convivientes,1 hijo conviviendo,4.959
793,Granada,Padre sólo con hijos convivientes,2 o más hijos conviviendo,3.217
794,Granada,Padre sólo con hijos convivientes,0 hijos conviviendo menores de 25 años,4.2
795,Granada,Padre sólo con hijos convivientes,1 hijo conviviendo menor de 25 años,2.442
796,Granada,Padre sólo con hijos convivientes,2 hijos o más conviviendo menores de 25 años,1.534
797,Granada,Padre sólo con hijos convivientes,Total,8.176
798,Granada,Madre sóla con hijos convivientes,0 hijos conviviendo,0.0
799,Granada,Madre sóla con hijos convivientes,1 hijo conviviendo,28.188


En la columna "Provincias", algunas filas están etiquetadas como "Total Nacional". Para simplificar el conjunto de datos, se ha decidido eliminar los registros correspondientes a los datos a nivel nacional.

In [332]:
tipo_nucleo_familiar_df.head(5)

Unnamed: 0,Provincias,Tipo de núcleo familiar,Número de hijos,Total
0,Total Nacional,Total,0 hijos conviviendo,4.484.568
1,Total Nacional,Total,1 hijo conviviendo,4.914.044
2,Total Nacional,Total,2 o más hijos conviviendo,4.368.298
3,Total Nacional,Total,0 hijos conviviendo menores de 25 años,6.973.068
4,Total Nacional,Total,1 hijo conviviendo menor de 25 años,3.349.425


In [333]:
tipo_nucleo_familiar_df = tipo_nucleo_familiar_df[tipo_nucleo_familiar_df['Provincias'] != "Total Nacional"]


In [334]:
tipo_nucleo_familiar_df.head(10)

Unnamed: 0,Provincias,Tipo de núcleo familiar,Número de hijos,Total
35,Albacete,Total,0 hijos conviviendo,33.012
36,Albacete,Total,1 hijo conviviendo,35.351
37,Albacete,Total,2 o más hijos conviviendo,41.228
38,Albacete,Total,0 hijos conviviendo menores de 25 años,52.429
39,Albacete,Total,1 hijo conviviendo menor de 25 años,25.451
40,Albacete,Total,2 hijos o más conviviendo menores de 25 años,31.712
41,Albacete,Total,Total,109.592
42,Albacete,"Pareja casada, con o sin hijos convivientes",0 hijos conviviendo,27.344
43,Albacete,"Pareja casada, con o sin hijos convivientes",1 hijo conviviendo,21.719
44,Albacete,"Pareja casada, con o sin hijos convivientes",2 o más hijos conviviendo,31.743


En la columna "Tipo de núcleo familiar" se ha encontrado un valor "Total", el cual será eliminado.

In [335]:
tipo_nucleo_familiar_df = tipo_nucleo_familiar_df[tipo_nucleo_familiar_df['Tipo de núcleo familiar'] != "Total"]


Lo mismo sucede con la columna "Número de hijos".

In [336]:
tipo_nucleo_familiar_df = tipo_nucleo_familiar_df[tipo_nucleo_familiar_df['Número de hijos'] != "Total"]

En el dataset, el símbolo '.' debe interpretarse como dato que no se proporciona por muestra insuficiente.

In [337]:
columnas_a_verificar = ['Provincias', 'Tipo de núcleo familiar', 'Número de hijos', 'Total']
tipo_nucleo_familiar_df[columnas_a_verificar].apply(lambda x: x == '.').any()

Provincias                 False
Tipo de núcleo familiar    False
Número de hijos            False
Total                      False
dtype: bool

No se han encontrado valores nulos.

Una vez finalizado el preprocesamiento, el dataset queda con 1248 entradas y 4 columnas.

In [338]:
tipo_nucleo_familiar_df.head(10)
tipo_nucleo_familiar_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1248 entries, 42 to 1853
Data columns (total 4 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Provincias               1248 non-null   object
 1   Tipo de núcleo familiar  1248 non-null   object
 2   Número de hijos          1248 non-null   object
 3   Total                    1248 non-null   object
dtypes: object(4)
memory usage: 48.8+ KB


## Viviendas según el número de personas

In [339]:
viviendas_numero_personas_df=pd.read_csv(RAW_DATA_PATH+"Viviendas según el número de personas.csv", sep = ";", encoding = "latin")

viviendas_numero_personas_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1764 entries, 0 to 1763
Data columns (total 6 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Total Nacional                    1764 non-null   object
 1   Comunidades y Ciudades Autónomas  1736 non-null   object
 2   Provincias                        1204 non-null   object
 3   Tamaño del hogar                  1764 non-null   object
 4   Año                               1764 non-null   int64 
 5   Total                             1764 non-null   object
dtypes: int64(1), object(5)
memory usage: 82.8+ KB


In [340]:
# Ejemplo de los datos que presenta la tabla
viviendas_numero_personas_df.head(10)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Tamaño del hogar,Año,Total
0,Total Nacional,,,Total,2023,18.849.621
1,Total Nacional,,,Total,2022,18.791.675
2,Total Nacional,,,Total,2021,18.736.673
3,Total Nacional,,,Total,2020,18.692.279
4,Total Nacional,,,1 persona,2023,4.987.240
5,Total Nacional,,,1 persona,2022,4.933.214
6,Total Nacional,,,1 persona,2021,4.881.986
7,Total Nacional,,,1 persona,2020,4.829.600
8,Total Nacional,,,2 personas,2023,5.804.559
9,Total Nacional,,,2 personas,2022,5.763.142


In [341]:
print(viviendas_numero_personas_df[['Total Nacional']].nunique())

Total Nacional    1
dtype: int64


La columna "Total Nacional" se eliminará ya que no añade valor al conjunto de datos.

In [342]:
viviendas_numero_personas_df.drop(columns=['Total Nacional'], inplace=True)

Se van a eliminar las primeras 28 filas del dataset ya que corresponden a los datos totales nacionales.

In [343]:
viviendas_numero_personas_df = viviendas_numero_personas_df.drop(index=range(0, 28))

Para cada comunidad autónoma, hay filas que corresponden al total de dicha comunidad, lo cual se representa con valores nulos en la columna "Provincias". El inconveniente es que, en comunidades con solo una provincia, los valores de la columna "Provincias" también son nulos. Por esta razón, se desea asignar el nombre de la provincia a las filas de comunidades autónomas que cuentan con una sola provincia y eliminar los valores totales en las comunidades autónomas con varias provincias.

In [344]:
# Definir el diccionario de asignaciones
asignaciones = {
    "03 Asturias, Principado de": "Asturias",
    "04 Balears, Illes": "Balears, Illes",
    "06 Cantabria": "Cantabria",
    "13 Madrid, Comunidad de": "Murcia",
    "14 Murcia, Región de": "Madrid",
    "15 Navarra, Comunidad Foral de":"Navarra", 
    "17 Rioja, La": "Rioja, La",
    "18 Ceuta": "Ceuta",
    "19 Melilla": "Melilla"
}

# Identificar las comunidades autónomas con una sola provincia
comunidades_uniprovinciales = set(asignaciones.keys())

# Reemplazar valores nulos en "Provincias" para comunidades uniprovinciales
for comunidad, provincia in asignaciones.items():
    viviendas_numero_personas_df.loc[(viviendas_numero_personas_df["Comunidades y Ciudades Autónomas"] == comunidad) & (viviendas_numero_personas_df["Provincias"].isnull()), "Provincias"] = provincia

# Eliminar filas de valores totales por comunidad autónoma
viviendas_numero_personas_df = viviendas_numero_personas_df.dropna(subset=["Provincias"])


Se elimina la columna por comunidad autónoma.

In [345]:
viviendas_numero_personas_df = viviendas_numero_personas_df.drop(columns=["Comunidades y Ciudades Autónomas"])

En la columna "Tamaño del hogar", hay filas que contienen el total y otras que indican el tamaño medio. Se eliminarán aquellas que cumplan con cualquiera de estas condiciones.

In [346]:
viviendas_numero_personas_df = viviendas_numero_personas_df[viviendas_numero_personas_df['Tamaño del hogar'] != "Total"]
viviendas_numero_personas_df = viviendas_numero_personas_df[viviendas_numero_personas_df['Tamaño del hogar'] != "Tamaño medio"]

Hemos decidido quedarnos solo con los datos del 2022, por lo que se pueden eliminar las filas de otros años y después la columna 'Año'.

In [347]:
viviendas_numero_personas_df.drop(viviendas_numero_personas_df[viviendas_numero_personas_df['Año'] != 2022].index, inplace=True)
viviendas_numero_personas_df.drop(columns=['Año'], inplace=True)

Una vez finalizado el preprocesamiento, el dataset queda con 260 entradas y 3 columnas.

In [348]:
viviendas_numero_personas_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 260 entries, 61 to 1757
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Provincias        260 non-null    object
 1   Tamaño del hogar  260 non-null    object
 2   Total             260 non-null    object
dtypes: object(3)
memory usage: 8.1+ KB


In [349]:
viviendas_numero_personas_df.head(10)

Unnamed: 0,Provincias,Tamaño del hogar,Total
61,04 Almería,1 persona,62.352
65,04 Almería,2 personas,77.714
69,04 Almería,3 personas,54.438
73,04 Almería,4 personas,51.754
77,04 Almería,5 personas o más,22.374
89,11 Cádiz,1 persona,109.454
93,11 Cádiz,2 personas,131.124
97,11 Cádiz,3 personas,108.196
101,11 Cádiz,4 personas,98.965
105,11 Cádiz,5 personas o más,28.595
