# DATA PROCESSING

El objetivo de este notebook es cargar cada uno de los archivos csv que contienen los datos de los diferentes datasets y realizar un preprocesamiento de los mismos para posteriormente combinarlos en un único dataFrame.

En el preprocesamiento se realizarán las siguientes tareas:
- Cargar los datos en un dataFrame
- Eliminar las columnas o filas de datos totales
- Eliminar los datos a nivel nacional
- Eliminar las columnas con el nombre de la comunidad autónoma para evitar duplicidad.

## Preparación del entorno

In [None]:
import pandas as pd
import os

RAW_DATA_PATH = os.path.join("..", "data/raw/")


## Consumo Electrico Anual

## Dispositivos de energía renovable

## Distribución de edad de la población española

In [45]:
edad_df=pd.read_csv(RAW_DATA_PATH+"Distribución de edad de la población española.csv", sep = ";", encoding = "latin")

edad_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12672 entries, 0 to 12671
Data columns (total 8 columns):
 #   Column                            Non-Null Count  Dtype 
---  ------                            --------------  ----- 
 0   Total Nacional                    12672 non-null  object
 1   Comunidades y Ciudades Autónomas  12496 non-null  object
 2   Provincias                        9152 non-null   object
 3   Españoles/Extranjeros             12672 non-null  object
 4   Edad (grupos quinquenales)        12672 non-null  object
 5   Sexo                              12672 non-null  object
 6   Periodo                           12672 non-null  object
 7   Total                             12672 non-null  object
dtypes: object(8)
memory usage: 792.1+ KB


In [46]:
# ejemplo de los datos de la tabla para una provincia
edad_df.head(600).tail(8)

Unnamed: 0,Total Nacional,Comunidades y Ciudades Autónomas,Provincias,Españoles/Extranjeros,Edad (grupos quinquenales),Sexo,Periodo,Total
592,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2022,83.985
593,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2021,87.048
594,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2020,90.338
595,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2019,93.464
596,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2018,96.477
597,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2017,99.754
598,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2016,102.768
599,Total Nacional,01 Andalucía,11 Cádiz,Total,De 35 a 39 años,Total,1 de enero de 2015,104.523


In [47]:
print(edad_df[['Total Nacional', 'Españoles/Extranjeros','Sexo']].nunique())

Total Nacional           1
Españoles/Extranjeros    1
Sexo                     1
dtype: int64


Observamos que las columnas 'Total Nacional', 'Españoles/Extranjeros' y 'Sexo' no aportan ninguna información, por lo que se pueden eliminar.

In [48]:
edad_df.drop(columns=['Total Nacional', 'Españoles/Extranjeros', 'Sexo'], inplace=True)

Hemos decidido quedarnos solo con los datos del 2022, por lo que se pueden eliminar las filas de otros años y después la columna 'Periodo'.

In [49]:
edad_df.drop(edad_df[edad_df['Periodo'] != '1 de enero de 2022'].index, inplace=True)
edad_df.drop(columns=['Periodo'], inplace=True)

Los primeros registros del dataset son los datos a nivel nacional, donde la comunidad autónoma y la provincia son valores nulos, por lo que se pueden eliminar. Además, se eliminará la columna 'Comunidades y Ciudades Autónomas' y las filas con los totales en 'Edad'.

In [50]:
edad_df.head()

Unnamed: 0,Comunidades y Ciudades Autónomas,Provincias,Edad (grupos quinquenales),Total
0,,,Todas las edades,47.475.420
8,,,De 0 a 4 años,1.809.768
16,,,De 5 a 9 años,2.236.911
24,,,De 10 a 14 años,2.517.373
32,,,De 15 a 19 años,2.471.599


In [51]:
edad_df.dropna(subset=["Comunidades y Ciudades Autónomas", "Provincias"], inplace=True)
edad_df.drop(columns=['Comunidades y Ciudades Autónomas'], inplace=True)
edad_df.drop(edad_df[edad_df['Edad (grupos quinquenales)'] == 'Todas las edades'].index, inplace=True)

Se eliminará el número que identifica a cada provincia para dejar solo el nombre.

In [52]:
edad_df["Provincias"] = edad_df["Provincias"].str.replace(r"^\d+\s", "", regex=True)

Una vez finalizado el preprocesamiento, el dataset queda con 1092 entradas y 3 columnas.

In [58]:
edad_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1092 entries, Almería to Melilla
Data columns (total 2 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Edad (grupos quinquenales)  1092 non-null   object
 1   Total                       1092 non-null   object
dtypes: object(2)
memory usage: 25.6+ KB


## Intensidad de uso en viviendas

## Producción de energía por lugar

## Renta por hogar por comunidades autónomas

## Salario medio de la población española

## Tipo de núcleo familiar

## Viviendas según el número de personas