In [11]:
import pandas as pd

# Cargar el archivo CSV en un DataFrame
# low_memory=False evita advertencias en archivos grandes, dtype="str" mantiene todos los datos como cadenas
ruta_archivo = "../../dades/font/certificats.csv"
df_energia = pd.read_csv(ruta_archivo, low_memory=False, sep=",", dtype="str")


# Seleccionar columnas relevantes
df_energia = df_energia[['data_entrada', 'mundissec', 'comarca', 'poblacio', 'qualificaci_energia']]

# Eliminar filas con valores nulos en cualquier columna seleccionada
df_energia = df_energia.dropna()

# Extraer el año desde la columna 'data_entrada' (suponiendo formato "YYYY/MM/DD")
df_energia.loc[:, 'Año'] = df_energia['data_entrada'].str.split('/').str[2].astype(int)

# Crear nueva columna 'Secciones' concatenando partes específicas de 'mundissec'
df_energia.loc[:, 'Secciones'] = df_energia["mundissec"].str.slice(0, 5) + df_energia["mundissec"].str.slice(6, 11)

# Mostrar las primeras filas del DataFrame
df_energia.head()


Unnamed: 0,data_entrada,mundissec,comarca,poblacio,qualificaci_energia,Año,Secciones
4,02/06/2023,8001801001,Baix Llobregat,Abrera,D,2023,800101001
5,25/02/2016,8001801001,Baix Llobregat,Abrera,B,2016,800101001
6,13/01/2020,8001801001,Baix Llobregat,Abrera,C,2020,800101001
7,14/11/2019,8001801001,Baix Llobregat,Abrera,B,2019,800101001
9,18/04/2017,8001801001,Baix Llobregat,Abrera,A,2017,800101001


In [15]:
#to csv
df_energia.to_csv('../../dades/certificats_procesados.csv', index=False)
df_energia.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1196502 entries, 4 to 1317570
Data columns (total 7 columns):
 #   Column               Non-Null Count    Dtype 
---  ------               --------------    ----- 
 0   data_entrada         1196502 non-null  object
 1   mundissec            1196502 non-null  object
 2   comarca              1196502 non-null  object
 3   poblacio             1196502 non-null  object
 4   qualificaci_energia  1196502 non-null  object
 5   Año                  1196502 non-null  int64 
 6   Secciones            1196502 non-null  object
dtypes: int64(1), object(6)
memory usage: 73.0+ MB


In [None]:
import pandas as pd
import glob

# Cargar archivos CSV dinámicamente desde la carpeta especificada
ruta_archivos = "../../dades/renta/*.csv"
archivos_csv = glob.glob(ruta_archivos)

# Leer y concatenar todos los DataFrames en una sola estructura
df_renta = pd.concat([pd.read_csv(archivo, sep=";") for archivo in archivos_csv], ignore_index=True)

# Eliminar filas con valores nulos en la columna "Secciones"
df_renta = df_renta.dropna(subset=["Secciones"]).copy()

# Filtrar solo las filas con los indicadores de renta deseados
indicadores_validos = ["Renta neta media por persona", "Renta neta media por hogar"]
df_renta = df_renta[df_renta['Indicadores de renta media y mediana'].isin(indicadores_validos)]

# Limpiar la columna "Secciones", manteniendo solo el número de la sección
df_renta['Secciones'] = df_renta['Secciones'].str.split().str[0]

# Mostrar el DataFrame resultante
df_renta


Unnamed: 0,Municipios,Distritos,Secciones,Indicadores de renta media y mediana,Periodo,Total
96,25001 Abella de la Conca,2500101 Abella de la Conca distrito 01,2500101001,Renta neta media por persona,2022,10.999
97,25001 Abella de la Conca,2500101 Abella de la Conca distrito 01,2500101001,Renta neta media por persona,2021,10.830
98,25001 Abella de la Conca,2500101 Abella de la Conca distrito 01,2500101001,Renta neta media por persona,2020,10.498
99,25001 Abella de la Conca,2500101 Abella de la Conca distrito 01,2500101001,Renta neta media por persona,2019,10.280
100,25001 Abella de la Conca,2500101 Abella de la Conca distrito 01,2500101001,Renta neta media por persona,2018,10.078
...,...,...,...,...,...,...
352091,17903 Sant Julià del Llor i Bonmatí,1790301 Sant Julià del Llor i Bonmatí distrito 01,1790301001,Renta neta media por hogar,2019,36.270
352092,17903 Sant Julià del Llor i Bonmatí,1790301 Sant Julià del Llor i Bonmatí distrito 01,1790301001,Renta neta media por hogar,2018,33.277
352093,17903 Sant Julià del Llor i Bonmatí,1790301 Sant Julià del Llor i Bonmatí distrito 01,1790301001,Renta neta media por hogar,2017,31.637
352094,17903 Sant Julià del Llor i Bonmatí,1790301 Sant Julià del Llor i Bonmatí distrito 01,1790301001,Renta neta media por hogar,2016,31.893


In [14]:
#to csv
df_renta.to_csv("../../dades/renta.csv", index=False)
df_renta.info()

<class 'pandas.core.frame.DataFrame'>
Index: 82368 entries, 96 to 352095
Data columns (total 6 columns):
 #   Column                                Non-Null Count  Dtype 
---  ------                                --------------  ----- 
 0   Municipios                            82368 non-null  object
 1   Distritos                             82368 non-null  object
 2   Secciones                             82368 non-null  object
 3   Indicadores de renta media y mediana  82368 non-null  object
 4   Periodo                               82368 non-null  int64 
 5   Total                                 81138 non-null  object
dtypes: int64(1), object(5)
memory usage: 4.4+ MB


In [13]:
#merge data and data_energy by Secciones
data = pd.merge(df_renta,df_energia,left_on=['Secciones','Periodo'],right_on=['Secciones','Año'],how='right')
data.head()

Unnamed: 0,Municipios,Distritos,Secciones,Indicadores de renta media y mediana,Periodo,Total,data_entrada,mundissec,comarca,poblacio,qualificaci_energia,Año
0,,,800101001,,,,02/06/2023,8001801001,Baix Llobregat,Abrera,D,2023
1,08001 Abrera,0800101 Abrera distrito 01,800101001,Renta neta media por persona,2016.0,12.551,25/02/2016,8001801001,Baix Llobregat,Abrera,B,2016
2,08001 Abrera,0800101 Abrera distrito 01,800101001,Renta neta media por hogar,2016.0,33.565,25/02/2016,8001801001,Baix Llobregat,Abrera,B,2016
3,08001 Abrera,0800101 Abrera distrito 01,800101001,Renta neta media por persona,2020.0,14.155,13/01/2020,8001801001,Baix Llobregat,Abrera,C,2020
4,08001 Abrera,0800101 Abrera distrito 01,800101001,Renta neta media por hogar,2020.0,36.954,13/01/2020,8001801001,Baix Llobregat,Abrera,C,2020


In [16]:
#data to csv
data.to_csv("../../dades/total.csv", index=False)