In [13]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import unicodedata
import os
from unidecode import unidecode

In [15]:
df_poblacio_inactiva_2022 = pd.read_csv('clean_data/2022/df_poblacio_inactiva.csv', delimiter=',')
df_poblacio_inactiva_2021 = pd.read_csv('clean_data/2021/df_poblacio_inactiva.csv', delimiter=',') 

In [17]:
datasets = {
    'df_poblacio_inactiva_2022': df_poblacio_inactiva_2022,
    'df_poblacio_inactiva_2021': df_poblacio_inactiva_2021,
}

# Iterar sobre el diccionari per mostrar les primeres files de cada dataset
for name, df in datasets.items():
    print(f"Info Dataset {name}:")
    display(df.info()) 
    print("\n") 

Info Dataset df_poblacio_inactiva_2022:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 10 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   codi                                             42 non-null     int64  
 1   comarca                                          42 non-null     object 
 2   poblacio_pensionista_de_jubilacio,_prejubilacio  42 non-null     int64  
 3   poblacio_pensionista_d'invalidesa                42 non-null     int64  
 4   poblacio_estudiant                               42 non-null     int64  
 5   poblacio_amb_una_altra_situacio_d'inactivitat    42 non-null     int64  
 6   total_poblacio_inactiva                          42 non-null     int64  
 7   total_poblacio                                   42 non-null     int64  
 8   pct_atur                                         42 non-null     float64

None



Info Dataset df_poblacio_inactiva_2021:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 42 entries, 0 to 41
Data columns (total 10 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   codi                                             42 non-null     int64  
 1   comarca                                          42 non-null     object 
 2   poblacio_pensionista_de_jubilacio,_prejubilacio  42 non-null     int64  
 3   poblacio_pensionista_d'invalidesa                42 non-null     int64  
 4   poblacio_estudiant                               42 non-null     int64  
 5   poblacio_amb_una_altra_situacio_d'inactivitat    42 non-null     int64  
 6   total_poblacio_inactiva                          42 non-null     int64  
 7   total_poblacio                                   42 non-null     int64  
 8   pct_atur                                         42 non-null     float

None





In [19]:
# Crear una llista de DataFrames amb els seus anys corresponents
datasets = [
    (df_poblacio_inactiva_2022, 2022),
    (df_poblacio_inactiva_2021, 2021),
]

# Afegir la columna 'any' i concatenar tots els DataFrames
df_poblacio_inactiva = pd.concat([df.assign(any=year) for df, year in datasets], ignore_index=True)

# Mostrar la información final
df_poblacio_inactiva

Unnamed: 0,codi,comarca,"poblacio_pensionista_de_jubilacio,_prejubilacio",poblacio_pensionista_d'invalidesa,poblacio_estudiant,poblacio_amb_una_altra_situacio_d'inactivitat,total_poblacio_inactiva,total_poblacio,pct_atur,ratio_atur,any
0,1,alt camp,7558,1094,2090,5614,16356,45469,12.35,0.123469,2022
1,2,alt emporda,20492,2163,5896,27505,56056,143950,19.11,0.191073,2022
2,3,alt penedes,16105,2289,4900,14457,37751,110810,13.05,0.130467,2022
3,4,alt urgell,3528,477,893,4222,9120,20458,20.64,0.206374,2022
4,5,alta ribagorca,592,102,195,569,1458,3989,14.26,0.142642,2022
...,...,...,...,...,...,...,...,...,...,...,...
79,38,urgell,5850,778,1727,4707,13062,37239,12.64,0.126400,2021
80,39,aran,1186,180,436,1616,3418,10361,15.60,0.155970,2021
81,40,valles occidental,134506,23300,46379,111502,315687,937386,11.89,0.118950,2021
82,41,valles oriental,58310,9354,19704,51593,138961,415315,12.42,0.124226,2021


In [21]:
df_poblacio_inactiva.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84 entries, 0 to 83
Data columns (total 11 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   codi                                             84 non-null     int64  
 1   comarca                                          84 non-null     object 
 2   poblacio_pensionista_de_jubilacio,_prejubilacio  84 non-null     int64  
 3   poblacio_pensionista_d'invalidesa                84 non-null     int64  
 4   poblacio_estudiant                               84 non-null     int64  
 5   poblacio_amb_una_altra_situacio_d'inactivitat    84 non-null     int64  
 6   total_poblacio_inactiva                          84 non-null     int64  
 7   total_poblacio                                   84 non-null     int64  
 8   pct_atur                                         84 non-null     float64
 9   ratio_atur                        

In [23]:
# Convertir la columna 'codi' a tipus string
df_poblacio_inactiva['codi'] = df_poblacio_inactiva['codi'].apply(lambda x: str(x).zfill(2))
display(df_poblacio_inactiva.head())
df_poblacio_inactiva.info()

Unnamed: 0,codi,comarca,"poblacio_pensionista_de_jubilacio,_prejubilacio",poblacio_pensionista_d'invalidesa,poblacio_estudiant,poblacio_amb_una_altra_situacio_d'inactivitat,total_poblacio_inactiva,total_poblacio,pct_atur,ratio_atur,any
0,1,alt camp,7558,1094,2090,5614,16356,45469,12.35,0.123469,2022
1,2,alt emporda,20492,2163,5896,27505,56056,143950,19.11,0.191073,2022
2,3,alt penedes,16105,2289,4900,14457,37751,110810,13.05,0.130467,2022
3,4,alt urgell,3528,477,893,4222,9120,20458,20.64,0.206374,2022
4,5,alta ribagorca,592,102,195,569,1458,3989,14.26,0.142642,2022


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 84 entries, 0 to 83
Data columns (total 11 columns):
 #   Column                                           Non-Null Count  Dtype  
---  ------                                           --------------  -----  
 0   codi                                             84 non-null     object 
 1   comarca                                          84 non-null     object 
 2   poblacio_pensionista_de_jubilacio,_prejubilacio  84 non-null     int64  
 3   poblacio_pensionista_d'invalidesa                84 non-null     int64  
 4   poblacio_estudiant                               84 non-null     int64  
 5   poblacio_amb_una_altra_situacio_d'inactivitat    84 non-null     int64  
 6   total_poblacio_inactiva                          84 non-null     int64  
 7   total_poblacio                                   84 non-null     int64  
 8   pct_atur                                         84 non-null     float64
 9   ratio_atur                        

In [25]:
df_poblacio_inactiva.to_csv('clean_data/df_poblacio_inactiva.csv', index=False)