In [286]:
import pandas as pd
import numpy as np
import os
import glob

### Creamos el datamart final para entrenar el modelo

In [287]:
def load_homes_external(datalake_path):
    """
    Carga y une los archivos homes.tsv y external_indicators.tsv de todos los años en un único DataFrame.
    La unión se realiza por 'Año' y 'CCAA'.
    """
    all_homes = glob.glob(os.path.join(datalake_path, "*", "homes.tsv"))
    all_external = glob.glob(os.path.join(datalake_path, "*", "external_indicators.tsv"))

    df_list = []

    for home_file, external_file in zip(all_homes, all_external):
        year = os.path.basename(os.path.dirname(home_file))  # Extraer el año de la ruta

        df_homes = pd.read_csv(home_file, sep="\t")
        df_external = pd.read_csv(external_file, sep="\t")

        df_homes["Año"] = int(year)
        df_external["Año"] = int(year)

        # Unir por Año y CCAA
        df_merged = pd.merge(df_homes, df_external, on=["Año", "CCAA"], how="inner")
        df_list.append(df_merged)

    if not df_list:
        raise ValueError("No se encontraron archivos homes.tsv o external_indicators.tsv en la ruta del datalake.")

    # Concatenar todos los DataFrames
    df_homes_external = pd.concat(df_list, ignore_index=True)
    return df_homes_external

In [288]:
def merge_with_datamart(df_homes_external, datamart_path):
    """
    Une el DataFrame combinado de homes y external_indicators con el datamart de supercategorías.
    La unión se realiza por 'Año' y 'NUMERO'. Cada supercategoría se convierte en una columna
    con el gasto mensual correspondiente.
    """
    df_datamart = pd.read_csv(datamart_path, sep="\t")

    # Pivotar el datamart: cada SUPER_CATEGORIA como columna
    df_pivot = df_datamart.pivot_table(
        index=["Año", "NUMERO"],
        columns="SUPER_CATEGORIA",
        values="GASTOMON",
    ).reset_index()

    # Renombrar columnas para mayor claridad, por ejemplo: SC_011, SC_012, etc.
    df_pivot.columns = ['Año', 'NUMERO'] + [f"SC_{col}" for col in df_pivot.columns[2:]]

    # Unir con el DataFrame combinado
    df_final = pd.merge(df_homes_external, df_pivot, on=["Año", "NUMERO"], how="inner")
    return df_final


In [289]:
load_homes_external_path = "../../DataLake" 
datamart_path = "../../datamarts/datamart_supercategories_three_digits.tsv"
output_path = "../../datamarts/final_dataframe.tsv" 

# Cargar y unir los archivos homes y external_indicators
df_homes_external = load_homes_external(load_homes_external_path)

# Unir con el datamart
df_final = merge_with_datamart(df_homes_external, datamart_path)


In [290]:
pd.set_option('display.max_columns', None)  
df_final.head(15)  # Mostrar las primeras filas del DataFrame final

Unnamed: 0,NUMERO,CCAA,CAPROV,TAMAMU,DENSIDAD,NUMACTI,NUMOCU,NNINOSD,NHIJOSD,NUMESTU,NUMNOESTU,EDADSP,REGTEN,ZONARES,SUPERF,AGUACALI,CALEF,TIPOCASA,DISPOSIOV,NUMOVD,IMPEXAC,FUENPRINRED,GASTOT,GASTMON,GASTNOMON,FACTOR,NUMPERI,COMITOT,NADUL_MAS,NADUL_FEM,NNINO_MAS,NNINO_FEM,ANC_MAS,ANC_FEM,PERCEP_MAS,NO_PERCEP_MAS,PERCEP_FEM,NO_PERCEP_FEM,NACION_ESP,NACION_EXT,EDUC_SUPERIOR,Año,Tasa_Paro,T_med,Inflacion,Tipo_Interes,EUR_USD,IPC,SC_11,SC_12,SC_21,SC_22,SC_31,SC_32,SC_41,SC_42,SC_43,SC_44,SC_45,SC_51,SC_52,SC_53,SC_54,SC_55,SC_56,SC_61,SC_62,SC_63,SC_71,SC_72,SC_73,SC_81,SC_82,SC_83,SC_91,SC_92,SC_93,SC_94,SC_95,SC_96,SC_101,SC_102,SC_103,SC_104,SC_111,SC_112,SC_121,SC_123,SC_124,SC_125,SC_126,SC_127,SC_128
0,1,9,0,4,3,2.0,2.0,0,0,0,2,55,5,5,70.0,1,1,2,0,0.0,5020,autonomYRenta,4260498000.0,3669192000.0,591306200.0,902614300.0,2.0,58.0,0,0,1,1,0,0,1,0,1,0,1,0,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,684981607.0,,319264308.0,,34285150.0,,,0.0,108380640.0,22059893.0,44798551.0,,,293570921.0,,59273497.0,151081800.0,23108834.0,187772652.0,,,28739200.0,285331628.0,13484075.0,3342355.0,194098171.0,96680199.0,,126580873.0,67593206.0,242967400.0,,,,18083827.0,,10777870.0,,414430200.0,,,238504987.0,,,
1,4,9,1,5,3,1.0,1.0,1,1,0,2,49,4,5,65.0,1,1,2,0,0.0,1661,asalariado,1157571000.0,1157571000.0,0.0,460834900.0,1.0,36.0,0,1,0,1,0,0,0,0,1,1,1,0,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,242559505.0,63986399.0,4469436.0,3883917.0,134010800.0,1743799.0,131061450.0,,,5806520.0,24608584.0,409222.0,6257234.0,,786645.0,220279.0,17868100.0,80340555.0,232260.0,,,10258650.0,12918413.0,,,52369740.0,1275591.0,,180646.0,37937872.0,56325460.0,11337000.0,,66360228.0,,,94312100.0,42397.0,63833911.0,868213.0,,31037232.0,,269128.0,
2,5,9,0,1,1,1.0,1.0,2,2,0,4,38,5,1,120.0,1,1,3,0,0.0,1082,asalariado,1935653000.0,1532995000.0,402657600.0,835798500.0,1.0,72.0,1,1,1,1,0,0,1,1,0,2,1,0,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,192365971.0,14773914.0,3769746.0,114051264.0,154984300.0,133600548.0,7735605.0,0.0,2745595.0,41872899.0,51055630.0,7016520.0,2549481.0,4074811.0,31997196.0,980570.0,7081891.0,4270925.0,7888138.0,1133103.0,60037560.0,48782880.0,3965859.0,,174323.0,39518923.0,170313451.0,326856.0,12485920.0,75591022.0,8040671.0,6319226.0,28630455.0,348646.0,610132.0,196114.0,36629720.0,141800300.0,53463727.0,3769744.0,2688584.0,50014460.0,,5120752.0,217904.0
3,11,9,0,1,2,0.0,0.0,0,0,0,2,74,6,3,70.0,1,1,2,0,0.0,1282,pension,2506370000.0,2106291000.0,400079200.0,904894500.0,2.0,60.0,0,0,0,0,1,1,1,0,1,0,1,0,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,413683382.0,112061367.0,44211243.0,,135197100.0,,,0.0,13747239.0,25970472.0,181376924.0,,,,,,14721350.0,4600414.0,53275278.0,,,700587500.0,,,,106605537.0,,,68746831.0,,34349820.0,,,,,,22577420.0,,121190151.0,,,53388776.0,,,
4,34,9,0,4,3,0.0,0.0,0,0,0,1,48,6,5,56.0,1,1,2,0,0.0,1685,pension,2311958000.0,1361849000.0,950108900.0,1718298000.0,1.0,23.0,0,0,1,0,0,0,1,0,0,0,1,0,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,299567157.0,,,70557541.0,,,,0.0,,204843137.0,88457989.0,,,,,,,,,,,,,,,189679497.0,,,3449480.0,,54833290.0,123396146.0,,,,,300597500.0,,26467000.0,,,,,,
5,64,9,0,1,2,2.0,2.0,1,1,1,2,47,5,7,120.0,1,1,3,0,0.0,3000,autonomYRenta,4038602000.0,3121573000.0,917028300.0,1207538000.0,2.0,42.0,1,0,1,1,0,0,1,1,1,0,1,0,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,663640314.0,76457071.0,152625367.0,49519917.0,15788560.0,5036640.0,,0.0,202456508.0,84527644.0,289809064.0,43378379.0,,,,2236360.0,68753940.0,5360260.0,623089.0,,,193662500.0,11780739.0,,647240.0,67025591.0,9096382.0,,19772223.0,105445820.0,329350400.0,,,,,31396.0,247682900.0,,104571544.0,2359528.0,,368299017.0,,1244971.0,390035.0
6,75,9,1,4,3,0.0,0.0,0,0,0,2,74,5,5,75.0,1,1,2,0,0.0,788,pension,1331639000.0,816491400.0,515147900.0,959200000.0,2.0,56.0,0,0,0,0,1,1,1,0,1,0,1,0,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,172778431.0,,,,,,,0.0,79817717.0,11510400.0,152512798.0,,,69069974.0,,,,99774092.0,19952484.0,,,3453787.0,,,,8632800.0,,,,,115535700.0,,,,,,26008040.0,,55048798.0,2396321.0,,,,,
7,86,9,0,1,2,2.0,2.0,2,2,0,4,40,4,5,85.0,1,1,2,0,0.0,2286,asalariado,2400327000.0,2400327000.0,0.0,981099600.0,2.0,102.0,0,2,1,1,0,0,1,0,1,2,1,0,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,321721753.0,22635624.0,8236322.0,240522976.0,62623720.0,162924773.0,706391688.0,,,18837112.0,36496904.0,871216.0,,,1674737.0,468966.0,670091.0,1250902.0,494474.0,,,121076500.0,10083741.0,,10092276.0,3485847.0,15835938.0,,384591.0,15849663.0,133662300.0,,,,,,132549300.0,90261.0,11853645.0,1848392.0,26489688.0,330630554.0,,572962.0,
8,101,9,1,5,3,1.0,1.0,4,4,0,6,48,5,5,80.0,1,0,2,0,0.0,1600,asalariado,3761038000.0,2998535000.0,762502500.0,2026596000.0,1.0,110.0,1,3,1,1,0,0,1,1,0,4,0,1,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,978703438.0,327994340.0,,23733461.0,437668500.0,317867092.0,,0.0,,103749534.0,103982593.0,170052472.0,42513118.0,15498241.0,2180617.0,808612.0,37117130.0,9383137.0,,,,48476170.0,13788956.0,810638.0,,,5690680.0,,6341218.0,10374142.0,14530690.0,,,,,,66879680.0,,239561428.0,2589989.0,,18239360.0,,,
9,117,9,0,1,2,2.0,2.0,2,2,0,4,38,6,6,300.0,1,1,3,0,0.0,8416,asalariado,22026850000.0,19222430000.0,2804419000.0,1188568000.0,2.0,104.0,0,2,1,1,0,0,1,0,1,2,1,0,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,694632613.0,159078213.0,166276944.0,117457624.0,1955526000.0,181829024.0,,0.0,297657165.0,196113745.0,414673599.0,733623717.0,72766054.0,626677288.0,202057.0,125039374.0,2383021000.0,209155216.0,10618776.0,,5117879000.0,1069245000.0,84710616.0,797529.0,11228572.0,6150840.0,118808447.0,,490692018.0,23795134.0,81066730.0,666371977.0,157374984.0,,,,238023800.0,337996300.0,207081690.0,1580937000.0,123611.0,601415483.0,,83671455.0,713141.0


In [291]:
# Eliminar columnas NHIJOSD e NNINOSD
df_final.drop(columns=["NHIJOSD", "NNINOSD"], inplace=True, errors='ignore')

In [292]:
# COntar el número de valores -9 por columna
pd.set_option('display.max_rows', None)  # Mostrar todas las filas
missing_counts = (df_final == -9).sum()
print("Número de valores -9 por columna:")
print(missing_counts)

Número de valores -9 por columna:
NUMERO            0
CCAA              0
CAPROV            0
TAMAMU            0
DENSIDAD          0
NUMACTI           0
NUMOCU            0
NUMESTU          75
NUMNOESTU        75
EDADSP            0
REGTEN            0
ZONARES          12
SUPERF            0
AGUACALI          0
CALEF             2
TIPOCASA         14
DISPOSIOV         0
NUMOVD            0
IMPEXAC           0
FUENPRINRED       0
GASTOT            0
GASTMON           0
GASTNOMON         0
FACTOR            0
NUMPERI           0
COMITOT           0
NADUL_MAS         0
NADUL_FEM         0
NNINO_MAS         0
NNINO_FEM         0
ANC_MAS           0
ANC_FEM           0
PERCEP_MAS        0
NO_PERCEP_MAS     0
PERCEP_FEM        0
NO_PERCEP_FEM     0
NACION_ESP        0
NACION_EXT        0
EDUC_SUPERIOR     0
Año               0
Tasa_Paro         0
T_med             0
Inflacion         0
Tipo_Interes      0
EUR_USD           0
IPC               0
SC_11             0
SC_12             0
SC_21 

In [293]:
df_final = df_final[(df_final != -9).any(axis=1)]

In [294]:
#Borrar los nan que no sean outputs, los outputs son SC_
df_final = df_final.dropna(subset=[col for col in df_final.columns if not col.startswith('SC_')])


In [295]:
nan_counts = df_final.isna().sum()
nan_counts

NUMERO                0
CCAA                  0
CAPROV                0
TAMAMU                0
DENSIDAD              0
NUMACTI               0
NUMOCU                0
NUMESTU               0
NUMNOESTU             0
EDADSP                0
REGTEN                0
ZONARES               0
SUPERF                0
AGUACALI              0
CALEF                 0
TIPOCASA              0
DISPOSIOV             0
NUMOVD                0
IMPEXAC               0
FUENPRINRED           0
GASTOT                0
GASTMON               0
GASTNOMON             0
FACTOR                0
NUMPERI               0
COMITOT               0
NADUL_MAS             0
NADUL_FEM             0
NNINO_MAS             0
NNINO_FEM             0
ANC_MAS               0
ANC_FEM               0
PERCEP_MAS            0
NO_PERCEP_MAS         0
PERCEP_FEM            0
NO_PERCEP_FEM         0
NACION_ESP            0
NACION_EXT            0
EDUC_SUPERIOR         0
Año                   0
Tasa_Paro             0
T_med           

Creamos la variable de no ocupados y no activos

In [296]:
numero_miembros = (df_final["ANC_MAS"].astype(int) + df_final["ANC_FEM"].astype(int) +
    df_final["NADUL_MAS"].astype(int) + df_final["NADUL_FEM"].astype(int) +
    df_final["NNINO_MAS"].astype(int) + df_final["NNINO_FEM"].astype(int))

In [297]:
# Nueva variable no ocupados sera la resta entre ocupados y la suma de ANC_MAS, ANC_FEM, NADUL_MAS, NADUL_FEM, NNINO_MAS, NNINO_FEM
df_final["NUMNOOCU"] = numero_miembros - df_final["NUMOCU"].astype(int)

# Nueva variable no activos sera la resta entre activos y la suma de ANC_MAS, ANC_FEM, NADUL_MAS, NADUL_FEM, NNINO_MAS, NNINO_FEM
df_final["NUMNOACTI"] = numero_miembros -  df_final["NUMACTI"].astype(int)


In [298]:
numocu_counts = df_final["NUMOCU"].value_counts()
numacti_counts = df_final["NUMACTI"].value_counts()

print("Value counts de NUMOCU:")
print(numacti_counts)


Value counts de NUMOCU:
2.0    139420
1.0    107448
0.0     89637
3.0     22432
4.0      5748
5.0       537
6.0        80
7.0        13
8.0         3
Name: NUMACTI, dtype: int64


Gasto no monetario si es Nan es 0

In [299]:
# GASTNOMON si es NaN, se reemplaza por 0
df_final["GASTNOMON"] = df_final["GASTNOMON"].fillna(0)

Eliminamos la columna de Comunidad Autonoma ya que viene reflejada en la columna CCAA

In [300]:
df_final.drop(columns=['NACION_EXT'], inplace=True) 

In [301]:
df_final.head()  # Mostrar las primeras filas del DataFrame final

Unnamed: 0,NUMERO,CCAA,CAPROV,TAMAMU,DENSIDAD,NUMACTI,NUMOCU,NUMESTU,NUMNOESTU,EDADSP,REGTEN,ZONARES,SUPERF,AGUACALI,CALEF,TIPOCASA,DISPOSIOV,NUMOVD,IMPEXAC,FUENPRINRED,GASTOT,GASTMON,GASTNOMON,FACTOR,NUMPERI,COMITOT,NADUL_MAS,NADUL_FEM,NNINO_MAS,NNINO_FEM,ANC_MAS,ANC_FEM,PERCEP_MAS,NO_PERCEP_MAS,PERCEP_FEM,NO_PERCEP_FEM,NACION_ESP,EDUC_SUPERIOR,Año,Tasa_Paro,T_med,Inflacion,Tipo_Interes,EUR_USD,IPC,SC_11,SC_12,SC_21,SC_22,SC_31,SC_32,SC_41,SC_42,SC_43,SC_44,SC_45,SC_51,SC_52,SC_53,SC_54,SC_55,SC_56,SC_61,SC_62,SC_63,SC_71,SC_72,SC_73,SC_81,SC_82,SC_83,SC_91,SC_92,SC_93,SC_94,SC_95,SC_96,SC_101,SC_102,SC_103,SC_104,SC_111,SC_112,SC_121,SC_123,SC_124,SC_125,SC_126,SC_127,SC_128,NUMNOOCU,NUMNOACTI
0,1,9,0,4,3,2.0,2.0,0,2,55,5,5,70.0,1,1,2,0,0.0,5020,autonomYRenta,4260498000.0,3669192000.0,591306213.0,902614300.0,2.0,58.0,0,0,1,1,0,0,1,0,1,0,1,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,684981607.0,,319264308.0,,34285154.0,,,0.0,108380640.0,22059893.0,44798551.0,,,293570921.0,,59273497.0,151081777.0,23108834.0,187772652.0,,,28739203.0,285331628.0,13484075.0,3342355.0,194098171.0,96680199.0,,126580873.0,67593206.0,242967417.0,,,,18083827.0,,10777868.0,,414430200.0,,,238504987.0,,,,0,0
1,4,9,1,5,3,1.0,1.0,0,2,49,4,5,65.0,1,1,2,0,0.0,1661,asalariado,1157571000.0,1157571000.0,0.0,460834900.0,1.0,36.0,0,1,0,1,0,0,0,0,1,1,1,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,242559505.0,63986399.0,4469436.0,3883917.0,134010759.0,1743799.0,131061450.0,,,5806520.0,24608584.0,409222.0,6257234.0,,786645.0,220279.0,17868098.0,80340555.0,232260.0,,,10258647.0,12918413.0,,,52369740.0,1275591.0,,180646.0,37937872.0,56325460.0,11337000.0,,66360228.0,,,94312103.0,42397.0,63833911.0,868213.0,,31037232.0,,269128.0,,1,1
2,5,9,0,1,1,1.0,1.0,0,4,38,5,1,120.0,1,1,3,0,0.0,1082,asalariado,1935653000.0,1532995000.0,402657609.0,835798500.0,1.0,72.0,1,1,1,1,0,0,1,1,0,2,1,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,192365971.0,14773914.0,3769746.0,114051264.0,154984260.0,133600548.0,7735605.0,0.0,2745595.0,41872899.0,51055630.0,7016520.0,2549481.0,4074811.0,31997196.0,980570.0,7081891.0,4270925.0,7888138.0,1133103.0,60037560.0,48782882.0,3965859.0,,174323.0,39518923.0,170313451.0,326856.0,12485920.0,75591022.0,8040671.0,6319226.0,28630455.0,348646.0,610132.0,196114.0,36629723.0,141800276.0,53463727.0,3769744.0,2688584.0,50014460.0,,5120752.0,217904.0,3,3
3,11,9,0,1,2,0.0,0.0,0,2,74,6,3,70.0,1,1,2,0,0.0,1282,pension,2506370000.0,2106291000.0,400079199.0,904894500.0,2.0,60.0,0,0,0,0,1,1,1,0,1,0,1,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,413683382.0,112061367.0,44211243.0,,135197087.0,,,0.0,13747239.0,25970472.0,181376924.0,,,,,,14721353.0,4600414.0,53275278.0,,,700587473.0,,,,106605537.0,,,68746831.0,,34349824.0,,,,,,22577416.0,,121190151.0,,,53388776.0,,,,2,2
4,34,9,0,4,3,0.0,0.0,0,1,48,6,5,56.0,1,1,2,0,0.0,1685,pension,2311958000.0,1361849000.0,950108912.0,1718298000.0,1.0,23.0,0,0,1,0,0,0,1,0,0,0,1,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,299567157.0,,,70557541.0,,,,0.0,,204843137.0,88457989.0,,,,,,,,,,,,,,,189679497.0,,,3449480.0,,54833289.0,123396146.0,,,,,300597524.0,,26467000.0,,,,,,,1,1


### Dividir el GASTOT entre el factor poblacional

In [302]:
# El FACTOR de 2006 a 2015 hay que dividirlo por 1e6
df_final.loc[df_final['Año'].between(2006, 2015), 'FACTOR'] /= 1e6

# El GASTOMON  de 2006 a 2015 hay que dividirlo por 100
df_final.loc[df_final['Año'].between(2006, 2015), 'GASTNOMON'] /= 100
df_final.loc[df_final['Año'].between(2006, 2015), 'GASTMON'] /= 100

# Todas las supercategorías de 2006 a 2015 hay que dividirlas por 100
for col in df_final.columns:
    if col.startswith("SC_") and df_final['Año'].between(2006, 2015).any():
        df_final.loc[df_final['Año'].between(2006, 2015), col] /= 100


In [303]:
# Genero la lista de columnas a dividir
cols = ['GASTOT', 'GASTMON', 'GASTNOMON'] + [c for c in df_final.columns if c.startswith("SC_")]

# Divido y redondeo de un plumazo
df_final[cols] = df_final[cols].div(df_final['FACTOR'], axis=0).round(2)


### Elevar los ingresos mensuales a ingresos anuales

In [304]:
# Elevar IMPEXAC a Anual

df_final['IMPEXAC'] = df_final['IMPEXAC'] * 12  # Pasar de mensual a anual

In [305]:
df_final['tasaAhorro'] = (df_final['IMPEXAC'] - df_final['GASTMON']) / df_final['IMPEXAC']

In [306]:
# Elimina la columna factor
df_final.drop(columns=['FACTOR'], inplace=True)

## Eliminamos la categoria de gasto 42, ya que no refleja ningún gasto monetario

In [307]:
df_final.drop(columns=['SC_42', 'GASTOT', "GASTMON"], inplace=True)


## Eliminamos nulos de los inputs

In [308]:
output_columns = [col for col in df_final.columns if col.endswith(tuple(f"_{i}" for i in range(11, 129)))]

non_output_columns = [col for col in df_final.columns if col not in output_columns]
df_final = df_final.dropna(subset=non_output_columns)

### Calculamos la inflación acumulada y la aplicamos a todos las columnas que sean tipo €

In [309]:
inflacion_df = pd.read_csv('../../data/inflacion_espana_2006_2023.csv', sep='\t')

In [310]:
codigos_comunidad = {
    "Andalucía": 1, "Aragón": 2, "Asturias": 3, "Islas Baleares": 4,
    "Canarias": 5, "Cantabria": 6, "Castilla y León": 8, "Castilla-La Mancha": 7,
    "Cataluña": 9, "Comunidad Valenciana": 10, "Extremadura": 11, "Galicia": 12,
    "Madrid": 13, "Murcia": 14, "Navarra": 15,
    "País Vasco": 16, "La Rioja": 17, "Ceuta": 18, "Melilla": 19
}

# Agregar código de comunidad
inflacion_df["CCAA"] = inflacion_df["Comunidad Autónoma"].map(codigos_comunidad)



In [311]:
inflacion_df.head()

Unnamed: 0,Año,Comunidad Autónoma,Inflación (%),CCAA
0,2006,Andalucía,2.9,1
1,2006,Aragón,2.9,2
2,2006,Asturias,2.4,3
3,2006,Islas Baleares,2.8,4
4,2006,Canarias,2.0,5


In [312]:
def calcular_factores_acumulados_a_2023(df_inflacion):
    """
    Dado un DataFrame con columnas: 'Año', 'Comunidad Autónoma', 'Inflación (%)', 'CCAA',
    devuelve un DataFrame con la inflación acumulada para ajustar precios a 2023.
    """
    df = df_inflacion.copy()
    df = df.sort_values(['CCAA', 'Año'])

    # A porcentaje decimal
    df['inflacion_decimal'] = df['Inflación (%)'] / 100

    # Calcular factor acumulado por CCAA
    df['factor_acumulado'] = df.groupby('CCAA')['inflacion_decimal'].transform(lambda x: (1 + x).cumprod())

    # Obtener el factor en 2023 para cada CCAA
    factores_2023 = df[df['Año'] == 2023].set_index('CCAA')['factor_acumulado'].to_dict()

    # Crear factor de ajuste a 2023: factor_acumulado / factor_2023
    df['factor_ajuste_2023'] = df.apply(
        lambda row: row['factor_acumulado'] / factores_2023.get(row['CCAA'], np.nan),
        axis=1
    )

    return df[['Año', 'Comunidad Autónoma', 'CCAA', 'factor_ajuste_2023']]


In [313]:
inflacion_ajuste = calcular_factores_acumulados_a_2023(inflacion_df)
# Eliminar filas donde Comunidad Autónoma es Nacional
inflacion_ajuste = inflacion_ajuste[inflacion_ajuste['Comunidad Autónoma'] != 'Nacional']

inflacion_ajuste.head()

Unnamed: 0,Año,Comunidad Autónoma,CCAA,factor_ajuste_2023
0,2006,Andalucía,1,0.722433
19,2007,Andalucía,1,0.752775
38,2008,Andalucía,1,0.762561
57,2009,Andalucía,1,0.767136
76,2010,Andalucía,1,0.791685


In [314]:
def aplicar_ajuste_inflacion(df_final, df_factores):
    """
    Aplica los factores de ajuste a 2023 a las columnas monetarias del df_final,
    modificando directamente las columnas que comienzan por 'SC_' más 'GASTOT' e 'IMPEXAC'.
    """
    df = df_final.copy()

    # Unir el factor a cada fila según Año y CCAA
    df = df.merge(df_factores[['Año', 'CCAA', 'factor_ajuste_2023']],
                  on=['Año', 'CCAA'], how='left')

    # Columnas monetarias a ajustar
    columnas_monetarias = [col for col in df.columns if col.startswith('SC_')]
    columnas_monetarias += [col for col in ['GASTOT', 'GASTMON', 'IMPEXAC', "GASTNOMON"] if col in df.columns]

    # Ajustar directamente las columnas (manteniendo NaNs)
    for col in columnas_monetarias:
        df[col] = df[col] * df['factor_ajuste_2023']

    # Eliminar columna auxiliar
    df.drop(columns=['factor_ajuste_2023'], inplace=True)

    return df


In [315]:
df_final_ajustado = aplicar_ajuste_inflacion(df_final, inflacion_ajuste)

pd.set_option('display.max_columns', None)  # Mostrar todas las columnas en el output
df_final_ajustado.head(5)  # Mostrar las primeras filas del DataFrame ajustado

Unnamed: 0,NUMERO,CCAA,CAPROV,TAMAMU,DENSIDAD,NUMACTI,NUMOCU,NUMESTU,NUMNOESTU,EDADSP,REGTEN,ZONARES,SUPERF,AGUACALI,CALEF,TIPOCASA,DISPOSIOV,NUMOVD,IMPEXAC,FUENPRINRED,GASTNOMON,NUMPERI,COMITOT,NADUL_MAS,NADUL_FEM,NNINO_MAS,NNINO_FEM,ANC_MAS,ANC_FEM,PERCEP_MAS,NO_PERCEP_MAS,PERCEP_FEM,NO_PERCEP_FEM,NACION_ESP,EDUC_SUPERIOR,Año,Tasa_Paro,T_med,Inflacion,Tipo_Interes,EUR_USD,IPC,SC_11,SC_12,SC_21,SC_22,SC_31,SC_32,SC_41,SC_43,SC_44,SC_45,SC_51,SC_52,SC_53,SC_54,SC_55,SC_56,SC_61,SC_62,SC_63,SC_71,SC_72,SC_73,SC_81,SC_82,SC_83,SC_91,SC_92,SC_93,SC_94,SC_95,SC_96,SC_101,SC_102,SC_103,SC_104,SC_111,SC_112,SC_121,SC_123,SC_124,SC_125,SC_126,SC_127,SC_128,NUMNOOCU,NUMNOACTI,tasaAhorro
0,1,9,0,4,3,2.0,2.0,0,2,55,5,5,70.0,1,1,2,0,0.0,42599.71196,autonomYRenta,4632.676246,2.0,58.0,0,0,1,1,0,0,1,0,1,0,1,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,5366.587817,,2501.325816,,268.610136,,,849.123143,172.831501,350.980894,,,2300.023791,,464.389191,1183.669487,181.048776,1471.132682,,,225.161824,2235.47363,105.643608,26.186377,1520.690913,757.453145,,991.716203,529.56873,1903.565017,,,,141.680815,,84.442756,,3246.912707,,,1868.602704,,,,0,0,0.325187
1,4,9,1,5,3,1.0,1.0,0,2,49,4,5,65.0,1,1,2,0,0.0,14095.24334,asalariado,0.0,1.0,36.0,0,1,0,1,0,0,0,0,1,1,1,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,3722.156904,981.89366,68.588082,59.599995,2056.440279,26.759182,2011.18162,,89.102983,377.626929,6.279639,96.019072,,12.071333,3.380256,274.18968,1232.852919,3.564119,,,157.422342,198.239994,,,803.63112,19.57437,,2.772093,582.167777,864.334295,173.970039,,1018.319808,,,1447.251669,0.650593,979.552938,13.323017,,476.27666,,4.129853,,1,1,-0.260235
2,5,9,0,1,1,1.0,1.0,0,4,38,5,1,120.0,1,1,3,0,0.0,9181.850267,asalariado,3406.873777,1.0,72.0,1,1,1,1,0,0,1,1,0,2,1,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,1627.600349,124.998756,31.893211,964.985308,1311.320118,1130.39156,65.448263,23.230421,354.283361,431.979748,59.36663,21.568579,34.474368,270.724564,8.295063,59.91822,36.13621,66.742377,9.589178,507.978936,412.75189,33.555052,,1.477978,334.369552,1441.01446,2.765021,105.643608,639.575556,68.02942,53.468862,242.239896,2.948884,5.162316,1.661841,309.922805,1199.764597,452.353216,31.893211,22.749547,423.168453,,43.328093,1.845705,3,3,-0.412638
3,11,9,0,1,2,0.0,0.0,0,2,74,6,3,70.0,1,1,2,0,0.0,10879.049947,pension,3126.58125,2.0,60.0,0,0,0,0,1,1,1,0,1,0,1,0,2006,6.5,17.62,2.8,3.5,1.26,78.512833,3232.896667,875.747963,345.507425,,1056.549231,,,107.43274,202.956795,1417.444599,,,,,,115.048923,35.952347,416.344296,,,5475.024733,,,,833.112893,,,537.248559,,268.440416,,,,,,176.43805,,947.086923,,,417.228255,,,,2,2,-0.513042
4,34,9,0,4,3,0.0,0.0,0,1,48,6,5,56.0,1,1,2,0,0.0,14298.907301,pension,3910.178342,1.0,23.0,0,0,1,0,0,0,1,0,0,0,1,1,2006,6.5,17.62,2.8,3.5,1.26,78.512833,1232.867062,,,290.376722,,,,,843.034439,364.049331,,,,,,,,,,,,,,,780.626993,,,14.192832,,225.663912,507.837502,,,,,1237.110062,,108.924861,,,,,,,1,1,0.608033


Renombrar tasaAhorro

In [316]:
# Renombrar tasaAhorro a tasa_ahorro
df_final_ajustado.rename(columns={'tasaAhorro': 'tasa_ahorro'}, inplace=True)

Pasamos el año a timestamp

In [317]:
# 1) Crear datetime en UTC a partir del año
df_final_ajustado['Timestamp'] = pd.to_datetime(
    df_final_ajustado['Año'].astype(str) + '-01-01', utc=True
)

# 2) Formatear como ISO 8601 con 'Z'
df_final_ajustado['Timestamp'] = df_final_ajustado['Timestamp'].dt.strftime('%Y-%m-%dT%H:%M:%SZ')

# 3) Eliminar la columna 'Año' si ya no hace falta
df_final_ajustado.drop(columns=['Año'], inplace=True)

df_final_ajustado['Timestamp'].head()


0    2006-01-01T00:00:00Z
1    2006-01-01T00:00:00Z
2    2006-01-01T00:00:00Z
3    2006-01-01T00:00:00Z
4    2006-01-01T00:00:00Z
Name: Timestamp, dtype: object

In [318]:
df_final_ajustado.head()  # Mostrar las primeras filas de la columna GASTOT ajustada

Unnamed: 0,NUMERO,CCAA,CAPROV,TAMAMU,DENSIDAD,NUMACTI,NUMOCU,NUMESTU,NUMNOESTU,EDADSP,REGTEN,ZONARES,SUPERF,AGUACALI,CALEF,TIPOCASA,DISPOSIOV,NUMOVD,IMPEXAC,FUENPRINRED,GASTNOMON,NUMPERI,COMITOT,NADUL_MAS,NADUL_FEM,NNINO_MAS,NNINO_FEM,ANC_MAS,ANC_FEM,PERCEP_MAS,NO_PERCEP_MAS,PERCEP_FEM,NO_PERCEP_FEM,NACION_ESP,EDUC_SUPERIOR,Tasa_Paro,T_med,Inflacion,Tipo_Interes,EUR_USD,IPC,SC_11,SC_12,SC_21,SC_22,SC_31,SC_32,SC_41,SC_43,SC_44,SC_45,SC_51,SC_52,SC_53,SC_54,SC_55,SC_56,SC_61,SC_62,SC_63,SC_71,SC_72,SC_73,SC_81,SC_82,SC_83,SC_91,SC_92,SC_93,SC_94,SC_95,SC_96,SC_101,SC_102,SC_103,SC_104,SC_111,SC_112,SC_121,SC_123,SC_124,SC_125,SC_126,SC_127,SC_128,NUMNOOCU,NUMNOACTI,tasa_ahorro,Timestamp
0,1,9,0,4,3,2.0,2.0,0,2,55,5,5,70.0,1,1,2,0,0.0,42599.71196,autonomYRenta,4632.676246,2.0,58.0,0,0,1,1,0,0,1,0,1,0,1,1,6.5,17.62,2.8,3.5,1.26,78.512833,5366.587817,,2501.325816,,268.610136,,,849.123143,172.831501,350.980894,,,2300.023791,,464.389191,1183.669487,181.048776,1471.132682,,,225.161824,2235.47363,105.643608,26.186377,1520.690913,757.453145,,991.716203,529.56873,1903.565017,,,,141.680815,,84.442756,,3246.912707,,,1868.602704,,,,0,0,0.325187,2006-01-01T00:00:00Z
1,4,9,1,5,3,1.0,1.0,0,2,49,4,5,65.0,1,1,2,0,0.0,14095.24334,asalariado,0.0,1.0,36.0,0,1,0,1,0,0,0,0,1,1,1,1,6.5,17.62,2.8,3.5,1.26,78.512833,3722.156904,981.89366,68.588082,59.599995,2056.440279,26.759182,2011.18162,,89.102983,377.626929,6.279639,96.019072,,12.071333,3.380256,274.18968,1232.852919,3.564119,,,157.422342,198.239994,,,803.63112,19.57437,,2.772093,582.167777,864.334295,173.970039,,1018.319808,,,1447.251669,0.650593,979.552938,13.323017,,476.27666,,4.129853,,1,1,-0.260235,2006-01-01T00:00:00Z
2,5,9,0,1,1,1.0,1.0,0,4,38,5,1,120.0,1,1,3,0,0.0,9181.850267,asalariado,3406.873777,1.0,72.0,1,1,1,1,0,0,1,1,0,2,1,0,6.5,17.62,2.8,3.5,1.26,78.512833,1627.600349,124.998756,31.893211,964.985308,1311.320118,1130.39156,65.448263,23.230421,354.283361,431.979748,59.36663,21.568579,34.474368,270.724564,8.295063,59.91822,36.13621,66.742377,9.589178,507.978936,412.75189,33.555052,,1.477978,334.369552,1441.01446,2.765021,105.643608,639.575556,68.02942,53.468862,242.239896,2.948884,5.162316,1.661841,309.922805,1199.764597,452.353216,31.893211,22.749547,423.168453,,43.328093,1.845705,3,3,-0.412638,2006-01-01T00:00:00Z
3,11,9,0,1,2,0.0,0.0,0,2,74,6,3,70.0,1,1,2,0,0.0,10879.049947,pension,3126.58125,2.0,60.0,0,0,0,0,1,1,1,0,1,0,1,0,6.5,17.62,2.8,3.5,1.26,78.512833,3232.896667,875.747963,345.507425,,1056.549231,,,107.43274,202.956795,1417.444599,,,,,,115.048923,35.952347,416.344296,,,5475.024733,,,,833.112893,,,537.248559,,268.440416,,,,,,176.43805,,947.086923,,,417.228255,,,,2,2,-0.513042,2006-01-01T00:00:00Z
4,34,9,0,4,3,0.0,0.0,0,1,48,6,5,56.0,1,1,2,0,0.0,14298.907301,pension,3910.178342,1.0,23.0,0,0,1,0,0,0,1,0,0,0,1,1,6.5,17.62,2.8,3.5,1.26,78.512833,1232.867062,,,290.376722,,,,,843.034439,364.049331,,,,,,,,,,,,,,,780.626993,,,14.192832,,225.663912,507.837502,,,,,1237.110062,,108.924861,,,,,,,1,1,0.608033,2006-01-01T00:00:00Z


In [319]:
df_final_ajustado.tail()

Unnamed: 0,NUMERO,CCAA,CAPROV,TAMAMU,DENSIDAD,NUMACTI,NUMOCU,NUMESTU,NUMNOESTU,EDADSP,REGTEN,ZONARES,SUPERF,AGUACALI,CALEF,TIPOCASA,DISPOSIOV,NUMOVD,IMPEXAC,FUENPRINRED,GASTNOMON,NUMPERI,COMITOT,NADUL_MAS,NADUL_FEM,NNINO_MAS,NNINO_FEM,ANC_MAS,ANC_FEM,PERCEP_MAS,NO_PERCEP_MAS,PERCEP_FEM,NO_PERCEP_FEM,NACION_ESP,EDUC_SUPERIOR,Tasa_Paro,T_med,Inflacion,Tipo_Interes,EUR_USD,IPC,SC_11,SC_12,SC_21,SC_22,SC_31,SC_32,SC_41,SC_43,SC_44,SC_45,SC_51,SC_52,SC_53,SC_54,SC_55,SC_56,SC_61,SC_62,SC_63,SC_71,SC_72,SC_73,SC_81,SC_82,SC_83,SC_91,SC_92,SC_93,SC_94,SC_95,SC_96,SC_101,SC_102,SC_103,SC_104,SC_111,SC_112,SC_121,SC_123,SC_124,SC_125,SC_126,SC_127,SC_128,NUMNOOCU,NUMNOACTI,tasa_ahorro,Timestamp
365313,19940,18,1,4,3,4.0,0.0,0,8,43,3,4,82.0,1,0,2,0,0.0,12960.0,pension,0.0,2.0,112.0,2,2,4,0,0,0,1,5,1,1,0,0,30.0,19.6,3.3,4.5,1.08,112.407167,5646.01,1503.59,,,8760.02,1460.0,1176.0,,312.0,540.0,,,,,,216.69,,262.75,,,1298.41,,,,360.0,,,,,660.36,,,,,,375.04,,,,,,320.0,,,8,4,-0.766272,2023-01-01T00:00:00Z
365314,20356,18,1,4,3,1.0,0.0,0,3,85,3,6,200.0,1,0,3,0,0.0,44160.0,pension,0.0,2.0,34.0,1,0,0,0,1,1,2,0,0,1,1,1,30.0,19.6,3.3,4.5,1.08,112.407167,10612.64,4202.06,1360.66,1132.79,216.69,193.8,2880.0,,540.0,1260.0,,,129.2,,,351.41,3278.62,516.81,,,,,,,672.0,,,,,,,,,,,9920.55,,2738.96,,,,,,,3,2,0.094063,2023-01-01T00:00:00Z
365315,20450,18,1,4,3,2.0,0.0,0,3,30,3,5,70.0,1,0,2,0,0.0,5472.0,pension,0.0,1.0,42.0,1,1,0,1,0,0,1,0,0,2,1,0,30.0,19.6,3.3,4.5,1.08,112.407167,2778.56,,,,,,,,456.0,726.6,,,,,,,1401.36,,,,,255.5,,,96.0,,,,,,,,,,,,,,,,,,,,3,1,-0.044229,2023-01-01T00:00:00Z
365316,20607,18,1,4,3,2.0,2.0,1,3,64,6,6,128.0,1,0,2,0,0.0,96000.0,asalariado,9531.9,2.0,48.0,1,1,2,0,0,0,1,2,1,0,1,1,30.0,19.6,3.3,4.5,1.08,112.407167,8035.61,835.01,232.56,,9879.36,1216.67,,,2400.0,2160.0,,,1967.6,,,1142.88,1313.77,,,,,851.67,,,1920.0,,,,,218.96,,,,,,,,1824.81,,,,800.0,,,2,2,0.637511,2023-01-01T00:00:00Z
365317,20639,18,1,4,3,1.0,1.0,0,1,47,4,5,45.0,1,0,1,0,0.0,39600.0,asalariado,1356.0,1.0,0.0,1,0,0,0,0,0,1,0,0,0,1,0,30.0,19.6,3.3,4.5,1.08,112.407167,1998.93,44.3,,,1825.0,,7200.0,,504.0,360.0,,,,,,121.67,664.47,1423.25,,,,389.33,,,240.0,,,,,48.67,,,,,,9795.34,,,,437.92,,800.0,,,0,0,0.347149,2023-01-01T00:00:00Z


Borramos la columna numero ya que el identificador no va a ser necesario para entrenar nuestro modelo

In [320]:
df_final_ajustado.drop(columns=['NUMERO'], inplace=True)

### Renombramos las columnas de gasto mensual por categorías para que se entienda

In [321]:
def renombrar_columnas_sc(df, categoria_detallada):
    """
    Renombra las columnas SC_{codigo} a una abreviatura legible basada en el nombre de la categoría.
    Ejemplo: SC_011 → ALIMENTOS_011
    """
    df = df.copy()
    columnas_renombradas = {}

    for col in df.columns:
        if col.startswith("SC_"):
            codigo = col.split("_")[1]
            nombre_categoria = categoria_detallada.get(codigo.lstrip("0"), None)

            if nombre_categoria:
                # Tomamos una abreviatura clara: primeras palabras en mayúsculas, separadas por _
                abreviatura = (
                    nombre_categoria.upper()
                    .replace(",", "")
                    .replace(".", "")
                    .replace("/", "_")
                    .replace(" Y ", "_")
                    .replace(" ", "_")
                )
                nuevo_nombre = f"{abreviatura}_{codigo}"
                columnas_renombradas[col] = nuevo_nombre

    return df.rename(columns=columnas_renombradas)

In [322]:
# Diccionario de nombres sin puntos
categoria_detallada = {
        "11": "PRODUCTOS ALIMENTICIOS",
        "12": "BEBIDAS NO ALCOHÓLICAS",
        "21": "BEBIDAS ALCOHÓLICAS",
        "22": "TABACO",
        "31": "ARTÍCULOS DE VESTIR",
        "32": "CALZADO",
        "41": "ALQUILERES REALES DE LA VIVIENDA",
        "43": "MANTENIMIENTO DE LA VIVIENDA",
        "44": "SUMINISTRO DE AGUA",
        "45": "ELECTRICIDAD, GAS Y OTROS COMBUSTIBLES",
        "51": "MUEBLES Y REVESTIMIENTOS",
        "52": "TEXTILES PARA EL HOGAR",
        "53": "GRANDES ELECTRODOMÉSTICOS",
        "54": "UTENSILIOS DEL HOGAR",
        "55": "HERRAMIENTAS CASA/JARDÍN",
        "56": "BIENES Y SERVICIOS PARA EL HOGAR",
        "61": "PRODUCTOS FARMACÉUTICOS",
        "62": "SERVICIOS MÉDICOS AMBULATORIOS",
        "63": "SERVICIOS HOSPITALARIOS",
        "71": "COMPRA DE VEHÍCULOS",
        "72": "USO DE VEHÍCULOS PERSONALES",
        "73": "SERVICIOS DE TRANSPORTE",
        "81": "SERVICIOS POSTALES",
        "82": "EQUIPOS TELÉFONO/FAX",
        "83": "SERVICIOS TELÉFONO/FAX",
        "91": "AUDIOVISUALES Y TECNOLOGÍA",
        "92": "BIENES DURADEROS DE OCIO",
        "93": "OCIO, JARDINERÍA Y MASCOTAS",
        "94": "SERVICIOS RECREATIVOS Y CULTURALES",
        "95": "PRENSA Y PAPELERÍA",
        "96": "PAQUETES TURÍSTICOS",
        "101": "EDUCACIÓN INFANTIL Y PRIMARIA",
        "102": "EDUCACIÓN SECUNDARIA Y POSTSECUNDARIA",
        "103": "EDUCACIÓN SUPERIOR",
        "104": "EDUCACIÓN NO FORMAL",
        "111": "RESTAURACIÓN",
        "112": "ALOJAMIENTO",
        "121": "CUIDADOS PERSONALES",
        "123": "EFECTOS PERSONALES",
        "124": "PROTECCIÓN SOCIAL",
        "125": "SEGUROS",
        "126": "SERVICIOS FINANCIEROS",
        "127": "OTROS SERVICIOS",
        "128": "REMESAS"
    }

df_final_ajustado = renombrar_columnas_sc(df_final_ajustado, categoria_detallada)

In [323]:

pd.set_option('display.max_columns', None)  # Mostrar todas las columnas en el outpu
 # No Mostrar las filas en el output
df_final_ajustado.head(5)  # Mostrar las primeras filas del DataFrame ajustado

Unnamed: 0,CCAA,CAPROV,TAMAMU,DENSIDAD,NUMACTI,NUMOCU,NUMESTU,NUMNOESTU,EDADSP,REGTEN,ZONARES,SUPERF,AGUACALI,CALEF,TIPOCASA,DISPOSIOV,NUMOVD,IMPEXAC,FUENPRINRED,GASTNOMON,NUMPERI,COMITOT,NADUL_MAS,NADUL_FEM,NNINO_MAS,NNINO_FEM,ANC_MAS,ANC_FEM,PERCEP_MAS,NO_PERCEP_MAS,PERCEP_FEM,NO_PERCEP_FEM,NACION_ESP,EDUC_SUPERIOR,Tasa_Paro,T_med,Inflacion,Tipo_Interes,EUR_USD,IPC,PRODUCTOS_ALIMENTICIOS_11,BEBIDAS_NO_ALCOHÓLICAS_12,BEBIDAS_ALCOHÓLICAS_21,TABACO_22,ARTÍCULOS_DE_VESTIR_31,CALZADO_32,ALQUILERES_REALES_DE_LA_VIVIENDA_41,MANTENIMIENTO_DE_LA_VIVIENDA_43,SUMINISTRO_DE_AGUA_44,ELECTRICIDAD_GAS_OTROS_COMBUSTIBLES_45,MUEBLES_REVESTIMIENTOS_51,TEXTILES_PARA_EL_HOGAR_52,GRANDES_ELECTRODOMÉSTICOS_53,UTENSILIOS_DEL_HOGAR_54,HERRAMIENTAS_CASA_JARDÍN_55,BIENES_SERVICIOS_PARA_EL_HOGAR_56,PRODUCTOS_FARMACÉUTICOS_61,SERVICIOS_MÉDICOS_AMBULATORIOS_62,SERVICIOS_HOSPITALARIOS_63,COMPRA_DE_VEHÍCULOS_71,USO_DE_VEHÍCULOS_PERSONALES_72,SERVICIOS_DE_TRANSPORTE_73,SERVICIOS_POSTALES_81,EQUIPOS_TELÉFONO_FAX_82,SERVICIOS_TELÉFONO_FAX_83,AUDIOVISUALES_TECNOLOGÍA_91,BIENES_DURADEROS_DE_OCIO_92,OCIO_JARDINERÍA_MASCOTAS_93,SERVICIOS_RECREATIVOS_CULTURALES_94,PRENSA_PAPELERÍA_95,PAQUETES_TURÍSTICOS_96,EDUCACIÓN_INFANTIL_PRIMARIA_101,EDUCACIÓN_SECUNDARIA_POSTSECUNDARIA_102,EDUCACIÓN_SUPERIOR_103,EDUCACIÓN_NO_FORMAL_104,RESTAURACIÓN_111,ALOJAMIENTO_112,CUIDADOS_PERSONALES_121,EFECTOS_PERSONALES_123,PROTECCIÓN_SOCIAL_124,SEGUROS_125,SERVICIOS_FINANCIEROS_126,OTROS_SERVICIOS_127,REMESAS_128,NUMNOOCU,NUMNOACTI,tasa_ahorro,Timestamp
0,9,0,4,3,2.0,2.0,0,2,55,5,5,70.0,1,1,2,0,0.0,42599.71196,autonomYRenta,4632.676246,2.0,58.0,0,0,1,1,0,0,1,0,1,0,1,1,6.5,17.62,2.8,3.5,1.26,78.512833,5366.587817,,2501.325816,,268.610136,,,849.123143,172.831501,350.980894,,,2300.023791,,464.389191,1183.669487,181.048776,1471.132682,,,225.161824,2235.47363,105.643608,26.186377,1520.690913,757.453145,,991.716203,529.56873,1903.565017,,,,141.680815,,84.442756,,3246.912707,,,1868.602704,,,,0,0,0.325187,2006-01-01T00:00:00Z
1,9,1,5,3,1.0,1.0,0,2,49,4,5,65.0,1,1,2,0,0.0,14095.24334,asalariado,0.0,1.0,36.0,0,1,0,1,0,0,0,0,1,1,1,1,6.5,17.62,2.8,3.5,1.26,78.512833,3722.156904,981.89366,68.588082,59.599995,2056.440279,26.759182,2011.18162,,89.102983,377.626929,6.279639,96.019072,,12.071333,3.380256,274.18968,1232.852919,3.564119,,,157.422342,198.239994,,,803.63112,19.57437,,2.772093,582.167777,864.334295,173.970039,,1018.319808,,,1447.251669,0.650593,979.552938,13.323017,,476.27666,,4.129853,,1,1,-0.260235,2006-01-01T00:00:00Z
2,9,0,1,1,1.0,1.0,0,4,38,5,1,120.0,1,1,3,0,0.0,9181.850267,asalariado,3406.873777,1.0,72.0,1,1,1,1,0,0,1,1,0,2,1,0,6.5,17.62,2.8,3.5,1.26,78.512833,1627.600349,124.998756,31.893211,964.985308,1311.320118,1130.39156,65.448263,23.230421,354.283361,431.979748,59.36663,21.568579,34.474368,270.724564,8.295063,59.91822,36.13621,66.742377,9.589178,507.978936,412.75189,33.555052,,1.477978,334.369552,1441.01446,2.765021,105.643608,639.575556,68.02942,53.468862,242.239896,2.948884,5.162316,1.661841,309.922805,1199.764597,452.353216,31.893211,22.749547,423.168453,,43.328093,1.845705,3,3,-0.412638,2006-01-01T00:00:00Z
3,9,0,1,2,0.0,0.0,0,2,74,6,3,70.0,1,1,2,0,0.0,10879.049947,pension,3126.58125,2.0,60.0,0,0,0,0,1,1,1,0,1,0,1,0,6.5,17.62,2.8,3.5,1.26,78.512833,3232.896667,875.747963,345.507425,,1056.549231,,,107.43274,202.956795,1417.444599,,,,,,115.048923,35.952347,416.344296,,,5475.024733,,,,833.112893,,,537.248559,,268.440416,,,,,,176.43805,,947.086923,,,417.228255,,,,2,2,-0.513042,2006-01-01T00:00:00Z
4,9,0,4,3,0.0,0.0,0,1,48,6,5,56.0,1,1,2,0,0.0,14298.907301,pension,3910.178342,1.0,23.0,0,0,1,0,0,0,1,0,0,0,1,1,6.5,17.62,2.8,3.5,1.26,78.512833,1232.867062,,,290.376722,,,,,843.034439,364.049331,,,,,,,,,,,,,,,780.626993,,,14.192832,,225.663912,507.837502,,,,,1237.110062,,108.924861,,,,,,,1,1,0.608033,2006-01-01T00:00:00Z


Eliminamos NNINOSD, NUMPERI, DISPOSIOV y NHIJOSD ya que esta repetida con las añadidas

In [324]:
df_final_ajustado.drop(columns=['NUMPERI', 'DISPOSIOV'], inplace=True)


### Ordenamos las columnas de nuestro dataframe

In [325]:
columnas_prioritarias = [
    # Variables de identificación y ponderación
    "Timestamp",
    
    "CCAA",        
    "CAPROV",
    "TAMAMU",
    "DENSIDAD",
    "SUPERF",
    "TIPOCASA",
    "AGUACALI",
    "CALEF",
    "ZONARES",
    "REGTEN",
    "COMITOT",

    # Composición del hogar
    "NUMESTU",
    "NUMNOESTU",
    "NUMOCU",
    "NUMNOOCU",
    "NUMACTI",
    "NUMNOACTI",
    "ANC_MAS",
    "ANC_FEM",
    "NADUL_MAS",
    "NADUL_FEM",
    "NNINO_FEM",
    "NNINO_MAS",
    "PERCEP_MAS",
    "PERCEP_FEM",
    "NO_PERCEP_MAS",
    "NO_PERCEP_FEM",

    # Datos del sustentador principal
    "OCUSP",
    "EDADSP",
    "NACION_ESP",
    "EDUC_SUPERIOR",

    # Características de propiedad e ingresos
    "FUENPRINRED",
    "NUMOVD",
    "IMPEXAC",
    "GASTNOMON",
    "tasa_ahorro",
    
    # Variables ambientales y macro
    "T_med",
    "Tasa_Paro",
    "Inflacion",
    "Tipo_Interes",
    "EUR_USD",
    "IPC",

    # --- A partir de aquí, todos los outputs (gasto por categoría) ---
    "PRODUCTOS_ALIMENTICIOS_11",
    "BEBIDAS_NO_ALCOHÓLICAS_12",
    "BEBIDAS_ALCOHÓLICAS_21",
    "TABACO_22",
    "ARTÍCULOS_DE_VESTIR_31",
    "CALZADO_32",
    "ALQUILERES_REALES_DE_LA_VIVIENDA_41",
    "MANTENIMIENTO_DE_LA_VIVIENDA_43",
    "SUMINISTRO_DE_AGUA_44",
    "ELECTRICIDAD_GAS_OTROS_COMBUSTIBLES_45",
    "MUEBLES_REVESTIMIENTOS_51",
    "TEXTILES_PARA_EL_HOGAR_52",
    "GRANDES_ELECTRODOMÉSTICOS_53",
    "UTENSILIOS_DEL_HOGAR_54",
    "HERRAMIENTAS_CASA_JARDÍN_55",
    "BIENES_SERVICIOS_PARA_EL_HOGAR_56",
    "PRODUCTOS_FARMACÉUTICOS_61",
    "SERVICIOS_MÉDICOS_AMBULATORIOS_62",
    "SERVICIOS_HOSPITALARIOS_63",
    "COMPRA_DE_VEHÍCULOS_71",
    "USO_DE_VEHÍCULOS_PERSONALES_72",
    "SERVICIOS_DE_TRANSPORTE_73",
    "SERVICIOS_POSTALES_81",
    "EQUIPOS_TELÉFONO_FAX_82",
    "SERVICIOS_TELÉFONO_FAX_83",
    "AUDIOVISUALES_TECNOLOGÍA_91",
    "BIENES_DURADEROS_DE_OCIO_92",
    "OCIO_JARDINERÍA_MASCOTAS_93",
    "SERVICIOS_RECREATIVOS_CULTURALES_94",
    "PRENSA_PAPELERÍA_95",
    "PAQUETES_TURÍSTICOS_96",
    "EDUCACIÓN_INFANTIL_PRIMARIA_101",
    "EDUCACIÓN_SECUNDARIA_POSTSECUNDARIA_102",
    "EDUCACIÓN_SUPERIOR_103",
    "EDUCACIÓN_NO_FORMAL_104",
    "RESTAURACIÓN_111",
    "ALOJAMIENTO_112",
    "CUIDADOS_PERSONALES_121",
    "EFECTOS_PERSONALES_123",
    "PROTECCIÓN_SOCIAL_124",
    "SEGUROS_125",
    "SERVICIOS_FINANCIEROS_126",
    "OTROS_SERVICIOS_127",
    "REMESAS_128"
]


In [326]:
columnas_prioritarias_camel = [
    "timestamp",

    "ccaa",
    "capitalProvincia",
    "tamanoMunicipio",
    "densidad",
    "superficie",
    "tipoCasa",
    "aguaCaliente",
    "calefaccion",
    "zonaResidencial",
    "regimenTenencia",
    "comidasTotales",

    "miembros:estudiantes",
    "miembros:noEstudiantes",
    "miembros:ocupados",
    "miembros:noOcupados",
    "miembros:activos",
    "miembros:noActivos",
    "miembros:ancianos:masculinos",
    "miembros:ancianos:femeninos",
    "miembros:adultos:masculinos",
    "miembros:adultos:femeninos",
    "miembros:ninos:femeninos",
    "miembros:ninos:masculinos",
    "miembros:conIngresos:masculinos",
    "miembros:conIngresos:femeninos",
    "miembros:sinIngresos:masculinos",
    "miembros:sinIngresos:femeninos",

    "trabajaSp",
    "edadSp",
    "espanolSp",
    "educacionSuperiorSp",

    "fuentePrincipalIngresos",
    "numeroViviendasAdicionales",
    "ingresosNetos",
    "gastoNoMonetario",
    "tasaAhorro",

    "temperaturaMedia",
    "tasaParo",
    "inflacion",
    "tipoInteres",
    "tasaCambioEurUsd",
    "ipc",

    "gastoMonetario:productosAlimenticios11",
    "gastoMonetario:bebidasNoAlcoholicas12",
    "gastoMonetario:bebidasAlcoholicas21",
    "gastoMonetario:tabaco22",
    "gastoMonetario:articulosDeVestir31",
    "gastoMonetario:calzado32",
    "gastoMonetario:alquileresRealesDeLaVivienda41",
    "gastoMonetario:mantenimientoDeLaVivienda43",
    "gastoMonetario:suministroDeAgua44",
    "gastoMonetario:electricidadGasOtrosCombustibles45",
    "gastoMonetario:mueblesRevestimientos51",
    "gastoMonetario:textilesParaElHogar52",
    "gastoMonetario:grandesElectrodomesticos53",
    "gastoMonetario:utensiliosDelHogar54",
    "gastoMonetario:herramientasCasaJardin55",
    "gastoMonetario:bienesServiciosParaElHogar56",
    "gastoMonetario:productosFarmaceuticos61",
    "gastoMonetario:serviciosMedicosAmbulatorios62",
    "gastoMonetario:serviciosHospitalarios63",
    "gastoMonetario:compraDeVehiculos71",
    "gastoMonetario:usoDeVehiculosPersonales72",
    "gastoMonetario:serviciosDeTransporte73",
    "gastoMonetario:serviciosPostales81",
    "gastoMonetario:equiposTelefonoFax82",
    "gastoMonetario:serviciosTelefonoFax83",
    "gastoMonetario:audiovisualesTecnologia91",
    "gastoMonetario:bienesDuraderosDeOcio92",
    "gastoMonetario:ocioJardineriaYMascotas93",
    "gastoMonetario:serviciosRecreativosYCulturales94",
    "gastoMonetario:prensaYPapeleria95",
    "gastoMonetario:paquetesTuristicos96",
    "gastoMonetario:educacionInfantilYPrimaria101",
    "gastoMonetario:educacionSecundariaYPostsecundaria102",
    "gastoMonetario:educacionSuperior103",
    "gastoMonetario:educacionNoFormal104",
    "gastoMonetario:restauracion111",
    "gastoMonetario:alojamiento112",
    "gastoMonetario:cuidadosPersonales121",
    "gastoMonetario:efectosPersonales123",
    "gastoMonetario:proteccionSocial124",
    "gastoMonetario:seguros125",
    "gastoMonetario:serviciosFinancieros126",
    "gastoMonetario:otrosServicios127",
    "gastoMonetario:remesas128",
]


In [327]:
print(len(columnas_prioritarias_camel))  
print(len(columnas_prioritarias))


87
87


In [328]:
def reordenar_columnas(df, columnas_prioritarias):
    # Asegurar que solo usamos las que realmente están en el df
    columnas_prioritarias = [col for col in columnas_prioritarias if col in df.columns]
    
    # Identificar columnas que no están en la lista prioritaria
    columnas_restantes = [col for col in df.columns if col not in columnas_prioritarias]
    
    # Orden final
    orden_final = columnas_prioritarias + columnas_restantes
    
    return df[orden_final]


In [329]:
df = reordenar_columnas(df_final_ajustado, columnas_prioritarias)


In [330]:
df.head(5)  # Mostrar las primeras filas del DataFrame reordenado

Unnamed: 0,Timestamp,CCAA,CAPROV,TAMAMU,DENSIDAD,SUPERF,TIPOCASA,AGUACALI,CALEF,ZONARES,REGTEN,COMITOT,NUMESTU,NUMNOESTU,NUMOCU,NUMNOOCU,NUMACTI,NUMNOACTI,ANC_MAS,ANC_FEM,NADUL_MAS,NADUL_FEM,NNINO_FEM,NNINO_MAS,PERCEP_MAS,PERCEP_FEM,NO_PERCEP_MAS,NO_PERCEP_FEM,EDADSP,NACION_ESP,EDUC_SUPERIOR,FUENPRINRED,NUMOVD,IMPEXAC,GASTNOMON,tasa_ahorro,T_med,Tasa_Paro,Inflacion,Tipo_Interes,EUR_USD,IPC,PRODUCTOS_ALIMENTICIOS_11,BEBIDAS_NO_ALCOHÓLICAS_12,BEBIDAS_ALCOHÓLICAS_21,TABACO_22,ARTÍCULOS_DE_VESTIR_31,CALZADO_32,ALQUILERES_REALES_DE_LA_VIVIENDA_41,MANTENIMIENTO_DE_LA_VIVIENDA_43,SUMINISTRO_DE_AGUA_44,ELECTRICIDAD_GAS_OTROS_COMBUSTIBLES_45,MUEBLES_REVESTIMIENTOS_51,TEXTILES_PARA_EL_HOGAR_52,GRANDES_ELECTRODOMÉSTICOS_53,UTENSILIOS_DEL_HOGAR_54,HERRAMIENTAS_CASA_JARDÍN_55,BIENES_SERVICIOS_PARA_EL_HOGAR_56,PRODUCTOS_FARMACÉUTICOS_61,SERVICIOS_MÉDICOS_AMBULATORIOS_62,SERVICIOS_HOSPITALARIOS_63,COMPRA_DE_VEHÍCULOS_71,USO_DE_VEHÍCULOS_PERSONALES_72,SERVICIOS_DE_TRANSPORTE_73,SERVICIOS_POSTALES_81,EQUIPOS_TELÉFONO_FAX_82,SERVICIOS_TELÉFONO_FAX_83,AUDIOVISUALES_TECNOLOGÍA_91,BIENES_DURADEROS_DE_OCIO_92,OCIO_JARDINERÍA_MASCOTAS_93,SERVICIOS_RECREATIVOS_CULTURALES_94,PRENSA_PAPELERÍA_95,PAQUETES_TURÍSTICOS_96,EDUCACIÓN_INFANTIL_PRIMARIA_101,EDUCACIÓN_SECUNDARIA_POSTSECUNDARIA_102,EDUCACIÓN_SUPERIOR_103,EDUCACIÓN_NO_FORMAL_104,RESTAURACIÓN_111,ALOJAMIENTO_112,CUIDADOS_PERSONALES_121,EFECTOS_PERSONALES_123,PROTECCIÓN_SOCIAL_124,SEGUROS_125,SERVICIOS_FINANCIEROS_126,OTROS_SERVICIOS_127,REMESAS_128
0,2006-01-01T00:00:00Z,9,0,4,3,70.0,2,1,1,5,5,58.0,0,2,2.0,0,2.0,0,0,0,0,0,1,1,1,1,0,0,55,1,1,autonomYRenta,0.0,42599.71196,4632.676246,0.325187,17.62,6.5,2.8,3.5,1.26,78.512833,5366.587817,,2501.325816,,268.610136,,,849.123143,172.831501,350.980894,,,2300.023791,,464.389191,1183.669487,181.048776,1471.132682,,,225.161824,2235.47363,105.643608,26.186377,1520.690913,757.453145,,991.716203,529.56873,1903.565017,,,,141.680815,,84.442756,,3246.912707,,,1868.602704,,,
1,2006-01-01T00:00:00Z,9,1,5,3,65.0,2,1,1,5,4,36.0,0,2,1.0,1,1.0,1,0,0,0,1,1,0,0,1,0,1,49,1,1,asalariado,0.0,14095.24334,0.0,-0.260235,17.62,6.5,2.8,3.5,1.26,78.512833,3722.156904,981.89366,68.588082,59.599995,2056.440279,26.759182,2011.18162,,89.102983,377.626929,6.279639,96.019072,,12.071333,3.380256,274.18968,1232.852919,3.564119,,,157.422342,198.239994,,,803.63112,19.57437,,2.772093,582.167777,864.334295,173.970039,,1018.319808,,,1447.251669,0.650593,979.552938,13.323017,,476.27666,,4.129853,
2,2006-01-01T00:00:00Z,9,0,1,1,120.0,3,1,1,1,5,72.0,0,4,1.0,3,1.0,3,0,0,1,1,1,1,1,0,1,2,38,1,0,asalariado,0.0,9181.850267,3406.873777,-0.412638,17.62,6.5,2.8,3.5,1.26,78.512833,1627.600349,124.998756,31.893211,964.985308,1311.320118,1130.39156,65.448263,23.230421,354.283361,431.979748,59.36663,21.568579,34.474368,270.724564,8.295063,59.91822,36.13621,66.742377,9.589178,507.978936,412.75189,33.555052,,1.477978,334.369552,1441.01446,2.765021,105.643608,639.575556,68.02942,53.468862,242.239896,2.948884,5.162316,1.661841,309.922805,1199.764597,452.353216,31.893211,22.749547,423.168453,,43.328093,1.845705
3,2006-01-01T00:00:00Z,9,0,1,2,70.0,2,1,1,3,6,60.0,0,2,0.0,2,0.0,2,1,1,0,0,0,0,1,1,0,0,74,1,0,pension,0.0,10879.049947,3126.58125,-0.513042,17.62,6.5,2.8,3.5,1.26,78.512833,3232.896667,875.747963,345.507425,,1056.549231,,,107.43274,202.956795,1417.444599,,,,,,115.048923,35.952347,416.344296,,,5475.024733,,,,833.112893,,,537.248559,,268.440416,,,,,,176.43805,,947.086923,,,417.228255,,,
4,2006-01-01T00:00:00Z,9,0,4,3,56.0,2,1,1,5,6,23.0,0,1,0.0,1,0.0,1,0,0,0,0,0,1,1,0,0,0,48,1,1,pension,0.0,14298.907301,3910.178342,0.608033,17.62,6.5,2.8,3.5,1.26,78.512833,1232.867062,,,290.376722,,,,,843.034439,364.049331,,,,,,,,,,,,,,,780.626993,,,14.192832,,225.663912,507.837502,,,,,1237.110062,,108.924861,,,,,,


In [331]:
# Creamos el diccionario de renombrado
rename_dict = dict(zip(columnas_prioritarias, columnas_prioritarias_camel))

# Aplicarlo al DataFrame (por ejemplo df_final_ajustado)
df_final = df.rename(columns=rename_dict)

In [332]:
rename_dict

{'Timestamp': 'timestamp',
 'CCAA': 'ccaa',
 'CAPROV': 'capitalProvincia',
 'TAMAMU': 'tamanoMunicipio',
 'DENSIDAD': 'densidad',
 'SUPERF': 'superficie',
 'TIPOCASA': 'tipoCasa',
 'AGUACALI': 'aguaCaliente',
 'CALEF': 'calefaccion',
 'ZONARES': 'zonaResidencial',
 'REGTEN': 'regimenTenencia',
 'COMITOT': 'comidasTotales',
 'NUMESTU': 'miembros:estudiantes',
 'NUMNOESTU': 'miembros:noEstudiantes',
 'NUMOCU': 'miembros:ocupados',
 'NUMNOOCU': 'miembros:noOcupados',
 'NUMACTI': 'miembros:activos',
 'NUMNOACTI': 'miembros:noActivos',
 'ANC_MAS': 'miembros:ancianos:masculinos',
 'ANC_FEM': 'miembros:ancianos:femeninos',
 'NADUL_MAS': 'miembros:adultos:masculinos',
 'NADUL_FEM': 'miembros:adultos:femeninos',
 'NNINO_FEM': 'miembros:ninos:femeninos',
 'NNINO_MAS': 'miembros:ninos:masculinos',
 'PERCEP_MAS': 'miembros:conIngresos:masculinos',
 'PERCEP_FEM': 'miembros:conIngresos:femeninos',
 'NO_PERCEP_MAS': 'miembros:sinIngresos:masculinos',
 'NO_PERCEP_FEM': 'miembros:sinIngresos:femeninos'

Ajustamos nuestro codigos de comunidad a dos digitos

In [333]:
df_final['ccaa'] = df_final['ccaa'].astype(str).str.zfill(2)

In [334]:
df_final.head()  

Unnamed: 0,timestamp,ccaa,capitalProvincia,tamanoMunicipio,densidad,superficie,tipoCasa,aguaCaliente,calefaccion,zonaResidencial,regimenTenencia,comidasTotales,miembros:estudiantes,miembros:noEstudiantes,miembros:ocupados,miembros:noOcupados,miembros:activos,miembros:noActivos,miembros:ancianos:masculinos,miembros:ancianos:femeninos,miembros:adultos:masculinos,miembros:adultos:femeninos,miembros:ninos:femeninos,miembros:ninos:masculinos,miembros:conIngresos:masculinos,miembros:conIngresos:femeninos,miembros:sinIngresos:masculinos,miembros:sinIngresos:femeninos,edadSp,espanolSp,educacionSuperiorSp,fuentePrincipalIngresos,numeroViviendasAdicionales,ingresosNetos,gastoNoMonetario,tasaAhorro,temperaturaMedia,tasaParo,inflacion,tipoInteres,tasaCambioEurUsd,ipc,gastoMonetario:productosAlimenticios11,gastoMonetario:bebidasNoAlcoholicas12,gastoMonetario:bebidasAlcoholicas21,gastoMonetario:tabaco22,gastoMonetario:articulosDeVestir31,gastoMonetario:calzado32,gastoMonetario:alquileresRealesDeLaVivienda41,gastoMonetario:mantenimientoDeLaVivienda43,gastoMonetario:suministroDeAgua44,gastoMonetario:electricidadGasOtrosCombustibles45,gastoMonetario:mueblesRevestimientos51,gastoMonetario:textilesParaElHogar52,gastoMonetario:grandesElectrodomesticos53,gastoMonetario:utensiliosDelHogar54,gastoMonetario:herramientasCasaJardin55,gastoMonetario:bienesServiciosParaElHogar56,gastoMonetario:productosFarmaceuticos61,gastoMonetario:serviciosMedicosAmbulatorios62,gastoMonetario:serviciosHospitalarios63,gastoMonetario:compraDeVehiculos71,gastoMonetario:usoDeVehiculosPersonales72,gastoMonetario:serviciosDeTransporte73,gastoMonetario:serviciosPostales81,gastoMonetario:equiposTelefonoFax82,gastoMonetario:serviciosTelefonoFax83,gastoMonetario:audiovisualesTecnologia91,gastoMonetario:bienesDuraderosDeOcio92,gastoMonetario:ocioJardineriaYMascotas93,gastoMonetario:serviciosRecreativosYCulturales94,gastoMonetario:prensaYPapeleria95,gastoMonetario:paquetesTuristicos96,gastoMonetario:educacionInfantilYPrimaria101,gastoMonetario:educacionSecundariaYPostsecundaria102,gastoMonetario:educacionSuperior103,gastoMonetario:educacionNoFormal104,gastoMonetario:restauracion111,gastoMonetario:alojamiento112,gastoMonetario:cuidadosPersonales121,gastoMonetario:efectosPersonales123,gastoMonetario:proteccionSocial124,gastoMonetario:seguros125,gastoMonetario:serviciosFinancieros126,gastoMonetario:otrosServicios127,gastoMonetario:remesas128
0,2006-01-01T00:00:00Z,9,0,4,3,70.0,2,1,1,5,5,58.0,0,2,2.0,0,2.0,0,0,0,0,0,1,1,1,1,0,0,55,1,1,autonomYRenta,0.0,42599.71196,4632.676246,0.325187,17.62,6.5,2.8,3.5,1.26,78.512833,5366.587817,,2501.325816,,268.610136,,,849.123143,172.831501,350.980894,,,2300.023791,,464.389191,1183.669487,181.048776,1471.132682,,,225.161824,2235.47363,105.643608,26.186377,1520.690913,757.453145,,991.716203,529.56873,1903.565017,,,,141.680815,,84.442756,,3246.912707,,,1868.602704,,,
1,2006-01-01T00:00:00Z,9,1,5,3,65.0,2,1,1,5,4,36.0,0,2,1.0,1,1.0,1,0,0,0,1,1,0,0,1,0,1,49,1,1,asalariado,0.0,14095.24334,0.0,-0.260235,17.62,6.5,2.8,3.5,1.26,78.512833,3722.156904,981.89366,68.588082,59.599995,2056.440279,26.759182,2011.18162,,89.102983,377.626929,6.279639,96.019072,,12.071333,3.380256,274.18968,1232.852919,3.564119,,,157.422342,198.239994,,,803.63112,19.57437,,2.772093,582.167777,864.334295,173.970039,,1018.319808,,,1447.251669,0.650593,979.552938,13.323017,,476.27666,,4.129853,
2,2006-01-01T00:00:00Z,9,0,1,1,120.0,3,1,1,1,5,72.0,0,4,1.0,3,1.0,3,0,0,1,1,1,1,1,0,1,2,38,1,0,asalariado,0.0,9181.850267,3406.873777,-0.412638,17.62,6.5,2.8,3.5,1.26,78.512833,1627.600349,124.998756,31.893211,964.985308,1311.320118,1130.39156,65.448263,23.230421,354.283361,431.979748,59.36663,21.568579,34.474368,270.724564,8.295063,59.91822,36.13621,66.742377,9.589178,507.978936,412.75189,33.555052,,1.477978,334.369552,1441.01446,2.765021,105.643608,639.575556,68.02942,53.468862,242.239896,2.948884,5.162316,1.661841,309.922805,1199.764597,452.353216,31.893211,22.749547,423.168453,,43.328093,1.845705
3,2006-01-01T00:00:00Z,9,0,1,2,70.0,2,1,1,3,6,60.0,0,2,0.0,2,0.0,2,1,1,0,0,0,0,1,1,0,0,74,1,0,pension,0.0,10879.049947,3126.58125,-0.513042,17.62,6.5,2.8,3.5,1.26,78.512833,3232.896667,875.747963,345.507425,,1056.549231,,,107.43274,202.956795,1417.444599,,,,,,115.048923,35.952347,416.344296,,,5475.024733,,,,833.112893,,,537.248559,,268.440416,,,,,,176.43805,,947.086923,,,417.228255,,,
4,2006-01-01T00:00:00Z,9,0,4,3,56.0,2,1,1,5,6,23.0,0,1,0.0,1,0.0,1,0,0,0,0,0,1,1,0,0,0,48,1,1,pension,0.0,14298.907301,3910.178342,0.608033,17.62,6.5,2.8,3.5,1.26,78.512833,1232.867062,,,290.376722,,,,,843.034439,364.049331,,,,,,,,,,,,,,,780.626993,,,14.192832,,225.663912,507.837502,,,,,1237.110062,,108.924861,,,,,,


In [335]:
df_final.tail()

Unnamed: 0,timestamp,ccaa,capitalProvincia,tamanoMunicipio,densidad,superficie,tipoCasa,aguaCaliente,calefaccion,zonaResidencial,regimenTenencia,comidasTotales,miembros:estudiantes,miembros:noEstudiantes,miembros:ocupados,miembros:noOcupados,miembros:activos,miembros:noActivos,miembros:ancianos:masculinos,miembros:ancianos:femeninos,miembros:adultos:masculinos,miembros:adultos:femeninos,miembros:ninos:femeninos,miembros:ninos:masculinos,miembros:conIngresos:masculinos,miembros:conIngresos:femeninos,miembros:sinIngresos:masculinos,miembros:sinIngresos:femeninos,edadSp,espanolSp,educacionSuperiorSp,fuentePrincipalIngresos,numeroViviendasAdicionales,ingresosNetos,gastoNoMonetario,tasaAhorro,temperaturaMedia,tasaParo,inflacion,tipoInteres,tasaCambioEurUsd,ipc,gastoMonetario:productosAlimenticios11,gastoMonetario:bebidasNoAlcoholicas12,gastoMonetario:bebidasAlcoholicas21,gastoMonetario:tabaco22,gastoMonetario:articulosDeVestir31,gastoMonetario:calzado32,gastoMonetario:alquileresRealesDeLaVivienda41,gastoMonetario:mantenimientoDeLaVivienda43,gastoMonetario:suministroDeAgua44,gastoMonetario:electricidadGasOtrosCombustibles45,gastoMonetario:mueblesRevestimientos51,gastoMonetario:textilesParaElHogar52,gastoMonetario:grandesElectrodomesticos53,gastoMonetario:utensiliosDelHogar54,gastoMonetario:herramientasCasaJardin55,gastoMonetario:bienesServiciosParaElHogar56,gastoMonetario:productosFarmaceuticos61,gastoMonetario:serviciosMedicosAmbulatorios62,gastoMonetario:serviciosHospitalarios63,gastoMonetario:compraDeVehiculos71,gastoMonetario:usoDeVehiculosPersonales72,gastoMonetario:serviciosDeTransporte73,gastoMonetario:serviciosPostales81,gastoMonetario:equiposTelefonoFax82,gastoMonetario:serviciosTelefonoFax83,gastoMonetario:audiovisualesTecnologia91,gastoMonetario:bienesDuraderosDeOcio92,gastoMonetario:ocioJardineriaYMascotas93,gastoMonetario:serviciosRecreativosYCulturales94,gastoMonetario:prensaYPapeleria95,gastoMonetario:paquetesTuristicos96,gastoMonetario:educacionInfantilYPrimaria101,gastoMonetario:educacionSecundariaYPostsecundaria102,gastoMonetario:educacionSuperior103,gastoMonetario:educacionNoFormal104,gastoMonetario:restauracion111,gastoMonetario:alojamiento112,gastoMonetario:cuidadosPersonales121,gastoMonetario:efectosPersonales123,gastoMonetario:proteccionSocial124,gastoMonetario:seguros125,gastoMonetario:serviciosFinancieros126,gastoMonetario:otrosServicios127,gastoMonetario:remesas128
365313,2023-01-01T00:00:00Z,18,1,4,3,82.0,2,1,0,4,3,112.0,0,8,0.0,8,4.0,4,0,0,2,2,0,4,1,1,5,1,43,0,0,pension,0.0,12960.0,0.0,-0.766272,19.6,30.0,3.3,4.5,1.08,112.407167,5646.01,1503.59,,,8760.02,1460.0,1176.0,,312.0,540.0,,,,,,216.69,,262.75,,,1298.41,,,,360.0,,,,,660.36,,,,,,375.04,,,,,,320.0,,
365314,2023-01-01T00:00:00Z,18,1,4,3,200.0,3,1,0,6,3,34.0,0,3,0.0,3,1.0,2,1,1,1,0,0,0,2,0,0,1,85,1,1,pension,0.0,44160.0,0.0,0.094063,19.6,30.0,3.3,4.5,1.08,112.407167,10612.64,4202.06,1360.66,1132.79,216.69,193.8,2880.0,,540.0,1260.0,,,129.2,,,351.41,3278.62,516.81,,,,,,,672.0,,,,,,,,,,,9920.55,,2738.96,,,,,,
365315,2023-01-01T00:00:00Z,18,1,4,3,70.0,2,1,0,5,3,42.0,0,3,0.0,3,2.0,1,0,0,1,1,1,0,1,0,0,2,30,1,0,pension,0.0,5472.0,0.0,-0.044229,19.6,30.0,3.3,4.5,1.08,112.407167,2778.56,,,,,,,,456.0,726.6,,,,,,,1401.36,,,,,255.5,,,96.0,,,,,,,,,,,,,,,,,,,
365316,2023-01-01T00:00:00Z,18,1,4,3,128.0,2,1,0,6,6,48.0,1,3,2.0,2,2.0,2,0,0,1,1,0,2,1,1,2,0,64,1,1,asalariado,0.0,96000.0,9531.9,0.637511,19.6,30.0,3.3,4.5,1.08,112.407167,8035.61,835.01,232.56,,9879.36,1216.67,,,2400.0,2160.0,,,1967.6,,,1142.88,1313.77,,,,,851.67,,,1920.0,,,,,218.96,,,,,,,,1824.81,,,,800.0,,
365317,2023-01-01T00:00:00Z,18,1,4,3,45.0,1,1,0,5,4,0.0,0,1,1.0,0,1.0,0,0,0,1,0,0,0,1,0,0,0,47,1,0,asalariado,0.0,39600.0,1356.0,0.347149,19.6,30.0,3.3,4.5,1.08,112.407167,1998.93,44.3,,,1825.0,,7200.0,,504.0,360.0,,,,,,121.67,664.47,1423.25,,,,389.33,,,240.0,,,,,48.67,,,,,,9795.34,,,,437.92,,800.0,,


### Datamart para cada comunidad

In [336]:
import os

# Directorio donde van a guardarse los ficheros
output_dir = '../../datamarts/picotaData'
os.makedirs(output_dir, exist_ok=True)

for ccaa, group in df_final.groupby('ccaa'):
    df_sub = group.drop(columns=['ccaa'])
    filename = f'hogar{ccaa}.tsv'
    filepath = os.path.join(output_dir, filename)
    df_sub.to_csv(filepath, sep='\t', index=False)

print("Ficheros guardados en", output_dir)


Ficheros guardados en ../../datamarts/picotaData


In [337]:
# Cargar de la ruta de salida un fichero de ejemplo
df_example = pd.read_csv(os.path.join(output_dir, 'hogar01.tsv'), sep='\t')
df_example.head()

Unnamed: 0,timestamp,capitalProvincia,tamanoMunicipio,densidad,superficie,tipoCasa,aguaCaliente,calefaccion,zonaResidencial,regimenTenencia,comidasTotales,miembros:estudiantes,miembros:noEstudiantes,miembros:ocupados,miembros:noOcupados,miembros:activos,miembros:noActivos,miembros:ancianos:masculinos,miembros:ancianos:femeninos,miembros:adultos:masculinos,miembros:adultos:femeninos,miembros:ninos:femeninos,miembros:ninos:masculinos,miembros:conIngresos:masculinos,miembros:conIngresos:femeninos,miembros:sinIngresos:masculinos,miembros:sinIngresos:femeninos,edadSp,espanolSp,educacionSuperiorSp,fuentePrincipalIngresos,numeroViviendasAdicionales,ingresosNetos,gastoNoMonetario,tasaAhorro,temperaturaMedia,tasaParo,inflacion,tipoInteres,tasaCambioEurUsd,ipc,gastoMonetario:productosAlimenticios11,gastoMonetario:bebidasNoAlcoholicas12,gastoMonetario:bebidasAlcoholicas21,gastoMonetario:tabaco22,gastoMonetario:articulosDeVestir31,gastoMonetario:calzado32,gastoMonetario:alquileresRealesDeLaVivienda41,gastoMonetario:mantenimientoDeLaVivienda43,gastoMonetario:suministroDeAgua44,gastoMonetario:electricidadGasOtrosCombustibles45,gastoMonetario:mueblesRevestimientos51,gastoMonetario:textilesParaElHogar52,gastoMonetario:grandesElectrodomesticos53,gastoMonetario:utensiliosDelHogar54,gastoMonetario:herramientasCasaJardin55,gastoMonetario:bienesServiciosParaElHogar56,gastoMonetario:productosFarmaceuticos61,gastoMonetario:serviciosMedicosAmbulatorios62,gastoMonetario:serviciosHospitalarios63,gastoMonetario:compraDeVehiculos71,gastoMonetario:usoDeVehiculosPersonales72,gastoMonetario:serviciosDeTransporte73,gastoMonetario:serviciosPostales81,gastoMonetario:equiposTelefonoFax82,gastoMonetario:serviciosTelefonoFax83,gastoMonetario:audiovisualesTecnologia91,gastoMonetario:bienesDuraderosDeOcio92,gastoMonetario:ocioJardineriaYMascotas93,gastoMonetario:serviciosRecreativosYCulturales94,gastoMonetario:prensaYPapeleria95,gastoMonetario:paquetesTuristicos96,gastoMonetario:educacionInfantilYPrimaria101,gastoMonetario:educacionSecundariaYPostsecundaria102,gastoMonetario:educacionSuperior103,gastoMonetario:educacionNoFormal104,gastoMonetario:restauracion111,gastoMonetario:alojamiento112,gastoMonetario:cuidadosPersonales121,gastoMonetario:efectosPersonales123,gastoMonetario:proteccionSocial124,gastoMonetario:seguros125,gastoMonetario:serviciosFinancieros126,gastoMonetario:otrosServicios127,gastoMonetario:remesas128
0,2006-01-01T00:00:00Z,0,1,1,80.0,1,1,0,3,4,84.0,0,3,0.0,3,1.0,2,1,1,0,0,1,0,1,1,0,1,67,1,0,pension,0.0,5478.930437,0.0,0.148916,19.62,12.6,2.9,3.5,1.26,81.54775,984.610902,13.234969,29.135715,117.836016,133.888473,82.595743,260.075812,3.041442,115.58925,641.151895,4.370719,14.101888,1.054752,16.471468,21.463479,76.809056,73.854306,11.826225,,,322.111117,19.881351,,,307.857518,3.749426,,41.359278,164.418483,64.527699,6.299614,,,,,509.170645,,453.788946,6.234595,,156.045487,,,6.465774
1,2006-01-01T00:00:00Z,0,3,1,90.0,2,1,0,5,6,68.0,2,3,3.0,2,3.0,2,0,0,0,2,1,2,2,1,0,2,47,1,0,asalariado,0.0,25097.315845,2766.339719,0.636083,19.62,12.6,2.9,3.5,1.26,81.54775,1091.653772,32.386663,208.876999,56.385881,705.903548,736.513026,,,183.411242,821.882911,0.065019,1.93612,,17.143331,0.086692,192.911233,179.849648,235.874313,,,2210.391549,34.88628,,,909.167244,17.547893,0.527376,13.487821,204.426812,106.71055,0.628517,,,,1.50266,514.162656,,149.29074,10.923184,,484.196143,,10.612538,
2,2006-01-01T00:00:00Z,0,2,2,90.0,2,1,0,5,6,56.0,0,2,0.0,2,0.0,2,1,1,0,0,0,0,1,0,0,1,77,1,0,pension,0.0,3918.475565,1995.561704,-0.217122,19.62,12.6,2.9,3.5,1.26,81.54775,2188.985865,135.795695,77.033011,,329.696662,,,,120.588485,544.829929,,,248.495214,,,54.810977,,,,,,,,,173.773988,,,,320.738495,,,,,,,149.550816,,289.204303,,,135.759574,,,
3,2006-01-01T00:00:00Z,1,5,3,90.0,1,1,1,4,2,10.0,0,1,0.0,1,0.0,1,0,0,0,0,1,0,0,1,0,0,58,1,0,pension,1.0,2904.179899,5209.145128,-0.840779,19.62,12.6,2.9,3.5,1.26,81.54775,750.383736,,,,1241.284055,725.141934,,,631.781942,878.384382,,51.328851,,,,,177.082731,,,,27.640279,588.399851,,,130.037906,,,,,,,,,,,,,,,,144.486562,,,
4,2006-01-01T00:00:00Z,0,2,1,120.0,3,1,0,5,6,84.0,0,3,1.0,2,1.0,2,1,1,0,0,0,1,2,0,0,1,67,1,0,pension,0.0,13073.144143,2470.026677,0.074694,19.62,12.6,2.9,3.5,1.26,81.54775,2340.126034,241.567083,76.187764,326.467387,176.085773,13.841813,0.2673,5.916725,206.940879,305.292881,4.659692,489.217051,4.854748,1.047528,36.490081,29.085145,2139.737621,254.758706,,1.856652,1130.614573,26.730014,17.30949,2.730796,252.425248,483.047475,1.509885,49.739499,532.895339,63.653555,0.325095,0.014449,,0.065019,0.036122,1864.411252,1.806082,232.652262,6.306838,0.108365,758.063197,,0.549049,17.25892
