In [28]:
import os
import pandas as pd
import pyreadstat

In [29]:
ruta_carpeta = "data"
ruta_salida = "base_final_unificada_normalizada.sav"

In [30]:
archivos_sav = [f for f in os.listdir(ruta_carpeta) if f.endswith(".sav")]

print(f"Archivos encontrados: {len(archivos_sav)}")
archivos_sav

Archivos encontrados: 11


['201712041525490jPevoWKMXOZPJq5KpYU9Tlj4peGmEEd.sav',
 '20181226143330lNO5qooyMLWxGu8XJLL7BXprdvTjfO0q.sav',
 '20191129151703IbgVgHc5enyxiXopUTuxcrUzC5WPkzCr.sav',
 '20201201154915Yd6FWtyVWNULqHYzwTiXcRaLAl8B8jul.sav',
 '20210730184315Yd6FWtyVWNULqHYzwTiXcRaLAl8B8jul (2).sav',
 '20220729171254FYBQhYtMxyPU3C9wbQbaxGTEtg107w32.sav',
 '202307282030176jUXYrCteX8JWZUbSn6B6fCXUXaZQ78F.sav',
 '2W4N7bnfbaVntLsINTDXCUZ57oCLyC3o.sav',
 'PZrZNHRSBszrytG8VuGha9WbabSmldOl.sav',
 'RceAnfmGqPRS02bqMI8XMzt6ZXx64XS7.sav',
 'RESsr1X3WuQcTxhLVlyslBKGtHAXqSrH.sav']

In [31]:
lista_bases = []
resumen = []

for archivo in archivos_sav:
    try:
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        df = pd.read_spss(ruta_archivo)

        columnas_originales = set(df.columns)

        # Normalizar nombres equivalentes
        if "PPERHOM" in df.columns:
            df = df.rename(columns={"PPERHOM": "PUEHOM"})
        if "PPERMUJ" in df.columns:
            df = df.rename(columns={"PPERMUJ": "PUEMUJ"})

        columnas_finales = set(df.columns)

        resumen.append({
            "archivo": archivo,
            "columnas_antes": len(columnas_originales),
            "columnas_despues": len(columnas_finales),
            "renombro_PPER": columnas_originales != columnas_finales
        })

        lista_bases.append(df)

        print(f"Procesado: {archivo}")

    except Exception as e:
        print(f"ERROR con {archivo}: {e}")


Procesado: 201712041525490jPevoWKMXOZPJq5KpYU9Tlj4peGmEEd.sav
Procesado: 20181226143330lNO5qooyMLWxGu8XJLL7BXprdvTjfO0q.sav
Procesado: 20191129151703IbgVgHc5enyxiXopUTuxcrUzC5WPkzCr.sav
Procesado: 20201201154915Yd6FWtyVWNULqHYzwTiXcRaLAl8B8jul.sav
Procesado: 20210730184315Yd6FWtyVWNULqHYzwTiXcRaLAl8B8jul (2).sav
Procesado: 20220729171254FYBQhYtMxyPU3C9wbQbaxGTEtg107w32.sav
Procesado: 202307282030176jUXYrCteX8JWZUbSn6B6fCXUXaZQ78F.sav
Procesado: 2W4N7bnfbaVntLsINTDXCUZ57oCLyC3o.sav
Procesado: PZrZNHRSBszrytG8VuGha9WbabSmldOl.sav
Procesado: RceAnfmGqPRS02bqMI8XMzt6ZXx64XS7.sav
Procesado: RESsr1X3WuQcTxhLVlyslBKGtHAXqSrH.sav


In [33]:
base_final = pd.concat(lista_bases, ignore_index=True)

print(f"Base final creada con {base_final.shape[0]} filas y {base_final.shape[1]} columnas")

Base final creada con 71576 filas y 23 columnas


In [34]:
pyreadstat.write_sav(base_final, ruta_salida)

print(f" Archivo exportado correctamente: {ruta_salida}")

 Archivo exportado correctamente: base_final_unificada_normalizada.sav


In [11]:
# Ruta del archivo .sav
ruta_archivo = "base_final_unificada_normalizada.sav"

# Leer el archivo SPSS
df, meta = pyreadstat.read_sav(ruta_archivo)


In [14]:
#Descripción General del conjunto de datos 
num_observaciones = df.shape[0]
num_variables = df.shape[1]

print("Cantidad de observaciones:", num_observaciones)
print("Cantidad de variables:", num_variables)

Cantidad de observaciones: 71576
Cantidad de variables: 23


In [19]:
#Exploración de variables numéricas
tendencia_central = pd.DataFrame({
    "media": df_num.mean(),
    "mediana": df_num.median(),
    "moda": df_num.mode().iloc[0]
})

tendencia_central


Unnamed: 0,media,mediana,moda
DEPREG,7.990673,7.0,1.0
MESREG,6.396171,6.0,2.0
AÑOREG,2020.31566,2020.0,2020.0
DIAOCU,15.738341,16.0,16.0
MESOCU,6.669858,9.0,10.0
AÑOOCU,2020.0,2020.0,2020.0
DEPOCU,8.182867,8.0,1.0
EDADHOM,414.413844,45.0,999.0
EDADMUJ,414.14703,41.0,999.0
PPERHOM,5.859352,4.0,4.0


In [20]:
distribucion = pd.DataFrame({
    "min": df_num.min(),
    "max": df_num.max(),
    "rango": df_num.max() - df_num.min(),
    "varianza": df_num.var(),
    "desviacion_std": df_num.std(),
    "coef_variacion": df_num.std() / df_num.mean()
})

distribucion


Unnamed: 0,min,max,rango,varianza,desviacion_std,coef_variacion
DEPREG,1.0,22.0,21.0,46.61322,6.827388,0.85442
MESREG,1.0,12.0,11.0,17.234613,4.151459,0.649054
AÑOREG,2020.0,2021.0,1.0,0.216072,0.464835,0.00023
DIAOCU,1.0,31.0,30.0,74.560047,8.634816,0.548648
MESOCU,1.0,12.0,11.0,18.599793,4.312748,0.646603
AÑOOCU,2020.0,2020.0,0.0,0.0,0.0,0.0
DEPOCU,1.0,22.0,21.0,47.091766,6.862344,0.838623
EDADHOM,19.0,999.0,980.0,221125.178556,470.239491,1.13471
EDADMUJ,19.0,999.0,980.0,222913.611817,472.137281,1.140023
PPERHOM,1.0,9.0,8.0,8.005011,2.829313,0.482871


In [21]:
orden = df_num.quantile([0.25, 0.5, 0.75]).T
orden.columns = ["Q1_25%", "Q2_50%_mediana", "Q3_75%"]

orden


Unnamed: 0,Q1_25%,Q2_50%_mediana,Q3_75%
DEPREG,1.0,7.0,13.0
MESREG,2.0,6.0,11.0
AÑOREG,2020.0,2020.0,2021.0
DIAOCU,9.0,16.0,23.0
MESOCU,2.0,9.0,10.0
AÑOOCU,2020.0,2020.0,2020.0
DEPOCU,1.0,8.0,13.0
EDADHOM,32.0,45.0,999.0
EDADMUJ,30.0,41.0,999.0
PPERHOM,4.0,4.0,9.0


In [23]:
resumen_numericas = df_num.describe().T

resumen_numericas["varianza"] = df_num.var()
resumen_numericas["coef_variacion"] = df_num.std() / df_num.mean()

pd.set_option("display.max_rows", None)
pd.set_option("display.max_columns", None)
pd.set_option("display.width", None)

resumen_numericas

Unnamed: 0,count,mean,std,min,25%,50%,75%,max,varianza,coef_variacion
DEPREG,4074.0,7.990673,6.827388,1.0,1.0,7.0,13.0,22.0,46.61322,0.85442
MESREG,4074.0,6.396171,4.151459,1.0,2.0,6.0,11.0,12.0,17.234613,0.649054
AÑOREG,4074.0,2020.31566,0.464835,2020.0,2020.0,2020.0,2021.0,2021.0,0.216072,0.00023
DIAOCU,4074.0,15.738341,8.634816,1.0,9.0,16.0,23.0,31.0,74.560047,0.548648
MESOCU,4074.0,6.669858,4.312748,1.0,2.0,9.0,10.0,12.0,18.599793,0.646603
AÑOOCU,4074.0,2020.0,0.0,2020.0,2020.0,2020.0,2020.0,2020.0,0.0,0.0
DEPOCU,4074.0,8.182867,6.862344,1.0,1.0,8.0,13.0,22.0,47.091766,0.838623
EDADHOM,4074.0,414.413844,470.239491,19.0,32.0,45.0,999.0,999.0,221125.178556,1.13471
EDADMUJ,4074.0,414.14703,472.137281,19.0,30.0,41.0,999.0,999.0,222913.611817,1.140023
PPERHOM,4074.0,5.859352,2.829313,1.0,4.0,4.0,9.0,9.0,8.005011,0.482871
