In [8]:
import pandas as pd

In [9]:
import pandas as pd

# Cargar CSV - CORREGIDO: usar coma como delimitador
df = pd.read_csv("div_full.csv", sep=',')

print("=" * 80)
print("EXPLORACIÓN BÁSICA")
print("=" * 80)
print(f"\nShape original: {df.shape}")
print(f"\nTipos de datos antes de conversión:")
print(df.dtypes)

# ============================================================================
# CONVERSIÓN DE COLUMNAS NUMÉRICAS
# ============================================================================
# Estas 4 columnas DEBEN ser numéricas para análisis estadístico
COLUMNAS_NUMERICAS = ['AÑOREG', 'DIAOCU', 'EDADHOM', 'EDADMUJ']

print("\n" + "=" * 80)
print("CONVIRTIENDO COLUMNAS NUMÉRICAS")
print("=" * 80)

for col in COLUMNAS_NUMERICAS:
    if col in df.columns:
        # Convertir a numérico, valores no convertibles (como "Ignorado") → NaN
        valores_antes = df[col].notna().sum()
        df[col] = pd.to_numeric(df[col], errors='coerce')
        valores_despues = df[col].notna().sum()
        valores_perdidos = valores_antes - valores_despues
        
        print(f"✓ {col}:")
        print(f"  - Valores válidos: {valores_despues:,}")
        print(f"  - Convertidos a NaN: {valores_perdidos:,}")
        print(f"  - % válidos: {(valores_despues/len(df)*100):.1f}%")

print("\n" + "=" * 80)
print("TIPOS DE DATOS DESPUÉS DE CONVERSIÓN")
print("=" * 80)
print(df.dtypes)

# Info general
print("\n" + "=" * 80)
print("INFORMACIÓN GENERAL DEL DATAFRAME")
print("=" * 80)
df.info()

EXPLORACIÓN BÁSICA

Shape original: (56349, 12)

Tipos de datos antes de conversión:
AÑOREG     float64
DEPOCU      object
DEPREG      object
DIAOCU     float64
EDADHOM     object
EDADMUJ     object
MESOCU      object
MESREG      object
MUPOCU      object
MUPREG      object
NACHOM      object
NACMUJ      object
dtype: object

CONVIRTIENDO COLUMNAS NUMÉRICAS
✓ AÑOREG:
  - Valores válidos: 56,349
  - Convertidos a NaN: 0
  - % válidos: 100.0%
✓ DIAOCU:
  - Valores válidos: 56,349
  - Convertidos a NaN: 0
  - % válidos: 100.0%
✓ EDADHOM:
  - Valores válidos: 25,467
  - Convertidos a NaN: 30,882
  - % válidos: 45.2%
✓ EDADMUJ:
  - Valores válidos: 25,584
  - Convertidos a NaN: 30,765
  - % válidos: 45.4%

TIPOS DE DATOS DESPUÉS DE CONVERSIÓN
AÑOREG     float64
DEPOCU      object
DEPREG      object
DIAOCU     float64
EDADHOM    float64
EDADMUJ    float64
MESOCU      object
MESREG      object
MUPOCU      object
MUPREG      object
NACHOM      object
NACMUJ      object
dtype: object

INFORMACI

In [10]:
print(df.head())

   AÑOREG          DEPOCU          DEPREG  DIAOCU  EDADHOM  EDADMUJ  \
0  2011.0  Quetzaltenango  Quetzaltenango    21.0     44.0     14.0   
1  2011.0       Guatemala       Guatemala     7.0      NaN      NaN   
2  2011.0       Guatemala       Guatemala     5.0      NaN      NaN   
3  2011.0          Izabal          Izabal     6.0      NaN      NaN   
4  2011.0       Guatemala       Guatemala    29.0      NaN      NaN   

       MESOCU     MESREG          MUPOCU          MUPREG     NACHOM     NACMUJ  
0     Febrero      Julio  Quetzaltenango  Quetzaltenango  Guatemala  Guatemala  
1       Abril     Agosto       Guatemala       Guatemala  Guatemala    Austria  
2  Septiembre    Octubre       Guatemala       Guatemala  Guatemala    Bolivia  
3       Julio     Agosto  Puerto Barrios  Puerto Barrios  Guatemala     Canadá  
4       Julio  Noviembre       Guatemala       Guatemala  Guatemala     Canadá  


In [11]:
print("=" * 80)
print("MEDIDAS DE TENDENCIA CENTRAL (solo columnas numéricas)")
print("=" * 80)

# Seleccionar SOLO columnas numéricas
df_numerico = df.select_dtypes(include=['number'])

tendencia = pd.DataFrame({
    "MEDIA": df_numerico.mean(),
    "MEDIANA": df_numerico.median(),
    "MODA": df_numerico.mode().iloc[0] if len(df_numerico.mode()) > 0 else None
})

print(tendencia)
print(f"\n✓ Análisis realizado sobre {len(df_numerico.columns)} columnas numéricas")
print(f"Columnas analizadas: {', '.join(df_numerico.columns)}")

MEDIDAS DE TENDENCIA CENTRAL (solo columnas numéricas)
               MEDIA  MEDIANA    MODA
AÑOREG   2015.934657   2016.0  2019.0
DIAOCU     15.748549     16.0     3.0
EDADHOM    35.514077     33.0    29.0
EDADMUJ    32.167487     30.0    27.0

✓ Análisis realizado sobre 4 columnas numéricas
Columnas analizadas: AÑOREG, DIAOCU, EDADHOM, EDADMUJ


In [12]:
print("=" * 80)
print("MEDIDAS DE DISPERSIÓN (solo columnas numéricas)")
print("=" * 80)

# Seleccionar SOLO columnas numéricas
df_numerico = df.select_dtypes(include=['number'])

distribucion = pd.DataFrame({
    "MIN": df_numerico.min(),
    "MAX": df_numerico.max(),
    "RANGO": df_numerico.max() - df_numerico.min(),
    "VARIANZA": df_numerico.var(),
    "DESV_STD": df_numerico.std()
})

print(distribucion)
print(f"\n✓ Análisis realizado sobre {len(df_numerico.columns)} columnas numéricas")

MEDIDAS DE DISPERSIÓN (solo columnas numéricas)
            MIN     MAX  RANGO    VARIANZA   DESV_STD
AÑOREG   2011.0  2021.0   10.0    7.885842   2.808174
DIAOCU      1.0    31.0   30.0   75.625687   8.696303
EDADHOM    15.0    96.0   81.0  104.221931  10.208914
EDADMUJ    14.0    80.0   66.0   86.204015   9.284612

✓ Análisis realizado sobre 4 columnas numéricas


In [13]:
print("=" * 80)
print("MEDIDAS DE ORDEN - CUARTILES (solo columnas numéricas)")
print("=" * 80)

# Seleccionar SOLO columnas numéricas
df_numerico = df.select_dtypes(include=['number'])

orden = df_numerico.quantile([0.25, 0.5, 0.75]).T
orden.columns = ["Q1_25%", "Q2_50%_MEDIANA", "Q3_75%"]

print(orden)
print(f"\n✓ Análisis realizado sobre {len(df_numerico.columns)} columnas numéricas")

MEDIDAS DE ORDEN - CUARTILES (solo columnas numéricas)
         Q1_25%  Q2_50%_MEDIANA  Q3_75%
AÑOREG   2014.0          2016.0  2018.0
DIAOCU      8.0            16.0    23.0
EDADHOM    28.0            33.0    41.0
EDADMUJ    25.0            30.0    37.0

✓ Análisis realizado sobre 4 columnas numéricas


In [14]:
print("=" * 80)
print("RESUMEN ESTADÍSTICO GENERAL (solo columnas numéricas)")
print("=" * 80)

# Seleccionar SOLO columnas numéricas
df_numerico = df.select_dtypes(include=['number'])

if len(df_numerico.columns) > 0:
    resumen = df_numerico.describe().T
    print(resumen)
    print(f"\n✓ Análisis realizado sobre {len(df_numerico.columns)} columnas numéricas")
    print(f"Columnas analizadas: {', '.join(df_numerico.columns)}")
else:
    print("❌ No se encontraron columnas numéricas para analizar")
    print("Verifique que la conversión de columnas numéricas se realizó correctamente")

RESUMEN ESTADÍSTICO GENERAL (solo columnas numéricas)
           count         mean        std     min     25%     50%     75%  \
AÑOREG   56349.0  2015.934657   2.808174  2011.0  2014.0  2016.0  2018.0   
DIAOCU   56349.0    15.748549   8.696303     1.0     8.0    16.0    23.0   
EDADHOM  25467.0    35.514077  10.208914    15.0    28.0    33.0    41.0   
EDADMUJ  25584.0    32.167487   9.284612    14.0    25.0    30.0    37.0   

            max  
AÑOREG   2021.0  
DIAOCU     31.0  
EDADHOM    96.0  
EDADMUJ    80.0  

✓ Análisis realizado sobre 4 columnas numéricas
Columnas analizadas: AÑOREG, DIAOCU, EDADHOM, EDADMUJ


In [15]:
# 4. Exploración de variables categóricas Tablas de frecuencia

def tabla_frecuencia(df, columna):
    freq_abs = df[columna].value_counts()
    freq_rel = df[columna].value_counts(normalize=True) * 100
    return pd.DataFrame({
        'FRECUENCIA_ABSOLUTA': freq_abs,
        'FRECUENCIA_RELATIVA_%': freq_rel
    })



vars_categ = [
    'DEPREG', 
    'MUPOCU', 
    'MUPREG', 
    'NACHOM', 
    'NACMUJ', 
    'AÑOREG', 
    'MESOCU', 
    'MESREG', 
    'DIAOCU'
]

for i in vars_categ:
    print(f"\nTabla de frecuencia para: {i}")
    print(tabla_frecuencia(df, i))



Tabla de frecuencia para: DEPREG
                FRECUENCIA_ABSOLUTA  FRECUENCIA_RELATIVA_%
DEPREG                                                    
Guatemala                     22339              39.644004
Quetzaltenango                 4175               7.409182
Escuintla                      2598               4.610552
Jutiapa                        2248               3.989423
San Marcos                     2049               3.636267
Izabal                         1821               3.231646
Huehuetenango                  1724               3.059504
Suchitepequez                  1609               2.855419
Retalhuleu                     1568               2.782658
Zacapa                         1512               2.683277
Santa Rosa                     1466               2.601643
Chiquimula                     1407               2.496939
Alta Verapaz                   1401               2.486291
Jalapa                         1394               2.473868
Peten                 

In [16]:
print("=" * 80)
print("VALIDACIÓN DE RESULTADOS")
print("=" * 80)

# Verificar que las columnas numéricas tienen el tipo correcto
columnas_num_esperadas = ['AÑOREG', 'DIAOCU', 'EDADHOM', 'EDADMUJ']
for col in columnas_num_esperadas:
    tipo = df[col].dtype
    es_numerico = pd.api.types.is_numeric_dtype(df[col])
    print(f"{col}: {tipo} - {'✓ NUMÉRICO' if es_numerico else '❌ NO NUMÉRICO'}")

# Verificar estadísticas clave
print("\n" + "=" * 80)
print("ESTADÍSTICAS CLAVE (para comparar con versión anterior)")
print("=" * 80)

print(f"Total registros: {len(df):,}")
print(f"Edad promedio hombres: {df['EDADHOM'].mean():.2f} años")
print(f"Edad promedio mujeres: {df['EDADMUJ'].mean():.2f} años")
print(f"Divorcios en 2019: {(df['AÑOREG'] == 2019).sum():,}")
print(f"% valores válidos EDADHOM: {(df['EDADHOM'].notna().sum()/len(df)*100):.1f}%")
print(f"% valores válidos EDADMUJ: {(df['EDADMUJ'].notna().sum()/len(df)*100):.1f}%")

print("\n✓ Si estos valores coinciden con la versión anterior, la migración fue exitosa")

VALIDACIÓN DE RESULTADOS
AÑOREG: float64 - ✓ NUMÉRICO
DIAOCU: float64 - ✓ NUMÉRICO
EDADHOM: float64 - ✓ NUMÉRICO
EDADMUJ: float64 - ✓ NUMÉRICO

ESTADÍSTICAS CLAVE (para comparar con versión anterior)
Total registros: 56,349
Edad promedio hombres: 35.51 años
Edad promedio mujeres: 32.17 años
Divorcios en 2019: 8,430
% valores válidos EDADHOM: 45.2%
% valores válidos EDADMUJ: 45.4%

✓ Si estos valores coinciden con la versión anterior, la migración fue exitosa
