# Verificaci√≥n y Exploraci√≥n de Base de Datos CASEN 2022

Este notebook carga la base de datos STATA del CASEN 2022 y extrae/lista las variables por categor√≠as tem√°ticas.

## Objetivos:
- ‚úÖ Cargar archivo .dta de CASEN 2022
- ‚úÖ Verificar integridad de datos
- ‚úÖ Listar todas las variables
- ‚úÖ Organizar variables por categor√≠as tem√°ticas
- ‚úÖ Mostrar estad√≠sticas b√°sicas por variable

In [1]:
# Importar librer√≠as necesarias
import pandas as pd
import numpy as np
import os
import sys
from pathlib import Path

# Agregar scripts al path
sys.path.insert(0, '../03_Scripts')

# Mostrar configuraci√≥n
print("‚úÖ Librer√≠as importadas exitosamente")
print(f"üìç Directorio actual: {os.getcwd()}")
print(f"üìç Versi√≥n de Pandas: {pd.__version__}")
print(f"üìç Versi√≥n de NumPy: {np.__version__}")

‚úÖ Librer√≠as importadas exitosamente
üìç Directorio actual: /Users/estebanroman/Documents/GitHub/MuestreoCasen /Proyecto-Final-Muestreo/notebook_verificacion
üìç Versi√≥n de Pandas: 2.0.3
üìç Versi√≥n de NumPy: 1.24.3


## 1. Carga de Base de Datos CASEN 2022

In [2]:
# Ruta del archivo STATA
ruta_archivo = '../Base de datos Casen 2022 STATA_18 marzo 2024.dta'

# Verificar que el archivo existe
if os.path.exists(ruta_archivo):
    print(f"‚úÖ Archivo encontrado: {os.path.basename(ruta_archivo)}")
    print(f"üìä Tama√±o: {os.path.getsize(ruta_archivo) / 1024 / 1024:.2f} MB")
else:
    print(f"‚ùå No se encontr√≥ archivo en: {ruta_archivo}")
    print(f"\nArchivos disponibles en directorio padre:")
    parent_dir = os.path.dirname(ruta_archivo)
    for f in os.listdir(parent_dir):
        if f.endswith('.dta'):
            print(f"   - {f}")

‚úÖ Archivo encontrado: Base de datos Casen 2022 STATA_18 marzo 2024.dta
üìä Tama√±o: 1654.16 MB


In [None]:
# Cargar la base de datos STATA
print("üîÑ Cargando archivo STATA...")
print("‚è≥ Por favor espere, esto puede tomar algunos segundos...\n")

try:
    # Suprimir advertencia de Unicode/encoding
    # Stata puede tener caracteres con encoding diferente al UTF-8
    # La librer√≠a pyreadstat maneja autom√°ticamente el fallback a latin-1
    import warnings
    
    with warnings.catch_warnings(record=True) as w:
        warnings.simplefilter("ignore", UnicodeWarning)
        df = pd.read_stata(ruta_archivo, convert_categoricals=False)
    
    # Limpiar nombres de columnas si hay espacios o caracteres especiales
    df.columns = df.columns.str.strip()
    
    print("‚úÖ ¬°Base de datos cargada exitosamente (con encoding correcto)!")
    print(f"\nüìä INFORMACI√ìN DE LA BASE DE DATOS:")
    print(f"   ‚Ä¢ Observaciones (filas): {df.shape[0]:,}")
    print(f"   ‚Ä¢ Variables (columnas): {df.shape[1]}")
    print(f"   ‚Ä¢ Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024 / 1024:.2f} MB")
    print(f"\nüìÖ Primeras 5 observaciones:")
    df.head()
except Exception as e:
    print(f"‚ùå Error al cargar archivo: {e}")

üîÑ Cargando archivo STATA...
‚è≥ Por favor espere, esto puede tomar algunos segundos...



## 2. Extracci√≥n y Categorizaci√≥n de Variables

Extraeremos todas las variables de la base de datos y las organizaremos por categor√≠as tem√°ticas.

In [None]:
# Crear diccionario de categorizaci√≥n de variables basado en el nombre
# Esto es una clasificaci√≥n inferida de CASEN

categorizacion = {
    'Identificaci√≥n y Expansi√≥n': [
        'id_hogar', 'foliohogar', 'folio', 'ident', 'expr', 'expr_1', 
        'expansores', 'expd', 'region', 'comuna', 'zona', 'area'
    ],
    
    'Caracter√≠sticas del Hogar': [
        'numhogares', 'nmiembros', 'numper', 'v1', 'tipo_hogar',
        'thogar', 'pco', 'p01', 'p02', 'p03', 'p04', 'p05',
        'viviendasituaci', 'vivtipo', 'tipo_viv'
    ],
    
    'Jefe/a del Hogar': [
        'jefe', 'sexo_jefe', 'sexojf', 'edad_jefe', 'edadjf',
        'ecivil', 'eciv_jf', 'esc_jefe', 'escjf', 'esc',
        'oficio_jefe', 'oficojf', 'activ_jefe'
    ],
    
    'Ingresos y Salarios': [
        'ybase', 'ytrabm', 'yactiv', 'yotrm', 'yoprinc', 'ytotcorh',
        'ypc', 'ypchchogar', 'ymonedas', 'ingho', 'inghogar',
        'ingcorh', 'ingcormh', 'inghcorh', 'ytotal', 'ytotcor',
        'sueldo', 'salario', 'ingprincipal', 'ingotro'
    ],
    
    'Educaci√≥n': [
        'p08', 'p09', 'p10', 'esc', 'escorig', 'escolari', 'escolaridad',
        'niveledu', 'educacion', 'p_ed', 'esc_jefe', 'escjf',
        'asiste', 'p15', 'p16', 'superior', 'educpersonas',
        'nivel', 'educa'
    ],
    
    'Empleo y Ocupaci√≥n': [
        'activ', 'actividad', 'cotiza', 'ocup', 'ocupacion', 'oficio',
        'rama', 'rama_actividad', 'categor', 'categoria',
        'empresa', 'tama√±o_empresa', 'tamano_empresa', 'empresa_p',
        'p19', 'p20', 'p21', 'p22', 'p23', 'p24', 'p25',
        'busco_trab', 'deseo_trab', 'razon_desemple', 'razon_inac',
        'ocupacion_principal', 'situacion_laboral'
    ],
    
    'Pobreza y Vulnerabilidad': [
        'pobreza', 'pobre', 'v16a', 'idpobre', 'ipobre',
        'incpobreza', 'linea_pobreza', 'lpobrezas',
        'lp', 'lpe', 'extremo', 'pobre_extremo'
    ],
    
    'Salud y Seguridad Social': [
        'prevision', 'stsalud', 'isapre', 'fonasa', 'mutual',
        'segurotrab', 'afiliacion', 'p31', 'p32', 'p33', 'p34',
        'salud', 'discapacidad', 'disc', 'accion', 'seguros'
    ],
    
    'Vivienda y Servicios B√°sicos': [
        'propiedad', 'prop', 'mutualista', 'arriendo', 'condicion_propiedad',
        'tenencia', 'material_piso', 'material_muros', 'material_techo',
        'agua', 'electricidad', 'gas', 'combustible', 'combustible_cocina',
        'servicios_basicos', 'sistemas_agua', 'alcantarillado', 'letrina',
        'v1', 'v2', 'v3', 'v4', 'v5', 'v6', 'v7', 'v8', 'v9', 'v10'
    ],
    
    'Caracter√≠sticas Demogr√°ficas': [
        'edad', 'sexo', 'estado_civil', 'ecivil', 'hijos',
        'numero_hijos', 'parentesco', 'parente', 'nacionalidad',
        'ind_migrat', 'migrat', 'tiempo_residencia', 'p11', 'p12', 'p13'
    ],
    
    'Bonos y Transferencias': [
        'bip', 'asignacion', 'bonoauto', 'bonofam', 'aps',
        'seguro_desemple', 'bono_marzo', 'bono', 'transferencias',
        'apoyo_social', 'beneficiarios'
    ],
    
    'Otras Variables': []  # Categor√≠a por defecto
}

# Obtener todas las columnas del dataframe
todas_variables = df.columns.tolist()

# Crear un diccionario invertido para clasificar las variables
variables_clasificadas = {}
variables_sin_clasificar = []

for var in todas_variables:
    var_lower = var.lower()
    clasificada = False
    
    for categoria, palabras_clave in categorizacion.items():
        if categoria == 'Otras Variables':
            continue
            
        for palabra in palabras_clave:
            if palabra.lower() in var_lower:
                if categoria not in variables_clasificadas:
                    variables_clasificadas[categoria] = []
                variables_clasificadas[categoria].append(var)
                clasificada = True
                break
        
        if clasificada:
            break
    
    if not clasificada:
        variables_sin_clasificar.append(var)

# Agregar variables sin clasificar a "Otras Variables"
variables_clasificadas['Otras Variables'] = variables_sin_clasificar

print("‚úÖ Variables extra√≠das y categorizadas")
print(f"\nüìä RESUMEN DE CATEGORIZACI√ìN:")
print(f"   Total de variables: {len(todas_variables)}\n")

for categoria, variables in variables_clasificadas.items():
    print(f"   {categoria}: {len(variables)} variables")

## 3. Listado Detallado de Variables por Categor√≠a

In [None]:
# Crear tabla con informaci√≥n detallada de variables
print("\n" + "="*120)
print("LISTADO COMPLETO DE VARIABLES POR CATEGOR√çA TEM√ÅTICA".center(120))
print("="*120 + "\n")

for categoria in sorted(variables_clasificadas.keys()):
    variables = sorted(variables_clasificadas[categoria])
    
    if len(variables) == 0:
        continue
    
    print(f"\nüìÅ {categoria.upper()}")
    print(f"{'‚îÄ'*120}")
    print(f"   Total: {len(variables)} variables\n")
    
    # Mostrar variables en columnas
    for i, var in enumerate(variables, 1):
        # Obtener informaci√≥n de la variable
        dtype = str(df[var].dtype)
        n_valores = df[var].notna().sum()
        n_faltantes = df[var].isna().sum()
        
        print(f"   {i:2d}. {var:30s} | Tipo: {dtype:12s} | V√°lidos: {n_valores:8,d} | Faltantes: {n_faltantes:8,d}")

print("\n" + "="*120)

## 4. Tabla Resumida de Variables

In [None]:
# Crear tabla resumen
resumen_categorias = []

for categoria in sorted(variables_clasificadas.keys()):
    variables = variables_clasificadas[categoria]
    
    if len(variables) == 0:
        continue
    
    # Calcular completitud promedio
    completitud = []
    for var in variables:
        pct_validos = (df[var].notna().sum() / len(df)) * 100
        completitud.append(pct_validos)
    
    completitud_promedio = np.mean(completitud) if completitud else 0
    
    resumen_categorias.append({
        'Categor√≠a': categoria,
        'Cantidad de Variables': len(variables),
        'Completitud Promedio (%)': round(completitud_promedio, 1)
    })

resumen_df = pd.DataFrame(resumen_categorias)

print("\nüìä RESUMEN DE CATEGOR√çAS:\n")
print(resumen_df.to_string(index=False))
print("\n" + "‚îÄ"*80)
print(f"{'TOTAL':.<40} {resumen_df['Cantidad de Variables'].sum()} variables")
print(f"{'Completitud Promedio General':.<40} {resumen_df['Completitud Promedio (%)'].mean():.1f}%")

## 5. Estad√≠sticas Descriptivas por Categor√≠a (Muestreo)

In [None]:
# Mostrar estad√≠sticas descriptivas para variables num√©ricas clave por categor√≠a
print("\n" + "="*100)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS POR CATEGOR√çA".center(100))
print("="*100 + "\n")

for categoria in sorted(variables_clasificadas.keys()):
    variables = variables_clasificadas[categoria]
    
    # Filtrar solo variables num√©ricas
    variables_numericas = [v for v in variables if df[v].dtype in ['int64', 'int32', 'float64', 'float32']]
    
    if len(variables_numericas) == 0:
        continue
    
    print(f"\nüìä {categoria.upper()}")
    print("‚îÄ"*100)
    
    # Mostrar estad√≠sticas de primeras 3 variables num√©ricas o todas si hay menos de 3
    vars_a_mostrar = variables_numericas[:min(3, len(variables_numericas))]
    
    for var in vars_a_mostrar:
        stats = df[var].describe()
        print(f"\n   {var}:")
        print(f"      Observaciones: {stats['count']:,.0f}")
        print(f"      Promedio: {stats['mean']:.2f}")
        print(f"      Desv. Est: {stats['std']:.2f}")
        print(f"      M√≠n: {stats['min']:.2f}")
        print(f"      M√°x: {stats['max']:.2f}")
        print(f"      Mediana (50%): {stats['50%']:.2f}")

print("\n" + "="*100)

## 6. Exportar Variables a Archivo Excel

In [None]:
# Crear archivo Excel con todas las variables organizadas por categor√≠a
ruta_excel = '../05_Outputs/Variables_CASEN_2022_Categorizado.xlsx'

# Crear objeto ExcelWriter
with pd.ExcelWriter(ruta_excel, engine='openpyxl') as writer:
    
    # Primera hoja: Resumen
    resumen_df.to_excel(writer, sheet_name='Resumen', index=False)
    
    # Segunda hoja: Todas las variables con detalles
    todas_vars_detalles = []
    for categoria in sorted(variables_clasificadas.keys()):
        for var in sorted(variables_clasificadas[categoria]):
            todas_vars_detalles.append({
                'Categor√≠a': categoria,
                'Variable': var,
                'Tipo de Dato': str(df[var].dtype),
                'Valores V√°lidos': df[var].notna().sum(),
                'Valores Faltantes': df[var].isna().sum(),
                'Completitud (%)': round((df[var].notna().sum() / len(df)) * 100, 2),
                'Valor M√≠nimo': df[var].min() if df[var].dtype in ['int64', 'float64'] else 'N/A',
                'Valor M√°ximo': df[var].max() if df[var].dtype in ['int64', 'float64'] else 'N/A',
                'Promedio': round(df[var].mean(), 2) if df[var].dtype in ['int64', 'float64'] else 'N/A'
            })
    
    detalle_df = pd.DataFrame(todas_vars_detalles)
    detalle_df.to_excel(writer, sheet_name='Detalle Completo', index=False)
    
    # Una hoja por cada categor√≠a
    for categoria in sorted(variables_clasificadas.keys()):
        if len(variables_clasificadas[categoria]) == 0:
            continue
        
        cat_vars = []
        for var in sorted(variables_clasificadas[categoria]):
            cat_vars.append({
                'Variable': var,
                'Tipo': str(df[var].dtype),
                'V√°lidos': df[var].notna().sum(),
                'Faltantes': df[var].isna().sum(),
                'Completitud (%)': round((df[var].notna().sum() / len(df)) * 100, 2)
            })
        
        cat_df = pd.DataFrame(cat_vars)
        # Limitar nombre de hoja a 31 caracteres (l√≠mite de Excel)
        nombre_hoja = categoria[:31]
        cat_df.to_excel(writer, sheet_name=nombre_hoja, index=False)

print(f"‚úÖ Archivo Excel creado exitosamente")
print(f"üìÅ Ubicaci√≥n: {ruta_excel}")
print(f"   ‚Ä¢ Contiene {len(resumen_df)} hojas de resumen por categor√≠a")
print(f"   ‚Ä¢ Total de variables exportadas: {len(detalle_df)}")