# 1. Carga y Uni√≥n de Datos (Data Wrangling)

## Objetivo
Construir un solo dataset limpio y coherente con los nacimientos de Guatemala del per√≠odo 2009‚Äì2022.

## Fuente de datos
- **Origen:** Instituto Nacional de Estad√≠stica (INE) de Guatemala
- **Formato:** Archivos SPSS (.sav)
- **Per√≠odo:** 2009 a 2022 (14 a√±os)
- **Unidad de an√°lisis:** Cada registro individual de nacimiento

---

## 1.1 Importaci√≥n de librer√≠as

In [2]:
import pyreadstat
import pandas as pd
import numpy as np
import os
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)

print("Librer√≠as cargadas correctamente")

Librer√≠as cargadas correctamente


## 1.2 Definici√≥n de rutas y archivos

In [3]:
# Ruta a la carpeta de datos
DATA_PATH = Path('../data')

# Listar archivos .sav disponibles
archivos_sav = sorted([f for f in os.listdir(DATA_PATH) if f.endswith('.sav')])

print(f"Carpeta de datos: {DATA_PATH.resolve()}")
print(f"\nArchivos .sav encontrados: {len(archivos_sav)}")
print("-" * 40)
for archivo in archivos_sav:
    print(f"  ‚Ä¢ {archivo}")

Carpeta de datos: C:\Users\aeh55\Documents\Angel Esteban\Universidad\Semestre 7\Miner√≠adeDatos\PRY1-MD\data

Archivos .sav encontrados: 14
----------------------------------------
  ‚Ä¢ N2009.sav
  ‚Ä¢ N2010.sav
  ‚Ä¢ N2011.sav
  ‚Ä¢ N2012.sav
  ‚Ä¢ N2013.sav
  ‚Ä¢ N2014.sav
  ‚Ä¢ N2015.sav
  ‚Ä¢ N2016.sav
  ‚Ä¢ N2017.sav
  ‚Ä¢ N2018.sav
  ‚Ä¢ N2019.sav
  ‚Ä¢ N2020.sav
  ‚Ä¢ N2021.sav
  ‚Ä¢ N2022.sav


## 1.3 Carga individual de archivos y verificaci√≥n de estructura

Cargamos cada archivo y extraemos informaci√≥n sobre:
- N√∫mero de registros
- Variables (columnas)
- A√±o de los datos

In [4]:
# Diccionario para almacenar informaci√≥n de cada archivo
info_archivos = {}
dataframes = {}
metadatos = {}

print("Cargando archivos...\n")
print(f"{'Archivo':<15} {'Registros':>12} {'Variables':>12} {'A√±o datos':>12}")
print("=" * 55)

for archivo in archivos_sav:
    filepath = DATA_PATH / archivo
    
    # Cargar archivo
    df, meta = pyreadstat.read_sav(str(filepath))
    
    # Extraer a√±o esperado del nombre
    a√±o_nombre = int(archivo.replace('N', '').replace('.sav', ''))
    
    # Determinar a√±o real de los datos
    if 'A√±oocu' in df.columns:
        a√±o_datos = int(df['A√±oocu'].dropna().mode().iloc[0])
        if a√±o_datos < 100:
            a√±o_datos = 2000 + a√±o_datos
    elif 'A√±oreg' in df.columns:
        a√±o_datos = int(df['A√±oreg'].dropna().mode().iloc[0])
    else:
        a√±o_datos = a√±o_nombre
    
    # Guardar informaci√≥n
    info_archivos[a√±o_nombre] = {
        'archivo': archivo,
        'registros': len(df),
        'variables': len(df.columns),
        'columnas': list(df.columns),
        'a√±o_datos': a√±o_datos
    }
    
    dataframes[a√±o_nombre] = df
    metadatos[a√±o_nombre] = meta
    
    # Mostrar informaci√≥n
    estado = "‚úì" if a√±o_nombre == a√±o_datos else "‚ö†"
    print(f"{archivo:<15} {len(df):>12,} {len(df.columns):>12} {a√±o_datos:>12} {estado}")

print("=" * 55)
print(f"\nTotal de archivos cargados: {len(dataframes)}")

Cargando archivos...

Archivo            Registros    Variables    A√±o datos
N2009.sav            351,628           37         2009 ‚úì
N2010.sav            361,906           39         2010 ‚úì
N2011.sav            373,692           39         2011 ‚úì
N2012.sav            388,613           41         2012 ‚úì
N2013.sav            387,342           41         2013 ‚úì
N2014.sav            386,195           39         2014 ‚úì
N2015.sav            391,425           42         2015 ‚úì
N2016.sav            390,382           42         2016 ‚úì
N2017.sav            381,664           42         2017 ‚úì
N2018.sav            383,263           42         2018 ‚úì
N2019.sav            366,855           42         2019 ‚úì
N2020.sav            341,212           42         2020 ‚úì
N2021.sav            345,149           42         2021 ‚úì
N2022.sav            345,869           42         2022 ‚úì

Total de archivos cargados: 14


## 1.4 An√°lisis de variables por archivo

Verificamos si todos los archivos tienen las mismas variables con los mismos nombres.

In [6]:
# Obtener todas las variables √∫nicas
todas_variables = set()
for a√±o, info in info_archivos.items():
    todas_variables.update(info['columnas'])

print(f"Total de variables √∫nicas encontradas: {len(todas_variables)}")
print("\n" + "=" * 80)
print("MATRIZ DE PRESENCIA DE VARIABLES POR A√ëO")
print("=" * 80)

# Crear matriz de presencia
a√±os = sorted(info_archivos.keys())
presencia = {}

for var in sorted(todas_variables):
    presencia[var] = []
    for a√±o in a√±os:
        if var in info_archivos[a√±o]['columnas']:
            presencia[var].append('‚úì')
        else:
            presencia[var].append('-')

# Mostrar como DataFrame
df_presencia = pd.DataFrame(presencia, index=a√±os).T
df_presencia.columns = [str(a) for a in a√±os]
print(df_presencia.to_string())

Total de variables √∫nicas encontradas: 61

MATRIZ DE PRESENCIA DE VARIABLES POR A√ëO
         2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 2022
Areag       ‚úì    ‚úì    ‚úì    -    -    -    -    -    -    -    -    -    -    -
Asisrec     ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì
A√±oocu      ‚úì    ‚úì    ‚úì    -    -    -    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì
A√±oreg      ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì
Ciuomad     -    -    -    -    ‚úì    -    -    -    -    -    -    -    -    -
Ciuopad     -    -    -    -    ‚úì    -    -    -    -    -    -    -    -    -
Depnam      ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì
Depnap      ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì
Depocu      ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì    ‚úì

In [7]:
# Identificar variables comunes a todos los a√±os
variables_comunes = todas_variables.copy()
for a√±o, info in info_archivos.items():
    variables_comunes = variables_comunes.intersection(set(info['columnas']))

print(f"Variables presentes en TODOS los a√±os: {len(variables_comunes)}")
print("-" * 50)
for var in sorted(variables_comunes):
    print(f"  ‚Ä¢ {var}")

# Variables que no est√°n en todos los a√±os
variables_parciales = todas_variables - variables_comunes
print(f"\nVariables presentes solo en ALGUNOS a√±os: {len(variables_parciales)}")
print("-" * 50)
for var in sorted(variables_parciales):
    a√±os_presente = [str(a) for a in a√±os if var in info_archivos[a]['columnas']]
    print(f"  ‚Ä¢ {var}: {', '.join(a√±os_presente)}")

Variables presentes en TODOS los a√±os: 24
--------------------------------------------------
  ‚Ä¢ Asisrec
  ‚Ä¢ A√±oreg
  ‚Ä¢ Depnam
  ‚Ä¢ Depnap
  ‚Ä¢ Depocu
  ‚Ä¢ Depreg
  ‚Ä¢ Deprem
  ‚Ä¢ Deprep
  ‚Ä¢ Diaocu
  ‚Ä¢ Edadm
  ‚Ä¢ Edadp
  ‚Ä¢ Escivm
  ‚Ä¢ Escivp
  ‚Ä¢ Libras
  ‚Ä¢ Mesocu
  ‚Ä¢ Mesreg
  ‚Ä¢ Mupocu
  ‚Ä¢ Onzas
  ‚Ä¢ Sexo
  ‚Ä¢ Sitioocu
  ‚Ä¢ Tipar
  ‚Ä¢ Tohinm
  ‚Ä¢ Tohite
  ‚Ä¢ Tohivi

Variables presentes solo en ALGUNOS a√±os: 37
--------------------------------------------------
  ‚Ä¢ Areag: 2009, 2010, 2011
  ‚Ä¢ A√±oocu: 2009, 2010, 2011, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
  ‚Ä¢ Ciuomad: 2013
  ‚Ä¢ Ciuopad: 2013
  ‚Ä¢ Escolam: 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
  ‚Ä¢ Escolap: 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022
  ‚Ä¢ Gretnm: 2009
  ‚Ä¢ Gretnp: 2009, 2010, 2011, 2012
  ‚Ä¢ Munpnap: 2014, 2015, 2016, 2017, 2018, 2019, 2020
  ‚Ä¢ Mupnam: 2009, 2011, 2013, 2014, 2015, 2016, 20

## 1.5 An√°lisis de tipos de datos

Verificamos que las variables comunes tengan tipos de datos consistentes.

In [8]:
# Analizar tipos de datos de las variables comunes
print("TIPOS DE DATOS POR VARIABLE Y A√ëO")
print("=" * 80)

tipos_por_variable = {}
for var in sorted(variables_comunes):
    tipos = {}
    for a√±o in a√±os:
        if var in dataframes[a√±o].columns:
            tipos[a√±o] = str(dataframes[a√±o][var].dtype)
    tipos_por_variable[var] = tipos

# Identificar inconsistencias
inconsistencias = []
for var, tipos in tipos_por_variable.items():
    tipos_unicos = set(tipos.values())
    if len(tipos_unicos) > 1:
        inconsistencias.append((var, tipos_unicos))

if inconsistencias:
    print(f"\n‚ö†Ô∏è Variables con tipos inconsistentes: {len(inconsistencias)}")
    for var, tipos in inconsistencias:
        print(f"  ‚Ä¢ {var}: {tipos}")
else:
    print("\n‚úì Todas las variables comunes tienen tipos consistentes")

# Mostrar tipos de las variables comunes (tomando el primer a√±o como referencia)
print("\nTipos de datos de variables comunes (referencia a√±o 2009):")
print("-" * 50)
df_ref = dataframes[2009]
for var in sorted(variables_comunes):
    if var in df_ref.columns:
        print(f"  {var:<20} {str(df_ref[var].dtype):<15}")

TIPOS DE DATOS POR VARIABLE Y A√ëO

‚ö†Ô∏è Variables con tipos inconsistentes: 1
  ‚Ä¢ Mupocu: {'str', 'float64'}

Tipos de datos de variables comunes (referencia a√±o 2009):
--------------------------------------------------
  Asisrec              float64        
  A√±oreg               float64        
  Depnam               float64        
  Depnap               float64        
  Depocu               float64        
  Depreg               float64        
  Deprem               float64        
  Deprep               float64        
  Diaocu               float64        
  Edadm                float64        
  Edadp                float64        
  Escivm               float64        
  Escivp               float64        
  Libras               float64        
  Mesocu               float64        
  Mesreg               float64        
  Mupocu               str            
  Onzas                float64        
  Sexo                 float64        
  Sitioocu             float64  

## 1.6 Uni√≥n de los datasets

Procedemos a unir todos los archivos en un √∫nico DataFrame, utilizando solo las variables comunes para garantizar coherencia.

In [9]:
# Preparar lista de DataFrames para concatenar
dfs_para_unir = []

for a√±o in a√±os:
    df_temp = dataframes[a√±o].copy()
    
    # Agregar columna de a√±o de origen si no existe A√±oocu
    if 'A√±oocu' not in df_temp.columns:
        df_temp['A√±oocu'] = a√±o
    
    # Seleccionar solo variables comunes + A√±oocu
    cols_seleccionar = list(variables_comunes)
    if 'A√±oocu' not in cols_seleccionar:
        cols_seleccionar.append('A√±oocu')
    
    # Filtrar columnas existentes
    cols_existentes = [c for c in cols_seleccionar if c in df_temp.columns]
    df_temp = df_temp[cols_existentes]
    
    dfs_para_unir.append(df_temp)
    print(f"A√±o {a√±o}: {len(df_temp):>10,} registros preparados")

# Concatenar todos los DataFrames
print("\nUniendo datasets...")
df_completo = pd.concat(dfs_para_unir, ignore_index=True)
print(f"\n‚úì Dataset unificado creado exitosamente")

A√±o 2009:    351,628 registros preparados
A√±o 2010:    361,906 registros preparados
A√±o 2011:    373,692 registros preparados
A√±o 2012:    388,613 registros preparados
A√±o 2013:    387,342 registros preparados
A√±o 2014:    386,195 registros preparados
A√±o 2015:    391,425 registros preparados
A√±o 2016:    390,382 registros preparados
A√±o 2017:    381,664 registros preparados
A√±o 2018:    383,263 registros preparados
A√±o 2019:    366,855 registros preparados
A√±o 2020:    341,212 registros preparados
A√±o 2021:    345,149 registros preparados
A√±o 2022:    345,869 registros preparados

Uniendo datasets...

‚úì Dataset unificado creado exitosamente


## 1.7 Verificaci√≥n del dataset unificado

In [10]:
print("=" * 60)
print("RESUMEN DEL DATASET UNIFICADO")
print("=" * 60)

print(f"\nüìä Dimensiones:")
print(f"   ‚Ä¢ Total de registros (nacimientos): {len(df_completo):,}")
print(f"   ‚Ä¢ Total de variables: {len(df_completo.columns)}")

# Verificar rango de a√±os
if 'A√±oocu' in df_completo.columns:
    df_completo['A√±oocu'] = pd.to_numeric(df_completo['A√±oocu'], errors='coerce')
    # Normalizar a√±os (si est√°n en formato corto)
    df_completo.loc[df_completo['A√±oocu'] < 100, 'A√±oocu'] = df_completo.loc[df_completo['A√±oocu'] < 100, 'A√±oocu'] + 2000
    
    a√±o_min = int(df_completo['A√±oocu'].min())
    a√±o_max = int(df_completo['A√±oocu'].max())
    print(f"\nüìÖ Per√≠odo de datos:")
    print(f"   ‚Ä¢ A√±o m√≠nimo: {a√±o_min}")
    print(f"   ‚Ä¢ A√±o m√°ximo: {a√±o_max}")
    print(f"   ‚Ä¢ Rango: {a√±o_max - a√±o_min + 1} a√±os")

RESUMEN DEL DATASET UNIFICADO

üìä Dimensiones:
   ‚Ä¢ Total de registros (nacimientos): 5,195,195
   ‚Ä¢ Total de variables: 25

üìÖ Per√≠odo de datos:
   ‚Ä¢ A√±o m√≠nimo: 2009
   ‚Ä¢ A√±o m√°ximo: 2022
   ‚Ä¢ Rango: 14 a√±os


In [11]:
# Distribuci√≥n de registros por a√±o
print("\nüìà Distribuci√≥n de nacimientos por a√±o:")
print("-" * 45)

registros_por_a√±o = df_completo['A√±oocu'].value_counts().sort_index()

for a√±o, registros in registros_por_a√±o.items():
    barra = '‚ñà' * int(registros / 10000)
    print(f"   {int(a√±o)}: {registros:>10,}  {barra}")

print("-" * 45)
print(f"   TOTAL: {registros_por_a√±o.sum():>10,}")


üìà Distribuci√≥n de nacimientos por a√±o:
---------------------------------------------
   2009:    351,628  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2010:    361,906  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2011:    373,692  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2012:    388,613  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2013:    387,342  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2014:    386,195  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
   2015:    391,425  ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà

In [12]:
# Verificar consistencia: suma de archivos individuales vs dataset unificado
suma_individual = sum(info['registros'] for info in info_archivos.values())
total_unificado = len(df_completo)

print("\nüîç Verificaci√≥n de integridad:")
print(f"   ‚Ä¢ Suma de registros individuales: {suma_individual:,}")
print(f"   ‚Ä¢ Total en dataset unificado: {total_unificado:,}")

if suma_individual == total_unificado:
    print("   ‚úì Los totales coinciden - Uni√≥n correcta")
else:
    diferencia = abs(suma_individual - total_unificado)
    print(f"   ‚ö†Ô∏è Diferencia de {diferencia:,} registros")


üîç Verificaci√≥n de integridad:
   ‚Ä¢ Suma de registros individuales: 5,195,195
   ‚Ä¢ Total en dataset unificado: 5,195,195
   ‚úì Los totales coinciden - Uni√≥n correcta


In [13]:
# Vista previa del dataset
print("\nüìã Vista previa del dataset (primeras 5 filas):")
print("=" * 80)
df_completo.head()


üìã Vista previa del dataset (primeras 5 filas):


Unnamed: 0,Diaocu,Depnap,Sexo,Depreg,Deprep,Tohivi,Depocu,Edadp,Deprem,Mesreg,Mupocu,Tohinm,Tipar,Mesocu,Escivp,Libras,Tohite,Onzas,A√±oreg,Asisrec,Depnam,Sitioocu,Escivm,Edadm,A√±oocu
0,28.0,1.0,1.0,1.0,1.0,2.0,1.0,30.0,1.0,8.0,101,0.0,1.0,6.0,1.0,5.0,2.0,2.0,9.0,1.0,1.0,4.0,2.0,28.0,2009.0
1,2.0,1.0,1.0,1.0,1.0,1.0,1.0,23.0,1.0,3.0,101,0.0,1.0,4.0,2.0,5.0,1.0,6.0,10.0,1.0,1.0,4.0,2.0,18.0,2009.0
2,30.0,1.0,2.0,1.0,1.0,3.0,1.0,32.0,1.0,2.0,101,0.0,1.0,1.0,2.0,5.0,3.0,10.0,9.0,1.0,1.0,4.0,2.0,40.0,2009.0
3,7.0,1.0,2.0,1.0,1.0,2.0,1.0,30.0,1.0,1.0,101,0.0,1.0,9.0,1.0,6.0,2.0,0.0,10.0,1.0,1.0,4.0,1.0,28.0,2009.0
4,10.0,1.0,1.0,1.0,1.0,2.0,1.0,33.0,1.0,7.0,101,0.0,1.0,7.0,1.0,6.0,2.0,10.0,9.0,1.0,1.0,4.0,1.0,34.0,2009.0


In [14]:
# Informaci√≥n general del dataset
print("\nüìä Informaci√≥n del dataset:")
print("=" * 80)
df_completo.info()


üìä Informaci√≥n del dataset:
<class 'pandas.DataFrame'>
RangeIndex: 5195195 entries, 0 to 5195194
Data columns (total 25 columns):
 #   Column    Dtype  
---  ------    -----  
 0   Diaocu    float64
 1   Depnap    float64
 2   Sexo      float64
 3   Depreg    float64
 4   Deprep    float64
 5   Tohivi    float64
 6   Depocu    float64
 7   Edadp     float64
 8   Deprem    float64
 9   Mesreg    float64
 10  Mupocu    object 
 11  Tohinm    float64
 12  Tipar     float64
 13  Mesocu    float64
 14  Escivp    float64
 15  Libras    float64
 16  Tohite    float64
 17  Onzas     float64
 18  A√±oreg    float64
 19  Asisrec   float64
 20  Depnam    float64
 21  Sitioocu  float64
 22  Escivm    float64
 23  Edadm     float64
 24  A√±oocu    float64
dtypes: float64(24), object(1)
memory usage: 990.9+ MB


## 1.8 Guardar dataset unificado

Guardamos el dataset procesado para su uso en an√°lisis posteriores.

In [15]:
# Crear carpeta de datos procesados si no existe
PROCESSED_PATH = Path('../data/processed')
PROCESSED_PATH.mkdir(parents=True, exist_ok=True)

# Guardar en formato CSV 
output_csv = PROCESSED_PATH / 'nacimientos_2009_2022.csv'
df_completo.to_csv(output_csv, index=False)
print(f"‚úì Dataset guardado en: {output_csv}")
print(f"  Tama√±o del archivo: {output_csv.stat().st_size / (1024**2):.2f} MB")
print(f"  Total de registros: {len(df_completo):,}")
print(f"  Total de variables: {len(df_completo.columns)}")

‚úì Dataset guardado en: ..\data\processed\nacimientos_2009_2022.csv
  Tama√±o del archivo: 569.82 MB
  Total de registros: 5,195,195
  Total de variables: 25


## 1.9 Resumen de la etapa de carga y uni√≥n

### Documentaci√≥n del proceso

In [16]:
print("")
print("‚ïî" + "‚ïê" * 58 + "‚ïó")
print("‚ïë" + " RESUMEN: CARGA Y UNI√ìN DE DATOS ".center(58) + "‚ïë")
print("‚ï†" + "‚ïê" * 58 + "‚ï£")
print("‚ïë" + " " * 58 + "‚ïë")
print(f"‚ïë  üìÅ Archivos procesados: {len(archivos_sav):<30} ‚ïë")
print(f"‚ïë  üìÖ Per√≠odo: 2009 - 2022 ({a√±o_max - a√±o_min + 1} a√±os){' ' * 21}‚ïë")
print(f"‚ïë  üìä Total de registros: {len(df_completo):,}{' ' * (32 - len(f'{len(df_completo):,}'))}‚ïë")
print(f"‚ïë  üìã Variables comunes: {len(variables_comunes):<32} ‚ïë")
print("‚ïë" + " " * 58 + "‚ïë")
print("‚ïë  ‚úì Datos verificados y unificados correctamente" + " " * 9 + "‚ïë")
print("‚ïë" + " " * 58 + "‚ïë")
print("‚ïö" + "‚ïê" * 58 + "‚ïù")


‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
‚ïë             RESUMEN: CARGA Y UNI√ìN DE DATOS              ‚ïë
‚ï†‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï£
‚ïë                                                          ‚ïë
‚ïë  üìÅ Archivos procesados: 14                             ‚ïë
‚ïë  üìÖ Per√≠odo: 2009 - 2022 (14 a√±os)                     ‚ïë
‚ïë  üìä Total de registros: 5,195,195                       ‚ïë
‚ïë  üìã Variables comunes: 24                               ‚ïë
‚ïë                                                          ‚ïë
‚ïë  ‚úì Datos verificados y unificados correctamente         ‚ïë
‚ïë                                                          ‚ïë
‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê

In [None]:
# Crear diccionario de metadatos para documentaci√≥n
metadatos_proceso = {
    'fecha_procesamiento': pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S'),
    'archivos_fuente': archivos_sav,
    'total_archivos': len(archivos_sav),
    'periodo': {'inicio': a√±o_min, 'fin': a√±o_max},
    'total_registros': len(df_completo),
    'variables_comunes': sorted(list(variables_comunes)),
    'variables_parciales': sorted(list(variables_parciales)),
    'registros_por_a√±o': registros_por_a√±o.to_dict(),
    'archivos_generados': [
        str(output_csv)
    ],
}

# Guardar metadatos
import json
with open(PROCESSED_PATH / 'metadatos_carga.json', 'w', encoding='utf-8') as f:
    json.dump(metadatos_proceso, f, indent=2, ensure_ascii=False, default=str)

print("‚úì Metadatos del proceso guardados en: metadatos_carga.json")

NameError: name 'output_file' is not defined

---

## Notas para la secci√≥n "Descripci√≥n de los datos"

Este notebook documenta:

1. **Fuente de datos:** 14 archivos SPSS (.sav) del INE de Guatemala
2. **Per√≠odo cubierto:** 2009 a 2022
3. **Unidad de an√°lisis:** Cada registro representa un nacimiento individual
4. **Variables disponibles:** Se identificaron las variables comunes a todos los a√±os
5. **Proceso de uni√≥n:** Concatenaci√≥n vertical de todos los archivos
6. **Verificaci√≥n:** Se valid√≥ la integridad de los datos comparando totales

El dataset resultante est√° listo para las siguientes etapas de an√°lisis exploratorio.