In [None]:
import pandas as pd

print("="*70)
print("CONCATENANDO DATASETS DE NACIMIENTOS 2001-2019 + 2020-2022")
print("="*70)

# Rutas de los archivos
ruta_2001_2019 = '/home/atay/Visualization/data/Data_Natalidad/Serie_Nacimientos_2001_2019.csv'
ruta_2020_2022 = '/home/atay/Visualization/data/Data_Natalidad/Serie_Nacimientos_2020_2022.csv'

# ============================================================
# PASO 1: Cargar primer dataset (2001-2019)
# ============================================================
print("\n1. Cargando dataset 2001-2019...")
df_2001_2019 = pd.read_csv(ruta_2001_2019, encoding='latin-1', sep=';')
print(f"   ✓ Cargado: {len(df_2001_2019):,} registros")
print(f"   Años: {df_2001_2019['ANO_NAC'].min()} - {df_2001_2019['ANO_NAC'].max()}")
print(f"   Columnas: {len(df_2001_2019.columns)}")

# ============================================================
# PASO 2: Cargar segundo dataset (2020-2022)
# ============================================================
print("\n2. Cargando dataset 2020-2022...")
df_2020_2022 = pd.read_csv(ruta_2020_2022, encoding='latin-1', sep=';')
print(f"   ✓ Cargado: {len(df_2020_2022):,} registros")
print(f"   Años: {df_2020_2022['ANO_NAC'].min()} - {df_2020_2022['ANO_NAC'].max()}")
print(f"   Columnas: {len(df_2020_2022.columns)}")

# ============================================================
# PASO 3: Verificar compatibilidad de columnas
# ============================================================
print("\n3. Verificando compatibilidad de columnas...")
cols_2001_2019 = set(df_2001_2019.columns)
cols_2020_2022 = set(df_2020_2022.columns)

# Columnas en común
cols_comunes = cols_2001_2019.intersection(cols_2020_2022)
print(f"   Columnas en común: {len(cols_comunes)}")

# Columnas solo en 2001-2019
cols_solo_2001 = cols_2001_2019 - cols_2020_2022
if cols_solo_2001:
    print(f"   ⚠ Columnas solo en 2001-2019: {cols_solo_2001}")

# Columnas solo en 2020-2022
cols_solo_2020 = cols_2020_2022 - cols_2001_2019
if cols_solo_2020:
    print(f"   ⚠ Columnas solo en 2020-2022: {cols_solo_2020}")

# ============================================================
# PASO 4: Concatenar datasets
# ============================================================
print("\n4. Concatenando datasets...")

# Si las columnas son diferentes, usar solo las comunes
if cols_solo_2001 or cols_solo_2020:
    print("   ⚠ Hay diferencias en columnas, usando solo columnas comunes...")
    df_2001_2019_comun = df_2001_2019[list(cols_comunes)]
    df_2020_2022_comun = df_2020_2022[list(cols_comunes)]
    df_completo = pd.concat([df_2001_2019_comun, df_2020_2022_comun], ignore_index=True)
else:
    # Si son iguales, concatenar directamente
    df_completo = pd.concat([df_2001_2019, df_2020_2022], ignore_index=True)

print(f"   ✓ Dataset concatenado: {len(df_completo):,} registros")

# ============================================================
# PASO 5: Verificar el resultado
# ============================================================
print("\n5. Verificación del dataset completo:")
print(f"   Total de registros: {len(df_completo):,}")
print(f"   Período completo: {df_completo['ANO_NAC'].min()} - {df_completo['ANO_NAC'].max()}")
print(f"   Años únicos: {sorted(df_completo['ANO_NAC'].unique())}")
print(f"   Memoria usada: {df_completo.memory_usage(deep=True).sum() / (1024**2):.2f} MB")

# Verificar nacimientos por año
print("\n   Nacimientos por año:")
nacimientos_por_ano = df_completo.groupby('ANO_NAC').size().sort_index()
for ano, cant in nacimientos_por_ano.items():
    print(f"   {ano}: {cant:,}")

# ============================================================
# PASO 6: Guardar dataset completo
# ============================================================
print("\n6. Guardando dataset completo...")

# Opción 1: Guardar como CSV
ruta_completo_csv = '/home/atay/Visualization/data/Data_Natalidad/Serie_Nacimientos_2001_2022_COMPLETO.csv'
df_completo.to_csv(ruta_completo_csv, index=False, sep=';', encoding='latin-1')
print(f"   ✓ Guardado como CSV: {ruta_completo_csv}")

