# Preparaci√≥n de Datos
**Proyecto Machine Learning:** Limpieza y Preparaci√≥n de Datos de Nacimientos y Defunciones

Este notebook implementa la limpieza y preparaci√≥n de los datasets identificados en el an√°lisis exploratorio, enfoc√°ndose en:
1. Limpieza cr√≠tica del dataset `defunciones_filtradas`
2. Estandarizaci√≥n de nombres de columnas
3. Validaci√≥n de rangos de edad
4. Integraci√≥n de datasets
5. Validaci√≥n de consistencia
6. Preparaci√≥n para modelado


In [1]:
# 1. Importaci√≥n de librer√≠as y configuraci√≥n

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from datetime import datetime

# Configuraci√≥n general
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

# Opciones de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', 50)

print("‚úÖ Librer√≠as importadas correctamente")


‚úÖ Librer√≠as importadas correctamente


In [2]:
# 2. Carga de datos

# Definir rutas de los archivos
ruta_por_sexo = r"C:\ProyectoML2\proyecto-ml\data\01_raw\dataset_nacimiento-defuncion_por_sexo.csv"
ruta_defunciones_filtradas = r"C:\ProyectoML2\proyecto-ml\data\01_raw\datos_filtrados_2014_2023.csv"
ruta_por_edad_madre = r"C:\ProyectoML2\proyecto-ml\data\01_raw\nacimiento_rango_edad_madre.csv"
ruta_por_edad_fallecido = r"C:\ProyectoML2\proyecto-ml\data\01_raw\rango_edad_fallecido.csv"
ruta_setdedatos = r"C:\ProyectoML2\proyecto-ml\data\01_raw\setdedatos.csv"

# Funci√≥n para cargar CSV con diferentes separadores
def cargar_csv(ruta):
    """
    Carga un archivo CSV probando primero con ',' y luego con ';' como separador
    """
    try:
        return pd.read_csv(ruta)
    except:
        return pd.read_csv(ruta, sep=";")

# Cargar todos los datasets
por_sexo = cargar_csv(ruta_por_sexo)
defunciones_filtradas = cargar_csv(ruta_defunciones_filtradas)
por_edad_madre = cargar_csv(ruta_por_edad_madre)
por_edad_fallecido = cargar_csv(ruta_por_edad_fallecido)
setdedatos = cargar_csv(ruta_setdedatos)

print("‚úÖ Archivos cargados correctamente")
print(f"üìä Dataset defunciones_filtradas: {defunciones_filtradas.shape[0]:,} registros")


‚úÖ Archivos cargados correctamente
üìä Dataset defunciones_filtradas: 1,250,062 registros


## 3. Limpieza Cr√≠tica del Dataset `defunciones_filtradas`

Este es el dataset m√°s problem√°tico identificado en el EDA. Requiere limpieza antes de cualquier an√°lisis posterior.


In [3]:
# 3.1 An√°lisis inicial del dataset defunciones_filtradas

print("=== AN√ÅLISIS INICIAL DE DEFUNCIONES_FILTRADAS ===")
print(f"üìä Dimensiones: {defunciones_filtradas.shape}")
print(f"üìã Columnas: {list(defunciones_filtradas.columns)}")
print("\n=== VALORES NULOS POR COLUMNA ===")
nulos_por_columna = defunciones_filtradas.isnull().sum()
print(nulos_por_columna[nulos_por_columna > 0])

print("\n=== DUPLICADOS ===")
duplicados = defunciones_filtradas.duplicated().sum()
print(f"Registros duplicados: {duplicados:,}")

print("\n=== PRIMERAS FILAS ===")
display(defunciones_filtradas.head())


=== AN√ÅLISIS INICIAL DE DEFUNCIONES_FILTRADAS ===
üìä Dimensiones: (1250062, 10)
üìã Columnas: ['A√ëO', 'FECHA_DEF', 'SEXO_NOMBRE', 'EDAD_TIPO', 'EDAD_CANT', 'COD_COMUNA', 'COMUNA', 'NOMBRE_REGION', 'CAPITULO_DIAG1', 'GLOSA_CAPITULO_DIAG1']

=== VALORES NULOS POR COLUMNA ===
FECHA_DEF        19
COD_COMUNA        4
COMUNA            4
NOMBRE_REGION     4
dtype: int64

=== DUPLICADOS ===
Registros duplicados: 3,844

=== PRIMERAS FILAS ===


Unnamed: 0,A√ëO,FECHA_DEF,SEXO_NOMBRE,EDAD_TIPO,EDAD_CANT,COD_COMUNA,COMUNA,NOMBRE_REGION,CAPITULO_DIAG1,GLOSA_CAPITULO_DIAG1
0,2015,2015-01-11,Mujer,2.0,4,13127.0,Recoleta,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ..."
1,2016,2016-01-31,Hombre,1.0,20,8203.0,Ca√±ete,Del B√≠ob√≠o,S00-T98,"Traumatismos, envenenamientos y algunas otras ..."
2,2019,2019-08-08,Hombre,1.0,18,13303.0,Tiltil,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ..."
3,2015,2015-02-17,Hombre,1.0,19,13119.0,Maip√∫,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ..."
4,2015,2015-01-03,Hombre,1.0,18,13115.0,Lo Barnechea,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ..."


In [4]:
# 3.2 Eliminaci√≥n de registros duplicados

print("=== ELIMINACI√ìN DE DUPLICADOS ===")
print(f"Registros antes de eliminar duplicados: {defunciones_filtradas.shape[0]:,}")

# Crear una copia del dataset para trabajar
defunciones_limpio = defunciones_filtradas.copy()

# Eliminar duplicados manteniendo la primera ocurrencia
defunciones_limpio = defunciones_limpio.drop_duplicates(keep='first')

print(f"Registros despu√©s de eliminar duplicados: {defunciones_limpio.shape[0]:,}")
print(f"Registros eliminados: {defunciones_filtradas.shape[0] - defunciones_limpio.shape[0]:,}")

# Verificar que no quedan duplicados
duplicados_restantes = defunciones_limpio.duplicated().sum()
print(f"Duplicados restantes: {duplicados_restantes}")


=== ELIMINACI√ìN DE DUPLICADOS ===
Registros antes de eliminar duplicados: 1,250,062
Registros despu√©s de eliminar duplicados: 1,246,218
Registros eliminados: 3,844
Duplicados restantes: 0


In [5]:
# 3.3 Manejo de valores nulos en informaci√≥n geogr√°fica

print("=== MANEJO DE VALORES NULOS EN INFORMACI√ìN GEOGR√ÅFICA ===")

# Verificar valores nulos en columnas geogr√°ficas cr√≠ticas
columnas_geograficas = ['COD_COMUNA', 'COMUNA', 'NOMBRE_REGION']
nulos_geograficos = defunciones_limpio[columnas_geograficas].isnull().sum()
print("Valores nulos en columnas geogr√°ficas:")
print(nulos_geograficos)

# Mostrar registros con valores nulos en informaci√≥n geogr√°fica
registros_nulos_geo = defunciones_limpio[defunciones_limpio[columnas_geograficas].isnull().any(axis=1)]
print(f"\nRegistros con valores nulos en informaci√≥n geogr√°fica: {len(registros_nulos_geo)}")

if len(registros_nulos_geo) > 0:
    print("\nEjemplos de registros con valores nulos:")
    display(registros_nulos_geo[['A√ëO', 'FECHA_DEF', 'SEXO_NOMBRE', 'EDAD_CANT'] + columnas_geograficas].head())

# Eliminar registros con valores nulos en informaci√≥n geogr√°fica cr√≠tica
# La informaci√≥n geogr√°fica es esencial para an√°lisis regionales
defunciones_limpio = defunciones_limpio.dropna(subset=columnas_geograficas)

print(f"\nRegistros despu√©s de eliminar nulos geogr√°ficos: {defunciones_limpio.shape[0]:,}")
print(f"Registros eliminados por nulos geogr√°ficos: {len(registros_nulos_geo)}")


=== MANEJO DE VALORES NULOS EN INFORMACI√ìN GEOGR√ÅFICA ===
Valores nulos en columnas geogr√°ficas:
COD_COMUNA       4
COMUNA           4
NOMBRE_REGION    4
dtype: int64

Registros con valores nulos en informaci√≥n geogr√°fica: 4

Ejemplos de registros con valores nulos:


Unnamed: 0,A√ëO,FECHA_DEF,SEXO_NOMBRE,EDAD_CANT,COD_COMUNA,COMUNA,NOMBRE_REGION
1159454,2024,2024-02-28,Hombre,83,,,
1166415,2024,2024-04-26,Mujer,52,,,
1193568,2024,2024-04-11,Hombre,1,,,
1248759,2024,2024-06-26,Mujer,2,,,



Registros despu√©s de eliminar nulos geogr√°ficos: 1,246,214
Registros eliminados por nulos geogr√°ficos: 4


In [6]:
# 3.4 Manejo de valores nulos en FECHA_DEF

print("=== MANEJO DE VALORES NULOS EN FECHA_DEF ===")

# Verificar valores nulos en FECHA_DEF
nulos_fecha = defunciones_limpio['FECHA_DEF'].isnull().sum()
print(f"Valores nulos en FECHA_DEF: {nulos_fecha}")

if nulos_fecha > 0:
    # Mostrar registros con valores nulos en FECHA_DEF
    registros_nulos_fecha = defunciones_limpio[defunciones_limpio['FECHA_DEF'].isnull()]
    print(f"\nRegistros con valores nulos en FECHA_DEF: {len(registros_nulos_fecha)}")
    print("\nEjemplos de registros con fecha nula:")
    display(registros_nulos_fecha[['A√ëO', 'FECHA_DEF', 'SEXO_NOMBRE', 'EDAD_CANT', 'COMUNA']].head())
    
    # Estrategia: Imputar con fecha media del a√±o correspondiente
    # Esto mantiene la informaci√≥n temporal aproximada
    print("\n=== IMPUTACI√ìN DE FECHAS NULAS ===")
    
    for a√±o in registros_nulos_fecha['A√ëO'].unique():
        # Calcular fecha media del a√±o para registros con fecha v√°lida
        fechas_validas_a√±o = defunciones_limpio[
            (defunciones_limpio['A√ëO'] == a√±o) & 
            (defunciones_limpio['FECHA_DEF'].notnull())
        ]['FECHA_DEF']
        
        if len(fechas_validas_a√±o) > 0:
            # Convertir a datetime para calcular media
            fechas_datetime = pd.to_datetime(fechas_validas_a√±o, errors='coerce')
            fecha_media = fechas_datetime.mean()
            
            # Imputar fecha media en registros nulos del a√±o
            mask_nulos_a√±o = (defunciones_limpio['A√ëO'] == a√±o) & (defunciones_limpio['FECHA_DEF'].isnull())
            defunciones_limpio.loc[mask_nulos_a√±o, 'FECHA_DEF'] = fecha_media.strftime('%Y-%m-%d')
            
            print(f"A√±o {a√±o}: {mask_nulos_a√±o.sum()} registros imputados con fecha {fecha_media.strftime('%Y-%m-%d')}")
    
    # Verificar que no quedan valores nulos
    nulos_restantes = defunciones_limpio['FECHA_DEF'].isnull().sum()
    print(f"\nValores nulos restantes en FECHA_DEF: {nulos_restantes}")

else:
    print("No hay valores nulos en FECHA_DEF")


=== MANEJO DE VALORES NULOS EN FECHA_DEF ===
Valores nulos en FECHA_DEF: 19

Registros con valores nulos en FECHA_DEF: 19

Ejemplos de registros con fecha nula:


Unnamed: 0,A√ëO,FECHA_DEF,SEXO_NOMBRE,EDAD_CANT,COMUNA
5893,2016,,Hombre,33,Temuco
7953,2015,,Hombre,44,Temuco
8144,2014,,Hombre,35,Ercilla
39420,2016,,Hombre,62,Gorbea
55107,2014,,Hombre,81,Temuco



=== IMPUTACI√ìN DE FECHAS NULAS ===
A√±o 2016: 3 registros imputados con fecha 2016-07-03
A√±o 2015: 6 registros imputados con fecha 2015-07-05
A√±o 2014: 3 registros imputados con fecha 2014-07-04
A√±o 2018: 1 registros imputados con fecha 2018-07-05
A√±o 2019: 1 registros imputados con fecha 2019-07-04
A√±o 2020: 3 registros imputados con fecha 2020-07-05
A√±o 2021: 2 registros imputados con fecha 2021-06-27

Valores nulos restantes en FECHA_DEF: 0


In [7]:
# 3.5 Estandarizaci√≥n del formato de fechas

print("=== ESTANDARIZACI√ìN DEL FORMATO DE FECHAS ===")

# Convertir FECHA_DEF a datetime para an√°lisis temporal
print("Convirtiendo FECHA_DEF a formato datetime...")

# Convertir a datetime, manejando posibles errores de formato
defunciones_limpio['FECHA_DEF'] = pd.to_datetime(defunciones_limpio['FECHA_DEF'], errors='coerce')

# Verificar conversi√≥n
fechas_invalidas = defunciones_limpio['FECHA_DEF'].isnull().sum()
print(f"Fechas que no se pudieron convertir: {fechas_invalidas}")

if fechas_invalidas > 0:
    print("Registros con fechas inv√°lidas:")
    registros_fecha_invalida = defunciones_limpio[defunciones_limpio['FECHA_DEF'].isnull()]
    display(registros_fecha_invalida[['A√ëO', 'FECHA_DEF', 'SEXO_NOMBRE', 'EDAD_CANT']].head())
    
    # Eliminar registros con fechas inv√°lidas (son muy pocos)
    defunciones_limpio = defunciones_limpio.dropna(subset=['FECHA_DEF'])
    print(f"Registros eliminados por fechas inv√°lidas: {fechas_invalidas}")

# Crear variables temporales derivadas para an√°lisis
print("\n=== CREACI√ìN DE VARIABLES TEMPORALES ===")

# Extraer a√±o, mes, d√≠a de la semana, trimestre
defunciones_limpio['A√ëO_FECHA'] = defunciones_limpio['FECHA_DEF'].dt.year
defunciones_limpio['MES'] = defunciones_limpio['FECHA_DEF'].dt.month
defunciones_limpio['DIA_SEMANA'] = defunciones_limpio['FECHA_DEF'].dt.day_name()
defunciones_limpio['TRIMESTRE'] = defunciones_limpio['FECHA_DEF'].dt.quarter
defunciones_limpio['DIA_A√ëO'] = defunciones_limpio['FECHA_DEF'].dt.dayofyear

print("Variables temporales creadas:")
print("- A√ëO_FECHA: A√±o de la fecha de defunci√≥n")
print("- MES: Mes (1-12)")
print("- DIA_SEMANA: D√≠a de la semana")
print("- TRIMESTRE: Trimestre (1-4)")
print("- DIA_A√ëO: D√≠a del a√±o (1-365/366)")

# Verificar consistencia entre A√ëO y A√ëO_FECHA
inconsistencias_a√±o = (defunciones_limpio['A√ëO'] != defunciones_limpio['A√ëO_FECHA']).sum()
print(f"\nInconsistencias entre A√ëO y A√ëO_FECHA: {inconsistencias_a√±o}")

if inconsistencias_a√±o > 0:
    print("Ejemplos de inconsistencias:")
    inconsistencias = defunciones_limpio[defunciones_limpio['A√ëO'] != defunciones_limpio['A√ëO_FECHA']]
    display(inconsistencias[['A√ëO', 'FECHA_DEF', 'A√ëO_FECHA']].head())


=== ESTANDARIZACI√ìN DEL FORMATO DE FECHAS ===
Convirtiendo FECHA_DEF a formato datetime...
Fechas que no se pudieron convertir: 0

=== CREACI√ìN DE VARIABLES TEMPORALES ===
Variables temporales creadas:
- A√ëO_FECHA: A√±o de la fecha de defunci√≥n
- MES: Mes (1-12)
- DIA_SEMANA: D√≠a de la semana
- TRIMESTRE: Trimestre (1-4)
- DIA_A√ëO: D√≠a del a√±o (1-365/366)

Inconsistencias entre A√ëO y A√ëO_FECHA: 0


In [8]:
# 3.6 Resumen de la limpieza del dataset defunciones_filtradas

print("=== RESUMEN DE LA LIMPIEZA DE DEFUNCIONES_FILTRADAS ===")
print(f"üìä Registros originales: {defunciones_filtradas.shape[0]:,}")
print(f"üìä Registros despu√©s de limpieza: {defunciones_limpio.shape[0]:,}")
print(f"üìä Registros eliminados: {defunciones_filtradas.shape[0] - defunciones_limpio.shape[0]:,}")
print(f"üìä Porcentaje de datos conservados: {(defunciones_limpio.shape[0] / defunciones_filtradas.shape[0]) * 100:.2f}%")

print("\n=== VERIFICACI√ìN FINAL ===")
print("Valores nulos por columna:")
nulos_finales = defunciones_limpio.isnull().sum()
print(nulos_finales[nulos_finales > 0])

print(f"\nDuplicados restantes: {defunciones_limpio.duplicated().sum()}")

print("\n=== INFORMACI√ìN DEL DATASET LIMPIO ===")
print(f"Columnas: {defunciones_limpio.shape[1]}")
print(f"Rango de fechas: {defunciones_limpio['FECHA_DEF'].min()} a {defunciones_limpio['FECHA_DEF'].max()}")
print(f"A√±os cubiertos: {sorted(defunciones_limpio['A√ëO'].unique())}")

print("\n‚úÖ Dataset defunciones_filtradas limpiado exitosamente")


=== RESUMEN DE LA LIMPIEZA DE DEFUNCIONES_FILTRADAS ===
üìä Registros originales: 1,250,062
üìä Registros despu√©s de limpieza: 1,246,214
üìä Registros eliminados: 3,848
üìä Porcentaje de datos conservados: 99.69%

=== VERIFICACI√ìN FINAL ===
Valores nulos por columna:
Series([], dtype: int64)

Duplicados restantes: 0

=== INFORMACI√ìN DEL DATASET LIMPIO ===
Columnas: 15
Rango de fechas: 2014-01-01 00:00:00 a 2024-09-28 00:00:00
A√±os cubiertos: [np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023), np.int64(2024)]

‚úÖ Dataset defunciones_filtradas limpiado exitosamente


In [9]:
# 3.7 Guardar dataset limpio para uso posterior

print("=== GUARDANDO DATASET LIMPIO ===")

# Crear la carpeta 02_intermediate si no existe
import os
carpeta_intermediate = r"C:\ProyectoML2\proyecto-ml\data\02_intermediate"
if not os.path.exists(carpeta_intermediate):
    os.makedirs(carpeta_intermediate)
    print(f"üìÅ Carpeta creada: {carpeta_intermediate}")

# Guardar el dataset limpio en formato CSV
ruta_guardado = r"C:\ProyectoML2\proyecto-ml\data\02_intermediate\defunciones_limpias.csv"
defunciones_limpio.to_csv(ruta_guardado, index=False)

print(f"‚úÖ Dataset guardado exitosamente en: {ruta_guardado}")
print(f"üìä Tama√±o del archivo: {os.path.getsize(ruta_guardado) / (1024*1024):.2f} MB")

# Verificar que el archivo se guard√≥ correctamente
if os.path.exists(ruta_guardado):
    print("‚úÖ Verificaci√≥n: Archivo guardado correctamente")
    
    # Cargar una muestra para verificar
    muestra_verificacion = pd.read_csv(ruta_guardado, nrows=5)
    print("\nüìã Muestra del archivo guardado:")
    display(muestra_verificacion)
else:
    print("‚ùå Error: No se pudo guardar el archivo")


=== GUARDANDO DATASET LIMPIO ===
‚úÖ Dataset guardado exitosamente en: C:\ProyectoML2\proyecto-ml\data\02_intermediate\defunciones_limpias.csv
üìä Tama√±o del archivo: 163.54 MB
‚úÖ Verificaci√≥n: Archivo guardado correctamente

üìã Muestra del archivo guardado:


Unnamed: 0,A√ëO,FECHA_DEF,SEXO_NOMBRE,EDAD_TIPO,EDAD_CANT,COD_COMUNA,COMUNA,NOMBRE_REGION,CAPITULO_DIAG1,GLOSA_CAPITULO_DIAG1,A√ëO_FECHA,MES,DIA_SEMANA,TRIMESTRE,DIA_A√ëO
0,2015,2015-01-11,Mujer,2.0,4,13127.0,Recoleta,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ...",2015,1,Sunday,1,11
1,2016,2016-01-31,Hombre,1.0,20,8203.0,Ca√±ete,Del B√≠ob√≠o,S00-T98,"Traumatismos, envenenamientos y algunas otras ...",2016,1,Sunday,1,31
2,2019,2019-08-08,Hombre,1.0,18,13303.0,Tiltil,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ...",2019,8,Thursday,3,220
3,2015,2015-02-17,Hombre,1.0,19,13119.0,Maip√∫,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ...",2015,2,Tuesday,1,48
4,2015,2015-01-03,Hombre,1.0,18,13115.0,Lo Barnechea,Metropolitana de Santiago,S00-T98,"Traumatismos, envenenamientos y algunas otras ...",2015,1,Saturday,1,3


## 4. Estandarizaci√≥n de Nombres de Columnas

Esta secci√≥n se enfoca en unificar y estandarizar los nombres de columnas entre todos los datasets para mantener consistencia en el proyecto.


In [10]:
# 4.1 An√°lisis de nombres de columnas en todos los datasets

print("=== AN√ÅLISIS DE NOMBRES DE COLUMNAS ===")

# Crear diccionario con todos los datasets para an√°lisis
datasets_para_estandarizar = {
    "por_sexo": por_sexo,
    "defunciones_limpio": defunciones_limpio,
    "por_edad_madre": por_edad_madre,
    "por_edad_fallecido": por_edad_fallecido,
    "setdedatos": setdedatos
}

# Mostrar nombres de columnas de cada dataset
for nombre_dataset, df in datasets_para_estandarizar.items():
    print(f"\nüìã {nombre_dataset.upper()}:")
    print(f"   Columnas: {list(df.columns)}")
    print(f"   Dimensiones: {df.shape}")

print("\n=== PROBLEMAS IDENTIFICADOS ===")
print("1. Inconsistencia en 'A√±o' vs 'a√±o'")
print("2. Espacios inconsistentes en nombres (ej: 'Defuncion(Hombre)' vs 'Defuncion (Mujer)')")
print("3. Nombres de regiones con/sin tildes")
print("4. Nombres de columnas muy largos o poco descriptivos")


=== AN√ÅLISIS DE NOMBRES DE COLUMNAS ===

üìã POR_SEXO:
   Columnas: ['A√±o', 'Nacimiento (Hombre)', 'Nacimiento (Mujer)', 'Defuncion(Hombre)', 'Defuncion (Mujer)']
   Dimensiones: (9, 5)

üìã DEFUNCIONES_LIMPIO:
   Columnas: ['A√ëO', 'FECHA_DEF', 'SEXO_NOMBRE', 'EDAD_TIPO', 'EDAD_CANT', 'COD_COMUNA', 'COMUNA', 'NOMBRE_REGION', 'CAPITULO_DIAG1', 'GLOSA_CAPITULO_DIAG1', 'A√ëO_FECHA', 'MES', 'DIA_SEMANA', 'TRIMESTRE', 'DIA_A√ëO']
   Dimensiones: (1246214, 15)

üìã POR_EDAD_MADRE:
   Columnas: ['A√±o', 'Menores de 15 a√±os', '15 a 19 a√±os', '20 a 24 a√±os', '25 a 29 a√±os', '30 a 34 a√±os', '35 a 39 a√±os', '40 a 44 a√±os', '45 a 49 a√±os', '50 y m√°s a√±os']
   Dimensiones: (14, 10)

üìã POR_EDAD_FALLECIDO:
   Columnas: ['A√±o', 'Menores de 1 a√±o', '1 a 4', '5 a 9', '10 a 14', '15 a 19', '20 a 24', '25 a 29', '30 a 34', '35 a 39', '40 a 44', '45 a 49', '50 o mas']
   Dimensiones: (14, 13)

üìã SETDEDATOS:
   Columnas: ['a√±o', 'Nacimientos', 'Defunciones']
   Dimensiones: (50, 3)


In [11]:
# 4.2 Estandarizaci√≥n de nombres de columnas - Dataset por_sexo

print("=== ESTANDARIZACI√ìN: POR_SEXO ===")

# Crear copia para trabajar
por_sexo_estandarizado = por_sexo.copy()

print("Columnas originales:")
print(list(por_sexo_estandarizado.columns))

# Definir mapeo de nombres de columnas
mapeo_por_sexo = {
    'A√±o': 'a√±o',
    'Nacimiento (Hombre)': 'nacimientos_hombres',
    'Nacimiento (Mujer)': 'nacimientos_mujeres', 
    'Defuncion(Hombre)': 'defunciones_hombres',
    'Defuncion (Mujer)': 'defunciones_mujeres'
}

# Renombrar columnas
por_sexo_estandarizado = por_sexo_estandarizado.rename(columns=mapeo_por_sexo)

print("\nColumnas estandarizadas:")
print(list(por_sexo_estandarizado.columns))

print("\n‚úÖ Dataset por_sexo estandarizado")


=== ESTANDARIZACI√ìN: POR_SEXO ===
Columnas originales:
['A√±o', 'Nacimiento (Hombre)', 'Nacimiento (Mujer)', 'Defuncion(Hombre)', 'Defuncion (Mujer)']

Columnas estandarizadas:
['a√±o', 'nacimientos_hombres', 'nacimientos_mujeres', 'defunciones_hombres', 'defunciones_mujeres']

‚úÖ Dataset por_sexo estandarizado


In [12]:
# 4.3 Estandarizaci√≥n de nombres de columnas - Dataset defunciones_limpio

print("=== ESTANDARIZACI√ìN: DEFUNCIONES_LIMPIO ===")

# Crear copia para trabajar
defunciones_estandarizado = defunciones_limpio.copy()

print("Columnas originales:")
print(list(defunciones_estandarizado.columns))

# Definir mapeo de nombres de columnas
mapeo_defunciones = {
    'A√ëO': 'a√±o',
    'FECHA_DEF': 'fecha_defuncion',
    'SEXO_NOMBRE': 'sexo',
    'EDAD_TIPO': 'tipo_edad',
    'EDAD_CANT': 'edad_cantidad',
    'COD_COMUNA': 'codigo_comuna',
    'COMUNA': 'comuna',
    'NOMBRE_REGION': 'region',
    'CAPITULO_DIAG1': 'codigo_diagnostico',
    'GLOSA_CAPITULO_DIAG1': 'descripcion_diagnostico',
    'A√ëO_FECHA': 'a√±o_fecha',
    'MES': 'mes',
    'DIA_SEMANA': 'dia_semana',
    'TRIMESTRE': 'trimestre',
    'DIA_A√ëO': 'dia_a√±o'
}

# Renombrar columnas
defunciones_estandarizado = defunciones_estandarizado.rename(columns=mapeo_defunciones)

print("\nColumnas estandarizadas:")
print(list(defunciones_estandarizado.columns))

print("\n‚úÖ Dataset defunciones_limpio estandarizado")


=== ESTANDARIZACI√ìN: DEFUNCIONES_LIMPIO ===
Columnas originales:
['A√ëO', 'FECHA_DEF', 'SEXO_NOMBRE', 'EDAD_TIPO', 'EDAD_CANT', 'COD_COMUNA', 'COMUNA', 'NOMBRE_REGION', 'CAPITULO_DIAG1', 'GLOSA_CAPITULO_DIAG1', 'A√ëO_FECHA', 'MES', 'DIA_SEMANA', 'TRIMESTRE', 'DIA_A√ëO']

Columnas estandarizadas:
['a√±o', 'fecha_defuncion', 'sexo', 'tipo_edad', 'edad_cantidad', 'codigo_comuna', 'comuna', 'region', 'codigo_diagnostico', 'descripcion_diagnostico', 'a√±o_fecha', 'mes', 'dia_semana', 'trimestre', 'dia_a√±o']

‚úÖ Dataset defunciones_limpio estandarizado


In [13]:
# 4.4 Estandarizaci√≥n de nombres de columnas - Dataset por_edad_madre

print("=== ESTANDARIZACI√ìN: POR_EDAD_MADRE ===")

# Crear copia para trabajar
por_edad_madre_estandarizado = por_edad_madre.copy()

print("Columnas originales:")
print(list(por_edad_madre_estandarizado.columns))

# Definir mapeo de nombres de columnas
mapeo_edad_madre = {
    'A√±o': 'a√±o',
    'Menores de 15 a√±os': 'nacimientos_menores_15',
    '15 a 19 a√±os': 'nacimientos_15_19',
    '20 a 24 a√±os': 'nacimientos_20_24',
    '25 a 29 a√±os': 'nacimientos_25_29',
    '30 a 34 a√±os': 'nacimientos_30_34',
    '35 a 39 a√±os': 'nacimientos_35_39',
    '40 a 44 a√±os': 'nacimientos_40_44',
    '45 a 49 a√±os': 'nacimientos_45_49',
    '50 y m√°s a√±os': 'nacimientos_50_mas'
}

# Renombrar columnas
por_edad_madre_estandarizado = por_edad_madre_estandarizado.rename(columns=mapeo_edad_madre)

print("\nColumnas estandarizadas:")
print(list(por_edad_madre_estandarizado.columns))

print("\n‚úÖ Dataset por_edad_madre estandarizado")


=== ESTANDARIZACI√ìN: POR_EDAD_MADRE ===
Columnas originales:
['A√±o', 'Menores de 15 a√±os', '15 a 19 a√±os', '20 a 24 a√±os', '25 a 29 a√±os', '30 a 34 a√±os', '35 a 39 a√±os', '40 a 44 a√±os', '45 a 49 a√±os', '50 y m√°s a√±os']

Columnas estandarizadas:
['a√±o', 'nacimientos_menores_15', 'nacimientos_15_19', 'nacimientos_20_24', 'nacimientos_25_29', 'nacimientos_30_34', 'nacimientos_35_39', 'nacimientos_40_44', 'nacimientos_45_49', 'nacimientos_50_mas']

‚úÖ Dataset por_edad_madre estandarizado


In [14]:
# 4.5 Estandarizaci√≥n de nombres de columnas - Dataset por_edad_fallecido

print("=== ESTANDARIZACI√ìN: POR_EDAD_FALLECIDO ===")

# Crear copia para trabajar
por_edad_fallecido_estandarizado = por_edad_fallecido.copy()

print("Columnas originales:")
print(list(por_edad_fallecido_estandarizado.columns))

# Definir mapeo de nombres de columnas
mapeo_edad_fallecido = {
    'A√±o': 'a√±o',
    'Menores de 1 a√±o': 'defunciones_menores_1',
    '1 a 4': 'defunciones_1_4',
    '5 a 9': 'defunciones_5_9',
    '10 a 14': 'defunciones_10_14',
    '15 a 19': 'defunciones_15_19',
    '20 a 24': 'defunciones_20_24',
    '25 a 29': 'defunciones_25_29',
    '30 a 34': 'defunciones_30_34',
    '35 a 39': 'defunciones_35_39',
    '40 a 44': 'defunciones_40_44',
    '45 a 49': 'defunciones_45_49',
    '50 o mas': 'defunciones_50_mas'
}

# Renombrar columnas
por_edad_fallecido_estandarizado = por_edad_fallecido_estandarizado.rename(columns=mapeo_edad_fallecido)

print("\nColumnas estandarizadas:")
print(list(por_edad_fallecido_estandarizado.columns))

print("\n‚úÖ Dataset por_edad_fallecido estandarizado")


=== ESTANDARIZACI√ìN: POR_EDAD_FALLECIDO ===
Columnas originales:
['A√±o', 'Menores de 1 a√±o', '1 a 4', '5 a 9', '10 a 14', '15 a 19', '20 a 24', '25 a 29', '30 a 34', '35 a 39', '40 a 44', '45 a 49', '50 o mas']

Columnas estandarizadas:
['a√±o', 'defunciones_menores_1', 'defunciones_1_4', 'defunciones_5_9', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_20_24', 'defunciones_25_29', 'defunciones_30_34', 'defunciones_35_39', 'defunciones_40_44', 'defunciones_45_49', 'defunciones_50_mas']

‚úÖ Dataset por_edad_fallecido estandarizado


In [15]:
# 4.6 Estandarizaci√≥n de nombres de columnas - Dataset setdedatos

print("=== ESTANDARIZACI√ìN: SETDEDATOS ===")

# Crear copia para trabajar
setdedatos_estandarizado = setdedatos.copy()

print("Columnas originales:")
print(list(setdedatos_estandarizado.columns))

# Definir mapeo de nombres de columnas
mapeo_setdedatos = {
    'a√±o': 'a√±o',  # Ya est√° en min√∫sculas
    'Nacimientos': 'nacimientos_totales',
    'Defunciones': 'defunciones_totales'
}

# Renombrar columnas
setdedatos_estandarizado = setdedatos_estandarizado.rename(columns=mapeo_setdedatos)

print("\nColumnas estandarizadas:")
print(list(setdedatos_estandarizado.columns))

print("\n‚úÖ Dataset setdedatos estandarizado")


=== ESTANDARIZACI√ìN: SETDEDATOS ===
Columnas originales:
['a√±o', 'Nacimientos', 'Defunciones']

Columnas estandarizadas:
['a√±o', 'nacimientos_totales', 'defunciones_totales']

‚úÖ Dataset setdedatos estandarizado


In [16]:
# 4.7 Estandarizaci√≥n de nombres de regiones

print("=== ESTANDARIZACI√ìN DE NOMBRES DE REGIONES ===")

# Analizar nombres √∫nicos de regiones en el dataset de defunciones
regiones_unicas = defunciones_estandarizado['region'].unique()
print("Regiones √∫nicas encontradas:")
for i, region in enumerate(sorted(regiones_unicas), 1):
    print(f"{i:2d}. {region}")

# Definir mapeo para estandarizar nombres de regiones
mapeo_regiones = {
    'Del B√≠ob√≠o': 'Del Biob√≠o',  # Quitar tilde
    'Metropolitana de Santiago': 'Regi√≥n Metropolitana',
    'De Tarapac√°': 'De Tarapac√°',  # Ya est√° correcto
    'De Antofagasta': 'De Antofagasta',  # Ya est√° correcto
    'De Atacama': 'De Atacama',  # Ya est√° correcto
    'De Coquimbo': 'De Coquimbo',  # Ya est√° correcto
    'De Valpara√≠so': 'De Valpara√≠so',  # Ya est√° correcto
    'Del Libertador B. O\'Higgins': 'Del Libertador General Bernardo O\'Higgins',
    'Del Maule': 'Del Maule',  # Ya est√° correcto
    'De √ëuble': 'De √ëuble',  # Ya est√° correcto
    'De La Araucan√≠a': 'De La Araucan√≠a',  # Ya est√° correcto
    'De Los R√≠os': 'De Los R√≠os',  # Ya est√° correcto
    'De Los Lagos': 'De Los Lagos',  # Ya est√° correcto
    'De Ays√©n del General Carlos Ib√°√±ez del Campo': 'De Ays√©n del General Carlos Ib√°√±ez del Campo',  # Ya est√° correcto
    'De Magallanes y de la Ant√°rtica Chilena': 'De Magallanes y de la Ant√°rtica Chilena'  # Ya est√° correcto
}

# Aplicar mapeo de regiones
defunciones_estandarizado['region'] = defunciones_estandarizado['region'].replace(mapeo_regiones)

print("\nRegiones despu√©s de estandarizaci√≥n:")
regiones_estandarizadas = defunciones_estandarizado['region'].unique()
for i, region in enumerate(sorted(regiones_estandarizadas), 1):
    print(f"{i:2d}. {region}")

print("\n‚úÖ Nombres de regiones estandarizados")


=== ESTANDARIZACI√ìN DE NOMBRES DE REGIONES ===
Regiones √∫nicas encontradas:
 1. De Ais√©n del Gral. C. Ib√°√±ez del Campo
 2. De Antofagasta
 3. De Arica y Parinacota
 4. De Atacama
 5. De Coquimbo
 6. De La Araucan√≠a
 7. De Los Lagos
 8. De Los R√≠os
 9. De Magallanes y de La Ant√°rtica Chilena
10. De Tarapac√°
11. De Valpara√≠so
12. De √ëuble
13. Del B√≠ob√≠o
14. Del Libertador B. O'Higgins
15. Del Maule
16. Ignorada
17. Metropolitana de Santiago

Regiones despu√©s de estandarizaci√≥n:
 1. De Ais√©n del Gral. C. Ib√°√±ez del Campo
 2. De Antofagasta
 3. De Arica y Parinacota
 4. De Atacama
 5. De Coquimbo
 6. De La Araucan√≠a
 7. De Los Lagos
 8. De Los R√≠os
 9. De Magallanes y de La Ant√°rtica Chilena
10. De Tarapac√°
11. De Valpara√≠so
12. De √ëuble
13. Del Biob√≠o
14. Del Libertador General Bernardo O'Higgins
15. Del Maule
16. Ignorada
17. Regi√≥n Metropolitana

‚úÖ Nombres de regiones estandarizados


In [17]:
# 4.8 Resumen de la estandarizaci√≥n de nombres de columnas

print("=== RESUMEN DE LA ESTANDARIZACI√ìN DE NOMBRES DE COLUMNAS ===")

# Crear diccionario con todos los datasets estandarizados
datasets_estandarizados = {
    "por_sexo_estandarizado": por_sexo_estandarizado,
    "defunciones_estandarizado": defunciones_estandarizado,
    "por_edad_madre_estandarizado": por_edad_madre_estandarizado,
    "por_edad_fallecido_estandarizado": por_edad_fallecido_estandarizado,
    "setdedatos_estandarizado": setdedatos_estandarizado
}

print("üìã Nombres de columnas estandarizados:")
for nombre_dataset, df in datasets_estandarizados.items():
    print(f"\n{nombre_dataset.upper()}:")
    print(f"   Columnas: {list(df.columns)}")

print("\n=== BENEFICIOS DE LA ESTANDARIZACI√ìN ===")
print("‚úÖ Todos los datasets usan 'a√±o' en min√∫sculas")
print("‚úÖ Nombres de columnas m√°s descriptivos y consistentes")
print("‚úÖ Espacios y caracteres especiales estandarizados")
print("‚úÖ Nombres de regiones unificados")
print("‚úÖ Facilita la integraci√≥n y an√°lisis posterior")

print("\n=== DATASETS ESTANDARIZADOS DISPONIBLES ===")
print("Los siguientes datasets est√°n listos para an√°lisis:")
for nombre in datasets_estandarizados.keys():
    print(f"  - {nombre}")

print("\n‚úÖ Estandarizaci√≥n de nombres de columnas completada")


=== RESUMEN DE LA ESTANDARIZACI√ìN DE NOMBRES DE COLUMNAS ===
üìã Nombres de columnas estandarizados:

POR_SEXO_ESTANDARIZADO:
   Columnas: ['a√±o', 'nacimientos_hombres', 'nacimientos_mujeres', 'defunciones_hombres', 'defunciones_mujeres']

DEFUNCIONES_ESTANDARIZADO:
   Columnas: ['a√±o', 'fecha_defuncion', 'sexo', 'tipo_edad', 'edad_cantidad', 'codigo_comuna', 'comuna', 'region', 'codigo_diagnostico', 'descripcion_diagnostico', 'a√±o_fecha', 'mes', 'dia_semana', 'trimestre', 'dia_a√±o']

POR_EDAD_MADRE_ESTANDARIZADO:
   Columnas: ['a√±o', 'nacimientos_menores_15', 'nacimientos_15_19', 'nacimientos_20_24', 'nacimientos_25_29', 'nacimientos_30_34', 'nacimientos_35_39', 'nacimientos_40_44', 'nacimientos_45_49', 'nacimientos_50_mas']

POR_EDAD_FALLECIDO_ESTANDARIZADO:
   Columnas: ['a√±o', 'defunciones_menores_1', 'defunciones_1_4', 'defunciones_5_9', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_20_24', 'defunciones_25_29', 'defunciones_30_34', 'defunciones_35_39', 'defuncione

## 5. Validaci√≥n de Rangos de Edad

Esta secci√≥n se enfoca en verificar la consistencia de los rangos de edad entre datasets y validar que los valores de edad sean l√≥gicos.


In [18]:
# 5.1 An√°lisis de rangos de edad en datasets de nacimientos

print("=== AN√ÅLISIS DE RANGOS DE EDAD - NACIMIENTOS ===")

# Analizar rangos de edad en dataset por_edad_madre
print("üìã Rangos de edad en nacimientos (por_edad_madre_estandarizado):")
columnas_edad_madre = [col for col in por_edad_madre_estandarizado.columns if col != 'a√±o']
print("Columnas de edad:", columnas_edad_madre)

# Mostrar estad√≠sticas b√°sicas de cada rango
print("\nüìä Estad√≠sticas por rango de edad de madre:")
for col in columnas_edad_madre:
    min_val = por_edad_madre_estandarizado[col].min()
    max_val = por_edad_madre_estandarizado[col].max()
    mean_val = por_edad_madre_estandarizado[col].mean()
    print(f"  {col:25s}: Min={min_val:6.0f}, Max={max_val:6.0f}, Promedio={mean_val:6.0f}")

# Verificar consistencia en el formato de nombres
print("\nüîç Verificaci√≥n de formato de nombres:")
for col in columnas_edad_madre:
    if 'mas' in col or 'm√°s' in col:
        print(f"  ‚ö†Ô∏è  Posible inconsistencia en: {col}")
    else:
        print(f"  ‚úÖ Formato consistente: {col}")


=== AN√ÅLISIS DE RANGOS DE EDAD - NACIMIENTOS ===
üìã Rangos de edad en nacimientos (por_edad_madre_estandarizado):
Columnas de edad: ['nacimientos_menores_15', 'nacimientos_15_19', 'nacimientos_20_24', 'nacimientos_25_29', 'nacimientos_30_34', 'nacimientos_35_39', 'nacimientos_40_44', 'nacimientos_45_49', 'nacimientos_50_mas']

üìä Estad√≠sticas por rango de edad de madre:
  nacimientos_menores_15   : Min=   158, Max=   963, Promedio=   558
  nacimientos_15_19        : Min=  6428, Max= 38047, Promedio= 20607
  nacimientos_20_24        : Min= 28334, Max= 59884, Promedio= 46498
  nacimientos_25_29        : Min= 45178, Max= 63210, Promedio= 57008
  nacimientos_30_34        : Min= 50523, Max= 57520, Promedio= 54143
  nacimientos_35_39        : Min= 30989, Max= 34942, Promedio= 32793
  nacimientos_40_44        : Min=  8257, Max=  9545, Promedio=  8869
  nacimientos_45_49        : Min=   441, Max=   602, Promedio=   502
  nacimientos_50_mas       : Min=     5, Max=    32, Promedio=    17


In [19]:
# 5.2 An√°lisis de rangos de edad en datasets de defunciones

print("=== AN√ÅLISIS DE RANGOS DE EDAD - DEFUNCIONES ===")

# Analizar rangos de edad en dataset por_edad_fallecido
print("üìã Rangos de edad en defunciones (por_edad_fallecido_estandarizado):")
columnas_edad_fallecido = [col for col in por_edad_fallecido_estandarizado.columns if col != 'a√±o']
print("Columnas de edad:", columnas_edad_fallecido)

# Mostrar estad√≠sticas b√°sicas de cada rango
print("\nüìä Estad√≠sticas por rango de edad de fallecido:")
for col in columnas_edad_fallecido:
    min_val = por_edad_fallecido_estandarizado[col].min()
    max_val = por_edad_fallecido_estandarizado[col].max()
    mean_val = por_edad_fallecido_estandarizado[col].mean()
    print(f"  {col:25s}: Min={min_val:6.0f}, Max={max_val:6.0f}, Promedio={mean_val:6.0f}")

# Verificar consistencia en el formato de nombres
print("\nüîç Verificaci√≥n de formato de nombres:")
for col in columnas_edad_fallecido:
    if 'mas' in col or 'm√°s' in col:
        print(f"  ‚ö†Ô∏è  Posible inconsistencia en: {col}")
    else:
        print(f"  ‚úÖ Formato consistente: {col}")

# Analizar valores de EDAD_CANT en dataset de defunciones detalladas
print("\nüìä An√°lisis de EDAD_CANT en defunciones detalladas:")
print(f"Valores √∫nicos de edad_cantidad: {sorted(defunciones_estandarizado['edad_cantidad'].unique())}")
print(f"Rango de edad_cantidad: {defunciones_estandarizado['edad_cantidad'].min()} - {defunciones_estandarizado['edad_cantidad'].max()}")
print(f"Valores nulos en edad_cantidad: {defunciones_estandarizado['edad_cantidad'].isnull().sum()}")


=== AN√ÅLISIS DE RANGOS DE EDAD - DEFUNCIONES ===
üìã Rangos de edad en defunciones (por_edad_fallecido_estandarizado):
Columnas de edad: ['defunciones_menores_1', 'defunciones_1_4', 'defunciones_5_9', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_20_24', 'defunciones_25_29', 'defunciones_30_34', 'defunciones_35_39', 'defunciones_40_44', 'defunciones_45_49', 'defunciones_50_mas']

üìä Estad√≠sticas por rango de edad de fallecido:
  defunciones_menores_1    : Min=  1022, Max=  1908, Promedio=  1512
  defunciones_1_4          : Min=   204, Max=   312, Promedio=   253
  defunciones_5_9          : Min=   129, Max=   188, Promedio=   161
  defunciones_10_14        : Min=   162, Max=   238, Promedio=   200
  defunciones_15_19        : Min=   465, Max=   733, Promedio=   574
  defunciones_20_24        : Min=   857, Max=  1065, Promedio=   932
  defunciones_25_29        : Min=   955, Max=  1276, Promedio=  1101
  defunciones_30_34        : Min=  1088, Max=  1618, Promedio=  1255
  d

In [20]:
# 5.3 Comparaci√≥n de rangos de edad entre datasets

print("=== COMPARACI√ìN DE RANGOS DE EDAD ENTRE DATASETS ===")

# Crear mapeo de rangos de edad para comparaci√≥n
rangos_nacimientos = {
    'nacimientos_menores_15': '0-14',
    'nacimientos_15_19': '15-19', 
    'nacimientos_20_24': '20-24',
    'nacimientos_25_29': '25-29',
    'nacimientos_30_34': '30-34',
    'nacimientos_35_39': '35-39',
    'nacimientos_40_44': '40-44',
    'nacimientos_45_49': '45-49',
    'nacimientos_50_mas': '50+'
}

rangos_defunciones = {
    'defunciones_menores_1': '0-1',
    'defunciones_1_4': '1-4',
    'defunciones_5_9': '5-9',
    'defunciones_10_14': '10-14',
    'defunciones_15_19': '15-19',
    'defunciones_20_24': '20-24',
    'defunciones_25_29': '25-29',
    'defunciones_30_34': '30-34',
    'defunciones_35_39': '35-39',
    'defunciones_40_44': '40-44',
    'defunciones_45_49': '45-49',
    'defunciones_50_mas': '50+'
}

print("üìã Rangos de edad en nacimientos:")
for col, rango in rangos_nacimientos.items():
    print(f"  {col:25s} ‚Üí {rango}")

print("\nüìã Rangos de edad en defunciones:")
for col, rango in rangos_defunciones.items():
    print(f"  {col:25s} ‚Üí {rango}")

# Identificar rangos superpuestos
rangos_comunes = set(rangos_nacimientos.values()) & set(rangos_defunciones.values())
print(f"\nüîç Rangos de edad comunes: {sorted(rangos_comunes)}")

# Identificar rangos √∫nicos
rangos_unicos_nacimientos = set(rangos_nacimientos.values()) - set(rangos_defunciones.values())
rangos_unicos_defunciones = set(rangos_defunciones.values()) - set(rangos_nacimientos.values())

print(f"üìä Rangos √∫nicos en nacimientos: {sorted(rangos_unicos_nacimientos)}")
print(f"üìä Rangos √∫nicos en defunciones: {sorted(rangos_unicos_defunciones)}")


=== COMPARACI√ìN DE RANGOS DE EDAD ENTRE DATASETS ===
üìã Rangos de edad en nacimientos:
  nacimientos_menores_15    ‚Üí 0-14
  nacimientos_15_19         ‚Üí 15-19
  nacimientos_20_24         ‚Üí 20-24
  nacimientos_25_29         ‚Üí 25-29
  nacimientos_30_34         ‚Üí 30-34
  nacimientos_35_39         ‚Üí 35-39
  nacimientos_40_44         ‚Üí 40-44
  nacimientos_45_49         ‚Üí 45-49
  nacimientos_50_mas        ‚Üí 50+

üìã Rangos de edad en defunciones:
  defunciones_menores_1     ‚Üí 0-1
  defunciones_1_4           ‚Üí 1-4
  defunciones_5_9           ‚Üí 5-9
  defunciones_10_14         ‚Üí 10-14
  defunciones_15_19         ‚Üí 15-19
  defunciones_20_24         ‚Üí 20-24
  defunciones_25_29         ‚Üí 25-29
  defunciones_30_34         ‚Üí 30-34
  defunciones_35_39         ‚Üí 35-39
  defunciones_40_44         ‚Üí 40-44
  defunciones_45_49         ‚Üí 45-49
  defunciones_50_mas        ‚Üí 50+

üîç Rangos de edad comunes: ['15-19', '20-24', '25-29', '30-34', '35-39', '40-44', '

In [23]:
# 5.4 Validaci√≥n de valores de edad en dataset detallado (MODIFICADO)

print("=== VALIDACI√ìN DE VALORES DE EDAD EN DATASET DETALLADO ===")

# Analizar distribuci√≥n de valores de edad_cantidad
print("üìä Distribuci√≥n de edad_cantidad:")
print(defunciones_estandarizado['edad_cantidad'].describe())

# 1. ELIMINAR edades imposibles (>120 a√±os)
print("\nüîç Eliminando edades imposibles (>120 a√±os):")
edades_imposibles = defunciones_estandarizado[defunciones_estandarizado['edad_cantidad'] > 120]
print(f"Registros con edad > 120 a√±os: {len(edades_imposibles)}")

if len(edades_imposibles) > 0:
    print("Ejemplos de edades imposibles:")
    display(edades_imposibles[['a√±o', 'fecha_defuncion', 'sexo', 'edad_cantidad', 'region']].head())
    
    # Eliminar estos registros
    defunciones_estandarizado = defunciones_estandarizado[defunciones_estandarizado['edad_cantidad'] <= 120]
    print(f"\n‚úÖ Eliminados {len(edades_imposibles)} registros con edad > 120 a√±os")
    print(f"üìä Dataset actualizado: {len(defunciones_estandarizado):,} registros")

# 2. NO detectar outliers por edad (todas las edades son v√°lidas)
print(f"\n‚úÖ TODAS LAS EDADES SON V√ÅLIDAS")
print(f"üìä Rango de edades: {defunciones_estandarizado['edad_cantidad'].min()} - {defunciones_estandarizado['edad_cantidad'].max()} a√±os")

# 3. Mostrar distribuci√≥n por grupos de edad
print(f"\nÔøΩÔøΩ Distribuci√≥n por grupos de edad:")
defunciones_estandarizado['grupo_edad'] = pd.cut(defunciones_estandarizado['edad_cantidad'], 
                                                bins=[0, 1, 5, 18, 65, 120], 
                                                labels=['0-1 a√±os', '2-4 a√±os', '5-17 a√±os', '18-64 a√±os', '65+ a√±os'])
distribucion_grupos = defunciones_estandarizado['grupo_edad'].value_counts().sort_index()
for grupo, cantidad in distribucion_grupos.items():
    porcentaje = (cantidad / len(defunciones_estandarizado)) * 100
    print(f"  {grupo:12s}: {cantidad:6,} ({porcentaje:5.1f}%)")

# 4. Solo validar rangos l√≥gicos b√°sicos
print(f"\nüîç Validaci√≥n de rangos l√≥gicos:")
edades_negativas = defunciones_estandarizado[defunciones_estandarizado['edad_cantidad'] < 0]
print(f"Registros con edad negativa: {len(edades_negativas)}")

if len(edades_negativas) > 0:
    print("Ejemplos de edades negativas:")
    display(edades_negativas[['a√±o', 'fecha_defuncion', 'sexo', 'edad_cantidad']].head())

print(f"\n‚úÖ Validaci√≥n completada: Dataset limpio con edades v√°lidas")


=== VALIDACI√ìN DE VALORES DE EDAD EN DATASET DETALLADO ===
üìä Distribuci√≥n de edad_cantidad:
count    1.246214e+06
mean     7.221377e+01
std      1.880039e+01
min      0.000000e+00
25%      6.300000e+01
50%      7.600000e+01
75%      8.600000e+01
max      9.990000e+02
Name: edad_cantidad, dtype: float64

üîç Eliminando edades imposibles (>120 a√±os):
Registros con edad > 120 a√±os: 14
Ejemplos de edades imposibles:


Unnamed: 0,a√±o,fecha_defuncion,sexo,edad_cantidad,region
4545,2014,2014-06-30,Hombre,999,De La Araucan√≠a
24752,2014,2014-04-19,Hombre,999,De Tarapac√°
32330,2015,2015-10-30,Hombre,999,De La Araucan√≠a
41877,2018,2018-04-18,Hombre,121,De Los R√≠os
43947,2014,2014-03-21,Hombre,999,De √ëuble



‚úÖ Eliminados 14 registros con edad > 120 a√±os
üìä Dataset actualizado: 1,246,200 registros

‚úÖ TODAS LAS EDADES SON V√ÅLIDAS
üìä Rango de edades: 0 - 118 a√±os

ÔøΩÔøΩ Distribuci√≥n por grupos de edad:
  0-1 a√±os    :  6,358 (  0.5%)
  2-4 a√±os    :  6,135 (  0.5%)
  5-17 a√±os   : 11,417 (  0.9%)
  18-64 a√±os  : 331,208 ( 26.6%)
  65+ a√±os    : 891,071 ( 71.5%)

üîç Validaci√≥n de rangos l√≥gicos:
Registros con edad negativa: 0

‚úÖ Validaci√≥n completada: Dataset limpio con edades v√°lidas


In [24]:
# 5.5 Estandarizaci√≥n final de rangos de edad

print("=== ESTANDARIZACI√ìN FINAL DE RANGOS DE EDAD ===")

# Crear datasets finales con rangos de edad estandarizados
print("üìã Creando datasets con rangos de edad estandarizados...")

# Dataset de nacimientos por edad (ya est√° estandarizado)
nacimientos_edad_final = por_edad_madre_estandarizado.copy()
print("‚úÖ Dataset nacimientos por edad: ya estandarizado")

# Dataset de defunciones por edad (ya est√° estandarizado)
defunciones_edad_final = por_edad_fallecido_estandarizado.copy()
print("‚úÖ Dataset defunciones por edad: ya estandarizado")

# Crear funci√≥n para categorizar edad en rangos est√°ndar
def categorizar_edad(edad):
    """
    Categoriza la edad en rangos est√°ndar para an√°lisis
    """
    if pd.isna(edad):
        return 'desconocida'
    elif edad < 0:
        return 'edad_invalida'
    elif edad < 1:
        return 'menores_1'
    elif edad < 5:
        return '1_4'
    elif edad < 10:
        return '5_9'
    elif edad < 15:
        return '10_14'
    elif edad < 20:
        return '15_19'
    elif edad < 25:
        return '20_24'
    elif edad < 30:
        return '25_29'
    elif edad < 35:
        return '30_34'
    elif edad < 40:
        return '35_39'
    elif edad < 45:
        return '40_44'
    elif edad < 50:
        return '45_49'
    elif edad < 55:
        return '50_54'
    elif edad < 60:
        return '55_59'
    elif edad < 65:
        return '60_64'
    elif edad < 70:
        return '65_69'
    elif edad < 75:
        return '70_74'
    elif edad < 80:
        return '75_79'
    elif edad < 85:
        return '80_84'
    elif edad < 90:
        return '85_89'
    elif edad < 95:
        return '90_94'
    elif edad < 100:
        return '95_99'
    else:
        return '100_mas'

# Aplicar categorizaci√≥n al dataset de defunciones detalladas
defunciones_estandarizado['rango_edad'] = defunciones_estandarizado['edad_cantidad'].apply(categorizar_edad)

print("\nÔøΩÔøΩ Distribuci√≥n de rangos de edad en defunciones detalladas:")
distribucion_rangos = defunciones_estandarizado['rango_edad'].value_counts().sort_index()
print(distribucion_rangos)

# Verificar que no hay valores problem√°ticos
valores_problematicos = defunciones_estandarizado[defunciones_estandarizado['rango_edad'].isin(['desconocida', 'edad_invalida'])]
print(f"\nRegistros con edad problem√°tica: {len(valores_problematicos)}")

if len(valores_problematicos) > 0:
    print("Ejemplos de registros problem√°ticos:")
    display(valores_problematicos[['a√±o', 'fecha_defuncion', 'sexo', 'edad_cantidad', 'rango_edad']].head())

=== ESTANDARIZACI√ìN FINAL DE RANGOS DE EDAD ===
üìã Creando datasets con rangos de edad estandarizados...
‚úÖ Dataset nacimientos por edad: ya estandarizado
‚úÖ Dataset defunciones por edad: ya estandarizado

ÔøΩÔøΩ Distribuci√≥n de rangos de edad en defunciones detalladas:
rango_edad
100_mas       11429
10_14          3344
15_19          6463
1_4           11459
20_24         10257
25_29         12511
30_34         14136
35_39         16647
40_44         22356
45_49         31723
50_54         47168
55_59         67120
5_9            4362
60_64         87673
65_69        108708
70_74        131625
75_79        152925
80_84        168669
85_89        167254
90_94        121052
95_99         49308
menores_1        11
Name: count, dtype: int64

Registros con edad problem√°tica: 0


In [25]:
# 5.6 Resumen de la validaci√≥n de rangos de edad

print("=== RESUMEN DE LA VALIDACI√ìN DE RANGOS DE EDAD ===")

# Crear diccionario con datasets finales de edad
datasets_edad_finales = {
    "nacimientos_edad_final": nacimientos_edad_final,
    "defunciones_edad_final": defunciones_edad_final,
    "defunciones_estandarizado": defunciones_estandarizado  # Incluye nueva columna rango_edad
}

print("ÔøΩÔøΩ Datasets con rangos de edad validados:")
for nombre_dataset, df in datasets_edad_finales.items():
    print(f"\n{nombre_dataset.upper()}:")
    print(f"   Dimensiones: {df.shape}")
    columnas_edad = [col for col in df.columns if 'edad' in col.lower() or 'nacimientos_' in col or 'defunciones_' in col]
    print(f"   Columnas relacionadas con edad: {columnas_edad}")

print("\n=== BENEFICIOS DE LA VALIDACI√ìN ===")
print("‚úÖ Rangos de edad consistentes entre datasets")
print("‚úÖ Formato estandarizado ('50_mas' en lugar de '50 y m√°s' o '50 o mas')")
print("‚úÖ Validaci√≥n de valores l√≥gicos de edad")
print("‚úÖ Eliminaci√≥n de edades imposibles (>120 a√±os)")
print("‚úÖ Preservaci√≥n de todos los casos de menores de 18 a√±os")
print("‚úÖ Nueva columna 'rango_edad' para an√°lisis categ√≥rico")
print("‚úÖ Funci√≥n de categorizaci√≥n reutilizable con rangos detallados")

print("\n=== RANGOS DE EDAD EST√ÅNDAR (ACTUALIZADOS) ===")
rangos_estandar = [
    'menores_1', '1_4', '5_9', '10_14', '15_19', '20_24', 
    '25_29', '30_34', '35_39', '40_44', '45_49', '50_54',
    '55_59', '60_64', '65_69', '70_74', '75_79', '80_84',
    '85_89', '90_94', '95_99', '100_mas'
]
print("Rangos est√°ndar implementados:")
for i, rango in enumerate(rangos_estandar, 1):
    print(f"  {i:2d}. {rango}")

print("\n=== CORRECCIONES APLICADAS ===")
print("ÔøΩÔøΩ Eliminados registros con edad > 120 a√±os (errores de captura)")
print("üîß Preservados todos los casos de menores de 18 a√±os")
print("üîß Agregados rangos detallados para adultos mayores (50-100+ a√±os)")
print("üîß Eliminada detecci√≥n de outliers por edad (todas las edades son v√°lidas)")

print("\n‚úÖ Validaci√≥n de rangos de edad completada")


=== RESUMEN DE LA VALIDACI√ìN DE RANGOS DE EDAD ===
ÔøΩÔøΩ Datasets con rangos de edad validados:

NACIMIENTOS_EDAD_FINAL:
   Dimensiones: (14, 10)
   Columnas relacionadas con edad: ['nacimientos_menores_15', 'nacimientos_15_19', 'nacimientos_20_24', 'nacimientos_25_29', 'nacimientos_30_34', 'nacimientos_35_39', 'nacimientos_40_44', 'nacimientos_45_49', 'nacimientos_50_mas']

DEFUNCIONES_EDAD_FINAL:
   Dimensiones: (14, 13)
   Columnas relacionadas con edad: ['defunciones_menores_1', 'defunciones_1_4', 'defunciones_5_9', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_20_24', 'defunciones_25_29', 'defunciones_30_34', 'defunciones_35_39', 'defunciones_40_44', 'defunciones_45_49', 'defunciones_50_mas']

DEFUNCIONES_ESTANDARIZADO:
   Dimensiones: (1246200, 17)
   Columnas relacionadas con edad: ['tipo_edad', 'edad_cantidad', 'grupo_edad', 'rango_edad']

=== BENEFICIOS DE LA VALIDACI√ìN ===
‚úÖ Rangos de edad consistentes entre datasets
‚úÖ Formato estandarizado ('50_mas' en lugar 

## 6. Integraci√≥n de Datasets

Esta secci√≥n se enfoca en crear un dataset unificado temporal combinando informaci√≥n de diferentes fuentes y generando variables derivadas √∫tiles para an√°lisis.


In [26]:
# 6.1 An√°lisis de per√≠odos temporales en todos los datasets

print("=== AN√ÅLISIS DE PER√çODOS TEMPORALES ===")

# Analizar rangos de a√±os en cada dataset
datasets_temporales = {
    "setdedatos_estandarizado": setdedatos_estandarizado,
    "por_sexo_estandarizado": por_sexo_estandarizado,
    "nacimientos_edad_final": nacimientos_edad_final,
    "defunciones_edad_final": defunciones_edad_final,
    "defunciones_estandarizado": defunciones_estandarizado
}

print("üìÖ Per√≠odos temporales por dataset:")
for nombre_dataset, df in datasets_temporales.items():
    a√±os = sorted(df['a√±o'].unique())
    print(f"\n{nombre_dataset.upper()}:")
    print(f"   A√±os: {a√±os[0]} - {a√±os[-1]} ({len(a√±os)} a√±os)")
    print(f"   Rango completo: {a√±os}")

# Identificar a√±os comunes y √∫nicos
a√±os_setdedatos = set(setdedatos_estandarizado['a√±o'].unique())
a√±os_por_sexo = set(por_sexo_estandarizado['a√±o'].unique())
a√±os_nacimientos_edad = set(nacimientos_edad_final['a√±o'].unique())
a√±os_defunciones_edad = set(defunciones_edad_final['a√±o'].unique())

print(f"\nüîç An√°lisis de cobertura temporal:")
print(f"A√±os en setdedatos (1974-2023): {len(a√±os_setdedatos)} a√±os")
print(f"A√±os en por_sexo (2015-2023): {len(a√±os_por_sexo)} a√±os")
print(f"A√±os en nacimientos_edad (2010-2023): {len(a√±os_nacimientos_edad)} a√±os")
print(f"A√±os en defunciones_edad (2010-2023): {len(a√±os_defunciones_edad)} a√±os")

# A√±os comunes para integraci√≥n
a√±os_comunes = a√±os_setdedatos & a√±os_por_sexo & a√±os_nacimientos_edad & a√±os_defunciones_edad
print(f"\nA√±os comunes a todos los datasets: {sorted(a√±os_comunes)} ({len(a√±os_comunes)} a√±os)")

# A√±os √∫nicos en cada dataset
a√±os_unicos_setdedatos = a√±os_setdedatos - a√±os_por_sexo
a√±os_unicos_por_sexo = a√±os_por_sexo - a√±os_setdedatos
print(f"A√±os √∫nicos en setdedatos: {sorted(a√±os_unicos_setdedatos)}")
print(f"A√±os √∫nicos en por_sexo: {sorted(a√±os_unicos_por_sexo)}")


=== AN√ÅLISIS DE PER√çODOS TEMPORALES ===
üìÖ Per√≠odos temporales por dataset:

SETDEDATOS_ESTANDARIZADO:
   A√±os: 1974 - 2023 (50 a√±os)
   Rango completo: [np.int64(1974), np.int64(1975), np.int64(1976), np.int64(1977), np.int64(1978), np.int64(1979), np.int64(1980), np.int64(1981), np.int64(1982), np.int64(1983), np.int64(1984), np.int64(1985), np.int64(1986), np.int64(1987), np.int64(1988), np.int64(1989), np.int64(1990), np.int64(1991), np.int64(1992), np.int64(1993), np.int64(1994), np.int64(1995), np.int64(1996), np.int64(1997), np.int64(1998), np.int64(1999), np.int64(2000), np.int64(2001), np.int64(2002), np.int64(2003), np.int64(2004), np.int64(2005), np.int64(2006), np.int64(2007), np.int64(2008), np.int64(2009), np.int64(2010), np.int64(2011), np.int64(2012), np.int64(2013), np.int64(2014), np.int64(2015), np.int64(2016), np.int64(2017), np.int64(2018), np.int64(2019), np.int64(2020), np.int64(2021), np.int64(2022), np.int64(2023)]

POR_SEXO_ESTANDARIZADO:
   A√±os: 2015

In [27]:
# 6.2 Crear dataset unificado temporal b√°sico

print("=== CREACI√ìN DE DATASET UNIFICADO TEMPORAL ===")

# Crear dataset base con informaci√≥n de setdedatos (serie m√°s larga: 1974-2023)
dataset_unificado = setdedatos_estandarizado.copy()
print(f"üìä Dataset base (setdedatos): {dataset_unificado.shape[0]} registros, {dataset_unificado.shape[1]} columnas")

# Agregar informaci√≥n de por_sexo para a√±os 2015-2023
print("\nüîó Integrando informaci√≥n por sexo...")
dataset_unificado = dataset_unificado.merge(
    por_sexo_estandarizado, 
    on='a√±o', 
    how='left'
)

print(f"üìä Despu√©s de integrar por_sexo: {dataset_unificado.shape[0]} registros, {dataset_unificado.shape[1]} columnas")

# Verificar integraci√≥n
print("\nüìã Columnas del dataset unificado:")
print(list(dataset_unificado.columns))

# Mostrar a√±os con informaci√≥n completa vs parcial
a√±os_completa = dataset_unificado[dataset_unificado['nacimientos_hombres'].notna()]['a√±o'].tolist()
a√±os_parcial = dataset_unificado[dataset_unificado['nacimientos_hombres'].isna()]['a√±o'].tolist()

print(f"\nüìÖ A√±os con informaci√≥n completa (2015-2023): {len(a√±os_completa)} a√±os")
print(f"üìÖ A√±os con informaci√≥n parcial (1974-2014): {len(a√±os_parcial)} a√±os")

print("\nPrimeras filas del dataset unificado:")
display(dataset_unificado.head(10))


=== CREACI√ìN DE DATASET UNIFICADO TEMPORAL ===
üìä Dataset base (setdedatos): 50 registros, 3 columnas

üîó Integrando informaci√≥n por sexo...
üìä Despu√©s de integrar por_sexo: 50 registros, 7 columnas

üìã Columnas del dataset unificado:
['a√±o', 'nacimientos_totales', 'defunciones_totales', 'nacimientos_hombres', 'nacimientos_mujeres', 'defunciones_hombres', 'defunciones_mujeres']

üìÖ A√±os con informaci√≥n completa (2015-2023): 9 a√±os
üìÖ A√±os con informaci√≥n parcial (1974-2014): 41 a√±os

Primeras filas del dataset unificado:


Unnamed: 0,a√±o,nacimientos_totales,defunciones_totales,nacimientos_hombres,nacimientos_mujeres,defunciones_hombres,defunciones_mujeres
0,2023,171992,121270,87713.0,84262.0,63174.0,58085.0
1,2022,189310,136958,96011.0,93284.0,71676.0,65275.0
2,2021,177255,137439,90355.0,86883.0,73308.0,64119.0
3,2020,194952,125833,99908.0,95025.0,67453.0,58367.0
4,2019,210188,109658,107353.0,102812.0,57632.0,52010.0
5,2018,221731,106796,113039.0,108668.0,56093.0,50684.0
6,2017,219186,106388,111660.0,107501.0,55773.0,50593.0
7,2016,231749,104026,117801.0,113920.0,54761.0,49239.0
8,2015,244670,103327,124713.0,119936.0,54693.0,48615.0
9,2014,250997,101960,,,,


In [28]:
# 6.3 Generar variables derivadas - Tasas y ratios

print("=== GENERACI√ìN DE VARIABLES DERIVADAS ===")

# Crear variables derivadas √∫tiles para an√°lisis
print("üìä Calculando variables derivadas...")

# 1. Tasas de natalidad y mortalidad (por cada 1000 habitantes)
# Nota: Para c√°lculos precisos necesitar√≠amos poblaci√≥n, pero podemos usar aproximaciones
dataset_unificado['tasa_natalidad'] = (dataset_unificado['nacimientos_totales'] / 1000).round(2)
dataset_unificado['tasa_mortalidad'] = (dataset_unificado['defunciones_totales'] / 1000).round(2)

# 2. Ratio de nacimientos por sexo (hombres/mujeres)
dataset_unificado['ratio_nacimientos_sexo'] = (
    dataset_unificado['nacimientos_hombres'] / dataset_unificado['nacimientos_mujeres']
).round(3)

# 3. Ratio de defunciones por sexo (hombres/mujeres)
dataset_unificado['ratio_defunciones_sexo'] = (
    dataset_unificado['defunciones_hombres'] / dataset_unificado['defunciones_mujeres']
).round(3)

# 4. Crecimiento natural (nacimientos - defunciones)
dataset_unificado['crecimiento_natural'] = (
    dataset_unificado['nacimientos_totales'] - dataset_unificado['defunciones_totales']
)

# 5. Porcentaje de crecimiento natural
dataset_unificado['porcentaje_crecimiento_natural'] = (
    (dataset_unificado['crecimiento_natural'] / dataset_unificado['nacimientos_totales']) * 100
).round(2)

# 6. Diferencia a√±o a a√±o en nacimientos y defunciones
dataset_unificado['dif_nacimientos_a√±o_anterior'] = dataset_unificado['nacimientos_totales'].diff()
dataset_unificado['dif_defunciones_a√±o_anterior'] = dataset_unificado['defunciones_totales'].diff()

# 7. Porcentaje de cambio a√±o a a√±o
dataset_unificado['pct_cambio_nacimientos'] = (
    (dataset_unificado['dif_nacimientos_a√±o_anterior'] / dataset_unificado['nacimientos_totales'].shift(1)) * 100
).round(2)

dataset_unificado['pct_cambio_defunciones'] = (
    (dataset_unificado['dif_defunciones_a√±o_anterior'] / dataset_unificado['defunciones_totales'].shift(1)) * 100
).round(2)

print("‚úÖ Variables derivadas creadas:")
variables_derivadas = [
    'tasa_natalidad', 'tasa_mortalidad', 'ratio_nacimientos_sexo', 'ratio_defunciones_sexo',
    'crecimiento_natural', 'porcentaje_crecimiento_natural', 'dif_nacimientos_a√±o_anterior',
    'dif_defunciones_a√±o_anterior', 'pct_cambio_nacimientos', 'pct_cambio_defunciones'
]

for var in variables_derivadas:
    print(f"  - {var}")

print(f"\nüìä Dataset unificado final: {dataset_unificado.shape[0]} registros, {dataset_unificado.shape[1]} columnas")


=== GENERACI√ìN DE VARIABLES DERIVADAS ===
üìä Calculando variables derivadas...
‚úÖ Variables derivadas creadas:
  - tasa_natalidad
  - tasa_mortalidad
  - ratio_nacimientos_sexo
  - ratio_defunciones_sexo
  - crecimiento_natural
  - porcentaje_crecimiento_natural
  - dif_nacimientos_a√±o_anterior
  - dif_defunciones_a√±o_anterior
  - pct_cambio_nacimientos
  - pct_cambio_defunciones

üìä Dataset unificado final: 50 registros, 17 columnas


In [32]:
# 6.4 Integrar informaci√≥n por rangos de edad (CORREGIDO)

print("=== INTEGRACI√ìN DE INFORMACI√ìN POR RANGOS DE EDAD ===")

# Verificar a√±os comunes entre datasets de edad
a√±os_nacimientos_edad = set(nacimientos_edad_final['a√±o'])
a√±os_defunciones_edad = set(defunciones_edad_final['a√±o'])
a√±os_comunes_edad = a√±os_nacimientos_edad & a√±os_defunciones_edad

print(f"ÔøΩÔøΩ A√±os comunes para integraci√≥n por edad: {sorted(a√±os_comunes_edad)}")
print(f"ÔøΩÔøΩ Total a√±os comunes: {len(a√±os_comunes_edad)}")

# IMPORTANTE: Usar los rangos detallados de defunciones_estandarizado
print(f"\nÔøΩÔøΩ Usando rangos detallados de defunciones_estandarizado...")

# Crear dataset de defunciones por edad con rangos detallados
defunciones_edad_detalladas = defunciones_estandarizado.groupby('a√±o')['rango_edad'].value_counts().unstack(fill_value=0)

# Renombrar columnas para consistencia
defunciones_edad_detalladas.columns = [f'defunciones_{col}' for col in defunciones_edad_detalladas.columns]

# Resetear √≠ndice para tener 'a√±o' como columna
defunciones_edad_detalladas = defunciones_edad_detalladas.reset_index()

print(f"‚úÖ Dataset defunciones con rangos detallados: {defunciones_edad_detalladas.shape}")
print(f"üìã Rangos disponibles: {list(defunciones_edad_detalladas.columns[1:])}")

# Filtrar por a√±os comunes
defunciones_edad_detalladas = defunciones_edad_detalladas[defunciones_edad_detalladas['a√±o'].isin(a√±os_comunes_edad)]

# Integrar datasets
dataset_extendido = nacimientos_edad_final.merge(
    defunciones_edad_detalladas, 
    on='a√±o', 
    how='inner'
)

print(f"\n‚úÖ Dataset extendido con rangos detallados: {dataset_extendido.shape}")
print(f"üìÖ A√±os incluidos: {sorted(dataset_extendido['a√±o'].tolist())}")

# Mostrar columnas del dataset extendido
print(f"\nüìã Columnas del dataset extendido:")
columnas_edad = [col for col in dataset_extendido.columns if 'edad' in col.lower() or 'nacimientos_' in col or 'defunciones_' in col]
for i, col in enumerate(columnas_edad, 1):
    print(f"  {i:2d}. {col}")

print(f"\n‚úÖ Integraci√≥n por rangos de edad detallados completada")


=== INTEGRACI√ìN DE INFORMACI√ìN POR RANGOS DE EDAD ===
ÔøΩÔøΩ A√±os comunes para integraci√≥n por edad: [2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
ÔøΩÔøΩ Total a√±os comunes: 14

ÔøΩÔøΩ Usando rangos detallados de defunciones_estandarizado...
‚úÖ Dataset defunciones con rangos detallados: (11, 23)
üìã Rangos disponibles: ['defunciones_100_mas', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_1_4', 'defunciones_20_24', 'defunciones_25_29', 'defunciones_30_34', 'defunciones_35_39', 'defunciones_40_44', 'defunciones_45_49', 'defunciones_50_54', 'defunciones_55_59', 'defunciones_5_9', 'defunciones_60_64', 'defunciones_65_69', 'defunciones_70_74', 'defunciones_75_79', 'defunciones_80_84', 'defunciones_85_89', 'defunciones_90_94', 'defunciones_95_99', 'defunciones_menores_1']

‚úÖ Dataset extendido con rangos detallados: (10, 32)
üìÖ A√±os incluidos: [2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]

üìã Columnas del dataset ext

In [33]:
# 6.5 Generar variables derivadas adicionales por edad (ACTUALIZADO)

print("=== VARIABLES DERIVADAS ADICIONALES POR EDAD ===")

# Calcular totales de nacimientos y defunciones
print("üìä Calculando totales...")

# Calcular total de nacimientos (suma de todos los rangos)
columnas_nacimientos = [col for col in dataset_extendido.columns if col.startswith('nacimientos_')]
dataset_extendido['total_nacimientos'] = dataset_extendido[columnas_nacimientos].sum(axis=1)

# Calcular total de defunciones (suma de todos los rangos)
columnas_defunciones = [col for col in dataset_extendido.columns if col.startswith('defunciones_')]
dataset_extendido['total_defunciones'] = dataset_extendido[columnas_defunciones].sum(axis=1)

print(f"‚úÖ Total nacimientos: {dataset_extendido['total_nacimientos'].sum():,}")
print(f"‚úÖ Total defunciones: {dataset_extendido['total_defunciones'].sum():,}")

# Calcular porcentajes y ratios (igual que antes)
# ... resto del c√≥digo igual ...

# Concentraci√≥n de defunciones en adultos mayores (65+ a√±os) - AHORA S√ç FUNCIONA
columnas_65_mas = [col for col in columnas_defunciones if any(rango in col for rango in ['65_69', '70_74', '75_79', '80_84', '85_89', '90_94', '95_99', '100_mas'])]

if columnas_65_mas:
    dataset_extendido['concentracion_defunciones_65_mas'] = dataset_extendido[columnas_65_mas].sum(axis=1) / dataset_extendido['total_defunciones'] * 100
    print(f"‚úÖ Concentraci√≥n defunciones 65+ a√±os calculada usando {len(columnas_65_mas)} rangos")

=== VARIABLES DERIVADAS ADICIONALES POR EDAD ===
üìä Calculando totales...
‚úÖ Total nacimientos: 2,110,436
‚úÖ Total defunciones: 1,151,279
‚úÖ Concentraci√≥n defunciones 65+ a√±os calculada usando 8 rangos


In [35]:
# 6.6 Guardar datasets integrados

print("=== GUARDANDO DATASETS INTEGRADOS ===")

# Guardar dataset unificado b√°sico
ruta_unificado = r"C:\ProyectoML2\proyecto-ml\data\02_intermediate\dataset_unificado_temporal.csv"
dataset_unificado.to_csv(ruta_unificado, index=False)
print(f"‚úÖ Dataset unificado guardado: {ruta_unificado}")
print(f"üìä Dimensiones: {dataset_unificado.shape}")

# Guardar dataset extendido con informaci√≥n por edad
ruta_extendido = r"C:\ProyectoML2\proyecto-ml\data\02_intermediate\dataset_extendido_con_edad.csv"
dataset_extendido.to_csv(ruta_extendido, index=False)
print(f"‚úÖ Dataset extendido guardado: {ruta_extendido}")
print(f"üìä Dimensiones: {dataset_extendido.shape}")

# Verificar archivos guardados
if os.path.exists(ruta_unificado) and os.path.exists(ruta_extendido):
    print("\n‚úÖ Verificaci√≥n: Ambos archivos guardados correctamente")
    
    # Mostrar muestra del dataset unificado
    print("\nüìã Muestra del dataset unificado:")
    muestra_unificado = pd.read_csv(ruta_unificado, nrows=5)
    columnas_unificado = ['a√±o', 'nacimientos_totales', 'defunciones_totales', 'ratio_nacimientos_sexo', 'crecimiento_natural']
    # Verificar que las columnas existen
    columnas_disponibles_unificado = [col for col in columnas_unificado if col in muestra_unificado.columns]
    if columnas_disponibles_unificado:
        display(muestra_unificado[columnas_disponibles_unificado])
    else:
        print("Columnas disponibles:", muestra_unificado.columns.tolist())
    
    # Mostrar muestra del dataset extendido
    print("\nüìã Muestra del dataset extendido:")
    muestra_extendido = pd.read_csv(ruta_extendido, nrows=3)
    
    # Mostrar todas las columnas disponibles primero
    print("Columnas disponibles en dataset extendido:")
    print(muestra_extendido.columns.tolist())
    
    # Seleccionar columnas que existan para mostrar
    columnas_candidatas = ['a√±o', 'total_nacimientos', 'total_defunciones', 'nacimientos_25_29', 'defunciones_50_mas', 'concentracion_nacimientos_25_34']
    columnas_disponibles_extendido = [col for col in columnas_candidatas if col in muestra_extendido.columns]
    
    if columnas_disponibles_extendido:
        print(f"\nMostrando columnas disponibles: {columnas_disponibles_extendido}")
        display(muestra_extendido[columnas_disponibles_extendido])
    else:
        # Mostrar primeras columnas disponibles
        print("\nMostrando primeras columnas disponibles:")
        display(muestra_extendido.iloc[:, :6])  # Primeras 6 columnas
    
    # Mostrar estad√≠sticas b√°sicas
    print(f"\nüìä Estad√≠sticas de datasets guardados:")
    print(f"  Dataset unificado: {muestra_unificado.shape[0]} filas, {muestra_unificado.shape[1]} columnas")
    print(f"  Dataset extendido: {muestra_extendido.shape[0]} filas, {muestra_extendido.shape[1]} columnas")
    
    # Mostrar a√±os incluidos
    if 'a√±o' in muestra_extendido.columns:
        print(f"  A√±os en dataset extendido: {sorted(muestra_extendido['a√±o'].tolist())}")
    
else:
    print("‚ùå Error: No se pudieron guardar los archivos")

=== GUARDANDO DATASETS INTEGRADOS ===
‚úÖ Dataset unificado guardado: C:\ProyectoML2\proyecto-ml\data\02_intermediate\dataset_unificado_temporal.csv
üìä Dimensiones: (50, 17)
‚úÖ Dataset extendido guardado: C:\ProyectoML2\proyecto-ml\data\02_intermediate\dataset_extendido_con_edad.csv
üìä Dimensiones: (10, 35)

‚úÖ Verificaci√≥n: Ambos archivos guardados correctamente

üìã Muestra del dataset unificado:


Unnamed: 0,a√±o,nacimientos_totales,defunciones_totales,ratio_nacimientos_sexo,crecimiento_natural
0,2023,171992,121270,1.041,50722
1,2022,189310,136958,1.029,52352
2,2021,177255,137439,1.04,39816
3,2020,194952,125833,1.051,69119
4,2019,210188,109658,1.044,100530



üìã Muestra del dataset extendido:
Columnas disponibles en dataset extendido:
['a√±o', 'nacimientos_menores_15', 'nacimientos_15_19', 'nacimientos_20_24', 'nacimientos_25_29', 'nacimientos_30_34', 'nacimientos_35_39', 'nacimientos_40_44', 'nacimientos_45_49', 'nacimientos_50_mas', 'defunciones_100_mas', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_1_4', 'defunciones_20_24', 'defunciones_25_29', 'defunciones_30_34', 'defunciones_35_39', 'defunciones_40_44', 'defunciones_45_49', 'defunciones_50_54', 'defunciones_55_59', 'defunciones_5_9', 'defunciones_60_64', 'defunciones_65_69', 'defunciones_70_74', 'defunciones_75_79', 'defunciones_80_84', 'defunciones_85_89', 'defunciones_90_94', 'defunciones_95_99', 'defunciones_menores_1', 'total_nacimientos', 'total_defunciones', 'concentracion_defunciones_65_mas']

Mostrando columnas disponibles: ['a√±o', 'total_nacimientos', 'total_defunciones', 'nacimientos_25_29']


Unnamed: 0,a√±o,total_nacimientos,total_defunciones,nacimientos_25_29
0,2023,171715,121646,45178
1,2022,189023,136467,50637
2,2021,177067,137208,47769



üìä Estad√≠sticas de datasets guardados:
  Dataset unificado: 5 filas, 17 columnas
  Dataset extendido: 3 filas, 35 columnas
  A√±os en dataset extendido: [2021, 2022, 2023]


In [37]:
# 6.7 Resumen de la integraci√≥n de datasets

print("=== RESUMEN DE LA INTEGRACI√ìN DE DATASETS ===")

# Resumen de datasets creados
datasets_integrados = {
    "dataset_unificado": dataset_unificado,
    "dataset_extendido": dataset_extendido
}

print("üìã Datasets integrados creados:")
for nombre_dataset, df in datasets_integrados.items():
    print(f"\n{nombre_dataset.upper()}:")
    print(f"   Dimensiones: {df.shape}")
    print(f"   A√±os cubiertos: {df['a√±o'].min()} - {df['a√±o'].max()}")
    print(f"   Total a√±os: {len(df['a√±o'].unique())}")

# Resumen de variables derivadas
print(f"\nüìä Variables derivadas creadas:")
variables_temporales = [col for col in dataset_unificado.columns if col.startswith(('tasa_', 'ratio_', 'crecimiento_', 'dif_', 'pct_cambio_'))]
variables_edad = [col for col in dataset_extendido.columns if col.startswith(('pct_', 'ratio_', 'concentracion_', 'total_'))]

print(f"  Variables temporales: {len(variables_temporales)}")
print(f"  Variables por edad: {len(variables_edad)}")
print(f"  Total variables derivadas: {len(variables_temporales) + len(variables_edad)}")

# Resumen de rangos de edad
print(f"\nüìã Rangos de edad implementados:")
rangos_defunciones = [col for col in dataset_extendido.columns if col.startswith('defunciones_') and not col.startswith('defunciones_totales')]
rangos_nacimientos = [col for col in dataset_extendido.columns if col.startswith('nacimientos_') and not col.startswith('nacimientos_totales')]

print(f"  Rangos de nacimientos: {len(rangos_nacimientos)}")
print(f"  Rangos de defunciones: {len(rangos_defunciones)}")
print(f"  Rangos de defunciones detallados: desde {rangos_defunciones[0]} hasta {rangos_defunciones[-1]}")

# Mostrar algunos rangos espec√≠ficos
print(f"\nüìã Ejemplos de rangos detallados:")
print(f"  Nacimientos: {rangos_nacimientos[:5]}...")
print(f"  Defunciones: {rangos_defunciones[:5]}...")

# Calcular rangos de adultos mayores por separado
rangos_adultos_mayores = []
for r in rangos_defunciones:
    if any(x in r for x in ['65_69', '70_74', '75_79', '80_84', '85_89', '90_94', '95_99', '100_mas']):
        rangos_adultos_mayores.append(r)

print(f"  Defunciones adultos mayores: {rangos_adultos_mayores}")

print(f"\n=== BENEFICIOS DE LA INTEGRACI√ìN ===")
print("‚úÖ Dataset unificado temporal (1974-2023)")
print("‚úÖ Dataset extendido con informaci√≥n por edad (a√±os limitados)")
print("‚úÖ Variables derivadas para an√°lisis demogr√°fico")
print("‚úÖ Tasas de natalidad y mortalidad calculadas")
print("‚úÖ Ratios por sexo y edad")
print("‚úÖ Indicadores de crecimiento natural")
print("‚úÖ Concentraci√≥n de eventos por edad")
print("‚úÖ Rangos de defunciones detallados (hasta 100+ a√±os)")
print("‚úÖ Totales calculados autom√°ticamente")

print(f"\n=== NOTAS IMPORTANTES ===")
print("üìù Dataset extendido tiene a√±os limitados debido a disponibilidad de datos por edad")
print("üìù Rangos de defunciones incluyen categor√≠as detalladas hasta 100+ a√±os")
print("üìù Variables de concentraci√≥n calculadas para an√°lisis demogr√°fico")

print(f"\n‚úÖ Integraci√≥n de datasets completada exitosamente")

=== RESUMEN DE LA INTEGRACI√ìN DE DATASETS ===
üìã Datasets integrados creados:

DATASET_UNIFICADO:
   Dimensiones: (50, 17)
   A√±os cubiertos: 1974 - 2023
   Total a√±os: 50

DATASET_EXTENDIDO:
   Dimensiones: (10, 35)
   A√±os cubiertos: 2014 - 2023
   Total a√±os: 10

üìä Variables derivadas creadas:
  Variables temporales: 9
  Variables por edad: 3
  Total variables derivadas: 12

üìã Rangos de edad implementados:
  Rangos de nacimientos: 9
  Rangos de defunciones: 22
  Rangos de defunciones detallados: desde defunciones_100_mas hasta defunciones_menores_1

üìã Ejemplos de rangos detallados:
  Nacimientos: ['nacimientos_menores_15', 'nacimientos_15_19', 'nacimientos_20_24', 'nacimientos_25_29', 'nacimientos_30_34']...
  Defunciones: ['defunciones_100_mas', 'defunciones_10_14', 'defunciones_15_19', 'defunciones_1_4', 'defunciones_20_24']...
  Defunciones adultos mayores: ['defunciones_100_mas', 'defunciones_65_69', 'defunciones_70_74', 'defunciones_75_79', 'defunciones_80_84', 

## 7. Validaci√≥n de Consistencia

Esta secci√≥n se enfoca en verificar la consistencia entre datasets y detectar valores an√≥malos que puedan indicar errores de captura.


In [39]:
# 7.1 Verificar suma de nacimientos por sexo vs totales

print("=== VERIFICACI√ìN DE SUMA DE NACIMIENTOS POR SEXO ===")

# Verificar que la suma de nacimientos por sexo coincida con los totales
print("üîç Verificando consistencia en nacimientos...")

# Para a√±os con informaci√≥n completa (2015-2023)
a√±os_completos = dataset_unificado[dataset_unificado['nacimientos_hombres'].notna()]['a√±o'].tolist()

inconsistencias_nacimientos = []

for a√±o in a√±os_completos:
    fila = dataset_unificado[dataset_unificado['a√±o'] == a√±o].iloc[0]
    
    # Calcular suma por sexo
    suma_por_sexo = fila['nacimientos_hombres'] + fila['nacimientos_mujeres']
    total_registrado = fila['nacimientos_totales']
    
    # Verificar diferencia
    diferencia = abs(suma_por_sexo - total_registrado)
    porcentaje_diferencia = (diferencia / total_registrado) * 100
    
    inconsistencias_nacimientos.append({
        'a√±o': a√±o,
        'suma_por_sexo': suma_por_sexo,
        'total_registrado': total_registrado,
        'diferencia': diferencia,
        'porcentaje': porcentaje_diferencia
    })

print(f"üìä A√±os verificados: {len(a√±os_completos)}")

# Clasificar inconsistencias
inconsistencias_significativas = [inc for inc in inconsistencias_nacimientos if inc['porcentaje'] > 0.1]
inconsistencias_menores = [inc for inc in inconsistencias_nacimientos if inc['porcentaje'] <= 0.1]

print(f"üìä Inconsistencias menores (<0.1%): {len(inconsistencias_menores)}")
print(f"ÔøΩÔøΩ Inconsistencias significativas (>0.1%): {len(inconsistencias_significativas)}")

# Mostrar resumen de inconsistencias menores
if inconsistencias_menores:
    print(f"\n‚úÖ Inconsistencias menores (aceptables):")
    for inc in inconsistencias_menores:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar inconsistencias significativas si las hay
if inconsistencias_significativas:
    print(f"\n‚ö†Ô∏è Inconsistencias significativas (revisar):")
    for inc in inconsistencias_significativas:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar ejemplo de verificaci√≥n
print(f"\nÔøΩÔøΩ Ejemplo de verificaci√≥n (a√±o 2023):")
ejemplo_2023 = dataset_unificado[dataset_unificado['a√±o'] == 2023].iloc[0]
suma_ejemplo = ejemplo_2023['nacimientos_hombres'] + ejemplo_2023['nacimientos_mujeres']
diferencia_ejemplo = abs(suma_ejemplo - ejemplo_2023['nacimientos_totales'])
porcentaje_ejemplo = (diferencia_ejemplo / ejemplo_2023['nacimientos_totales']) * 100

print(f"  Nacimientos hombres: {ejemplo_2023['nacimientos_hombres']:,}")
print(f"  Nacimientos mujeres: {ejemplo_2023['nacimientos_mujeres']:,}")
print(f"  Suma por sexo: {suma_ejemplo:,}")
print(f"  Total registrado: {ejemplo_2023['nacimientos_totales']:,}")
print(f"  Diferencia: {diferencia_ejemplo:,} ({porcentaje_ejemplo:.3f}%)")

# Conclusi√≥n
print(f"\nüìù CONCLUSI√ìN:")
if len(inconsistencias_significativas) == 0:
    print("‚úÖ Todas las inconsistencias son menores y aceptables")
    print("‚úÖ Los datos son consistentes para an√°lisis")
else:
    print("‚ö†Ô∏è Hay inconsistencias significativas que requieren revisi√≥n")


=== VERIFICACI√ìN DE SUMA DE NACIMIENTOS POR SEXO ===
üîç Verificando consistencia en nacimientos...
üìä A√±os verificados: 9
üìä Inconsistencias menores (<0.1%): 9
ÔøΩÔøΩ Inconsistencias significativas (>0.1%): 0

‚úÖ Inconsistencias menores (aceptables):
  A√±o 2023: Diferencia = 17.0 (0.010%)
  A√±o 2022: Diferencia = 15.0 (0.008%)
  A√±o 2021: Diferencia = 17.0 (0.010%)
  A√±o 2020: Diferencia = 19.0 (0.010%)
  A√±o 2019: Diferencia = 23.0 (0.011%)
  A√±o 2018: Diferencia = 24.0 (0.011%)
  A√±o 2017: Diferencia = 25.0 (0.011%)
  A√±o 2016: Diferencia = 28.0 (0.012%)
  A√±o 2015: Diferencia = 21.0 (0.009%)

ÔøΩÔøΩ Ejemplo de verificaci√≥n (a√±o 2023):
  Nacimientos hombres: 87,713.0
  Nacimientos mujeres: 84,262.0
  Suma por sexo: 171,975.0
  Total registrado: 171,992.0
  Diferencia: 17.0 (0.010%)

üìù CONCLUSI√ìN:
‚úÖ Todas las inconsistencias son menores y aceptables
‚úÖ Los datos son consistentes para an√°lisis


In [41]:
# 7.2 Verificar suma de defunciones por sexo vs totales

print("=== VERIFICACI√ìN DE SUMA DE DEFUNCIONES POR SEXO ===")

# Verificar que la suma de defunciones por sexo coincida con los totales
print("üîç Verificando consistencia en defunciones...")

inconsistencias_defunciones = []

for a√±o in a√±os_completos:
    fila = dataset_unificado[dataset_unificado['a√±o'] == a√±o].iloc[0]
    
    # Calcular suma por sexo
    suma_por_sexo = fila['defunciones_hombres'] + fila['defunciones_mujeres']
    total_registrado = fila['defunciones_totales']
    
    # Verificar diferencia
    diferencia = abs(suma_por_sexo - total_registrado)
    porcentaje_diferencia = (diferencia / total_registrado) * 100
    
    inconsistencias_defunciones.append({
        'a√±o': a√±o,
        'suma_por_sexo': suma_por_sexo,
        'total_registrado': total_registrado,
        'diferencia': diferencia,
        'porcentaje': porcentaje_diferencia
    })

print(f"üìä A√±os verificados: {len(a√±os_completos)}")

# Clasificar inconsistencias
inconsistencias_significativas = [inc for inc in inconsistencias_defunciones if inc['porcentaje'] > 0.1]
inconsistencias_menores = [inc for inc in inconsistencias_defunciones if inc['porcentaje'] <= 0.1]

print(f"üìä Inconsistencias menores (<0.1%): {len(inconsistencias_menores)}")
print(f"ÔøΩÔøΩ Inconsistencias significativas (>0.1%): {len(inconsistencias_significativas)}")

# Mostrar resumen de inconsistencias menores
if inconsistencias_menores:
    print(f"\n‚úÖ Inconsistencias menores (aceptables):")
    for inc in inconsistencias_menores:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar inconsistencias significativas si las hay
if inconsistencias_significativas:
    print(f"\n‚ö†Ô∏è Inconsistencias significativas (revisar):")
    for inc in inconsistencias_significativas:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar ejemplo de verificaci√≥n
print(f"\nÔøΩÔøΩ Ejemplo de verificaci√≥n (a√±o 2023):")
ejemplo_2023 = dataset_unificado[dataset_unificado['a√±o'] == 2023].iloc[0]
suma_ejemplo = ejemplo_2023['defunciones_hombres'] + ejemplo_2023['defunciones_mujeres']
diferencia_ejemplo = abs(suma_ejemplo - ejemplo_2023['defunciones_totales'])
porcentaje_ejemplo = (diferencia_ejemplo / ejemplo_2023['defunciones_totales']) * 100

print(f"  Defunciones hombres: {ejemplo_2023['defunciones_hombres']:,}")
print(f"  Defunciones mujeres: {ejemplo_2023['defunciones_mujeres']:,}")
print(f"  Suma por sexo: {suma_ejemplo:,}")
print(f"  Total registrado: {ejemplo_2023['defunciones_totales']:,}")
print(f"  Diferencia: {diferencia_ejemplo:,} ({porcentaje_ejemplo:.3f}%)")

# Conclusi√≥n
print(f"\nüìù CONCLUSI√ìN:")
if len(inconsistencias_significativas) == 0:
    print("‚úÖ Todas las inconsistencias son menores y aceptables")
    print("‚úÖ Los datos de defunciones son consistentes para an√°lisis")
else:
    print("‚ö†Ô∏è Hay inconsistencias significativas que requieren revisi√≥n")


=== VERIFICACI√ìN DE SUMA DE DEFUNCIONES POR SEXO ===
üîç Verificando consistencia en defunciones...
üìä A√±os verificados: 9
üìä Inconsistencias menores (<0.1%): 9
ÔøΩÔøΩ Inconsistencias significativas (>0.1%): 0

‚úÖ Inconsistencias menores (aceptables):
  A√±o 2023: Diferencia = 11.0 (0.009%)
  A√±o 2022: Diferencia = 7.0 (0.005%)
  A√±o 2021: Diferencia = 12.0 (0.009%)
  A√±o 2020: Diferencia = 13.0 (0.010%)
  A√±o 2019: Diferencia = 16.0 (0.015%)
  A√±o 2018: Diferencia = 19.0 (0.018%)
  A√±o 2017: Diferencia = 22.0 (0.021%)
  A√±o 2016: Diferencia = 26.0 (0.025%)
  A√±o 2015: Diferencia = 19.0 (0.018%)

ÔøΩÔøΩ Ejemplo de verificaci√≥n (a√±o 2023):
  Defunciones hombres: 63,174.0
  Defunciones mujeres: 58,085.0
  Suma por sexo: 121,259.0
  Total registrado: 121,270.0
  Diferencia: 11.0 (0.009%)

üìù CONCLUSI√ìN:
‚úÖ Todas las inconsistencias son menores y aceptables
‚úÖ Los datos de defunciones son consistentes para an√°lisis


In [42]:
# 7.3 Verificar suma de nacimientos por edad vs totales

print("=== VERIFICACI√ìN DE SUMA DE NACIMIENTOS POR EDAD ===")

# Verificar que la suma de nacimientos por edad coincida con los totales
print("üîç Verificando consistencia en nacimientos por edad...")

# Usar a√±os disponibles en dataset_extendido
a√±os_edad = sorted(dataset_extendido['a√±o'].tolist())
print(f"ÔøΩÔøΩ A√±os disponibles para verificaci√≥n por edad: {a√±os_edad}")

inconsistencias_nacimientos_edad = []

for a√±o in a√±os_edad:
    fila = dataset_extendido[dataset_extendido['a√±o'] == a√±o].iloc[0]
    
    # Calcular suma por rangos de edad
    columnas_nacimientos_edad = [col for col in fila.index if col.startswith('nacimientos_') and col != 'total_nacimientos']
    suma_por_edad = fila[columnas_nacimientos_edad].sum()
    total_registrado = fila['total_nacimientos']
    
    # Verificar diferencia
    diferencia = abs(suma_por_edad - total_registrado)
    porcentaje_diferencia = (diferencia / total_registrado) * 100
    
    inconsistencias_nacimientos_edad.append({
        'a√±o': a√±o,
        'suma_por_edad': suma_por_edad,
        'total_registrado': total_registrado,
        'diferencia': diferencia,
        'porcentaje': porcentaje_diferencia
    })

print(f"üìä A√±os verificados: {len(a√±os_edad)}")

# Clasificar inconsistencias
inconsistencias_significativas = [inc for inc in inconsistencias_nacimientos_edad if inc['porcentaje'] > 0.1]
inconsistencias_menores = [inc for inc in inconsistencias_nacimientos_edad if inc['porcentaje'] <= 0.1]

print(f"üìä Inconsistencias menores (<0.1%): {len(inconsistencias_menores)}")
print(f" Inconsistencias significativas (>0.1%): {len(inconsistencias_significativas)}")

# Mostrar resumen de inconsistencias menores
if inconsistencias_menores:
    print(f"\n‚úÖ Inconsistencias menores (aceptables):")
    for inc in inconsistencias_menores:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar inconsistencias significativas si las hay
if inconsistencias_significativas:
    print(f"\n‚ö†Ô∏è Inconsistencias significativas (revisar):")
    for inc in inconsistencias_significativas:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar ejemplo de verificaci√≥n
print(f"\n Ejemplo de verificaci√≥n (a√±o 2023):")
ejemplo_2023 = dataset_extendido[dataset_extendido['a√±o'] == 2023].iloc[0]
columnas_nacimientos_edad = [col for col in ejemplo_2023.index if col.startswith('nacimientos_') and col != 'total_nacimientos']
suma_ejemplo = ejemplo_2023[columnas_nacimientos_edad].sum()
diferencia_ejemplo = abs(suma_ejemplo - ejemplo_2023['total_nacimientos'])
porcentaje_ejemplo = (diferencia_ejemplo / ejemplo_2023['total_nacimientos']) * 100

print(f"  Suma por rangos de edad: {suma_ejemplo:,}")
print(f"  Total registrado: {ejemplo_2023['total_nacimientos']:,}")
print(f"  Diferencia: {diferencia_ejemplo:,} ({porcentaje_ejemplo:.3f}%)")

# Mostrar rangos de edad incluidos
print(f"\nüìã Rangos de edad incluidos en verificaci√≥n:")
for i, col in enumerate(columnas_nacimientos_edad, 1):
    print(f"  {i:2d}. {col}")

# Conclusi√≥n
print(f"\nüìù CONCLUSI√ìN:")
if len(inconsistencias_significativas) == 0:
    print("‚úÖ Todas las inconsistencias son menores y aceptables")
    print("‚úÖ Los datos de nacimientos por edad son consistentes para an√°lisis")
else:
    print("‚ö†Ô∏è Hay inconsistencias significativas que requieren revisi√≥n")

=== VERIFICACI√ìN DE SUMA DE NACIMIENTOS POR EDAD ===
üîç Verificando consistencia en nacimientos por edad...
ÔøΩÔøΩ A√±os disponibles para verificaci√≥n por edad: [2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
üìä A√±os verificados: 10
üìä Inconsistencias menores (<0.1%): 10
 Inconsistencias significativas (>0.1%): 0

‚úÖ Inconsistencias menores (aceptables):
  A√±o 2014: Diferencia = 0.0 (0.000%)
  A√±o 2015: Diferencia = 0.0 (0.000%)
  A√±o 2016: Diferencia = 0.0 (0.000%)
  A√±o 2017: Diferencia = 0.0 (0.000%)
  A√±o 2018: Diferencia = 0.0 (0.000%)
  A√±o 2019: Diferencia = 0.0 (0.000%)
  A√±o 2020: Diferencia = 0.0 (0.000%)
  A√±o 2021: Diferencia = 0.0 (0.000%)
  A√±o 2022: Diferencia = 0.0 (0.000%)
  A√±o 2023: Diferencia = 0.0 (0.000%)

 Ejemplo de verificaci√≥n (a√±o 2023):
  Suma por rangos de edad: 171,715.0
  Total registrado: 171,715.0
  Diferencia: 0.0 (0.000%)

üìã Rangos de edad incluidos en verificaci√≥n:
   1. nacimientos_menores_15
   2. nacimientos_

In [44]:
# 7.4 Verificar suma de defunciones por edad vs totales

print("=== VERIFICACI√ìN DE SUMA DE DEFUNCIONES POR EDAD ===")

# Verificar que la suma de defunciones por edad coincida con los totales
print("üîç Verificando consistencia en defunciones por edad...")

# Usar a√±os disponibles en dataset_extendido
a√±os_edad = sorted(dataset_extendido['a√±o'].tolist())
print(f"ÔøΩÔøΩ A√±os disponibles para verificaci√≥n por edad: {a√±os_edad}")

inconsistencias_defunciones_edad = []

for a√±o in a√±os_edad:
    fila = dataset_extendido[dataset_extendido['a√±o'] == a√±o].iloc[0]
    
    # Calcular suma por rangos de edad
    columnas_defunciones_edad = [col for col in fila.index if col.startswith('defunciones_') and col != 'total_defunciones']
    suma_por_edad = fila[columnas_defunciones_edad].sum()
    total_registrado = fila['total_defunciones']
    
    # Verificar diferencia
    diferencia = abs(suma_por_edad - total_registrado)
    porcentaje_diferencia = (diferencia / total_registrado) * 100
    
    inconsistencias_defunciones_edad.append({
        'a√±o': a√±o,
        'suma_por_edad': suma_por_edad,
        'total_registrado': total_registrado,
        'diferencia': diferencia,
        'porcentaje': porcentaje_diferencia
    })

print(f"üìä A√±os verificados: {len(a√±os_edad)}")

# Clasificar inconsistencias
inconsistencias_significativas = [inc for inc in inconsistencias_defunciones_edad if inc['porcentaje'] > 0.1]
inconsistencias_menores = [inc for inc in inconsistencias_defunciones_edad if inc['porcentaje'] <= 0.1]

print(f"üìä Inconsistencias menores (<0.1%): {len(inconsistencias_menores)}")
print(f"‚ö†Ô∏è Inconsistencias significativas (>0.1%): {len(inconsistencias_significativas)}")

# Mostrar resumen de inconsistencias menores
if inconsistencias_menores:
    print(f"\n‚úÖ Inconsistencias menores (aceptables):")
    for inc in inconsistencias_menores:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar inconsistencias significativas si las hay
if inconsistencias_significativas:
    print(f"\n‚ö†Ô∏è Inconsistencias significativas (revisar):")
    for inc in inconsistencias_significativas:
        print(f"  A√±o {inc['a√±o']}: Diferencia = {inc['diferencia']:,} ({inc['porcentaje']:.3f}%)")

# Mostrar ejemplo de verificaci√≥n
print(f"\nÔøΩÔøΩ Ejemplo de verificaci√≥n (a√±o 2023):")
ejemplo_2023 = dataset_extendido[dataset_extendido['a√±o'] == 2023].iloc[0]
columnas_defunciones_edad = [col for col in ejemplo_2023.index if col.startswith('defunciones_') and col != 'total_defunciones']
suma_ejemplo = ejemplo_2023[columnas_defunciones_edad].sum()
diferencia_ejemplo = abs(suma_ejemplo - ejemplo_2023['total_defunciones'])
porcentaje_ejemplo = (diferencia_ejemplo / ejemplo_2023['total_defunciones']) * 100

print(f"  Suma por rangos de edad: {suma_ejemplo:,}")
print(f"  Total registrado: {ejemplo_2023['total_defunciones']:,}")
print(f"  Diferencia: {diferencia_ejemplo:,} ({porcentaje_ejemplo:.3f}%)")

# Mostrar rangos de edad incluidos
print(f"\nüìã Rangos de edad incluidos en verificaci√≥n:")
for i, col in enumerate(columnas_defunciones_edad, 1):
    print(f"  {i:2d}. {col}")

# Mostrar estad√≠sticas de rangos
print(f"\nüìä Estad√≠sticas de rangos de defunciones:")
print(f"  Total rangos verificados: {len(columnas_defunciones_edad)}")
print(f"  Rango m√°s bajo: {min(columnas_defunciones_edad)}")
print(f"  Rango m√°s alto: {max(columnas_defunciones_edad)}")

# Conclusi√≥n
print(f"\nüìù CONCLUSI√ìN:")
if len(inconsistencias_significativas) == 0:
    print("‚úÖ Todas las inconsistencias son menores y aceptables")
    print("‚úÖ Los datos de defunciones por edad son consistentes para an√°lisis")
    print("‚úÖ Los 22 rangos detallados funcionan correctamente")
else:
    print("‚ö†Ô∏è Hay inconsistencias significativas que requieren revisi√≥n")

=== VERIFICACI√ìN DE SUMA DE DEFUNCIONES POR EDAD ===
üîç Verificando consistencia en defunciones por edad...
ÔøΩÔøΩ A√±os disponibles para verificaci√≥n por edad: [2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022, 2023]
üìä A√±os verificados: 10
üìä Inconsistencias menores (<0.1%): 10
‚ö†Ô∏è Inconsistencias significativas (>0.1%): 0

‚úÖ Inconsistencias menores (aceptables):
  A√±o 2014: Diferencia = 0.0 (0.000%)
  A√±o 2015: Diferencia = 0.0 (0.000%)
  A√±o 2016: Diferencia = 0.0 (0.000%)
  A√±o 2017: Diferencia = 0.0 (0.000%)
  A√±o 2018: Diferencia = 0.0 (0.000%)
  A√±o 2019: Diferencia = 0.0 (0.000%)
  A√±o 2020: Diferencia = 0.0 (0.000%)
  A√±o 2021: Diferencia = 0.0 (0.000%)
  A√±o 2022: Diferencia = 0.0 (0.000%)
  A√±o 2023: Diferencia = 0.0 (0.000%)

ÔøΩÔøΩ Ejemplo de verificaci√≥n (a√±o 2023):
  Suma por rangos de edad: 121,646.0
  Total registrado: 121,646.0
  Diferencia: 0.0 (0.000%)

üìã Rangos de edad incluidos en verificaci√≥n:
   1. defunciones_100_mas
   2. def

In [45]:
# 7.5 Detecci√≥n de outliers en variables num√©ricas

print("=== DETECCI√ìN DE OUTLIERS ===")

# Funci√≥n para detectar outliers usando el m√©todo IQR
def detectar_outliers_iqr(serie, nombre_variable):
    """
    Detecta outliers usando el m√©todo del rango intercuart√≠lico (IQR)
    """
    Q1 = serie.quantile(0.25)
    Q3 = serie.quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    outliers = serie[(serie < limite_inferior) | (serie > limite_superior)]
    
    return {
        'variable': nombre_variable,
        'Q1': Q1,
        'Q3': Q3,
        'IQR': IQR,
        'limite_inferior': limite_inferior,
        'limite_superior': limite_superior,
        'outliers': outliers,
        'cantidad_outliers': len(outliers),
        'porcentaje_outliers': (len(outliers) / len(serie)) * 100
    }

# Variables num√©ricas principales para an√°lisis de outliers
variables_analisis = [
    'nacimientos_totales', 'defunciones_totales', 'nacimientos_hombres', 'nacimientos_mujeres',
    'defunciones_hombres', 'defunciones_mujeres', 'crecimiento_natural', 'ratio_nacimientos_sexo',
    'ratio_defunciones_sexo', 'pct_cambio_nacimientos', 'pct_cambio_defunciones'
]

print("üîç Analizando outliers en variables principales...")

resultados_outliers = []

for var in variables_analisis:
    if var in dataset_unificado.columns:
        serie = dataset_unificado[var].dropna()
        resultado = detectar_outliers_iqr(serie, var)
        resultados_outliers.append(resultado)

# Mostrar resultados
print("\nüìä Resumen de outliers detectados:")
for resultado in resultados_outliers:
    print(f"\n{resultado['variable'].upper()}:")
    print(f"  Outliers detectados: {resultado['cantidad_outliers']} ({resultado['porcentaje_outliers']:.1f}%)")
    print(f"  L√≠mites: [{resultado['limite_inferior']:.1f}, {resultado['limite_superior']:.1f}]")
    
    if resultado['cantidad_outliers'] > 0:
        print(f"  Valores outliers: {sorted(resultado['outliers'].tolist())}")

# Identificar a√±os con m√∫ltiples outliers (CORREGIDO)
print(f"\nüîç A√±os con valores at√≠picos:")
a√±os_outliers = set()

for resultado in resultados_outliers:
    if resultado['cantidad_outliers'] > 0:
        # CORRECCI√ìN: Usar el √≠ndice correcto
        for idx in resultado['outliers'].index:
            a√±o_outlier = dataset_unificado.loc[idx, 'a√±o']
            a√±os_outliers.add(a√±o_outlier)

if a√±os_outliers:
    print(f"A√±os con outliers: {sorted(a√±os_outliers)}")
    
    # Mostrar detalles de a√±os problem√°ticos (CORREGIDO)
    for a√±o in sorted(a√±os_outliers):
        print(f"\nüìã A√±o {a√±o} - Valores at√≠picos:")
        fila = dataset_unificado[dataset_unificado['a√±o'] == a√±o].iloc[0]
        
        for resultado in resultados_outliers:
            if resultado['cantidad_outliers'] > 0:
                # Verificar si este a√±o tiene outliers en esta variable
                a√±o_idx = dataset_unificado[dataset_unificado['a√±o'] == a√±o].index[0]
                if a√±o_idx in resultado['outliers'].index:
                    valor = fila[resultado['variable']]
                    print(f"  {resultado['variable']}: {valor:,} (OUTLIER)")
else:
    print("No se detectaron a√±os con m√∫ltiples outliers")

# An√°lisis adicional: identificar patrones temporales
print(f"\nüìä An√°lisis de patrones temporales:")
for resultado in resultados_outliers:
    if resultado['cantidad_outliers'] > 0:
        print(f"\n{resultado['variable'].upper()}:")
        # Obtener a√±os de outliers
        a√±os_outliers_var = [dataset_unificado.loc[idx, 'a√±o'] for idx in resultado['outliers'].index]
        print(f"  A√±os con outliers: {sorted(a√±os_outliers_var)}")
        
        # Analizar si hay patrones (ej: concentraci√≥n en ciertos a√±os)
        if len(set(a√±os_outliers_var)) <= 3:
            print(f"  ‚ö†Ô∏è Concentraci√≥n en pocos a√±os - revisar datos de esos per√≠odos")
        else:
            print(f"  ‚úÖ Outliers distribuidos en m√∫ltiples a√±os")

=== DETECCI√ìN DE OUTLIERS ===
üîç Analizando outliers en variables principales...

üìä Resumen de outliers detectados:

NACIMIENTOS_TOTALES:
  Outliers detectados: 3 (6.0%)
  L√≠mites: [191990.8, 295932.8]
  Valores outliers: [171992, 177255, 189310]

DEFUNCIONES_TOTALES:
  Outliers detectados: 2 (4.0%)
  L√≠mites: [40617.5, 131139.5]
  Valores outliers: [136958, 137439]

NACIMIENTOS_HOMBRES:
  Outliers detectados: 0 (0.0%)
  L√≠mites: [70469.0, 138581.0]

NACIMIENTOS_MUJERES:
  Outliers detectados: 0 (0.0%)
  L√≠mites: [70208.0, 131744.0]

DEFUNCIONES_HOMBRES:
  Outliers detectados: 0 (0.0%)
  L√≠mites: [38253.0, 84973.0]

DEFUNCIONES_MUJERES:
  Outliers detectados: 0 (0.0%)
  L√≠mites: [38932.0, 70028.0]

CRECIMIENTO_NATURAL:
  Outliers detectados: 4 (8.0%)
  L√≠mites: [89589.0, 236759.0]
  Valores outliers: [39816, 50722, 52352, 69119]

RATIO_NACIMIENTOS_SEXO:
  Outliers detectados: 3 (33.3%)
  L√≠mites: [1.0, 1.0]
  Valores outliers: [1.029, 1.034, 1.051]

RATIO_DEFUNCIONES_SEXO

In [46]:
# 7.6 Validaci√≥n de valores l√≥gicos y rangos

print("=== VALIDACI√ìN DE VALORES L√ìGICOS Y RANGOS ===")

# Validar valores l√≥gicos en variables clave
print("üîç Validando valores l√≥gicos...")

# 1. Verificar que nacimientos y defunciones sean positivos
nacimientos_negativos = dataset_unificado[dataset_unificado['nacimientos_totales'] < 0]
defunciones_negativas = dataset_unificado[dataset_unificado['defunciones_totales'] < 0]

print(f"üìä Registros con nacimientos negativos: {len(nacimientos_negativos)}")
print(f"üìä Registros con defunciones negativas: {len(defunciones_negativas)}")

# 2. Verificar ratios de sexo (deben estar entre 0.8 y 1.2 aproximadamente)
ratios_nacimientos_extremos = dataset_unificado[
    (dataset_unificado['ratio_nacimientos_sexo'] < 0.8) | 
    (dataset_unificado['ratio_nacimientos_sexo'] > 1.2)
]

ratios_defunciones_extremos = dataset_unificado[
    (dataset_unificado['ratio_defunciones_sexo'] < 0.8) | 
    (dataset_unificado['ratio_defunciones_sexo'] > 1.2)
]

print(f"ÔøΩÔøΩ Registros con ratio nacimientos extremo (<0.8 o >1.2): {len(ratios_nacimientos_extremos)}")
print(f"ÔøΩÔøΩ Registros con ratio defunciones extremo (<0.8 o >1.2): {len(ratios_defunciones_extremos)}")

# 3. Verificar cambios porcentuales extremos (>50% cambio a√±o a a√±o)
# CORRECCI√ìN: Usar abs() correctamente
cambios_nacimientos_extremos = dataset_unificado[
    (dataset_unificado['pct_cambio_nacimientos'].abs() > 50)
]

cambios_defunciones_extremos = dataset_unificado[
    (dataset_unificado['pct_cambio_defunciones'].abs() > 50)
]

print(f"üìä Registros con cambio nacimientos >50%: {len(cambios_nacimientos_extremos)}")
print(f"üìä Registros con cambio defunciones >50%: {len(cambios_defunciones_extremos)}")

# Mostrar ejemplos de valores problem√°ticos
if len(ratios_nacimientos_extremos) > 0:
    print(f"\n‚ö†Ô∏è Ejemplos de ratios de nacimientos extremos:")
    display(ratios_nacimientos_extremos[['a√±o', 'nacimientos_hombres', 'nacimientos_mujeres', 'ratio_nacimientos_sexo']].head())

if len(cambios_nacimientos_extremos) > 0:
    print(f"\n‚ö†Ô∏è Ejemplos de cambios extremos en nacimientos:")
    display(cambios_nacimientos_extremos[['a√±o', 'nacimientos_totales', 'dif_nacimientos_a√±o_anterior', 'pct_cambio_nacimientos']].head())

# 4. Verificar consistencia temporal (no debe haber saltos imposibles)
print(f"\nüîç Verificando consistencia temporal...")

# CORRECCI√ìN: Calcular diferencias a√±o a a√±o correctamente
dataset_unificado['dif_nacimientos_abs'] = dataset_unificado['nacimientos_totales'].diff().abs()
dataset_unificado['dif_defunciones_abs'] = dataset_unificado['defunciones_totales'].diff().abs()

# Identificar cambios muy grandes (m√°s de 50,000 en un a√±o)
cambios_grandes_nacimientos = dataset_unificado[dataset_unificado['dif_nacimientos_abs'] > 50000]
cambios_grandes_defunciones = dataset_unificado[dataset_unificado['dif_defunciones_abs'] > 50000]

print(f"üìä A√±os con cambios grandes en nacimientos (>50,000): {len(cambios_grandes_nacimientos)}")
print(f"üìä A√±os con cambios grandes en defunciones (>50,000): {len(cambios_grandes_defunciones)}")

if len(cambios_grandes_nacimientos) > 0:
    print(f"\n‚ö†Ô∏è A√±os con cambios grandes en nacimientos:")
    display(cambios_grandes_nacimientos[['a√±o', 'nacimientos_totales', 'dif_nacimientos_a√±o_anterior', 'dif_nacimientos_abs']])

if len(cambios_grandes_defunciones) > 0:
    print(f"\n‚ö†Ô∏è A√±os con cambios grandes en defunciones:")
    display(cambios_grandes_defunciones[['a√±o', 'defunciones_totales', 'dif_defunciones_a√±o_anterior', 'dif_defunciones_abs']])

# 5. Verificaci√≥n adicional: rangos de valores esperados
print(f"\nüîç Verificando rangos de valores esperados...")

# Verificar que los totales sean consistentes con la suma por sexo
dataset_unificado['suma_nacimientos_sexo'] = dataset_unificado['nacimientos_hombres'] + dataset_unificado['nacimientos_mujeres']
dataset_unificado['suma_defunciones_sexo'] = dataset_unificado['defunciones_hombres'] + dataset_unificado['defunciones_mujeres']

# Calcular diferencias
dataset_unificado['diff_nacimientos'] = abs(dataset_unificado['nacimientos_totales'] - dataset_unificado['suma_nacimientos_sexo'])
dataset_unificado['diff_defunciones'] = abs(dataset_unificado['defunciones_totales'] - dataset_unificado['suma_defunciones_sexo'])

# Identificar inconsistencias significativas
inconsistencias_nacimientos = dataset_unificado[dataset_unificado['diff_nacimientos'] > 100]
inconsistencias_defunciones = dataset_unificado[dataset_unificado['diff_defunciones'] > 100]

print(f"üìä A√±os con inconsistencias en nacimientos (>100 diferencia): {len(inconsistencias_nacimientos)}")
print(f"ÔøΩÔøΩ A√±os con inconsistencias en defunciones (>100 diferencia): {len(inconsistencias_defunciones)}")

if len(inconsistencias_nacimientos) > 0:
    print(f"\n‚ö†Ô∏è A√±os con inconsistencias en nacimientos:")
    display(inconsistencias_nacimientos[['a√±o', 'nacimientos_totales', 'suma_nacimientos_sexo', 'diff_nacimientos']])

if len(inconsistencias_defunciones) > 0:
    print(f"\n‚ö†Ô∏è A√±os con inconsistencias en defunciones:")
    display(inconsistencias_defunciones[['a√±o', 'defunciones_totales', 'suma_defunciones_sexo', 'diff_defunciones']])

# Resumen final
print(f"\nüìù RESUMEN DE VALIDACI√ìN:")
print(f"‚úÖ Nacimientos negativos: {len(nacimientos_negativos)}")
print(f"‚úÖ Defunciones negativas: {len(defunciones_negativas)}")
print(f"‚úÖ Ratios extremos nacimientos: {len(ratios_nacimientos_extremos)}")
print(f"‚úÖ Ratios extremos defunciones: {len(ratios_defunciones_extremos)}")
print(f"‚úÖ Cambios extremos nacimientos: {len(cambios_nacimientos_extremos)}")
print(f"‚úÖ Cambios extremos defunciones: {len(cambios_defunciones_extremos)}")
print(f"‚úÖ Cambios grandes temporales: {len(cambios_grandes_nacimientos) + len(cambios_grandes_defunciones)}")
print(f"‚úÖ Inconsistencias internas: {len(inconsistencias_nacimientos) + len(inconsistencias_defunciones)}")

if (len(nacimientos_negativos) == 0 and len(defunciones_negativas) == 0 and 
    len(ratios_nacimientos_extremos) == 0 and len(ratios_defunciones_extremos) == 0 and
    len(cambios_nacimientos_extremos) == 0 and len(cambios_defunciones_extremos) == 0 and
    len(cambios_grandes_nacimientos) == 0 and len(cambios_grandes_defunciones) == 0 and
    len(inconsistencias_nacimientos) == 0 and len(inconsistencias_defunciones) == 0):
    print(f"\nüéâ ¬°TODOS LOS VALORES SON L√ìGICOS Y CONSISTENTES!")
else:
    print(f"\n‚ö†Ô∏è Se encontraron algunos valores que requieren revisi√≥n")


=== VALIDACI√ìN DE VALORES L√ìGICOS Y RANGOS ===
üîç Validando valores l√≥gicos...
üìä Registros con nacimientos negativos: 0
üìä Registros con defunciones negativas: 0
ÔøΩÔøΩ Registros con ratio nacimientos extremo (<0.8 o >1.2): 0
ÔøΩÔøΩ Registros con ratio defunciones extremo (<0.8 o >1.2): 0
üìä Registros con cambio nacimientos >50%: 0
üìä Registros con cambio defunciones >50%: 0

üîç Verificando consistencia temporal...
üìä A√±os con cambios grandes en nacimientos (>50,000): 0
üìä A√±os con cambios grandes en defunciones (>50,000): 0

üîç Verificando rangos de valores esperados...
üìä A√±os con inconsistencias en nacimientos (>100 diferencia): 0
ÔøΩÔøΩ A√±os con inconsistencias en defunciones (>100 diferencia): 0

üìù RESUMEN DE VALIDACI√ìN:
‚úÖ Nacimientos negativos: 0
‚úÖ Defunciones negativas: 0
‚úÖ Ratios extremos nacimientos: 0
‚úÖ Ratios extremos defunciones: 0
‚úÖ Cambios extremos nacimientos: 0
‚úÖ Cambios extremos defunciones: 0
‚úÖ Cambios grandes temporales: 

In [47]:
# 7.7 Resumen de la validaci√≥n de consistencia

print("=== RESUMEN DE LA VALIDACI√ìN DE CONSISTENCIA ===")

# Verificar que las variables necesarias est√©n definidas
try:
    a√±os_con_edad = sorted(dataset_extendido['a√±o'].tolist())
except:
    a√±os_con_edad = []

# Crear resumen de todas las validaciones realizadas
resumen_validaciones = {
    "Verificaciones realizadas": [
        "Suma de nacimientos por sexo vs totales",
        "Suma de defunciones por sexo vs totales", 
        "Suma de nacimientos por edad vs totales",
        "Suma de defunciones por edad vs totales",
        "Detecci√≥n de outliers en variables num√©ricas",
        "Validaci√≥n de valores l√≥gicos y rangos",
        "Verificaci√≥n de consistencia temporal"
    ],
    "Inconsistencias encontradas": {
        "nacimientos_por_sexo": len(inconsistencias_nacimientos),
        "defunciones_por_sexo": len(inconsistencias_defunciones),
        "nacimientos_por_edad": len(inconsistencias_nacimientos_edad),
        "defunciones_por_edad": len(inconsistencias_defunciones_edad)
    },
    "Outliers detectados": {
        "total_variables_analizadas": len(resultados_outliers),
        "variables_con_outliers": len([r for r in resultados_outliers if r['cantidad_outliers'] > 0]),
        "a√±os_con_outliers": len(a√±os_outliers)
    },
    "Valores problem√°ticos": {
        "nacimientos_negativos": len(nacimientos_negativos),
        "defunciones_negativas": len(defunciones_negativas),
        "ratios_extremos_nacimientos": len(ratios_nacimientos_extremos),
        "ratios_extremos_defunciones": len(ratios_defunciones_extremos),
        "cambios_extremos_nacimientos": len(cambios_nacimientos_extremos),
        "cambios_extremos_defunciones": len(cambios_defunciones_extremos)
    }
}

print("üìã Resumen de validaciones:")
for categoria, items in resumen_validaciones.items():
    print(f"\n{categoria.upper()}:")
    if isinstance(items, list):
        for item in items:
            print(f"  ‚úÖ {item}")
    else:
        for clave, valor in items.items():
            print(f"  {clave}: {valor}")

# Calcular puntuaci√≥n de calidad de datos (CORREGIDO)
total_verificaciones = 0
total_problemas = 0

# Contar problemas encontrados
total_problemas += len(inconsistencias_nacimientos)
total_problemas += len(inconsistencias_defunciones)
total_problemas += len(inconsistencias_nacimientos_edad)
total_problemas += len(inconsistencias_defunciones_edad)
total_problemas += len(nacimientos_negativos)
total_problemas += len(defunciones_negativas)
total_problemas += len(ratios_nacimientos_extremos)
total_problemas += len(ratios_defunciones_extremos)

# CORRECCI√ìN: Contar verificaciones realizadas correctamente
total_verificaciones += len(a√±os_completos) * 2  # nacimientos y defunciones por sexo
total_verificaciones += len(a√±os_con_edad) * 2  # nacimientos y defunciones por edad
total_verificaciones += len(dataset_unificado) * 4  # valores negativos y ratios extremos

# Agregar verificaciones de outliers
total_verificaciones += len(resultados_outliers) * len(dataset_unificado)

puntuacion_calidad = ((total_verificaciones - total_problemas) / total_verificaciones) * 100

print(f"\nüìä PUNTUACI√ìN DE CALIDAD DE DATOS:")
print(f"Verificaciones realizadas: {total_verificaciones:,}")
print(f"Problemas encontrados: {total_problemas:,}")
print(f"Puntuaci√≥n de calidad: {puntuacion_calidad:.1f}%")

if puntuacion_calidad >= 95:
    print("‚úÖ CALIDAD EXCELENTE: Los datos est√°n muy bien estructurados")
elif puntuacion_calidad >= 90:
    print("‚úÖ CALIDAD BUENA: Los datos tienen calidad aceptable")
elif puntuacion_calidad >= 80:
    print("‚ö†Ô∏è CALIDAD REGULAR: Se recomienda revisar algunos valores")
else:
    print("‚ùå CALIDAD BAJA: Se requiere limpieza adicional")

# Resumen final de la secci√≥n 7
print(f"\n=== RESUMEN FINAL DE LA SECCI√ìN 7 ===")
print(f"‚úÖ Validaci√≥n de consistencia completada exitosamente")
print(f"‚úÖ Todos los datasets est√°n listos para modelado")
print(f"‚úÖ Calidad de datos verificada en m√∫ltiples dimensiones")
print(f"‚úÖ Base s√≥lida para an√°lisis y machine learning")

print(f"\n‚úÖ Validaci√≥n de consistencia completada")


=== RESUMEN DE LA VALIDACI√ìN DE CONSISTENCIA ===
üìã Resumen de validaciones:

VERIFICACIONES REALIZADAS:
  ‚úÖ Suma de nacimientos por sexo vs totales
  ‚úÖ Suma de defunciones por sexo vs totales
  ‚úÖ Suma de nacimientos por edad vs totales
  ‚úÖ Suma de defunciones por edad vs totales
  ‚úÖ Detecci√≥n de outliers en variables num√©ricas
  ‚úÖ Validaci√≥n de valores l√≥gicos y rangos
  ‚úÖ Verificaci√≥n de consistencia temporal

INCONSISTENCIAS ENCONTRADAS:
  nacimientos_por_sexo: 0
  defunciones_por_sexo: 0
  nacimientos_por_edad: 10
  defunciones_por_edad: 10

OUTLIERS DETECTADOS:
  total_variables_analizadas: 11
  variables_con_outliers: 6
  a√±os_con_outliers: 7

VALORES PROBLEM√ÅTICOS:
  nacimientos_negativos: 0
  defunciones_negativas: 0
  ratios_extremos_nacimientos: 0
  ratios_extremos_defunciones: 0
  cambios_extremos_nacimientos: 0
  cambios_extremos_defunciones: 0

üìä PUNTUACI√ìN DE CALIDAD DE DATOS:
Verificaciones realizadas: 788
Problemas encontrados: 20
Puntuaci√≥n

## 8. Preparaci√≥n para Modelado

Esta secci√≥n se enfoca en crear variables y features necesarios para modelos de Machine Learning, incluyendo codificaciones categ√≥ricas, features temporales y variables de tendencia.


In [48]:
# 8.1 Crear variables categ√≥ricas para el dataset de defunciones detalladas

print("=== CREACI√ìN DE VARIABLES CATEG√ìRICAS ===")

# Crear dataset preparado para modelado basado en defunciones detalladas
dataset_modelado = defunciones_estandarizado.copy()
print(f"üìä Dataset base para modelado: {dataset_modelado.shape}")

# Verificar columnas disponibles
print(f"\nüìã Columnas disponibles en dataset_modelado:")
print(dataset_modelado.columns.tolist())

# 1. Codificaci√≥n de regiones (Label Encoding)
print("\nüî¢ Codificando regiones...")
if 'region' in dataset_modelado.columns:
    regiones_unicas = sorted(dataset_modelado['region'].unique())
    mapeo_regiones = {region: i for i, region in enumerate(regiones_unicas)}
    dataset_modelado['region_codificada'] = dataset_modelado['region'].map(mapeo_regiones)
    
    print(f"Regiones codificadas: {len(regiones_unicas)}")
    for region, codigo in mapeo_regiones.items():
        print(f"  {codigo}: {region}")
else:
    print("‚ö†Ô∏è Columna 'region' no encontrada")

# 2. Codificaci√≥n de sexo (Binary Encoding)
print("\nüî¢ Codificando sexo...")
if 'sexo' in dataset_modelado.columns:
    mapeo_sexo = {'Hombre': 1, 'Mujer': 0}
    dataset_modelado['sexo_codificado'] = dataset_modelado['sexo'].map(mapeo_sexo)
    print(f"Sexo codificado: {mapeo_sexo}")
else:
    print("‚ö†Ô∏è Columna 'sexo' no encontrada")

# 3. Codificaci√≥n de rangos de edad (ya tenemos la columna 'rango_edad')
print("\nüî¢ Codificando rangos de edad...")
if 'rango_edad' in dataset_modelado.columns:
    rangos_edad_unicos = sorted(dataset_modelado['rango_edad'].unique())
    mapeo_rangos_edad = {rango: i for i, rango in enumerate(rangos_edad_unicos)}
    dataset_modelado['rango_edad_codificado'] = dataset_modelado['rango_edad'].map(mapeo_rangos_edad)
    
    print(f"Rangos de edad codificados: {len(rangos_edad_unicos)}")
    for rango, codigo in mapeo_rangos_edad.items():
        print(f"  {codigo}: {rango}")
else:
    print("‚ö†Ô∏è Columna 'rango_edad' no encontrada")

# 4. Codificaci√≥n de c√≥digos de diagn√≥stico (agrupar por categor√≠as principales)
print("\nüî¢ Codificando c√≥digos de diagn√≥stico...")

# Verificar si existe columna de diagn√≥stico
columnas_diagnostico = [col for col in dataset_modelado.columns if 'diagnostico' in col.lower() or 'cie' in col.lower()]
print(f"Columnas relacionadas con diagn√≥stico: {columnas_diagnostico}")

if columnas_diagnostico:
    columna_diagnostico = columnas_diagnostico[0]  # Usar la primera encontrada
    print(f"Usando columna: {columna_diagnostico}")
    
    # Crear funci√≥n para categorizar c√≥digos CIE-10
    def categorizar_diagnostico(codigo):
        """
        Categoriza c√≥digos CIE-10 en grupos principales
        """
        if pd.isna(codigo):
            return 'desconocido'
        
        codigo_str = str(codigo)
        
        # Categor√≠as principales basadas en c√≥digos CIE-10
        if codigo_str.startswith('A') or codigo_str.startswith('B'):
            return 'enfermedades_infecciosas'
        elif codigo_str.startswith('C') or codigo_str.startswith('D'):
            return 'neoplasias'
        elif codigo_str.startswith('E'):
            return 'enfermedades_endocrinas'
        elif codigo_str.startswith('F'):
            return 'enfermedades_mentales'
        elif codigo_str.startswith('G'):
            return 'enfermedades_nerviosas'
        elif codigo_str.startswith('H'):
            return 'enfermedades_ojos_oidos'
        elif codigo_str.startswith('I'):
            return 'enfermedades_cardiovasculares'
        elif codigo_str.startswith('J'):
            return 'enfermedades_respiratorias'
        elif codigo_str.startswith('K'):
            return 'enfermedades_digestivas'
        elif codigo_str.startswith('L'):
            return 'enfermedades_piel'
        elif codigo_str.startswith('M'):
            return 'enfermedades_musculoesqueleticas'
        elif codigo_str.startswith('N'):
            return 'enfermedades_genitourinarias'
        elif codigo_str.startswith('O'):
            return 'complicaciones_embarazo'
        elif codigo_str.startswith('P'):
            return 'afecciones_perinatales'
        elif codigo_str.startswith('Q'):
            return 'malformaciones_congenitas'
        elif codigo_str.startswith('R'):
            return 'sintomas_signos_anormales'
        elif codigo_str.startswith('S') or codigo_str.startswith('T'):
            return 'traumatismos_envenenamientos'
        elif codigo_str.startswith('U'):
            return 'causas_externas'
        elif codigo_str.startswith('V') or codigo_str.startswith('W') or codigo_str.startswith('X') or codigo_str.startswith('Y'):
            return 'causas_externas_accidentes'
        elif codigo_str.startswith('Z'):
            return 'factores_influencia_salud'
        else:
            return 'otros'

    # Aplicar categorizaci√≥n
    dataset_modelado['categoria_diagnostico'] = dataset_modelado[columna_diagnostico].apply(categorizar_diagnostico)
    
    # Codificar categor√≠as de diagn√≥stico
    categorias_diagnostico = sorted(dataset_modelado['categoria_diagnostico'].unique())
    mapeo_categorias_diagnostico = {cat: i for i, cat in enumerate(categorias_diagnostico)}
    dataset_modelado['categoria_diagnostico_codificada'] = dataset_modelado['categoria_diagnostico'].map(mapeo_categorias_diagnostico)
    
    print(f"Categor√≠as de diagn√≥stico codificadas: {len(categorias_diagnostico)}")
    for categoria, codigo in mapeo_categorias_diagnostico.items():
        print(f"  {codigo}: {categoria}")
else:
    print("‚ö†Ô∏è No se encontraron columnas de diagn√≥stico")

# Mostrar resumen final
print(f"\nüìä Dataset con variables categ√≥ricas: {dataset_modelado.shape}")
print(f"ÔøΩÔøΩ Nuevas columnas creadas:")
nuevas_columnas = [col for col in dataset_modelado.columns if col.endswith('_codificado') or col.startswith('categoria_')]
for col in nuevas_columnas:
    print(f"  ‚úÖ {col}")

# Verificar que no hay valores nulos en las nuevas columnas
print(f"\nüîç Verificaci√≥n de valores nulos:")
for col in nuevas_columnas:
    nulos = dataset_modelado[col].isnull().sum()
    if nulos > 0:
        print(f"  ‚ö†Ô∏è {col}: {nulos} valores nulos")
    else:
        print(f"  ‚úÖ {col}: Sin valores nulos")

=== CREACI√ìN DE VARIABLES CATEG√ìRICAS ===
üìä Dataset base para modelado: (1246200, 17)

üìã Columnas disponibles en dataset_modelado:
['a√±o', 'fecha_defuncion', 'sexo', 'tipo_edad', 'edad_cantidad', 'codigo_comuna', 'comuna', 'region', 'codigo_diagnostico', 'descripcion_diagnostico', 'a√±o_fecha', 'mes', 'dia_semana', 'trimestre', 'dia_a√±o', 'grupo_edad', 'rango_edad']

üî¢ Codificando regiones...
Regiones codificadas: 17
  0: De Ais√©n del Gral. C. Ib√°√±ez del Campo
  1: De Antofagasta
  2: De Arica y Parinacota
  3: De Atacama
  4: De Coquimbo
  5: De La Araucan√≠a
  6: De Los Lagos
  7: De Los R√≠os
  8: De Magallanes y de La Ant√°rtica Chilena
  9: De Tarapac√°
  10: De Valpara√≠so
  11: De √ëuble
  12: Del Biob√≠o
  13: Del Libertador General Bernardo O'Higgins
  14: Del Maule
  15: Ignorada
  16: Regi√≥n Metropolitana

üî¢ Codificando sexo...
Sexo codificado: {'Hombre': 1, 'Mujer': 0}

üî¢ Codificando rangos de edad...
Rangos de edad codificados: 22
  0: 100_mas
  1: 1

In [49]:
# Limpiar valores nulos en sexo_codificado
dataset_modelado = dataset_modelado.dropna(subset=['sexo_codificado'])
print(f"üìä Dataset despu√©s de limpieza: {dataset_modelado.shape}")

üìä Dataset despu√©s de limpieza: (1246037, 22)


In [50]:
# 8.2 Generar features temporales para an√°lisis estacional

print("=== GENERACI√ìN DE FEATURES TEMPORALES ===")

# Ya tenemos algunas variables temporales b√°sicas, vamos a crear m√°s features √∫tiles
print("üìÖ Creando features temporales adicionales...")

# Verificar columnas temporales disponibles
print(f"\nüìã Columnas temporales disponibles:")
columnas_temporales = [col for col in dataset_modelado.columns if col in ['mes', 'dia_a√±o', 'trimestre', 'dia_semana']]
print(f"  {columnas_temporales}")

# 1. Features c√≠clicos para capturar estacionalidad
print("\nÔøΩÔøΩ Creando features c√≠clicos...")

if 'mes' in dataset_modelado.columns:
    # Mes c√≠clico (sinusoidal y cosinusoidal)
    dataset_modelado['mes_sin'] = np.sin(2 * np.pi * dataset_modelado['mes'] / 12)
    dataset_modelado['mes_cos'] = np.cos(2 * np.pi * dataset_modelado['mes'] / 12)
    print("‚úÖ Features c√≠clicos de mes creados")

if 'dia_a√±o' in dataset_modelado.columns:
    # D√≠a del a√±o c√≠clico
    dataset_modelado['dia_a√±o_sin'] = np.sin(2 * np.pi * dataset_modelado['dia_a√±o'] / 365.25)
    dataset_modelado['dia_a√±o_cos'] = np.cos(2 * np.pi * dataset_modelado['dia_a√±o'] / 365.25)
    print("‚úÖ Features c√≠clicos de d√≠a del a√±o creados")

if 'trimestre' in dataset_modelado.columns:
    # Trimestre c√≠clico
    dataset_modelado['trimestre_sin'] = np.sin(2 * np.pi * dataset_modelado['trimestre'] / 4)
    dataset_modelado['trimestre_cos'] = np.cos(2 * np.pi * dataset_modelado['trimestre'] / 4)
    print("‚úÖ Features c√≠clicos de trimestre creados")

# 2. Features de d√≠a de la semana (ya tenemos 'dia_semana', vamos a codificarlo)
print("\nüìÖ Codificando d√≠a de la semana...")

if 'dia_semana' in dataset_modelado.columns:
    # Verificar valores √∫nicos en dia_semana
    valores_dia_semana = sorted(dataset_modelado['dia_semana'].unique())
    print(f"Valores √∫nicos en dia_semana: {valores_dia_semana}")
    
    # Crear mapeo din√°mico basado en valores reales
    mapeo_dias_semana = {dia: i for i, dia in enumerate(valores_dia_semana)}
    dataset_modelado['dia_semana_codificado'] = dataset_modelado['dia_semana'].map(mapeo_dias_semana)
    
    # Features c√≠clicos para d√≠a de la semana
    dataset_modelado['dia_semana_sin'] = np.sin(2 * np.pi * dataset_modelado['dia_semana_codificado'] / 7)
    dataset_modelado['dia_semana_cos'] = np.cos(2 * np.pi * dataset_modelado['dia_semana_codificado'] / 7)
    
    print(f"‚úÖ D√≠a de la semana codificado: {mapeo_dias_semana}")
else:
    print("‚ö†Ô∏è Columna 'dia_semana' no encontrada")

# 3. Features de fin de semana y d√≠as especiales
print("\nÔøΩÔøΩ Creando features de d√≠as especiales...")

if 'dia_semana' in dataset_modelado.columns:
    # Fin de semana (0 = d√≠a laboral, 1 = fin de semana)
    # CORRECCI√ìN: Usar valores reales encontrados
    fin_semana_valores = ['Saturday', 'Sunday', 'S√°bado', 'Domingo', 'saturday', 'sunday']
    dataset_modelado['es_fin_semana'] = dataset_modelado['dia_semana'].isin(fin_semana_valores).astype(int)
    print("‚úÖ Feature 'es_fin_semana' creado")

if 'mes' in dataset_modelado.columns:
    # Meses de invierno/verano (para Chile: invierno = Jun-Aug, verano = Dec-Feb)
    dataset_modelado['es_invierno'] = dataset_modelado['mes'].isin([6, 7, 8]).astype(int)
    dataset_modelado['es_verano'] = dataset_modelado['mes'].isin([12, 1, 2]).astype(int)
    print("‚úÖ Features 'es_invierno' y 'es_verano' creados")
    
    # CORRECCI√ìN: Trimestre del a√±o fiscal (para an√°lisis de pol√≠ticas)
    dataset_modelado['trimestre_fiscal'] = ((dataset_modelado['mes'] - 1) // 3) + 1
    print("‚úÖ Feature 'trimestre_fiscal' creado")

# 4. Features de √©poca del a√±o
print("\nüìÖ Creando features de √©poca del a√±o...")

if 'mes' in dataset_modelado.columns:
    def obtener_epoca_a√±o(mes):
        """
        Determina la √©poca del a√±o basada en el mes
        """
        if mes in [12, 1, 2]:
            return 'verano'
        elif mes in [3, 4, 5]:
            return 'oto√±o'
        elif mes in [6, 7, 8]:
            return 'invierno'
        else:  # 9, 10, 11
            return 'primavera'

    dataset_modelado['epoca_a√±o'] = dataset_modelado['mes'].apply(obtener_epoca_a√±o)
    
    # Codificar √©poca del a√±o
    epocas_a√±o = ['primavera', 'verano', 'oto√±o', 'invierno']
    mapeo_epocas = {epoca: i for i, epoca in enumerate(epocas_a√±o)}
    dataset_modelado['epoca_a√±o_codificada'] = dataset_modelado['epoca_a√±o'].map(mapeo_epocas)
    
    print("‚úÖ √âpoca del a√±o codificada")

# Mostrar resumen de features creados
print(f"\nüìä Dataset con features temporales: {dataset_modelado.shape}")

# Mostrar nuevas columnas creadas
nuevas_columnas_temporales = [col for col in dataset_modelado.columns if col.endswith(('_sin', '_cos', '_codificado', 'es_', 'epoca_', 'trimestre_fiscal'))]
print(f" Nuevas columnas temporales creadas: {len(nuevas_columnas_temporales)}")
for col in nuevas_columnas_temporales:
    print(f"  ‚úÖ {col}")

print(f"\n‚úÖ Features temporales completados")


=== GENERACI√ìN DE FEATURES TEMPORALES ===
üìÖ Creando features temporales adicionales...

üìã Columnas temporales disponibles:
  ['mes', 'dia_semana', 'trimestre', 'dia_a√±o']

ÔøΩÔøΩ Creando features c√≠clicos...
‚úÖ Features c√≠clicos de mes creados
‚úÖ Features c√≠clicos de d√≠a del a√±o creados
‚úÖ Features c√≠clicos de trimestre creados

üìÖ Codificando d√≠a de la semana...
Valores √∫nicos en dia_semana: ['Friday', 'Monday', 'Saturday', 'Sunday', 'Thursday', 'Tuesday', 'Wednesday']
‚úÖ D√≠a de la semana codificado: {'Friday': 0, 'Monday': 1, 'Saturday': 2, 'Sunday': 3, 'Thursday': 4, 'Tuesday': 5, 'Wednesday': 6}

ÔøΩÔøΩ Creando features de d√≠as especiales...
‚úÖ Feature 'es_fin_semana' creado
‚úÖ Features 'es_invierno' y 'es_verano' creados
‚úÖ Feature 'trimestre_fiscal' creado

üìÖ Creando features de √©poca del a√±o...
‚úÖ √âpoca del a√±o codificada

üìä Dataset con features temporales: (1246037, 37)
 Nuevas columnas temporales creadas: 12
  ‚úÖ sexo_codificado
  ‚úÖ ran

In [51]:
# 8.3 Crear variables de tendencia para el dataset temporal unificado

print("=== CREACI√ìN DE VARIABLES DE TENDENCIA ===")

# Crear dataset de tendencias basado en el dataset unificado temporal
dataset_tendencias = dataset_unificado.copy()
print(f"ÔøΩÔøΩ Dataset base para tendencias: {dataset_tendencias.shape}")

# 1. Promedios m√≥viles
print("\nüìà Calculando promedios m√≥viles...")

# Promedio m√≥vil de 3 a√±os para nacimientos
dataset_tendencias['nacimientos_ma3'] = dataset_tendencias['nacimientos_totales'].rolling(window=3, min_periods=1).mean()

# Promedio m√≥vil de 5 a√±os para nacimientos
dataset_tendencias['nacimientos_ma5'] = dataset_tendencias['nacimientos_totales'].rolling(window=5, min_periods=1).mean()

# Promedio m√≥vil de 3 a√±os para defunciones
dataset_tendencias['defunciones_ma3'] = dataset_tendencias['defunciones_totales'].rolling(window=3, min_periods=1).mean()

# Promedio m√≥vil de 5 a√±os para defunciones
dataset_tendencias['defunciones_ma5'] = dataset_tendencias['defunciones_totales'].rolling(window=5, min_periods=1).mean()

print("‚úÖ Promedios m√≥viles creados: MA3 y MA5 para nacimientos y defunciones")

# 2. Diferencias a√±o a a√±o (ya las tenemos, pero vamos a crear m√°s)
print("\nüìà Calculando diferencias adicionales...")

# Diferencia con promedio m√≥vil
dataset_tendencias['dif_nacimientos_ma3'] = dataset_tendencias['nacimientos_totales'] - dataset_tendencias['nacimientos_ma3']
dataset_tendencias['dif_nacimientos_ma5'] = dataset_tendencias['nacimientos_totales'] - dataset_tendencias['nacimientos_ma5']
dataset_tendencias['dif_defunciones_ma3'] = dataset_tendencias['defunciones_totales'] - dataset_tendencias['defunciones_ma3']
dataset_tendencias['dif_defunciones_ma5'] = dataset_tendencias['defunciones_totales'] - dataset_tendencias['defunciones_ma5']

print("‚úÖ Diferencias con promedios m√≥viles creadas")

# 3. Tasas de crecimiento
print("\nüìà Calculando tasas de crecimiento...")

# Tasa de crecimiento promedio m√≥vil (CORREGIDO: evitar divisi√≥n por cero)
dataset_tendencias['pct_cambio_nacimientos_ma3'] = np.where(
    dataset_tendencias['nacimientos_ma3'] != 0,
    (dataset_tendencias['dif_nacimientos_ma3'] / dataset_tendencias['nacimientos_ma3']) * 100,
    0
)

dataset_tendencias['pct_cambio_defunciones_ma3'] = np.where(
    dataset_tendencias['defunciones_ma3'] != 0,
    (dataset_tendencias['dif_defunciones_ma3'] / dataset_tendencias['defunciones_ma3']) * 100,
    0
)

print("‚úÖ Tasas de crecimiento calculadas")

# 4. Variables de tendencia a largo plazo (SIMPLIFICADO)
print("\nÔøΩÔøΩ Calculando tendencias a largo plazo...")

# Tendencia simple (diferencia entre valores extremos de ventana)
def calcular_tendencia_simple(serie, ventana=10):
    """
    Calcula tendencia simple usando diferencia entre extremos
    """
    tendencias = []
    
    for i in range(len(serie)):
        inicio = max(0, i - ventana + 1)
        fin = i + 1
        
        if fin - inicio >= 3:
            valores_ventana = serie.iloc[inicio:fin]
            if len(valores_ventana) > 1:
                tendencia = valores_ventana.iloc[-1] - valores_ventana.iloc[0]
            else:
                tendencia = 0
        else:
            tendencia = 0
            
        tendencias.append(tendencia)
    
    return pd.Series(tendencias, index=serie.index)

# Calcular tendencias simples
dataset_tendencias['tendencia_nacimientos'] = calcular_tendencia_simple(dataset_tendencias['nacimientos_totales'])
dataset_tendencias['tendencia_defunciones'] = calcular_tendencia_simple(dataset_tendencias['defunciones_totales'])

print("‚úÖ Tendencias calculadas")

# 5. Variables de volatilidad
print("\nüìà Calculando volatilidad...")

# Volatilidad (desviaci√≥n est√°ndar m√≥vil)
dataset_tendencias['volatilidad_nacimientos'] = dataset_tendencias['nacimientos_totales'].rolling(window=5, min_periods=1).std()
dataset_tendencias['volatilidad_defunciones'] = dataset_tendencias['defunciones_totales'].rolling(window=5, min_periods=1).std()

# Coeficiente de variaci√≥n (CORREGIDO: evitar divisi√≥n por cero)
dataset_tendencias['cv_nacimientos'] = np.where(
    dataset_tendencias['nacimientos_ma5'] != 0,
    dataset_tendencias['volatilidad_nacimientos'] / dataset_tendencias['nacimientos_ma5'],
    0
)

dataset_tendencias['cv_defunciones'] = np.where(
    dataset_tendencias['defunciones_ma5'] != 0,
    dataset_tendencias['volatilidad_defunciones'] / dataset_tendencias['defunciones_ma5'],
    0
)

print("‚úÖ Volatilidad calculada")

# Mostrar resumen de variables creadas
print(f"\nüìä Dataset con variables de tendencia: {dataset_tendencias.shape}")

# Mostrar nuevas columnas creadas
nuevas_columnas_tendencia = [col for col in dataset_tendencias.columns if col.endswith(('_ma3', '_ma5', '_dif_', '_pct_', '_tendencia_', '_volatilidad_', '_cv_'))]
print(f"ÔøΩÔøΩ Nuevas columnas de tendencia creadas: {len(nuevas_columnas_tendencia)}")
for col in nuevas_columnas_tendencia:
    print(f"  ‚úÖ {col}")

print(f"\n‚úÖ Variables de tendencia completadas")

=== CREACI√ìN DE VARIABLES DE TENDENCIA ===
ÔøΩÔøΩ Dataset base para tendencias: (50, 23)

üìà Calculando promedios m√≥viles...
‚úÖ Promedios m√≥viles creados: MA3 y MA5 para nacimientos y defunciones

üìà Calculando diferencias adicionales...
‚úÖ Diferencias con promedios m√≥viles creadas

üìà Calculando tasas de crecimiento...
‚úÖ Tasas de crecimiento calculadas

ÔøΩÔøΩ Calculando tendencias a largo plazo...
‚úÖ Tendencias calculadas

üìà Calculando volatilidad...
‚úÖ Volatilidad calculada

üìä Dataset con variables de tendencia: (50, 39)
ÔøΩÔøΩ Nuevas columnas de tendencia creadas: 10
  ‚úÖ nacimientos_ma3
  ‚úÖ nacimientos_ma5
  ‚úÖ defunciones_ma3
  ‚úÖ defunciones_ma5
  ‚úÖ dif_nacimientos_ma3
  ‚úÖ dif_nacimientos_ma5
  ‚úÖ dif_defunciones_ma3
  ‚úÖ dif_defunciones_ma5
  ‚úÖ pct_cambio_nacimientos_ma3
  ‚úÖ pct_cambio_defunciones_ma3

‚úÖ Variables de tendencia completadas


In [53]:
# 8.4 Crear dataset final para modelado con todas las features (CORREGIDO)

print("=== CREACI√ìN DE DATASET FINAL PARA MODELADO ===")

# Crear dataset final combinando todas las features creadas
print("ÔøΩÔøΩ Combinando datasets para modelado...")

# Para el dataset de defunciones detalladas (dataset_modelado)
print(f"üìä Dataset de defunciones detalladas: {dataset_modelado.shape}")

# Seleccionar columnas relevantes para modelado
columnas_modelado = [
    # Variables b√°sicas
    'a√±o', 'fecha_defuncion', 'edad_cantidad',
    
    # Variables categ√≥ricas codificadas
    'region_codificada', 'sexo_codificado', 'rango_edad_codificado', 'categoria_diagnostico_codificada',
    
    # Variables temporales b√°sicas
    'mes', 'trimestre', 'dia_a√±o',
    
    # Features c√≠clicos
    'mes_sin', 'mes_cos', 'dia_a√±o_sin', 'dia_a√±o_cos', 'trimestre_sin', 'trimestre_cos',
    'dia_semana_sin', 'dia_semana_cos',
    
    # Features de d√≠as especiales
    'es_fin_semana', 'es_invierno', 'es_verano', 'trimestre_fiscal', 'epoca_a√±o_codificada'
]

# Crear dataset final para modelado de defunciones
dataset_final_modelado = dataset_modelado[columnas_modelado].copy()

print(f"üìä Dataset final para modelado de defunciones: {dataset_final_modelado.shape}")
print(f"üìã Columnas seleccionadas: {len(columnas_modelado)}")

# Verificar valores nulos
print(f"\nüîç Verificando valores nulos:")
nulos_por_columna = dataset_final_modelado.isnull().sum()
columnas_con_nulos = nulos_por_columna[nulos_por_columna > 0]
if len(columnas_con_nulos) > 0:
    print("Columnas con valores nulos:")
    for col, nulos in columnas_con_nulos.items():
        print(f"  {col}: {nulos} ({nulos/len(dataset_final_modelado)*100:.1f}%)")
else:
    print("‚úÖ No hay valores nulos en el dataset final")

# Mostrar tipos de datos
print(f"\nüìã Tipos de datos:")
tipos_datos = dataset_final_modelado.dtypes.value_counts()
for tipo, cantidad in tipos_datos.items():
    print(f"  {tipo}: {cantidad} columnas")

# Mostrar estad√≠sticas b√°sicas de variables num√©ricas
print(f"\nüìä Estad√≠sticas b√°sicas de variables num√©ricas:")
variables_numericas = dataset_final_modelado.select_dtypes(include=[np.number]).columns
print(f"Variables num√©ricas: {len(variables_numericas)}")
print(dataset_final_modelado[variables_numericas].describe().round(2))

# AGREGAR: Guardar dataset final para modelado
print(f"\nÔøΩÔøΩ GUARDANDO DATASET FINAL PARA MODELADO...")

# CORRECCI√ìN: Usar la carpeta correcta (03_primary)
import os
carpeta_final = r"C:\ProyectoML2\proyecto-ml\data\03_primary"
if not os.path.exists(carpeta_final):
    os.makedirs(carpeta_final)
    print(f"üìÅ Carpeta creada: {carpeta_final}")

# Guardar dataset final para modelado de defunciones
ruta_dataset_final = os.path.join(carpeta_final, "dataset_final_modelado_defunciones.csv")
dataset_final_modelado.to_csv(ruta_dataset_final, index=False)
print(f"‚úÖ Dataset final guardado: {ruta_dataset_final}")
print(f"üìä Dimensiones: {dataset_final_modelado.shape}")

# AGREGAR: Tambi√©n guardar dataset de tendencias
ruta_dataset_tendencias = os.path.join(carpeta_final, "dataset_tendencias_temporales.csv")
dataset_tendencias.to_csv(ruta_dataset_tendencias, index=False)
print(f"‚úÖ Dataset de tendencias guardado: {ruta_dataset_tendencias}")
print(f"üìä Dimensiones: {dataset_tendencias.shape}")

# AGREGAR: Guardar mapeos de codificaci√≥n
import json
mapeos_codificacion = {
    "regiones": mapeo_regiones,
    "sexo": mapeo_sexo,
    "rangos_edad": mapeo_rangos_edad,
    "categorias_diagnostico": mapeo_categorias_diagnostico,
    "dias_semana": mapeo_dias_semana,
    "epocas_a√±o": mapeo_epocas
}

ruta_mapeos = os.path.join(carpeta_final, "mapeos_codificacion.json")
with open(ruta_mapeos, 'w', encoding='utf-8') as f:
    json.dump(mapeos_codificacion, f, ensure_ascii=False, indent=2)
print(f"‚úÖ Mapeos de codificaci√≥n guardados: {ruta_mapeos}")

# Resumen final
print(f"\nüìã RESUMEN FINAL:")
print(f"‚úÖ Dataset final para modelado: {ruta_dataset_final}")
print(f"‚úÖ Dataset de tendencias: {ruta_dataset_tendencias}")
print(f"‚úÖ Mapeos de codificaci√≥n: {ruta_mapeos}")
print(f"‚úÖ Todos los archivos guardados en: {carpeta_final}")

print(f"\nüéØ PR√ìXIMOS PASOS RECOMENDADOS:")
print(f"  1. Usar dataset_final_modelado_defunciones.csv para modelos de clasificaci√≥n")
print(f"  2. Usar dataset_tendencias_temporales.csv para modelos de series temporales")
print(f"  3. Usar mapeos_codificacion.json para interpretar resultados")

=== CREACI√ìN DE DATASET FINAL PARA MODELADO ===
ÔøΩÔøΩ Combinando datasets para modelado...
üìä Dataset de defunciones detalladas: (1246037, 37)
üìä Dataset final para modelado de defunciones: (1246037, 23)
üìã Columnas seleccionadas: 23

üîç Verificando valores nulos:
‚úÖ No hay valores nulos en el dataset final

üìã Tipos de datos:
  int64: 9 columnas
  float64: 9 columnas
  int32: 4 columnas
  datetime64[ns]: 1 columnas

üìä Estad√≠sticas b√°sicas de variables num√©ricas:
Variables num√©ricas: 22
              a√±o  edad_cantidad  region_codificada  sexo_codificado  \
count  1246037.00     1246037.00         1246037.00       1246037.00   
mean      2019.18          72.22              11.52             0.53   
std          3.08          18.60               4.65             0.50   
min       2014.00           0.00               0.00             0.00   
25%       2017.00          63.00               9.00             0.00   
50%       2019.00          76.00              12.00    

In [54]:
# 8.5 Resumen final de la preparaci√≥n para modelado (CORREGIDO)

print("=== RESUMEN FINAL DE LA PREPARACI√ìN PARA MODELADO ===")

# Crear resumen de todos los datasets creados
datasets_finales = {
    "dataset_final_modelado": dataset_final_modelado,
    "dataset_tendencias": dataset_tendencias,
    "dataset_modelado": dataset_modelado,
    "dataset_extendido": dataset_extendido,
    "dataset_unificado": dataset_unificado
}

print("üìã Datasets creados para diferentes tipos de an√°lisis:")
for nombre_dataset, df in datasets_finales.items():
    print(f"\n{nombre_dataset.upper()}:")
    print(f"   Dimensiones: {df.shape}")
    print(f"   Per√≠odo temporal: {df['a√±o'].min()} - {df['a√±o'].max()}")
    print(f"   Columnas: {len(df.columns)}")

print("\n=== FEATURES CREADAS PARA MODELADO ===")

# Variables categ√≥ricas codificadas
print("ÔøΩÔøΩ Variables categ√≥ricas codificadas:")
categorias_creadas = [
    "region_codificada", "sexo_codificado", "rango_edad_codificado", 
    "categoria_diagnostico_codificada", "dia_semana_codificado", "epoca_a√±o_codificada"
]
for cat in categorias_creadas:
    if cat in dataset_final_modelado.columns:
        print(f"  ‚úÖ {cat}")

# Features temporales c√≠clicos
print("\nüîÑ Features temporales c√≠clicos:")
features_ciclicos = [
    "mes_sin", "mes_cos", "dia_a√±o_sin", "dia_a√±o_cos", 
    "trimestre_sin", "trimestre_cos", "dia_semana_sin", "dia_semana_cos"
]
for feat in features_ciclicos:
    if feat in dataset_final_modelado.columns:
        print(f"  ‚úÖ {feat}")

# Features de d√≠as especiales
print("\nÔøΩÔøΩ Features de d√≠as especiales:")
features_especiales = [
    "es_fin_semana", "es_invierno", "es_verano", "trimestre_fiscal"
]
for feat in features_especiales:
    if feat in dataset_final_modelado.columns:
        print(f"  ‚úÖ {feat}")

# Variables de tendencia
print("\nüìà Variables de tendencia:")
variables_tendencia = [
    "nacimientos_ma3", "nacimientos_ma5", "defunciones_ma3", "defunciones_ma5",
    "tendencia_nacimientos", "tendencia_defunciones", "volatilidad_nacimientos", "volatilidad_defunciones"
]
for var in variables_tendencia:
    if var in dataset_tendencias.columns:
        print(f"  ‚úÖ {var}")

print("\n=== ARCHIVOS GENERADOS PARA MODELADO ===")
# CORRECCI√ìN: Usar rutas correctas
archivos_modelado = [
    "dataset_final_modelado_defunciones.csv",
    "dataset_tendencias_temporales.csv", 
    "mapeos_codificacion.json"
]

for archivo in archivos_modelado:
    print(f"üìÅ data/03_primary/{archivo}")

print("\n=== CASOS DE USO PARA MODELADO ===")
print("üéØ Modelado de defunciones por regi√≥n y edad:")
print("   - Dataset: dataset_final_modelado_defunciones.csv")
print("   - Features: region, edad, sexo, √©poca del a√±o, d√≠a de la semana")
print("   - Objetivo: Predecir patrones de mortalidad")

print("\nüéØ An√°lisis de tendencias temporales:")
print("   - Dataset: dataset_tendencias_temporales.csv")
print("   - Features: promedios m√≥viles, tendencias lineales, volatilidad")
print("   - Objetivo: Predecir nacimientos/defunciones futuras")

print("\nüéØ An√°lisis estacional:")
print("   - Features: mes_sin/cos, d√≠a_semana_sin/cos, √©poca del a√±o")
print("   - Objetivo: Identificar patrones estacionales")

print("\n‚úÖ Preparaci√≥n para modelado completada exitosamente")

=== RESUMEN FINAL DE LA PREPARACI√ìN PARA MODELADO ===
üìã Datasets creados para diferentes tipos de an√°lisis:

DATASET_FINAL_MODELADO:
   Dimensiones: (1246037, 23)
   Per√≠odo temporal: 2014 - 2024
   Columnas: 23

DATASET_TENDENCIAS:
   Dimensiones: (50, 39)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 39

DATASET_MODELADO:
   Dimensiones: (1246037, 37)
   Per√≠odo temporal: 2014 - 2024
   Columnas: 37

DATASET_EXTENDIDO:
   Dimensiones: (10, 35)
   Per√≠odo temporal: 2014 - 2023
   Columnas: 35

DATASET_UNIFICADO:
   Dimensiones: (50, 23)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 23

=== FEATURES CREADAS PARA MODELADO ===
ÔøΩÔøΩ Variables categ√≥ricas codificadas:
  ‚úÖ region_codificada
  ‚úÖ sexo_codificado
  ‚úÖ rango_edad_codificado
  ‚úÖ categoria_diagnostico_codificada
  ‚úÖ epoca_a√±o_codificada

üîÑ Features temporales c√≠clicos:
  ‚úÖ mes_sin
  ‚úÖ mes_cos
  ‚úÖ dia_a√±o_sin
  ‚úÖ dia_a√±o_cos
  ‚úÖ trimestre_sin
  ‚úÖ trimestre_cos
  ‚úÖ dia_semana_sin
  ‚úÖ dia

In [56]:
# 8.6 Normalizaci√≥n de escalas para comparaciones entre variables

print("=== NORMALIZACI√ìN DE ESCALAS ===")

# Importar librer√≠as para normalizaci√≥n
from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustScaler

print("üìä Normalizando escalas para comparaciones entre variables...")

# 1. Identificar variables que necesitan normalizaci√≥n
print("\nüîç Identificando variables para normalizaci√≥n...")

# Variables num√©ricas en el dataset de modelado
variables_numericas_modelado = dataset_final_modelado.select_dtypes(include=[np.number]).columns.tolist()
print(f"Variables num√©ricas en dataset de modelado: {len(variables_numericas_modelado)}")
print(f"Variables: {variables_numericas_modelado}")

# Variables num√©ricas en el dataset de tendencias
variables_numericas_tendencias = dataset_tendencias.select_dtypes(include=[np.number]).columns.tolist()
print(f"\nVariables num√©ricas en dataset de tendencias: {len(variables_numericas_tendencias)}")

# 2. Normalizaci√≥n del dataset de modelado
print("\nüìä Normalizando dataset de modelado...")

# Crear copia para normalizaci√≥n
dataset_modelado_normalizado = dataset_final_modelado.copy()

# Variables a normalizar (excluir c√≥digos categ√≥ricos que ya est√°n normalizados)
variables_a_normalizar_modelado = [col for col in variables_numericas_modelado 
                                 if col not in ['region_codificada', 'sexo_codificado', 'rango_edad_codificado', 
                                               'categoria_diagnostico_codificada', 'dia_semana_codificado', 
                                               'epoca_a√±o_codificada', 'es_fin_semana', 'es_invierno', 'es_verano']]

print(f"Variables a normalizar en modelado: {variables_a_normalizar_modelado}")

# Aplicar StandardScaler (media=0, desviaci√≥n=1)
scaler_modelado = StandardScaler()
dataset_modelado_normalizado[variables_a_normalizar_modelado] = scaler_modelado.fit_transform(
    dataset_modelado_normalizado[variables_a_normalizar_modelado]
)

print("‚úÖ Dataset de modelado normalizado con StandardScaler")

# 3. Normalizaci√≥n del dataset de tendencias
print("\nüìä Normalizando dataset de tendencias...")

# Crear copia para normalizaci√≥n
dataset_tendencias_normalizado = dataset_tendencias.copy()

# Variables a normalizar (excluir a√±o y variables ya normalizadas)
variables_a_normalizar_tendencias = [col for col in variables_numericas_tendencias 
                                   if col not in ['a√±o'] and not col.endswith('_codificado')]

print(f"Variables a normalizar en tendencias: {len(variables_a_normalizar_tendencias)}")

# Aplicar diferentes tipos de normalizaci√≥n
# StandardScaler para la mayor√≠a de variables
scaler_tendencias_std = StandardScaler()
dataset_tendencias_normalizado[variables_a_normalizar_tendencias] = scaler_tendencias_std.fit_transform(
    dataset_tendencias_normalizado[variables_a_normalizar_tendencias]
)

print("‚úÖ Dataset de tendencias normalizado con StandardScaler")

# 4. Crear versiones con diferentes tipos de normalizaci√≥n para comparaci√≥n
print("\nüìä Creando versiones con diferentes tipos de normalizaci√≥n...")

# MinMaxScaler (escala 0-1)
dataset_tendencias_minmax = dataset_tendencias.copy()
scaler_minmax = MinMaxScaler()
dataset_tendencias_minmax[variables_a_normalizar_tendencias] = scaler_minmax.fit_transform(
    dataset_tendencias_minmax[variables_a_normalizar_tendencias]
)

# RobustScaler (resistente a outliers)
dataset_tendencias_robust = dataset_tendencias.copy()
scaler_robust = RobustScaler()
dataset_tendencias_robust[variables_a_normalizar_tendencias] = scaler_robust.fit_transform(
    dataset_tendencias_robust[variables_a_normalizar_tendencias]
)

print("‚úÖ Versiones creadas con MinMaxScaler y RobustScaler")

# 5. Mostrar comparaci√≥n de escalas antes y despu√©s
print("\nüìä Comparaci√≥n de escalas antes y despu√©s de normalizaci√≥n:")
print("Variables principales en dataset de tendencias:")

variables_principales = ['nacimientos_totales', 'defunciones_totales', 'crecimiento_natural', 'ratio_nacimientos_sexo']

for var in variables_principales:
    if var in dataset_tendencias.columns:
        print(f"\n{var.upper()}:")
        print(f"  Original - Min: {dataset_tendencias[var].min():.2f}, Max: {dataset_tendencias[var].max():.2f}, Media: {dataset_tendencias[var].mean():.2f}")
        print(f"  StandardScaler - Min: {dataset_tendencias_normalizado[var].min():.2f}, Max: {dataset_tendencias_normalizado[var].max():.2f}, Media: {dataset_tendencias_normalizado[var].mean():.2f}")
        print(f"  MinMaxScaler - Min: {dataset_tendencias_minmax[var].min():.2f}, Max: {dataset_tendencias_minmax[var].max():.2f}, Media: {dataset_tendencias_minmax[var].mean():.2f}")
        print(f"  RobustScaler - Min: {dataset_tendencias_robust[var].min():.2f}, Max: {dataset_tendencias_robust[var].max():.2f}, Media: {dataset_tendencias_robust[var].mean():.2f}")

print(f"\nüìä Datasets normalizados creados:")
print(f"  - dataset_modelado_normalizado: {dataset_modelado_normalizado.shape}")
print(f"  - dataset_tendencias_normalizado: {dataset_tendencias_normalizado.shape}")
print(f"  - dataset_tendencias_minmax: {dataset_tendencias_minmax.shape}")
print(f"  - dataset_tendencias_robust: {dataset_tendencias_robust.shape}")


=== NORMALIZACI√ìN DE ESCALAS ===
üìä Normalizando escalas para comparaciones entre variables...

üîç Identificando variables para normalizaci√≥n...
Variables num√©ricas en dataset de modelado: 22
Variables: ['a√±o', 'edad_cantidad', 'region_codificada', 'sexo_codificado', 'rango_edad_codificado', 'categoria_diagnostico_codificada', 'mes', 'trimestre', 'dia_a√±o', 'mes_sin', 'mes_cos', 'dia_a√±o_sin', 'dia_a√±o_cos', 'trimestre_sin', 'trimestre_cos', 'dia_semana_sin', 'dia_semana_cos', 'es_fin_semana', 'es_invierno', 'es_verano', 'trimestre_fiscal', 'epoca_a√±o_codificada']

Variables num√©ricas en dataset de tendencias: 39

üìä Normalizando dataset de modelado...
Variables a normalizar en modelado: ['a√±o', 'edad_cantidad', 'mes', 'trimestre', 'dia_a√±o', 'mes_sin', 'mes_cos', 'dia_a√±o_sin', 'dia_a√±o_cos', 'trimestre_sin', 'trimestre_cos', 'dia_semana_sin', 'dia_semana_cos', 'trimestre_fiscal']
‚úÖ Dataset de modelado normalizado con StandardScaler

üìä Normalizando dataset de t

In [57]:
# 8.7 Guardar datasets normalizados (CORREGIDO)

print("=== GUARDANDO DATASETS NORMALIZADOS ===")

# CORRECCI√ìN: Usar carpeta 03_primary
carpeta_normalizados = r"C:\ProyectoML2\proyecto-ml\data\03_primary"

# Guardar datasets normalizados
ruta_modelado_normalizado = os.path.join(carpeta_normalizados, "dataset_modelado_defunciones_normalizado.csv")
dataset_modelado_normalizado.to_csv(ruta_modelado_normalizado, index=False)
print(f"‚úÖ Dataset de modelado normalizado guardado: {ruta_modelado_normalizado}")

ruta_tendencias_normalizado = os.path.join(carpeta_normalizados, "dataset_tendencias_normalizado.csv")
dataset_tendencias_normalizado.to_csv(ruta_tendencias_normalizado, index=False)
print(f"‚úÖ Dataset de tendencias normalizado guardado: {ruta_tendencias_normalizado}")

ruta_tendencias_minmax = os.path.join(carpeta_normalizados, "dataset_tendencias_minmax.csv")
dataset_tendencias_minmax.to_csv(ruta_tendencias_minmax, index=False)
print(f"‚úÖ Dataset de tendencias MinMax guardado: {ruta_tendencias_minmax}")

ruta_tendencias_robust = os.path.join(carpeta_normalizados, "dataset_tendencias_robust.csv")
dataset_tendencias_robust.to_csv(ruta_tendencias_robust, index=False)
print(f"‚úÖ Dataset de tendencias Robust guardado: {ruta_tendencias_robust}")

# Guardar scalers para uso posterior
import pickle

# Guardar scalers
scalers_info = {
    'scaler_modelado': scaler_modelado,
    'scaler_tendencias_std': scaler_tendencias_std,
    'scaler_minmax': scaler_minmax,
    'scaler_robust': scaler_robust,
    'variables_modelado': variables_a_normalizar_modelado,
    'variables_tendencias': variables_a_normalizar_tendencias
}

ruta_scalers = os.path.join(carpeta_normalizados, "scalers_normalizacion.pkl")
with open(ruta_scalers, 'wb') as f:
    pickle.dump(scalers_info, f)
print(f"‚úÖ Scalers guardados: {ruta_scalers}")

# Verificar archivos guardados
archivos_normalizados = [
    ruta_modelado_normalizado,
    ruta_tendencias_normalizado,
    ruta_tendencias_minmax,
    ruta_tendencias_robust,
    ruta_scalers
]

print(f"\nÔøΩÔøΩ Verificando archivos normalizados:")
for archivo in archivos_normalizados:
    if os.path.exists(archivo):
        tama√±o = os.path.getsize(archivo) / (1024*1024)
        print(f"  ‚úÖ {os.path.basename(archivo)}: {tama√±o:.2f} MB")
    else:
        print(f"  ‚ùå {os.path.basename(archivo)}: No encontrado")

print(f"\nÔøΩÔøΩ RESUMEN DE ARCHIVOS NORMALIZADOS:")
print(f"‚úÖ Todos los archivos guardados en: {carpeta_normalizados}")
print(f"‚úÖ 4 datasets normalizados + 1 archivo de scalers")

print("\n‚úÖ Normalizaci√≥n de escalas completada")

=== GUARDANDO DATASETS NORMALIZADOS ===
‚úÖ Dataset de modelado normalizado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_modelado_defunciones_normalizado.csv
‚úÖ Dataset de tendencias normalizado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_tendencias_normalizado.csv
‚úÖ Dataset de tendencias MinMax guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_tendencias_minmax.csv
‚úÖ Dataset de tendencias Robust guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_tendencias_robust.csv
‚úÖ Scalers guardados: C:\ProyectoML2\proyecto-ml\data\03_primary\scalers_normalizacion.pkl

ÔøΩÔøΩ Verificando archivos normalizados:
  ‚úÖ dataset_modelado_defunciones_normalizado.csv: 364.55 MB
  ‚úÖ dataset_tendencias_normalizado.csv: 0.03 MB
  ‚úÖ dataset_tendencias_minmax.csv: 0.03 MB
  ‚úÖ dataset_tendencias_robust.csv: 0.03 MB
  ‚úÖ scalers_normalizacion.pkl: 0.01 MB

ÔøΩÔøΩ RESUMEN DE ARCHIVOS NORMALIZADOS:
‚úÖ Todos los archivos guardados en: C:\Proyecto

In [58]:
# 8.9 Actualizar resumen final con normalizaci√≥n (CORREGIDO)

print("=== RESUMEN FINAL ACTUALIZADO CON NORMALIZACI√ìN ===")

# Actualizar resumen de datasets creados
datasets_finales_completos = {
    "dataset_final_modelado": dataset_final_modelado,
    "dataset_modelado_normalizado": dataset_modelado_normalizado,
    "dataset_tendencias": dataset_tendencias,
    "dataset_tendencias_normalizado": dataset_tendencias_normalizado,
    "dataset_tendencias_minmax": dataset_tendencias_minmax,
    "dataset_tendencias_robust": dataset_tendencias_robust,
    "dataset_extendido": dataset_extendido,
    "dataset_unificado": dataset_unificado
}

print("üìã Datasets finales creados (incluyendo versiones normalizadas):")
for nombre_dataset, df in datasets_finales_completos.items():
    print(f"\n{nombre_dataset.upper()}:")
    print(f"   Dimensiones: {df.shape}")
    print(f"   Per√≠odo temporal: {df['a√±o'].min()} - {df['a√±o'].max()}")
    print(f"   Columnas: {len(df.columns)}")

print("\n=== TIPOS DE NORMALIZACI√ìN IMPLEMENTADOS ===")

print("üìä StandardScaler (media=0, desviaci√≥n=1):")
print("   ‚úÖ dataset_modelado_normalizado")
print("   ‚úÖ dataset_tendencias_normalizado")
print("   üéØ Uso: Algoritmos que asumen distribuci√≥n normal (regresi√≥n lineal, SVM)")

print("\nüìä MinMaxScaler (escala 0-1):")
print("   ‚úÖ dataset_tendencias_minmax")
print("   üéØ Uso: Algoritmos sensibles a la escala (redes neuronales, k-means)")

print("\nüìä RobustScaler (resistente a outliers):")
print("   ‚úÖ dataset_tendencias_robust")
print("   üéØ Uso: Datos con outliers significativos")

print("\n=== ARCHIVOS GENERADOS COMPLETOS ===")
# CORRECCI√ìN: Usar rutas correctas
archivos_completos = [
    "dataset_final_modelado_defunciones.csv",
    "dataset_modelado_defunciones_normalizado.csv",
    "dataset_tendencias_temporales.csv",
    "dataset_tendencias_normalizado.csv",
    "dataset_tendencias_minmax.csv",
    "dataset_tendencias_robust.csv",
    "mapeos_codificacion.json",
    "scalers_normalizacion.pkl"
]

for archivo in archivos_completos:
    print(f"ÔøΩÔøΩ data/03_primary/{archivo}")

print("\n=== BENEFICIOS DE LA NORMALIZACI√ìN ===")
print("‚úÖ Comparaciones justas entre variables de diferentes magnitudes")
print("‚úÖ Mejor rendimiento en algoritmos de Machine Learning")
print("‚úÖ Reducci√≥n del sesgo hacia variables con escalas mayores")
print("‚úÖ Facilita la interpretaci√≥n de coeficientes en modelos")
print("‚úÖ Mejora la convergencia en algoritmos iterativos")

print("\n=== RECOMENDACIONES DE USO ===")
print("ÔøΩÔøΩ Para regresi√≥n lineal y SVM: usar StandardScaler")
print("üéØ Para redes neuronales: usar MinMaxScaler")
print("üéØ Para datos con outliers: usar RobustScaler")
print("ÔøΩÔøΩ Para comparaciones visuales: usar MinMaxScaler")

print("\n‚úÖ Preparaci√≥n completa para modelado con normalizaci√≥n terminada")


=== RESUMEN FINAL ACTUALIZADO CON NORMALIZACI√ìN ===
üìã Datasets finales creados (incluyendo versiones normalizadas):

DATASET_FINAL_MODELADO:
   Dimensiones: (1246037, 23)
   Per√≠odo temporal: 2014 - 2024
   Columnas: 23

DATASET_MODELADO_NORMALIZADO:
   Dimensiones: (1246037, 23)
   Per√≠odo temporal: -1.6796752733960778 - 1.56487523619281
   Columnas: 23

DATASET_TENDENCIAS:
   Dimensiones: (50, 39)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 39

DATASET_TENDENCIAS_NORMALIZADO:
   Dimensiones: (50, 39)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 39

DATASET_TENDENCIAS_MINMAX:
   Dimensiones: (50, 39)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 39

DATASET_TENDENCIAS_ROBUST:
   Dimensiones: (50, 39)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 39

DATASET_EXTENDIDO:
   Dimensiones: (10, 35)
   Per√≠odo temporal: 2014 - 2023
   Columnas: 35

DATASET_UNIFICADO:
   Dimensiones: (50, 23)
   Per√≠odo temporal: 1974 - 2023
   Columnas: 23

=== TIPOS DE NORMALIZACI√ìN IMPLEMEN

## 9. Manejo Avanzado de C√≥digos CIE-10

Esta secci√≥n se enfoca en validar y mejorar el manejo de c√≥digos de diagn√≥stico CIE-10 para an√°lisis m√°s robustos.


In [59]:
# 9.1 Validaci√≥n de c√≥digos CIE-10

print("=== VALIDACI√ìN DE C√ìDIGOS CIE-10 ===")

# Analizar c√≥digos de diagn√≥stico en el dataset
print("üîç Analizando c√≥digos de diagn√≥stico...")

# Obtener c√≥digos √∫nicos
codigos_unicos = defunciones_estandarizado['codigo_diagnostico'].unique()
print(f"üìä Total de c√≥digos √∫nicos encontrados: {len(codigos_unicos)}")

# Mostrar algunos ejemplos
print(f"\nüìã Primeros 10 c√≥digos encontrados:")
for i, codigo in enumerate(sorted(codigos_unicos)[:10]):
    print(f"  {i+1:2d}. {codigo}")

# Analizar patrones de c√≥digos
print(f"\nüîç An√°lisis de patrones de c√≥digos:")

# C√≥digos que empiezan con letras (c√≥digos CIE-10 v√°lidos)
codigos_con_letra = [codigo for codigo in codigos_unicos if pd.notna(codigo) and str(codigo)[0].isalpha()]
print(f"  C√≥digos que empiezan con letra: {len(codigos_con_letra)}")

# C√≥digos que empiezan con n√∫meros
codigos_con_numero = [codigo for codigo in codigos_unicos if pd.notna(codigo) and str(codigo)[0].isdigit()]
print(f"  C√≥digos que empiezan con n√∫mero: {len(codigos_con_numero)}")

# C√≥digos nulos o vac√≠os
codigos_nulos = [codigo for codigo in codigos_unicos if pd.isna(codigo)]
print(f"  C√≥digos nulos: {len(codigos_nulos)}")

# C√≥digos con formato extra√±o
codigos_raros = [codigo for codigo in codigos_unicos if pd.notna(codigo) and not str(codigo)[0].isalnum()]
print(f"  C√≥digos con formato extra√±o: {len(codigos_raros)}")

if len(codigos_raros) > 0:
    print(f"    Ejemplos: {codigos_raros[:5]}")

# Verificar c√≥digos CIE-10 v√°lidos
print(f"\n‚úÖ Validaci√≥n de c√≥digos CIE-10:")
letras_validas_cie10 = ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z']

codigos_validos = []
codigos_invalidos = []

for codigo in codigos_con_letra:
    if str(codigo)[0] in letras_validas_cie10:
        codigos_validos.append(codigo)
    else:
        codigos_invalidos.append(codigo)

print(f"  C√≥digos CIE-10 v√°lidos: {len(codigos_validos)}")
print(f"  C√≥digos CIE-10 inv√°lidos: {len(codigos_invalidos)}")

if len(codigos_invalidos) > 0:
    print(f"    C√≥digos inv√°lidos: {codigos_invalidos[:5]}")

# Mostrar distribuci√≥n por letra inicial
print(f"\nüìä Distribuci√≥n por letra inicial:")
distribucion_letras = {}
for codigo in codigos_validos:
    letra = str(codigo)[0]
    distribucion_letras[letra] = distribucion_letras.get(letra, 0) + 1

for letra in sorted(distribucion_letras.keys()):
    print(f"  {letra}: {distribucion_letras[letra]:,} c√≥digos")


=== VALIDACI√ìN DE C√ìDIGOS CIE-10 ===
üîç Analizando c√≥digos de diagn√≥stico...
üìä Total de c√≥digos √∫nicos encontrados: 20

üìã Primeros 10 c√≥digos encontrados:
   1. A00-B99
   2. C00-D48
   3. D50-D89
   4. E00-E90
   5. F00-F99
   6. G00-G99
   7. H00-H59
   8. H60-H95
   9. I00-I99
  10. J00-J99

üîç An√°lisis de patrones de c√≥digos:
  C√≥digos que empiezan con letra: 20
  C√≥digos que empiezan con n√∫mero: 0
  C√≥digos nulos: 0
  C√≥digos con formato extra√±o: 0

‚úÖ Validaci√≥n de c√≥digos CIE-10:
  C√≥digos CIE-10 v√°lidos: 20
  C√≥digos CIE-10 inv√°lidos: 0

üìä Distribuci√≥n por letra inicial:
  A: 1 c√≥digos
  C: 1 c√≥digos
  D: 1 c√≥digos
  E: 1 c√≥digos
  F: 1 c√≥digos
  G: 1 c√≥digos
  H: 2 c√≥digos
  I: 1 c√≥digos
  J: 1 c√≥digos
  K: 1 c√≥digos
  L: 1 c√≥digos
  M: 1 c√≥digos
  N: 1 c√≥digos
  O: 1 c√≥digos
  P: 1 c√≥digos
  Q: 1 c√≥digos
  R: 1 c√≥digos
  S: 1 c√≥digos
  U: 1 c√≥digos


In [60]:
# 9.2 Mejorar categorizaci√≥n de c√≥digos CIE-10

print("=== MEJORA DE CATEGORIZACI√ìN CIE-10 ===")

# Crear funci√≥n mejorada de categorizaci√≥n
def categorizar_diagnostico_mejorado(codigo):
    """
    Categoriza c√≥digos CIE-10 en grupos principales mejorados
    """
    if pd.isna(codigo):
        return 'desconocido'
    
    codigo_str = str(codigo).upper()
    
    # Categor√≠as principales mejoradas basadas en CIE-10
    if codigo_str.startswith(('A', 'B')):
        return 'enfermedades_infecciosas_parasitarias'
    elif codigo_str.startswith(('C', 'D')):
        return 'neoplasias_hematologicas'
    elif codigo_str.startswith('E'):
        return 'enfermedades_endocrinas_nutricionales'
    elif codigo_str.startswith('F'):
        return 'enfermedades_mentales_conductuales'
    elif codigo_str.startswith('G'):
        return 'enfermedades_sistema_nervioso'
    elif codigo_str.startswith('H'):
        return 'enfermedades_ojos_oidos'
    elif codigo_str.startswith('I'):
        return 'enfermedades_cardiovasculares'
    elif codigo_str.startswith('J'):
        return 'enfermedades_respiratorias'
    elif codigo_str.startswith('K'):
        return 'enfermedades_digestivas'
    elif codigo_str.startswith('L'):
        return 'enfermedades_piel_tejido_subcutaneo'
    elif codigo_str.startswith('M'):
        return 'enfermedades_musculoesqueleticas'
    elif codigo_str.startswith('N'):
        return 'enfermedades_genitourinarias'
    elif codigo_str.startswith('O'):
        return 'complicaciones_embarazo_parto'
    elif codigo_str.startswith('P'):
        return 'afecciones_perinatales'
    elif codigo_str.startswith('Q'):
        return 'malformaciones_congenitas'
    elif codigo_str.startswith('R'):
        return 'sintomas_signos_anormales'
    elif codigo_str.startswith(('S', 'T')):
        return 'traumatismos_envenenamientos'
    elif codigo_str.startswith('U'):
        return 'causas_externas_especiales'
    elif codigo_str.startswith(('V', 'W', 'X', 'Y')):
        return 'causas_externas_accidentes'
    elif codigo_str.startswith('Z'):
        return 'factores_influencia_salud'
    else:
        return 'otros_no_clasificados'

# Aplicar categorizaci√≥n mejorada
print("üîß Aplicando categorizaci√≥n mejorada...")
defunciones_estandarizado['categoria_diagnostico_mejorada'] = defunciones_estandarizado['codigo_diagnostico'].apply(categorizar_diagnostico_mejorado)

# Mostrar distribuci√≥n de categor√≠as mejoradas
print(f"\nüìä Distribuci√≥n de categor√≠as mejoradas:")
distribucion_categorias = defunciones_estandarizado['categoria_diagnostico_mejorada'].value_counts()
for categoria, cantidad in distribucion_categorias.items():
    porcentaje = (cantidad / len(defunciones_estandarizado)) * 100
    print(f"  {categoria:35s}: {cantidad:8,} ({porcentaje:5.1f}%)")

# Identificar categor√≠as con pocos casos
print(f"\nüîç Categor√≠as con pocos casos (<1% del total):")
total_registros = len(defunciones_estandarizado)
categorias_pocos_casos = distribucion_categorias[distribucion_categorias < total_registros * 0.01]

if len(categorias_pocos_casos) > 0:
    for categoria, cantidad in categorias_pocos_casos.items():
        porcentaje = (cantidad / total_registros) * 100
        print(f"  {categoria:35s}: {cantidad:8,} ({porcentaje:5.1f}%)")
else:
    print("  ‚úÖ Todas las categor√≠as tienen al menos 1% de los casos")

# Crear categor√≠as de alto nivel (agrupaci√≥n adicional)
print(f"\nüìä Creando categor√≠as de alto nivel...")

def crear_categoria_alto_nivel(categoria_detallada):
    """
    Crea categor√≠as de alto nivel agrupando categor√≠as similares
    """
    mapeo_alto_nivel = {
        'enfermedades_infecciosas_parasitarias': 'enfermedades_infecciosas',
        'neoplasias_hematologicas': 'cancer_neoplasias',
        'enfermedades_endocrinas_nutricionales': 'enfermedades_cronicas',
        'enfermedades_mentales_conductuales': 'salud_mental',
        'enfermedades_sistema_nervioso': 'enfermedades_neurologicas',
        'enfermedades_ojos_oidos': 'enfermedades_sentidos',
        'enfermedades_cardiovasculares': 'enfermedades_cardiovasculares',
        'enfermedades_respiratorias': 'enfermedades_respiratorias',
        'enfermedades_digestivas': 'enfermedades_digestivas',
        'enfermedades_piel_tejido_subcutaneo': 'enfermedades_piel',
        'enfermedades_musculoesqueleticas': 'enfermedades_musculoesqueleticas',
        'enfermedades_genitourinarias': 'enfermedades_genitourinarias',
        'complicaciones_embarazo_parto': 'complicaciones_embarazo',
        'afecciones_perinatales': 'afecciones_perinatales',
        'malformaciones_congenitas': 'malformaciones_congenitas',
        'sintomas_signos_anormales': 'sintomas_no_especificados',
        'traumatismos_envenenamientos': 'traumatismos_accidentes',
        'causas_externas_especiales': 'causas_externas',
        'causas_externas_accidentes': 'causas_externas',
        'factores_influencia_salud': 'factores_salud',
        'otros_no_clasificados': 'otros',
        'desconocido': 'desconocido'
    }
    
    return mapeo_alto_nivel.get(categoria_detallada, 'otros')

# Aplicar categorizaci√≥n de alto nivel
defunciones_estandarizado['categoria_alto_nivel'] = defunciones_estandarizado['categoria_diagnostico_mejorada'].apply(crear_categoria_alto_nivel)

# Mostrar distribuci√≥n de categor√≠as de alto nivel
print(f"\nüìä Distribuci√≥n de categor√≠as de alto nivel:")
distribucion_alto_nivel = defunciones_estandarizado['categoria_alto_nivel'].value_counts()
for categoria, cantidad in distribucion_alto_nivel.items():
    porcentaje = (cantidad / len(defunciones_estandarizado)) * 100
    print(f"  {categoria:25s}: {cantidad:8,} ({porcentaje:5.1f}%)")

print(f"\n‚úÖ Categorizaci√≥n mejorada completada")


=== MEJORA DE CATEGORIZACI√ìN CIE-10 ===
üîß Aplicando categorizaci√≥n mejorada...

üìä Distribuci√≥n de categor√≠as mejoradas:
  enfermedades_cardiovasculares      :  314,610 ( 25.2%)
  neoplasias_hematologicas           :  308,859 ( 24.8%)
  enfermedades_respiratorias         :  129,914 ( 10.4%)
  enfermedades_digestivas            :   89,496 (  7.2%)
  traumatismos_envenenamientos       :   84,968 (  6.8%)
  causas_externas_especiales         :   57,783 (  4.6%)
  enfermedades_endocrinas_nutricionales:   56,280 (  4.5%)
  enfermedades_sistema_nervioso      :   47,920 (  3.8%)
  enfermedades_genitourinarias       :   37,398 (  3.0%)
  sintomas_signos_anormales          :   34,995 (  2.8%)
  enfermedades_infecciosas_parasitarias:   26,605 (  2.1%)
  enfermedades_mentales_conductuales :   26,146 (  2.1%)
  enfermedades_piel_tejido_subcutaneo:    8,324 (  0.7%)
  malformaciones_congenitas          :    8,230 (  0.7%)
  enfermedades_musculoesqueleticas   :    7,146 (  0.6%)
  afeccione

## 10. Creaci√≥n de √çndices para Consultas R√°pidas

Esta secci√≥n se enfoca en crear √≠ndices en los datasets principales para acelerar consultas futuras.


In [61]:
# 10.1 Crear √≠ndices en datasets principales (CORREGIDO)

print("=== CREACI√ìN DE √çNDICES PARA CONSULTAS R√ÅPIDAS ===")

# Funci√≥n para crear √≠ndices en un dataset
def crear_indices_dataset(df, nombre_dataset):
    """
    Crea √≠ndices en un dataset para acelerar consultas comunes
    NOTA: En pandas, los √≠ndices son temporales y no persisten en CSV
    """
    print(f"\nÔøΩÔøΩ Preparando √≠ndices para {nombre_dataset}...")
    
    # Crear copia para trabajar
    df_indexado = df.copy()
    
    # Verificar columnas disponibles
    columnas_disponibles = df_indexado.columns.tolist()
    print(f"  Columnas disponibles: {len(columnas_disponibles)}")
    
    # Crear √≠ndices compuestos √∫tiles (sin resetear)
    indices_creados = []
    
    # √çndice por a√±o (m√°s com√∫n)
    if 'a√±o' in columnas_disponibles:
        df_indexado = df_indexado.set_index('a√±o')
        indices_creados.append('a√±o')
        print(f"  ‚úÖ √çndice creado: a√±o")
    
    # √çndices espec√≠ficos para dataset de defunciones
    if 'region' in columnas_disponibles and 'a√±o' in columnas_disponibles:
        df_indexado = df_indexado.reset_index()  # Resetear para crear √≠ndice compuesto
        df_indexado = df_indexado.set_index(['a√±o', 'region'])
        indices_creados.append('a√±o-regi√≥n')
        print(f"  ‚úÖ √çndice compuesto creado: a√±o-regi√≥n")
    
    if 'sexo' in columnas_disponibles and 'a√±o' in columnas_disponibles:
        df_indexado = df_indexado.reset_index()
        df_indexado = df_indexado.set_index(['a√±o', 'sexo'])
        indices_creados.append('a√±o-sexo')
        print(f"  ‚úÖ √çndice compuesto creado: a√±o-sexo")
    
    if 'fecha_defuncion' in columnas_disponibles:
        df_indexado = df_indexado.reset_index()
        df_indexado = df_indexado.set_index('fecha_defuncion')
        indices_creados.append('fecha_defuncion')
        print(f"  ‚úÖ √çndice creado: fecha_defuncion")
    
    print(f"  üìã √çndices creados: {indices_creados}")
    return df_indexado

# Crear √≠ndices en datasets principales
print("üîß Aplicando √≠ndices a datasets principales...")

# 1. Dataset unificado temporal
dataset_unificado_indexado = crear_indices_dataset(dataset_unificado, "dataset_unificado")

# 2. Dataset extendido
dataset_extendido_indexado = crear_indices_dataset(dataset_extendido, "dataset_extendido")

# 3. Dataset de defunciones detalladas
dataset_defunciones_indexado = crear_indices_dataset(defunciones_estandarizado, "defunciones_estandarizado")

# 4. Dataset de tendencias
dataset_tendencias_indexado = crear_indices_dataset(dataset_tendencias, "dataset_tendencias")

# 5. Dataset de modelado
dataset_modelado_indexado = crear_indices_dataset(dataset_final_modelado, "dataset_modelado")

print(f"\n‚úÖ √çndices creados en todos los datasets principales")

# Mostrar informaci√≥n de √≠ndices creados
datasets_indexados = {
    "dataset_unificado_indexado": dataset_unificado_indexado,
    "dataset_extendido_indexado": dataset_extendido_indexado,
    "dataset_defunciones_indexado": dataset_defunciones_indexado,
    "dataset_tendencias_indexado": dataset_tendencias_indexado,
    "dataset_modelado_indexado": dataset_modelado_indexado
}

print(f"\nüìã Resumen de datasets indexados:")
for nombre, df in datasets_indexados.items():
    print(f"  {nombre}: {df.shape}")
    print(f"    √çndice: {df.index.name if hasattr(df.index, 'name') else 'MultiIndex' if isinstance(df.index, pd.MultiIndex) else 'RangeIndex'}")

# NOTA IMPORTANTE
print(f"\n‚ö†Ô∏è NOTA IMPORTANTE:")
print(f"Los √≠ndices de pandas son temporales y no persisten al guardar en CSV.")
print(f"Para √≠ndices persistentes, se necesitar√≠a una base de datos (SQLite, PostgreSQL, etc.)")
print(f"Los √≠ndices actuales mejoran el rendimiento de consultas en memoria.")

=== CREACI√ìN DE √çNDICES PARA CONSULTAS R√ÅPIDAS ===
üîß Aplicando √≠ndices a datasets principales...

ÔøΩÔøΩ Preparando √≠ndices para dataset_unificado...
  Columnas disponibles: 23
  ‚úÖ √çndice creado: a√±o
  üìã √çndices creados: ['a√±o']

ÔøΩÔøΩ Preparando √≠ndices para dataset_extendido...
  Columnas disponibles: 35
  ‚úÖ √çndice creado: a√±o
  üìã √çndices creados: ['a√±o']

ÔøΩÔøΩ Preparando √≠ndices para defunciones_estandarizado...
  Columnas disponibles: 19
  ‚úÖ √çndice creado: a√±o
  ‚úÖ √çndice compuesto creado: a√±o-regi√≥n
  ‚úÖ √çndice compuesto creado: a√±o-sexo
  ‚úÖ √çndice creado: fecha_defuncion
  üìã √çndices creados: ['a√±o', 'a√±o-regi√≥n', 'a√±o-sexo', 'fecha_defuncion']

ÔøΩÔøΩ Preparando √≠ndices para dataset_tendencias...
  Columnas disponibles: 39
  ‚úÖ √çndice creado: a√±o
  üìã √çndices creados: ['a√±o']

ÔøΩÔøΩ Preparando √≠ndices para dataset_modelado...
  Columnas disponibles: 23
  ‚úÖ √çndice creado: a√±o
  ‚úÖ √çndice creado: fecha_defuncion
 

In [63]:
# 10.2 Demostrar beneficios de los √≠ndices con consultas de ejemplo (CORREGIDO)

print("=== DEMOSTRACI√ìN DE BENEFICIOS DE √çNDICES ===")

# Crear funci√≥n para medir tiempo de consulta
import time

def medir_tiempo_consulta(funcion, *args, **kwargs):
    """
    Mide el tiempo de ejecuci√≥n de una consulta
    """
    inicio = time.time()
    resultado = funcion(*args, **kwargs)
    fin = time.time()
    return resultado, fin - inicio

# Ejemplos de consultas comunes que se beneficiar√°n de los √≠ndices
print("üîç Ejemplos de consultas que se beneficiar√°n de los √≠ndices:")

# 1. Consulta por a√±o espec√≠fico (CORREGIDO)
print(f"\nÔøΩÔøΩ Consulta 1: Filtrar por a√±o 2023")

def consulta_por_a√±o_sin_indice(df, a√±o):
    return df[df['a√±o'] == a√±o]

def consulta_por_a√±o_con_indice(df, a√±o):
    # CORRECCI√ìN: Usar el √≠ndice directamente
    return df.loc[a√±o]

# Medir tiempo en dataset sin √≠ndice
resultado_sin_indice, tiempo_sin_indice = medir_tiempo_consulta(consulta_por_a√±o_sin_indice, dataset_unificado, 2023)
print(f"  Dataset sin √≠ndice: {tiempo_sin_indice:.4f} segundos")

# Medir tiempo en dataset con √≠ndice (CORREGIDO)
try:
    resultado_con_indice, tiempo_con_indice = medir_tiempo_consulta(consulta_por_a√±o_con_indice, dataset_unificado_indexado, 2023)
    print(f"  Dataset con √≠ndice: {tiempo_con_indice:.4f} segundos")
    
    if tiempo_sin_indice > 0:
        mejora = ((tiempo_sin_indice - tiempo_con_indice) / tiempo_sin_indice) * 100
        print(f"  Mejora: {mejora:.1f}%")
except KeyError:
    print(f"  Dataset con √≠ndice: A√±o 2023 no encontrado en el √≠ndice")

# 2. Consulta por regi√≥n espec√≠fica (CORREGIDO)
print(f"\nÔøΩÔøΩ Consulta 2: Filtrar por regi√≥n 'Regi√≥n Metropolitana'")

def consulta_por_region(df, region):
    # Verificar si la columna existe
    if 'region' in df.columns:
        return df[df['region'] == region]
    else:
        return pd.DataFrame()  # Retornar DataFrame vac√≠o si no existe la columna

resultado_region, tiempo_region = medir_tiempo_consulta(consulta_por_region, dataset_defunciones_indexado, 'Regi√≥n Metropolitana')
print(f"  Tiempo de consulta por regi√≥n: {tiempo_region:.4f} segundos")
print(f"  Registros encontrados: {len(resultado_region):,}")

# 3. Consulta por rango de edad (CORREGIDO)
print(f"\nüìä Consulta 3: Filtrar por rango de edad '50_mas'")

def consulta_por_edad(df, rango):
    if 'rango_edad' in df.columns:
        return df[df['rango_edad'] == rango]
    else:
        return pd.DataFrame()

resultado_edad, tiempo_edad = medir_tiempo_consulta(consulta_por_edad, dataset_defunciones_indexado, '50_mas')
print(f"  Tiempo de consulta por edad: {tiempo_edad:.4f} segundos")
print(f"  Registros encontrados: {len(resultado_edad):,}")

# 4. Consulta combinada (CORREGIDO)
print(f"\nÔøΩÔøΩ Consulta 4: Filtrar por a√±o 2023 Y regi√≥n 'Regi√≥n Metropolitana'")

def consulta_combinada(df, a√±o, region):
    if 'region' in df.columns:
        return df[(df.index == a√±o) & (df['region'] == region)]
    else:
        return pd.DataFrame()

resultado_combinada, tiempo_combinada = medir_tiempo_consulta(consulta_combinada, dataset_defunciones_indexado, 2023, 'Regi√≥n Metropolitana')
print(f"  Tiempo de consulta combinada: {tiempo_combinada:.4f} segundos")
print(f"  Registros encontrados: {len(resultado_combinada):,}")

print(f"\n‚úÖ Demostraci√≥n de beneficios de √≠ndices completada")

# Mostrar tipos de consultas que se beneficiar√°n
print(f"\nüìã Tipos de consultas que se beneficiar√°n de los √≠ndices:")
consultas_beneficiadas = [
    "Filtrar por a√±o espec√≠fico (usando .loc[])",
    "Filtrar por regi√≥n espec√≠fica", 
    "Filtrar por rango de edad",
    "Filtrar por sexo",
    "Filtrar por categor√≠a de diagn√≥stico",
    "Consultas combinadas (√≠ndice + columna)",
    "Agrupaciones por a√±o (usando √≠ndice)",
    "Agrupaciones por regi√≥n",
    "An√°lisis temporales por per√≠odo"
]

for i, consulta in enumerate(consultas_beneficiadas, 1):
    print(f"  {i:2d}. {consulta}")

print(f"\nÔøΩÔøΩ Beneficios de los √≠ndices:")
print(f"  ‚úÖ Consultas m√°s r√°pidas por a√±o (usando .loc[])")
print(f"  ‚úÖ Mejor rendimiento en an√°lisis temporales")
print(f"  ‚úÖ Agrupaciones m√°s eficientes")
print(f"  ‚úÖ Facilita an√°lisis exploratorios")
print(f"  ‚úÖ Reduce tiempo de procesamiento en modelos")

print(f"\n‚ö†Ô∏è NOTA IMPORTANTE:")
print(f"Cuando se usa set_index(), la columna se convierte en √≠ndice.")
print(f"Para consultas por a√±o, usar: df.loc[a√±o] en lugar de df[df['a√±o'] == a√±o]")


=== DEMOSTRACI√ìN DE BENEFICIOS DE √çNDICES ===
üîç Ejemplos de consultas que se beneficiar√°n de los √≠ndices:

ÔøΩÔøΩ Consulta 1: Filtrar por a√±o 2023
  Dataset sin √≠ndice: 0.0010 segundos
  Dataset con √≠ndice: 0.0000 segundos
  Mejora: 100.0%

ÔøΩÔøΩ Consulta 2: Filtrar por regi√≥n 'Regi√≥n Metropolitana'
  Tiempo de consulta por regi√≥n: 0.1506 segundos
  Registros encontrados: 470,652

üìä Consulta 3: Filtrar por rango de edad '50_mas'
  Tiempo de consulta por edad: 0.0500 segundos
  Registros encontrados: 0

ÔøΩÔøΩ Consulta 4: Filtrar por a√±o 2023 Y regi√≥n 'Regi√≥n Metropolitana'
  Tiempo de consulta combinada: 0.1053 segundos
  Registros encontrados: 0

‚úÖ Demostraci√≥n de beneficios de √≠ndices completada

üìã Tipos de consultas que se beneficiar√°n de los √≠ndices:
   1. Filtrar por a√±o espec√≠fico (usando .loc[])
   2. Filtrar por regi√≥n espec√≠fica
   3. Filtrar por rango de edad
   4. Filtrar por sexo
   5. Filtrar por categor√≠a de diagn√≥stico
   6. Consultas c

In [64]:
# 10.3 Guardar datasets con √≠ndices y resumen final completo (CORREGIDO)

print("=== GUARDANDO DATASETS CON √çNDICES ===")

# CORRECCI√ìN: Usar carpeta 03_primary
carpeta_indexados = r"C:\ProyectoML2\proyecto-ml\data\03_primary"

# Guardar datasets indexados (CON √çNDICES)
ruta_unificado_indexado = os.path.join(carpeta_indexados, "dataset_unificado_indexado.csv")
dataset_unificado_indexado.to_csv(ruta_unificado_indexado, index=True)  # CORRECCI√ìN: index=True
print(f"‚úÖ Dataset unificado indexado guardado: {ruta_unificado_indexado}")

ruta_extendido_indexado = os.path.join(carpeta_indexados, "dataset_extendido_indexado.csv")
dataset_extendido_indexado.to_csv(ruta_extendido_indexado, index=True)
print(f"‚úÖ Dataset extendido indexado guardado: {ruta_extendido_indexado}")

ruta_defunciones_indexado = os.path.join(carpeta_indexados, "dataset_defunciones_indexado.csv")
dataset_defunciones_indexado.to_csv(ruta_defunciones_indexado, index=True)
print(f"‚úÖ Dataset defunciones indexado guardado: {ruta_defunciones_indexado}")

ruta_tendencias_indexado = os.path.join(carpeta_indexados, "dataset_tendencias_indexado.csv")
dataset_tendencias_indexado.to_csv(ruta_tendencias_indexado, index=True)
print(f"‚úÖ Dataset tendencias indexado guardado: {ruta_tendencias_indexado}")

ruta_modelado_indexado = os.path.join(carpeta_indexados, "dataset_modelado_indexado.csv")
dataset_modelado_indexado.to_csv(ruta_modelado_indexado, index=True)
print(f"‚úÖ Dataset modelado indexado guardado: {ruta_modelado_indexado}")

# Guardar dataset con categor√≠as CIE-10 mejoradas
ruta_defunciones_cie10 = os.path.join(carpeta_indexados, "dataset_defunciones_cie10_mejorado.csv")
defunciones_estandarizado.to_csv(ruta_defunciones_cie10, index=False)  # Este no tiene √≠ndices
print(f"‚úÖ Dataset con categor√≠as CIE-10 mejoradas guardado: {ruta_defunciones_cie10}")

# Verificar archivos guardados
archivos_indexados = [
    ruta_unificado_indexado,
    ruta_extendido_indexado,
    ruta_defunciones_indexado,
    ruta_tendencias_indexado,
    ruta_modelado_indexado,
    ruta_defunciones_cie10
]

print(f"\n Verificando archivos indexados:")
for archivo in archivos_indexados:
    if os.path.exists(archivo):
        tama√±o = os.path.getsize(archivo) / (1024*1024)
        print(f"  ‚úÖ {os.path.basename(archivo)}: {tama√±o:.2f} MB")
    else:
        print(f"  ‚ùå {os.path.basename(archivo)}: No encontrado")

print(f"\n‚úÖ Guardado de datasets indexados completado")

# RESUMEN FINAL COMPLETO
print(f"\n=== RESUMEN FINAL COMPLETO DEL PROYECTO ===")

print(f"\nÔøΩÔøΩ DATASETS CREADOS:")
print(f"  ‚úÖ Dataset unificado temporal: 50 a√±os (1974-2023)")
print(f"  ‚úÖ Dataset extendido con edad: 10 a√±os (2014-2023)")
print(f"  ‚úÖ Dataset defunciones detalladas: 1.2M registros (2014-2024)")
print(f"  ‚úÖ Dataset de tendencias: 50 a√±os con variables de tendencia")
print(f"  ‚úÖ Dataset final para modelado: 1.2M registros con 23 features")

print(f"\nüîß FEATURES IMPLEMENTADAS:")
print(f"  ‚úÖ Variables categ√≥ricas codificadas: 5")
print(f"  ‚úÖ Features temporales c√≠clicos: 8")
print(f"  ‚úÖ Features de d√≠as especiales: 4")
print(f"  ‚úÖ Variables de tendencia: 8")
print(f"  ‚úÖ 3 tipos de normalizaci√≥n: StandardScaler, MinMaxScaler, RobustScaler")

print(f"\nüìÅ ARCHIVOS GENERADOS EN 03_PRIMARY:")
print(f"  ‚úÖ 8 datasets para modelado")
print(f"  ‚úÖ 3 tipos de normalizaci√≥n")
print(f"  ‚úÖ Mapeos de codificaci√≥n")
print(f"  ‚úÖ Scalers para normalizaci√≥n")
print(f"  ‚úÖ 5 datasets indexados")

print(f"\nüéØ CASOS DE USO:")
print(f"  ‚úÖ Modelado de defunciones por regi√≥n y edad")
print(f"  ‚úÖ An√°lisis de tendencias temporales")
print(f"  ‚úÖ An√°lisis estacional con features c√≠clicos")
print(f"  ‚úÖ Clasificaci√≥n de causas de muerte")
print(f"  ‚úÖ Predicci√≥n de patrones demogr√°ficos")

print(f"\n‚úÖ PROYECTO DE PREPARACI√ìN DE DATOS COMPLETADO EXITOSAMENTE")

=== GUARDANDO DATASETS CON √çNDICES ===
‚úÖ Dataset unificado indexado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_unificado_indexado.csv
‚úÖ Dataset extendido indexado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_extendido_indexado.csv
‚úÖ Dataset defunciones indexado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_defunciones_indexado.csv
‚úÖ Dataset tendencias indexado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_tendencias_indexado.csv
‚úÖ Dataset modelado indexado guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_modelado_indexado.csv
‚úÖ Dataset con categor√≠as CIE-10 mejoradas guardado: C:\ProyectoML2\proyecto-ml\data\03_primary\dataset_defunciones_cie10_mejorado.csv

 Verificando archivos indexados:
  ‚úÖ dataset_unificado_indexado.csv: 0.01 MB
  ‚úÖ dataset_extendido_indexado.csv: 0.00 MB
  ‚úÖ dataset_defunciones_indexado.csv: 244.28 MB
  ‚úÖ dataset_tendencias_indexado.csv: 0.02 MB
  ‚úÖ dataset_modelad

In [65]:
# 10.4 Resumen final completo del proyecto

print("=== RESUMEN FINAL COMPLETO DEL PROYECTO ===")

print(f"\nüìä RESUMEN DE TODAS LAS TAREAS COMPLETADAS:")

tareas_completadas = [
    "‚úÖ 1. Limpieza cr√≠tica del dataset defunciones_filtradas",
    "‚úÖ 2. Estandarizaci√≥n de nombres de columnas", 
    "‚úÖ 3. Validaci√≥n de rangos de edad",
    "‚úÖ 4. Integraci√≥n de datasets",
    "‚úÖ 5. Validaci√≥n de consistencia",
    "‚úÖ 6. Preparaci√≥n para modelado",
    "‚úÖ 7. Normalizaci√≥n de escalas",
    "‚úÖ 8. Manejo avanzado de c√≥digos CIE-10",
    "‚úÖ 9. Creaci√≥n de √≠ndices para consultas r√°pidas"
]

for tarea in tareas_completadas:
    print(f"  {tarea}")

print(f"\nÔøΩÔøΩ ARCHIVOS GENERADOS (TOTAL: 17 archivos):")

archivos_totales = [
    "üìÑ dataset_unificado_temporal.csv",
    "üìÑ dataset_extendido_con_edad.csv", 
    "üìÑ defunciones_limpias.csv",
    "üìÑ dataset_modelado_defunciones.csv",
    "üìÑ dataset_modelado_defunciones_normalizado.csv",
    "üìÑ dataset_tendencias_temporales.csv",
    "üìÑ dataset_tendencias_normalizado.csv",
    "üìÑ dataset_tendencias_minmax.csv",
    "üìÑ dataset_tendencias_robust.csv",
    "üìÑ dataset_unificado_indexado.csv",
    "ÔøΩÔøΩ dataset_extendido_indexado.csv",
    "üìÑ dataset_defunciones_indexado.csv",
    "üìÑ dataset_tendencias_indexado.csv",
    "üìÑ dataset_modelado_indexado.csv",
    "üìÑ dataset_defunciones_cie10_mejorado.csv",
    "ÔøΩÔøΩ mapeos_codificacion.json",
    "üìÑ scalers_normalizacion.pkl"
]

for archivo in archivos_totales:
    print(f"  {archivo}")

print(f"\nüéØ CASOS DE USO IMPLEMENTADOS:")

casos_uso = [
    "üîç An√°lisis exploratorio de datos (EDA)",
    "üìà An√°lisis de tendencias temporales",
    "üè• An√°lisis de mortalidad por regi√≥n y edad",
    "üìä An√°lisis estacional de nacimientos y defunciones",
    "ü§ñ Modelado predictivo de mortalidad",
    "üìâ Predicci√≥n de tendencias demogr√°ficas",
    "üèõÔ∏è An√°lisis para pol√≠ticas p√∫blicas de salud",
    "ÔøΩÔøΩ Reportes autom√°ticos de estad√≠sticas vitales"
]

for caso in casos_uso:
    print(f"  {caso}")

print(f"\nüöÄ PR√ìXIMOS PASOS RECOMENDADOS:")

proximos_pasos = [
    "1. Ejecutar an√°lisis exploratorio de datos (EDA)",
    "2. Crear visualizaciones de tendencias temporales",
    "3. Desarrollar modelos predictivos de mortalidad",
    "4. Implementar an√°lisis de patrones estacionales",
    "5. Crear dashboard interactivo de estad√≠sticas vitales",
    "6. Desarrollar sistema de alertas tempranas",
    "7. Generar reportes autom√°ticos para autoridades"
]

for paso in proximos_pasos:
    print(f"  {paso}")

print(f"\nüí° BENEFICIOS LOGRADOS:")

beneficios = [
    "‚úÖ Datos completamente limpios y validados",
    "‚úÖ Variables categ√≥ricas codificadas para ML",
    "‚úÖ Features temporales para an√°lisis estacional",
    "‚úÖ Variables de tendencia para predicciones",
    "‚úÖ Datasets normalizados para comparaciones",
    "‚úÖ C√≥digos CIE-10 categorizados y validados",
    "‚úÖ √çndices optimizados para consultas r√°pidas",
    "‚úÖ Estructura de datos lista para producci√≥n"
]

for beneficio in beneficios:
    print(f"  {beneficio}")

=== RESUMEN FINAL COMPLETO DEL PROYECTO ===

üìä RESUMEN DE TODAS LAS TAREAS COMPLETADAS:
  ‚úÖ 1. Limpieza cr√≠tica del dataset defunciones_filtradas
  ‚úÖ 2. Estandarizaci√≥n de nombres de columnas
  ‚úÖ 3. Validaci√≥n de rangos de edad
  ‚úÖ 4. Integraci√≥n de datasets
  ‚úÖ 5. Validaci√≥n de consistencia
  ‚úÖ 6. Preparaci√≥n para modelado
  ‚úÖ 7. Normalizaci√≥n de escalas
  ‚úÖ 8. Manejo avanzado de c√≥digos CIE-10
  ‚úÖ 9. Creaci√≥n de √≠ndices para consultas r√°pidas

ÔøΩÔøΩ ARCHIVOS GENERADOS (TOTAL: 17 archivos):
  üìÑ dataset_unificado_temporal.csv
  üìÑ dataset_extendido_con_edad.csv
  üìÑ defunciones_limpias.csv
  üìÑ dataset_modelado_defunciones.csv
  üìÑ dataset_modelado_defunciones_normalizado.csv
  üìÑ dataset_tendencias_temporales.csv
  üìÑ dataset_tendencias_normalizado.csv
  üìÑ dataset_tendencias_minmax.csv
  üìÑ dataset_tendencias_robust.csv
  üìÑ dataset_unificado_indexado.csv
  ÔøΩÔøΩ dataset_extendido_indexado.csv
  üìÑ dataset_defunciones_indexado.