# AN√ÅLISIS EXPLORATORIO DE DATOS

## 1. Importar Librerias

In [1]:
# Librerias

import pandas as pd
import os
from pathlib import Path

## 2. Traer Datos

### 2.1. Traer Datos de Defunciones de 1979 - 1991

In [24]:
# Ruta de los archivos
ruta_muertes = Path("data/raw/Muertes")

# Verificar si la carpeta existe
if not ruta_muertes.exists():
    print(f"‚ùå La carpeta {ruta_muertes} no existe")
else:
    # Listar todos los archivos .txt en la carpeta
    archivos = list(ruta_muertes.glob("Defun*.txt"))
    print(f"üìÅ Archivos encontrados: {[arch.name for arch in archivos]}")
    
    # Filtrar por a√±os 1979-1991
    archivos_filtrados = [arch for arch in archivos if 1979 <= int(arch.stem[-4:]) <= 1991]
    
    dataframes = {}
    
    for archivo in archivos_filtrados:
        try:
            # Extraer a√±o del nombre del archivo
            a√±o = archivo.stem[-4:]
            
            # Leer archivo (prueba diferentes encodings si es necesario)
            df = pd.read_csv(
                archivo,
                sep='\t',        
                encoding='utf-8', 
                low_memory=False,
                dtype=str
            )
            
            dataframes[f'defun_{a√±o}'] = df
            print(f"‚úÖ {archivo.name}: {len(df)} filas, {len(df.columns)} columnas")
            
        except Exception as e:
            print(f"‚ùå Error con {archivo.name}: {e}")

üìÅ Archivos encontrados: ['Defun1979.txt', 'Defun1980.txt', 'Defun1981.txt', 'Defun1982.txt', 'Defun1983.txt', 'Defun1984.txt', 'Defun1985.txt', 'Defun1986.txt', 'Defun1987.txt', 'Defun1988.txt', 'Defun1989.txt', 'Defun1990.txt', 'Defun1991.txt', 'Defun1992.txt', 'Defun1993.txt', 'Defun1994.txt', 'Defun1995.txt', 'Defun1996.txt', 'Defun1997.txt', 'Defun1998.txt', 'Defun1999.txt', 'Defun2000.txt', 'Defun2001.txt', 'Defun2002.txt', 'Defun2003.txt', 'Defun2004.txt', 'Defun2005.txt', 'Defun2006.txt', 'Defun2007.txt', 'Defun2012.txt', 'Defun2013.txt']
‚úÖ Defun1979.txt: 110400 filas, 14 columnas
‚úÖ Defun1980.txt: 125573 filas, 14 columnas
‚úÖ Defun1981.txt: 139505 filas, 14 columnas
‚úÖ Defun1982.txt: 137678 filas, 14 columnas
‚úÖ Defun1983.txt: 140292 filas, 14 columnas
‚úÖ Defun1984.txt: 137189 filas, 14 columnas
‚úÖ Defun1985.txt: 153947 filas, 14 columnas
‚úÖ Defun1986.txt: 146346 filas, 14 columnas
‚úÖ Defun1987.txt: 151957 filas, 14 columnas
‚úÖ Defun1988.txt: 153067 filas, 14 colu

#### 2.1.1. Consistencia Campos

In [25]:
# Verificar que todas las columnas sean iguales en nombre y orden
nombres_columnas_base = None
columnas_consistentes = True

print("üîç VERIFICACI√ìN DE CONSISTENCIA DE COLUMNAS")
print("=" * 50)

for nombre_df, df in dataframes.items():
    columnas_actuales = df.columns.tolist()
    
    if nombres_columnas_base is None:
        # Establecer la primera como referencia
        nombres_columnas_base = columnas_actuales
        a√±o_base = nombre_df.split('_')[1]
        print(f"üìã DataFrame base (defun_{a√±o_base}): {nombres_columnas_base}")
        print("-" * 50)
    else:
        # Comparar con la base
        if columnas_actuales == nombres_columnas_base:
            print(f"‚úÖ {nombre_df}: Columnas CONSISTENTES")
        else:
            print(f"‚ùå {nombre_df}: Columnas DIFERENTES")
            print(f"   Esperado: {nombres_columnas_base}")
            print(f"   Encontrado: {columnas_actuales}")
            columnas_consistentes = False

print("=" * 50)
if columnas_consistentes:
    print("üéâ TODAS las columnas son consistentes en nombre y orden")
else:
    print("‚ö†Ô∏è  Hay inconsistencias en las columnas")

üîç VERIFICACI√ìN DE CONSISTENCIA DE COLUMNAS
üìã DataFrame base (defun_1979): ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL']
--------------------------------------------------
‚ùå defun_1980: Columnas DIFERENTES
   Esperado: ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL']
   Encontrado: ['cod_dpto', 'cod_munic', 'a_defun', 'ano', 'mes', 'sexo', 'gru_ed1', 'est_civil', 'codptore', 'codmunre', 'sit_defun', 'c_bas1', 'cons_exp', 'cau_homol']
‚ùå defun_1981: Columnas DIFERENTES
   Esperado: ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL']
   Encontrado: ['cod_dpto', 'cod_munic', 'a_defun', 'ano', 'mes', 'sexo', 'gru_ed1', 'est_civil', 'codptore', 'codmunre', 'sit_defun', 

#### 2.1.2. Estandarizaci√≥n Campos

In [26]:
# Estandarizar todas las columnas a MAY√öSCULAS (como 1979)
print("üîÑ ESTANDARIZANDO COLUMNAS A MAY√öSCULAS")
print("=" * 40)

dataframes_estandarizados = {}

for nombre_df, df in dataframes.items():
    # Crear copia del DataFrame
    df_estandar = df.copy()
    
    # Convertir nombres de columnas a MAY√öSCULAS
    df_estandar.columns = [col.upper() for col in df_estandar.columns]
    
    dataframes_estandarizados[nombre_df] = df_estandar
    print(f"‚úÖ {nombre_df}: {list(df.columns)} ‚Üí {list(df_estandar.columns)}")

# Reemplazar el diccionario original
dataframes = dataframes_estandarizados

üîÑ ESTANDARIZANDO COLUMNAS A MAY√öSCULAS
‚úÖ defun_1979: ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL'] ‚Üí ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL']
‚úÖ defun_1980: ['cod_dpto', 'cod_munic', 'a_defun', 'ano', 'mes', 'sexo', 'gru_ed1', 'est_civil', 'codptore', 'codmunre', 'sit_defun', 'c_bas1', 'cons_exp', 'cau_homol'] ‚Üí ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL']
‚úÖ defun_1981: ['cod_dpto', 'cod_munic', 'a_defun', 'ano', 'mes', 'sexo', 'gru_ed1', 'est_civil', 'codptore', 'codmunre', 'sit_defun', 'c_bas1', 'cons_exp', 'cau_homol'] ‚Üí ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C

In [28]:
# Acceder a defun_1979 y ver primeras 5 filas
defun_1979 = dataframes['defun_1979']

print("üëÄ PRIMERAS 5 FILAS DE DEFUN_1979")
print("=" * 50)
print(defun_1979.head())

üëÄ PRIMERAS 5 FILAS DE DEFUN_1979
  COD_DPTO COD_MUNIC A_DEFUN   ANO MES SEXO GRU_ED1 EST_CIVIL CODPTORE  \
0       50       001       1  1979  01    2      14         1       50   
1       50       223       1  1979  01    2      04         1       50   
2       50       223       1  1979  01    2      24         1       50   
3       50       683       1  1979  01    1      18         2       50   
4       50       287       1  1979  01    1      15         1       50   

  CODMUNRE SIT_DEFUN C_BAS1 CONS_EXP CAU_HOMOL  
0      001         1   6370        2       078  
1      223         2   2762        3       043  
2      223         2   2762        3       043  
3      683         2   8259        3       090  
4      287         2   9660        3       101  


#### 2.1.3. Verificar Consistencia 2

In [29]:
# Verificar consistencia despu√©s de estandarizar
print("\nüîç VERIFICACI√ìN POST-ESTANDARIZACI√ìN")
print("=" * 50)

nombres_columnas_base = None
columnas_consistentes = True

for nombre_df, df in dataframes.items():
    columnas_actuales = df.columns.tolist()
    
    if nombres_columnas_base is None:
        nombres_columnas_base = columnas_actuales
        a√±o_base = nombre_df.split('_')[1]
        print(f"üìã DataFrame base (defun_{a√±o_base}): {nombres_columnas_base}")
        print("-" * 50)
    else:
        if columnas_actuales == nombres_columnas_base:
            print(f"‚úÖ {nombre_df}: Columnas CONSISTENTES")
        else:
            print(f"‚ùå {nombre_df}: Columnas DIFERENTES")
            columnas_consistentes = False

print("=" * 50)
if columnas_consistentes:
    print("üéâ TODAS las columnas ahora son consistentes")
else:
    print("‚ö†Ô∏è  A√∫n hay inconsistencias")


üîç VERIFICACI√ìN POST-ESTANDARIZACI√ìN
üìã DataFrame base (defun_1979): ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL']
--------------------------------------------------
‚úÖ defun_1980: Columnas CONSISTENTES
‚úÖ defun_1981: Columnas CONSISTENTES
‚úÖ defun_1982: Columnas CONSISTENTES
‚úÖ defun_1983: Columnas CONSISTENTES
‚úÖ defun_1984: Columnas CONSISTENTES
‚úÖ defun_1985: Columnas CONSISTENTES
‚úÖ defun_1986: Columnas CONSISTENTES
‚úÖ defun_1987: Columnas CONSISTENTES
‚úÖ defun_1988: Columnas CONSISTENTES
‚úÖ defun_1989: Columnas CONSISTENTES
‚úÖ defun_1990: Columnas CONSISTENTES
‚úÖ defun_1991: Columnas CONSISTENTES
üéâ TODAS las columnas ahora son consistentes


#### 2.1.4. Unificar en un s√≥lo DF defunciones 1979-1991

In [30]:
# Unificar todos los DataFrames en uno solo
print("üîÑ UNIFICANDO DATAFRAMES (1979-1991)")
print("=" * 50)

# Verificar que todos los DataFrames est√°n listos
print(f"üìä DataFrames a unificar: {len(dataframes)}")
for nombre, df in dataframes.items():
    print(f"   {nombre}: {df.shape}")

# Unificar todos los DataFrames
defun_1979_1991 = pd.concat(dataframes.values(), ignore_index=True)

print(f"\n‚úÖ UNIFICACI√ìN COMPLETADA")
print(f"üìà Tama√±o del DataFrame unificado: {defun_1979_1991.shape}")
print(f"   - Filas: {len(defun_1979_1991):,}")
print(f"   - Columnas: {len(defun_1979_1991.columns)}")

üîÑ UNIFICANDO DATAFRAMES (1979-1991)
üìä DataFrames a unificar: 13
   defun_1979: (110400, 14)
   defun_1980: (125573, 14)
   defun_1981: (139505, 14)
   defun_1982: (137678, 14)
   defun_1983: (140292, 14)
   defun_1984: (137189, 14)
   defun_1985: (153947, 14)
   defun_1986: (146346, 14)
   defun_1987: (151957, 14)
   defun_1988: (153067, 14)
   defun_1989: (154694, 14)
   defun_1990: (154685, 14)
   defun_1991: (163692, 14)

‚úÖ UNIFICACI√ìN COMPLETADA
üìà Tama√±o del DataFrame unificado: (1869025, 14)
   - Filas: 1,869,025
   - Columnas: 14


In [53]:
defun_1979_1991.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,A_DEFUN,ANO,MES,SEXO,GRU_ED1,EST_CIVIL,CODPTORE,CODMUNRE,SIT_DEFUN,C_BAS1,CONS_EXP,CAU_HOMOL
0,50,1,1,1979,1,2,14,1,50,1,1,6370,2,78
1,50,223,1,1979,1,2,4,1,50,223,2,2762,3,43
2,50,223,1,1979,1,2,24,1,50,223,2,2762,3,43
3,50,683,1,1979,1,1,18,2,50,683,2,8259,3,90
4,50,287,1,1979,1,1,15,1,50,287,2,9660,3,101


### 2.2. Leer Datos de Codigo Departamento y Codigo Municipio DANE

#### 2.2.1. Conectar archivo de Codigo Departamento y Codigo Municipio DANE

In [51]:
# Ruta del archivo DIVIPOLA de Centros Poblados
ruta_archivo = "data/raw/Referenciales/DIVIPOLA_CentrosPoblados.csv"

# Leer todo como texto para preservar formatos
try:
    divipola = pd.read_csv(
        ruta_archivo, 
        encoding='latin-1',
        sep=';',
        dtype=str  # Esto fuerza todo a texto
    )
    print(f"‚úÖ Archivo le√≠do correctamente (todo como texto)")
    print(f"   - Filas: {len(divipola):,}")
    print(f"   - Columnas: {len(divipola.columns)}")
    
    # Verificar que se mantienen los formatos
    print(f"\nüìã Primeras filas (C√≥digo_Departamento):")
    display(divipola.head(10))
    print("\n")
    
    print(f"\nüîç Tipos de datos:")
    print(divipola.dtypes)
    
except Exception as e:
    print(f"‚ùå Error: {e}")

‚úÖ Archivo le√≠do correctamente (todo como texto)
   - Filas: 8,421
   - Columnas: 9

üìã Primeras filas (C√≥digo_Departamento):


Unnamed: 0,C√≥digo_Departamento,Nombre_Departamento,C√≥digo_Municipio,Nombre_Municipio,C√≥digo_Entidad,Nombre_Entidad,Tipo,Longitud,Latitud
0,5,ANTIOQUIA,5001,MEDELL√çN,5001000,"MEDELL√çN, DISTRITO ESPECIAL DE CIENCIA, TECNOL...",CM,-75581775,6246631
1,5,ANTIOQUIA,5001,MEDELL√çN,5001001,PALMITAS,CP,-75690573,6343919
2,5,ANTIOQUIA,5001,MEDELL√çN,5001004,SANTA ELENA,CP,-75501293,6210599
3,5,ANTIOQUIA,5001,MEDELL√çN,5001009,ALTAVISTA,CP,-75643706,6221429
4,5,ANTIOQUIA,5001,MEDELL√çN,5001010,AGUAS FR√çAS,CP,-75633948,6233335
5,5,ANTIOQUIA,5001,MEDELL√çN,5001013,SAN JOS√â DEL MANZANILLO,CP,-75612136,6206092
6,5,ANTIOQUIA,5001,MEDELL√çN,5001014,BARRO BLANCO,CP,-75479856,6236734
7,5,ANTIOQUIA,5001,MEDELL√çN,5001015,EL CERRO,CP,-75489496,6200314
8,5,ANTIOQUIA,5001,MEDELL√çN,5001017,EL PATIO,CP,-7565111,6277841
9,5,ANTIOQUIA,5001,MEDELL√çN,5001018,EL PLACER,CP,-75492971,6224788





üîç Tipos de datos:
C√≥digo_Departamento    object
Nombre_Departamento    object
C√≥digo_Municipio       object
Nombre_Municipio       object
C√≥digo_Entidad         object
Nombre_Entidad         object
Tipo                   object
Longitud               object
Latitud                object
dtype: object


### 2.3. Prepara para merge municipio y departamento

#### 2.3.1. Corregir c√≥digos 83-18 (Caquet√°)

In [54]:
print("\n1. üìù CORRIGIENDO C√ìDIGOS 83 ‚Üí 18")
print("-" * 30)

defun_1979_1991_corregido = defun_1979_1991.copy()
defun_1979_1991_corregido.loc[defun_1979_1991_corregido['COD_DPTO'] == '83', 'COD_DPTO'] = '18'
print("‚úÖ C√≥digos 83 ‚Üí 18 actualizados")


1. üìù CORRIGIENDO C√ìDIGOS 83 ‚Üí 18
------------------------------
‚úÖ C√≥digos 83 ‚Üí 18 actualizados


#### 2.3.2. Hacer merge (join en SQL)

In [55]:
print("\n2. üîó HACIENDO MERGE CON C√ìDIGOS CORREGIDOS")
print("-" * 40)

defun_1979_1991_con_nombres = defun_1979_1991_corregido.merge(
    divipola_merge,
    on=['COD_DPTO', 'COD_MUNIC'],
    how='left'
)

print(f"‚úÖ Merge completado")
print(f"üìä Dimensiones: {defun_1979_1991_con_nombres.shape}")

# Verificar registros sin match despu√©s de la correcci√≥n
sin_match = defun_1979_1991_con_nombres['NOMBRE_DEPARTAMENTO'].isna().sum()
print(f"üîç Registros sin match: {sin_match:,} ({sin_match/len(defun_1979_1991_con_nombres)*100:.2f}%)")


2. üîó HACIENDO MERGE CON C√ìDIGOS CORREGIDOS
----------------------------------------
‚úÖ Merge completado
üìä Dimensiones: (1869025, 16)
üîç Registros sin match: 4,271 (0.23%)


#### 2.3.3. Preparar cabeceras municipales

In [56]:
print("\n3. üèõÔ∏è PREPARANDO CABECERAS MUNICIPALES")
print("-" * 35)

cabeceras_municipales = divipola_merge[
    divipola_merge['COD_MUNIC'] == '001'
][['COD_DPTO', 'NOMBRE_DEPARTAMENTO', 'NOMBRE_MUNICIPIO']].rename(
    columns={
        'NOMBRE_DEPARTAMENTO': 'NOMBRE_DEPTO_CABECERA',
        'NOMBRE_MUNICIPIO': 'NOMBRE_MUNIC_CABECERA'
    }
)

print(f"üìã Cabeceras encontradas: {len(cabeceras_municipales)}")



3. üèõÔ∏è PREPARANDO CABECERAS MUNICIPALES
-----------------------------------
üìã Cabeceras encontradas: 33


#### 2.3.4. Completar registros sin match con cabeceras municipales

In [57]:
print("\n4. üîÑ COMPLETANDO REGISTROS SIN MATCH")
print("-" * 35)

sin_match_mask = defun_1979_1991_con_nombres['NOMBRE_DEPARTAMENTO'].isna()

defun_1979_1991_final = defun_1979_1991_con_nombres.merge(
    cabeceras_municipales,
    on='COD_DPTO',
    how='left'
)

defun_1979_1991_final.loc[sin_match_mask, 'NOMBRE_DEPARTAMENTO'] = defun_1979_1991_final.loc[sin_match_mask, 'NOMBRE_DEPTO_CABECERA']
defun_1979_1991_final.loc[sin_match_mask, 'NOMBRE_MUNICIPIO'] = defun_1979_1991_final.loc[sin_match_mask, 'NOMBRE_MUNIC_CABECERA']

defun_1979_1991_final = defun_1979_1991_final.drop(['NOMBRE_DEPTO_CABECERA', 'NOMBRE_MUNIC_CABECERA'], axis=1)

print("‚úÖ Registros sin match completados")



4. üîÑ COMPLETANDO REGISTROS SIN MATCH
-----------------------------------
‚úÖ Registros sin match completados


#### 2.3.5. Verificaci√≥n Final

In [58]:
print("\n5. üìä VERIFICACI√ìN FINAL")
print("-" * 25)

sin_match_final = defun_1979_1991_final['NOMBRE_DEPARTAMENTO'].isna().sum()
print(f"üéØ Registros sin match finales: {sin_match_final:,}")

# Mostrar resultado
print(f"\nüëÄ PRIMERAS FILAS DEL RESULTADO FINAL:")
columnas_mostrar = ['COD_DPTO', 'COD_MUNIC', 'NOMBRE_DEPARTAMENTO', 'NOMBRE_MUNICIPIO', 'ANO']
print(defun_1979_1991_final[columnas_mostrar].head(10))

# Ver c√≥digos que a√∫n no tienen match (si los hay)
if sin_match_final > 0:
    print(f"\nüîç C√ìDIGOS QUE A√öN NO TIENEN MATCH:")
    sin_match_df = defun_1979_1991_final[defun_1979_1991_final['NOMBRE_DEPARTAMENTO'].isna()]
    codigos_sin_match = sin_match_df[['COD_DPTO', 'COD_MUNIC']].drop_duplicates()
    print(codigos_sin_match)
    print(f"Total: {len(codigos_sin_match)} c√≥digos √∫nicos")

# Actualizar el DataFrame principal
defun_1979_1991 = defun_1979_1991_final.copy()
print("\nüíæ DataFrame principal actualizado")


5. üìä VERIFICACI√ìN FINAL
-------------------------
üéØ Registros sin match finales: 0

üëÄ PRIMERAS FILAS DEL RESULTADO FINAL:
  COD_DPTO COD_MUNIC NOMBRE_DEPARTAMENTO   NOMBRE_MUNICIPIO   ANO
0       50       001                META      VILLAVICENCIO  1979
1       50       223                META           CUBARRAL  1979
2       50       223                META           CUBARRAL  1979
3       50       683                META  SAN JUAN DE ARAMA  1979
4       50       287                META      FUENTE DE ORO  1979
5       50       287                META      FUENTE DE ORO  1979
6       50       577                META      PUERTO LLERAS  1979
7       50       577                META      PUERTO LLERAS  1979
8       50       577                META      PUERTO LLERAS  1979
9       50       577                META      PUERTO LLERAS  1979

üíæ DataFrame principal actualizado


In [59]:
defun_1979_1991.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,A_DEFUN,ANO,MES,SEXO,GRU_ED1,EST_CIVIL,CODPTORE,CODMUNRE,SIT_DEFUN,C_BAS1,CONS_EXP,CAU_HOMOL,NOMBRE_DEPARTAMENTO,NOMBRE_MUNICIPIO
0,50,1,1,1979,1,2,14,1,50,1,1,6370,2,78,META,VILLAVICENCIO
1,50,223,1,1979,1,2,4,1,50,223,2,2762,3,43,META,CUBARRAL
2,50,223,1,1979,1,2,24,1,50,223,2,2762,3,43,META,CUBARRAL
3,50,683,1,1979,1,1,18,2,50,683,2,8259,3,90,META,SAN JUAN DE ARAMA
4,50,287,1,1979,1,1,15,1,50,287,2,9660,3,101,META,FUENTE DE ORO


### 2.4. Otras homologaciones

#### 2.4.1. Transformar campo A_DEFUN

In [64]:
print("üè∑Ô∏è CREANDO CAMPO A_DEFUN_DESC")
print("=" * 40)

# Crear el mapeo de valores
mapeo_a_defun = {
    "1": 'CABECERA MUNICIPAL',
    "2": 'RESTO', 
    "3": 'SIN INFORMACI√ìN'
}

# Crear la nueva columna
defun_1979_1991['A_DEFUN_DESC'] = defun_1979_1991['A_DEFUN'].map(mapeo_a_defun)

print("‚úÖ Campo A_DEFUN_DESC creado")

üè∑Ô∏è CREANDO CAMPO A_DEFUN_DESC
‚úÖ Campo A_DEFUN_DESC creado


In [65]:
defun_1979_1991.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,A_DEFUN,ANO,MES,SEXO,GRU_ED1,EST_CIVIL,CODPTORE,CODMUNRE,SIT_DEFUN,C_BAS1,CONS_EXP,CAU_HOMOL,NOMBRE_DEPARTAMENTO,NOMBRE_MUNICIPIO,A_DEFUN_DESC
0,50,1,1,1979,1,2,14,1,50,1,1,6370,2,78,META,VILLAVICENCIO,CABECERA MUNICIPAL
1,50,223,1,1979,1,2,4,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL
2,50,223,1,1979,1,2,24,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL
3,50,683,1,1979,1,1,18,2,50,683,2,8259,3,90,META,SAN JUAN DE ARAMA,CABECERA MUNICIPAL
4,50,287,1,1979,1,1,15,1,50,287,2,9660,3,101,META,FUENTE DE ORO,CABECERA MUNICIPAL


#### 2.4.2. Transformar campo SEXO

In [66]:
print("üè∑Ô∏è CREANDO CAMPO SEXO_DESC")
print("=" * 40)

# Crear el mapeo de valores
mapeo_a_defun = {
    "1": 'MASCULINO',
    "2": 'FEMENINO'
}

# Crear la nueva columna
defun_1979_1991['SEXO_DESC'] = defun_1979_1991['SEXO'].map(mapeo_a_defun)

print("‚úÖ Campo SEXO_DESC creado")

üè∑Ô∏è CREANDO CAMPO SEXO_DESC
‚úÖ Campo SEXO_DESC creado


In [67]:
defun_1979_1991.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,A_DEFUN,ANO,MES,SEXO,GRU_ED1,EST_CIVIL,CODPTORE,CODMUNRE,SIT_DEFUN,C_BAS1,CONS_EXP,CAU_HOMOL,NOMBRE_DEPARTAMENTO,NOMBRE_MUNICIPIO,A_DEFUN_DESC,SEXO_DESC
0,50,1,1,1979,1,2,14,1,50,1,1,6370,2,78,META,VILLAVICENCIO,CABECERA MUNICIPAL,FEMENINO
1,50,223,1,1979,1,2,4,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL,FEMENINO
2,50,223,1,1979,1,2,24,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL,FEMENINO
3,50,683,1,1979,1,1,18,2,50,683,2,8259,3,90,META,SAN JUAN DE ARAMA,CABECERA MUNICIPAL,MASCULINO
4,50,287,1,1979,1,1,15,1,50,287,2,9660,3,101,META,FUENTE DE ORO,CABECERA MUNICIPAL,MASCULINO


#### 2.4.3. Transformar campo GRU_ED1

In [71]:
print("üè∑Ô∏è CREANDO CAMPO GRU_ED1_DESC")
print("=" * 45)

# Crear el mapeo de grupos de edad
mapeo_gru_ed1 = {
    '01': 'MENORES DE UN D√çA',
    '02': 'DE 1 A 6 D√çAS', 
    '03': 'DE 7 A 29 D√çAS',
    '04': 'DE 1 A 5 MESES',
    '05': 'DE 6 A 11 MESES',
    '06': 'DE UN A√ëO',
    '07': 'DE 2 A 4 A√ëOS',
    '08': 'DE 5 A 9 A√ëOS',
    '09': 'DE 10 A 14 A√ëOS',
    '10': 'DE 15 A 19 A√ëOS',
    '11': 'DE 20 A 24 A√ëOS',
    '12': 'DE 25 A 29 A√ëOS',
    '13': 'DE 30 A 34 A√ëOS',
    '14': 'DE 35 A 39 A√ëOS',
    '15': 'DE 40 A 44 A√ëOS',
    '16': 'DE 45 A 49 A√ëOS',
    '17': 'DE 50 A 54 A√ëOS',
    '18': 'DE 55 A 59 A√ëOS',
    '19': 'DE 60 A 64 A√ëOS',
    '20': 'DE 65 A 69 A√ëOS',
    '21': 'DE 70 A 74 A√ëOS',
    '22': 'DE 75 A 79 A√ëOS',
    '23': 'DE 80 A 84 A√ëOS',
    '24': 'DE 85 Y M√ÅS A√ëOS',
    '25': 'EDAD DESCONOCIDA'
}

# Convertir GRU_ED1 a string (por si viene como n√∫mero) y formatear a 2 d√≠gitos
defun_1979_1991['GRU_ED1_STR'] = defun_1979_1991['GRU_ED1'].astype(str).str.zfill(2)

# Crear la nueva columna
defun_1979_1991['GRU_ED1_DESC'] = defun_1979_1991['GRU_ED1_STR'].map(mapeo_gru_ed1)

print("‚úÖ Campo GRU_ED1_DESC creado")

üè∑Ô∏è CREANDO CAMPO GRU_ED1_DESC
‚úÖ Campo GRU_ED1_DESC creado


In [72]:
defun_1979_1991.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,A_DEFUN,ANO,MES,SEXO,GRU_ED1,EST_CIVIL,CODPTORE,CODMUNRE,SIT_DEFUN,C_BAS1,CONS_EXP,CAU_HOMOL,NOMBRE_DEPARTAMENTO,NOMBRE_MUNICIPIO,A_DEFUN_DESC,SEXO_DESC,GRU_ED1_STR,GRU_ED1_DESC
0,50,1,1,1979,1,2,14,1,50,1,1,6370,2,78,META,VILLAVICENCIO,CABECERA MUNICIPAL,FEMENINO,14,DE 35 A 39 A√ëOS
1,50,223,1,1979,1,2,4,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL,FEMENINO,4,DE 1 A 5 MESES
2,50,223,1,1979,1,2,24,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL,FEMENINO,24,DE 85 Y M√ÅS A√ëOS
3,50,683,1,1979,1,1,18,2,50,683,2,8259,3,90,META,SAN JUAN DE ARAMA,CABECERA MUNICIPAL,MASCULINO,18,DE 55 A 59 A√ëOS
4,50,287,1,1979,1,1,15,1,50,287,2,9660,3,101,META,FUENTE DE ORO,CABECERA MUNICIPAL,MASCULINO,15,DE 40 A 44 A√ëOS


#### 2.4.4. Transformar campo EST_CIVIL

In [75]:
print("üè∑Ô∏è CREANDO CAMPO EST_CIVIL_DESC")
print("=" * 50)

# Crear el mapeo de estados civiles en MAY√öSCULAS
mapeo_est_civil = {
    "1": 'SOLTERO',
    "2": 'CASADO', 
    "3": 'VIUDO',
    "4": 'EN UNI√ìN LIBRE, DIVORCIADO Y OTRO',
    "5": 'SIN INFORMACI√ìN'
}

# Crear la nueva columna
defun_1979_1991['EST_CIVIL_DESC'] = defun_1979_1991['EST_CIVIL'].map(mapeo_est_civil)

print("‚úÖ Campo EST_CIVIL_DESC creado en MAY√öSCULAS")

üè∑Ô∏è CREANDO CAMPO EST_CIVIL_DESC
‚úÖ Campo EST_CIVIL_DESC creado en MAY√öSCULAS


In [78]:
pd.set_option('display.max_columns', None)
defun_1979_1991.head()

Unnamed: 0,COD_DPTO,COD_MUNIC,A_DEFUN,ANO,MES,SEXO,GRU_ED1,EST_CIVIL,CODPTORE,CODMUNRE,SIT_DEFUN,C_BAS1,CONS_EXP,CAU_HOMOL,NOMBRE_DEPARTAMENTO,NOMBRE_MUNICIPIO,A_DEFUN_DESC,SEXO_DESC,GRU_ED1_STR,GRU_ED1_DESC,EST_CIVIL_DESC
0,50,1,1,1979,1,2,14,1,50,1,1,6370,2,78,META,VILLAVICENCIO,CABECERA MUNICIPAL,FEMENINO,14,DE 35 A 39 A√ëOS,SOLTERO
1,50,223,1,1979,1,2,4,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL,FEMENINO,4,DE 1 A 5 MESES,SOLTERO
2,50,223,1,1979,1,2,24,1,50,223,2,2762,3,43,META,CUBARRAL,CABECERA MUNICIPAL,FEMENINO,24,DE 85 Y M√ÅS A√ëOS,SOLTERO
3,50,683,1,1979,1,1,18,2,50,683,2,8259,3,90,META,SAN JUAN DE ARAMA,CABECERA MUNICIPAL,MASCULINO,18,DE 55 A 59 A√ëOS,CASADO
4,50,287,1,1979,1,1,15,1,50,287,2,9660,3,101,META,FUENTE DE ORO,CABECERA MUNICIPAL,MASCULINO,15,DE 40 A 44 A√ëOS,SOLTERO


### 2.5. Homologar Municipio y Departamento de residencia

#### 2.5.1. Corregir codigos antiguos de departamentos

In [92]:
print("üîß RECONSTRUYENDO EL PROCESO CORRECTAMENTE")
print("=" * 50)

# PASO 1: Volver al DataFrame original y hacer el merge correctamente
print("1. üîÑ HACIENDO MERGE CORRECTO PARA RESIDENCIA")

# Usar el DataFrame original (antes del merge problem√°tico)
defun_1979_1991_original = defun_1979_1991.copy()

# Asegurar que los c√≥digos sean strings y tengan el formato correcto
defun_1979_1991_original['CODPTORE'] = defun_1979_1991_original['CODPTORE'].astype(str).str.zfill(2)
defun_1979_1991_original['CODMUNRE'] = defun_1979_1991_original['CODMUNRE'].astype(str).str.zfill(3)

# Corregir c√≥digo 83 ‚Üí 18
defun_1979_1991_original.loc[defun_1979_1991_original['CODPTORE'] == '83', 'CODPTORE'] = '18'

# Hacer merge CORRECTO con suffixes
defun_1979_1991_correcto = defun_1979_1991_original.merge(
    divipola_merge,
    left_on=['CODPTORE', 'CODMUNRE'],
    right_on=['COD_DPTO', 'COD_MUNIC'],
    how='left',
    suffixes=('', '_RESIDENCIA')  # Usar suffixes para diferenciar
)

print("‚úÖ Merge correcto completado")

# PASO 2: Renombrar las columnas de residencia correctamente
print("\n2. üè∑Ô∏è RENOMBRANDO COLUMNAS DE RESIDENCIA")

# Las columnas del merge estar√°n con el suffix _RESIDENCIA
# Buscar y renombrar las columnas correctas
columnas_actuales = defun_1979_1991_correcto.columns.tolist()
print("Columnas disponibles:", columnas_actuales)

# Renombrar manualmente si es necesario
if 'NOMBRE_DEPARTAMENTO_RESIDENCIA' in columnas_actuales:
    # Ya est√° correcto
    print("‚úÖ Columnas ya tienen el nombre correcto")
else:
    # Buscar las columnas que necesitan renombre
    for col in columnas_actuales:
        if 'NOMBRE_DEPARTAMENTO' in col and col != 'NOMBRE_DEPARTAMENTO':
            defun_1979_1991_correcto = defun_1979_1991_correcto.rename(columns={col: 'NOMBRE_DEPARTAMENTO_RESIDENCIA'})
        elif 'NOMBRE_MUNICIPIO' in col and col != 'NOMBRE_MUNICIPIO':
            defun_1979_1991_correcto = defun_1979_1991_correcto.rename(columns={col: 'NOMBRE_MUNICIPIO_RESIDENCIA'})

print("‚úÖ Columnas renombradas")

# PASO 3: Verificar el resultado
print("\n3. üìä VERIFICANDO RESULTADO CORRECTO")

total = len(defun_1979_1991_correcto)

# Ahora deber√≠an ser Series normales
if 'NOMBRE_DEPARTAMENTO_RESIDENCIA' in defun_1979_1991_correcto.columns:
    sin_depto = defun_1979_1991_correcto['NOMBRE_DEPARTAMENTO_RESIDENCIA'].isna().sum()
    sin_munic = defun_1979_1991_correcto['NOMBRE_MUNICIPIO_RESIDENCIA'].isna().sum()
    
    print(f"üìä RESULTADOS CORRECTOS:")
    print(f"Total registros: {total:,}")
    print(f"Sin departamento residencia: {sin_depto:,}")
    print(f"Sin municipio residencia: {sin_munic:,}")
    print(f"Porcentaje sin municipio: {(sin_munic/total*100):.2f}%")
    
    # Mostrar ejemplos
    print(f"\nüëÄ EJEMPLOS CORRECTOS:")
    columnas_ejemplo = ['COD_DPTO', 'NOMBRE_DEPARTAMENTO', 'CODPTORE', 'NOMBRE_DEPARTAMENTO_RESIDENCIA']
    print(defun_1979_1991_correcto[columnas_ejemplo].head(10))
else:
    print("‚ùå Las columnas de residencia no se crearon correctamente")
    print("Columnas disponibles:", defun_1979_1991_correcto.columns.tolist())

üîß RECONSTRUYENDO EL PROCESO CORRECTAMENTE
1. üîÑ HACIENDO MERGE CORRECTO PARA RESIDENCIA
‚úÖ Merge correcto completado

2. üè∑Ô∏è RENOMBRANDO COLUMNAS DE RESIDENCIA
Columnas disponibles: ['COD_DPTO', 'COD_MUNIC', 'A_DEFUN', 'ANO', 'MES', 'SEXO', 'GRU_ED1', 'EST_CIVIL', 'CODPTORE', 'CODMUNRE', 'SIT_DEFUN', 'C_BAS1', 'CONS_EXP', 'CAU_HOMOL', 'NOMBRE_DEPARTAMENTO', 'NOMBRE_MUNICIPIO', 'A_DEFUN_DESC', 'SEXO_DESC', 'GRU_ED1_STR', 'GRU_ED1_DESC', 'EST_CIVIL_DESC', 'COD_DPTO_RESIDENCIA', 'COD_MUNIC_RESIDENCIA', 'NOMBRE_DEPARTAMENTO_RESIDENCIA', 'NOMBRE_MUNICIPIO_RESIDENCIA']
‚úÖ Columnas ya tienen el nombre correcto
‚úÖ Columnas renombradas

3. üìä VERIFICANDO RESULTADO CORRECTO
üìä RESULTADOS CORRECTOS:
Total registros: 1,869,025
Sin departamento residencia: 50,334
Sin municipio residencia: 50,334
Porcentaje sin municipio: 2.69%

üëÄ EJEMPLOS CORRECTOS:
  COD_DPTO NOMBRE_DEPARTAMENTO CODPTORE NOMBRE_DEPARTAMENTO_RESIDENCIA
0       50                META       50                      

#### 2.5.2. Completar registros

In [93]:
print("\n4. üèõÔ∏è COMPLETANDO REGISTROS SIN MATCH")
print("=" * 40)

if 'NOMBRE_DEPARTAMENTO_RESIDENCIA' in defun_1979_1991_correcto.columns:
    sin_match = defun_1979_1991_correcto['NOMBRE_DEPARTAMENTO_RESIDENCIA'].isna().sum()
    
    if sin_match > 0:
        print(f"üîç Completando {sin_match:,} registros sin match...")
        
        # Crear cabeceras municipales
        cabeceras = divipola_merge[divipola_merge['COD_MUNIC'] == '001'][['COD_DPTO', 'NOMBRE_DEPARTAMENTO', 'NOMBRE_MUNICIPIO']]
        cabeceras = cabeceras.rename(columns={
            'NOMBRE_DEPARTAMENTO': 'DEPT_CAB', 
            'NOMBRE_MUNICIPIO': 'MUNIC_CAB'
        })
        
        # Merge con cabeceras
        defun_completo = defun_1979_1991_correcto.merge(
            cabeceras, 
            left_on='CODPTORE', 
            right_on='COD_DPTO', 
            how='left'
        )
        
        # Completar nulos
        mask = defun_completo['NOMBRE_DEPARTAMENTO_RESIDENCIA'].isna()
        defun_completo.loc[mask, 'NOMBRE_DEPARTAMENTO_RESIDENCIA'] = defun_completo.loc[mask, 'DEPT_CAB']
        defun_completo.loc[mask, 'NOMBRE_MUNICIPIO_RESIDENCIA'] = defun_completo.loc[mask, 'MUNIC_CAB']
        
        # Limpiar
        defun_completo = defun_completo.drop(['DEPT_CAB', 'MUNIC_CAB', 'COD_DPTO_y'], axis=1, errors='ignore')
        if 'COD_DPTO_x' in defun_completo.columns:
            defun_completo = defun_completo.rename(columns={'COD_DPTO_x': 'COD_DPTO'})
        
        defun_1979_1991 = defun_completo.copy()
        print("‚úÖ Completado finalizado")
    else:
        defun_1979_1991 = defun_1979_1991_correcto.copy()
        print("‚úÖ Todos los registros tienen match")
else:
    print("‚ùå No se pueden completar - columnas no disponibles")


4. üèõÔ∏è COMPLETANDO REGISTROS SIN MATCH
üîç Completando 50,334 registros sin match...
‚úÖ Completado finalizado


#### 2.5.3. Verificar el resultado

In [94]:
print("\n3. üìä VERIFICACI√ìN DIRECTA")
print("-" * 30)

total = len(defun_1979_1991_con_residencia)

# Convertir a lista y contar manualmente si es necesario
depto_nulos = list(defun_1979_1991_con_residencia['NOMBRE_DEPARTAMENTO_RESIDENCIA'].isna())
munic_nulos = list(defun_1979_1991_con_residencia['NOMBRE_MUNICIPIO_RESIDENCIA'].isna())

sin_depto = sum(depto_nulos)
sin_munic = sum(munic_nulos)

print(f"Total registros: {total:,}")
print(f"Sin departamento residencia: {sin_depto:,}")
print(f"Sin municipio residencia: {sin_munic:,}")
print(f"Porcentaje sin municipio: {(sin_munic/total*100):.2f}%")


3. üìä VERIFICACI√ìN DIRECTA
------------------------------


TypeError: unsupported operand type(s) for +: 'int' and 'str'