

### Estructura de los 5 dígitos del código postal (CP) en México

Supongamos un código postal genérico: **ABCDE**

| Posición | Dígitos | Significado                                                                              |
| -------- | ------- | ---------------------------------------------------------------------------------------- |
| 1-2      | **AB**  | **Entidad federativa (estado)**. Identifican el estado o una parte importante del mismo. |
| 3        | **C**   | Agrupación geográfica dentro del estado (región o zona)                                  |
| 4-5      | **DE**  | Zona postal específica (colonia, fraccionamiento, pueblo, etc.)                          |

---

### Rango de códigos postales de la **Ciudad de México (CDMX)**

* La **CDMX** tiene asignado el rango de códigos postales que va de:

  ##### **01000 a 16999**

* Esto cubre sus **16 alcaldías**. Los rangos están organizados de forma **aproximadamente geográfica**, por ejemplo:

  * Álvaro Obregón: 01000–01999
  * Coyoacán: 04000–04999
  * Benito Juárez: 03000–03999
  * Gustavo A. Madero: 07000–07999
  * Iztapalapa: 09000–09999
  * etc.

>  No todos los números dentro de ese rango están en uso, pero **ningún CP de CDMX está fuera de ese rango general**.

---

### Rango de códigos postales del **Estado de México (Edomex)**

* El **Estado de México** tiene varios rangos debido a su gran tamaño. Van desde:

  ##### **50000 a 57999**

  (zonas del Valle de Toluca, Valle de México y municipios conurbados)

  **Y además**:

  * También se le asignan rangos más altos como:

    ##### **60000 a 61999**

    (zonas sur del estado, como Tejupilco, Luvianos)

####  Rango total para Edomex:

##### **50000 a 61999** (aproximadamente)

| Entidad          | Rango de CP                                             | Observaciones               |
| ---------------- | ------------------------------------------------------- | --------------------------- |
| CDMX             | 01000 – 16999                                           | Todo dentro de estos rangos |
| Estado de México | 50000 – 57999 (centro y oriente)<br>60000 – 61999 (sur) | Cubren todos los municipios |


Un código postal de México siempre tiene 5 dígitos, sin excepción.

Primeros dos dígitos (XX000): identifican el estado o entidad federativa.

Tercer dígito (00X00): agrupa varias localidades dentro del estado.

Cuarto y quinto dígito (000XX): identifican zonas postales más específicas como colonias o fraccionamientos.



In [138]:
import pandas as pd
import numpy as np
import unicodedata
import matplotlib.pyplot as plt
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

CNCP : catalogo nacional de codigos postales.

In [139]:
DATA_DIR_CNCP = "../CP_CatalogoNacionaldeCodigosPostales/"
DATA_DIR_EMPTY = "../DataSets_Iniciales/coordenadas_obtenidas_google_maps/Coordernadas_obtenidas_clasificadas/nulos/"
DATA_DIR_DIFFRENT = "../DataSets_Iniciales/coordenadas_obtenidas_google_maps/Coordernadas_obtenidas_clasificadas/diferentes/"

In [140]:
df_edo_mex = pd.read_excel(f"{DATA_DIR_CNCP}/EDO_MEX.xls", sheet_name="México")
df_cdmx = pd.read_excel(f"{DATA_DIR_CNCP}/CDMX.xls", sheet_name="Distrito_Federal")

df_edo_mex.to_csv(f"{DATA_DIR_CNCP}/EDO_MEX.csv", index=False, encoding="utf-8")
df_cdmx.to_csv(f"{DATA_DIR_CNCP}/CDMX.csv", index=False, encoding="utf-8")

In [141]:

datasets_catalogos = {
   "df_cncp_EDO_MEX": df_edo_mex,
   "df_cncp_CDMX": df_cdmx
}

In [142]:
df_catalogo_cp = pd.concat(datasets_catalogos.values(), ignore_index=True)
datasets_catalogos["df_cncp_unificado"] = df_catalogo_cp

In [143]:
datasets_empty = {
    "df_coordenadas_sustentantes_2020_nulos": pd.read_csv(f"{DATA_DIR_EMPTY}df_coordenadas_sustentantes_2020_nulos.csv", encoding="utf-8"),
    "df_coordenadas_sustentantes_2021_nulos": pd.read_csv(f"{DATA_DIR_EMPTY}df_coordenadas_sustentantes_2021_nulos.csv", encoding="utf-8"),
    "df_coordenadas_sustentantes_2022_nulos": pd.read_csv(f"{DATA_DIR_EMPTY}df_coordenadas_sustentantes_2022_nulos.csv", encoding="utf-8"),
    "df_coordenadas_sustentantes_2023_nulos": pd.read_csv(f"{DATA_DIR_EMPTY}df_coordenadas_sustentantes_2023_nulos.csv", encoding="utf-8"),
}

In [144]:
datasets_different = {
    "df_coordenadas_sustentantes_2020_diferentes": pd.read_csv(f"{DATA_DIR_DIFFRENT}df_coordenadas_sustentantes_2020_diferentes.csv", encoding="utf-8"),
    "df_coordenadas_sustentantes_2021_diferentes": pd.read_csv(f"{DATA_DIR_DIFFRENT}df_coordenadas_sustentantes_2021_diferentes.csv", encoding="utf-8"),
    "df_coordenadas_sustentantes_2022_diferentes": pd.read_csv(f"{DATA_DIR_DIFFRENT}df_coordenadas_sustentantes_2022_diferentes.csv", encoding="utf-8"),
    "df_coordenadas_sustentantes_2023_diferentes": pd.read_csv(f"{DATA_DIR_DIFFRENT}df_coordenadas_sustentantes_2023_diferentes.csv", encoding="utf-8"),
}

In [145]:
datasets_catalogos["df_cncp_unificado"]

Unnamed: 0,d_codigo,d_asenta,d_tipo_asenta,D_mnpio,d_estado,d_ciudad,d_CP,c_estado,c_oficina,c_CP,c_tipo_asenta,c_mnpio,id_asenta_cpcons,d_zona,c_cve_ciudad
0,50000,Toluca de Lerdo Centro,Colonia,Toluca,México,Toluca de Lerdo,50091,15,50091,,9,106,160,Urbano,20.0
1,50010,Celanese,Colonia,Toluca,México,Toluca de Lerdo,50091,15,50091,,9,106,163,Urbano,20.0
2,50010,Club Jardín,Colonia,Toluca,México,Toluca de Lerdo,50091,15,50091,,9,106,164,Urbano,20.0
3,50010,Guadalupe,Colonia,Toluca,México,Toluca de Lerdo,50091,15,50091,,9,106,165,Urbano,20.0
4,50010,La Cruz Comalco,Colonia,Toluca,México,Toluca de Lerdo,50091,15,50091,,9,106,166,Urbano,20.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9866,16840,Santa Cruz Chavarrieta,Colonia,Xochimilco,Ciudad de México,Ciudad de México,16001,9,16001,,9,13,2519,Urbano,16.0
9867,16850,Chapultepec,Barrio,Xochimilco,Ciudad de México,Ciudad de México,16001,9,16001,,2,13,2520,Urbano,16.0
9868,16860,Santa Cruz de Guadalupe,Colonia,Xochimilco,Ciudad de México,Ciudad de México,16001,9,16001,,9,13,2521,Urbano,16.0
9869,16880,Santa Cecilia Tepetlapa,Pueblo,Xochimilco,Ciudad de México,Ciudad de México,16001,9,16001,,28,13,2527,Urbano,16.0


In [146]:
dtypes = datasets_empty["df_coordenadas_sustentantes_2020_nulos"].dtypes.reset_index()
dtypes.columns = ['Columna', 'Tipo de dato']
print(dtypes)

           Columna Tipo de dato
0          SUS_COL       object
1           SUS_CP        int64
2          SUS_DEL       object
3          NOM_ENT       object
4       lat_centro      float64
5       lng_centro      float64
6    lat_principal      float64
7    lng_principal      float64
8  postal_code_api      float64


In [147]:
dtypes_c = datasets_catalogos["df_cncp_unificado"].dtypes.reset_index()
dtypes_c.columns = ['Columna', 'Tipo de dato']
print(dtypes_c)


             Columna Tipo de dato
0           d_codigo        int64
1           d_asenta       object
2      d_tipo_asenta       object
3            D_mnpio       object
4           d_estado       object
5           d_ciudad       object
6               d_CP        int64
7           c_estado        int64
8          c_oficina        int64
9               c_CP      float64
10     c_tipo_asenta        int64
11           c_mnpio        int64
12  id_asenta_cpcons        int64
13            d_zona       object
14      c_cve_ciudad      float64


hay que comprar SUS_COL con d_asenta, SUS_DEL con D_mnipio, y NOM_ent, con d_estado

In [148]:
def minusculas_sin_acentos(texto):
    texto = str(texto).lower()
    # separa los caracteres base de las tildes
    texto = unicodedata.normalize('NFD', texto)
    # descarta todos los caracteres de marca (Mn = Mark, nonspacing)
    texto = ''.join(c for c in texto if unicodedata.category(c) != 'Mn')
    return texto


In [149]:
for col in ["d_asenta", "D_mnpio", "d_estado"]:
    datasets_catalogos["df_cncp_unificado"][col] = datasets_catalogos["df_cncp_unificado"][col].apply(minusculas_sin_acentos)

In [150]:
mapeo = {
    "mexico": "edomex",
    "ciudad de mexico": "cdmx"
}

In [151]:
datasets_catalogos["df_cncp_unificado"] = datasets_catalogos["df_cncp_unificado"].replace({"d_estado": mapeo})

In [152]:
datasets_catalogos["df_cncp_unificado"].to_csv(f"{DATA_DIR_CNCP}/df_cncp_unificado.csv", index=False, encoding="utf-8")
datasets_catalogos["df_cncp_unificado"]

Unnamed: 0,d_codigo,d_asenta,d_tipo_asenta,D_mnpio,d_estado,d_ciudad,d_CP,c_estado,c_oficina,c_CP,c_tipo_asenta,c_mnpio,id_asenta_cpcons,d_zona,c_cve_ciudad
0,50000,toluca de lerdo centro,Colonia,toluca,edomex,Toluca de Lerdo,50091,15,50091,,9,106,160,Urbano,20.0
1,50010,celanese,Colonia,toluca,edomex,Toluca de Lerdo,50091,15,50091,,9,106,163,Urbano,20.0
2,50010,club jardin,Colonia,toluca,edomex,Toluca de Lerdo,50091,15,50091,,9,106,164,Urbano,20.0
3,50010,guadalupe,Colonia,toluca,edomex,Toluca de Lerdo,50091,15,50091,,9,106,165,Urbano,20.0
4,50010,la cruz comalco,Colonia,toluca,edomex,Toluca de Lerdo,50091,15,50091,,9,106,166,Urbano,20.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9866,16840,santa cruz chavarrieta,Colonia,xochimilco,cdmx,Ciudad de México,16001,9,16001,,9,13,2519,Urbano,16.0
9867,16850,chapultepec,Barrio,xochimilco,cdmx,Ciudad de México,16001,9,16001,,2,13,2520,Urbano,16.0
9868,16860,santa cruz de guadalupe,Colonia,xochimilco,cdmx,Ciudad de México,16001,9,16001,,9,13,2521,Urbano,16.0
9869,16880,santa cecilia tepetlapa,Pueblo,xochimilco,cdmx,Ciudad de México,16001,9,16001,,28,13,2527,Urbano,16.0


In [153]:
for dataset_name, dataset in datasets_empty.items():
    for col in ["SUS_COL", "SUS_DEL", "NOM_ENT"]:
        datasets_empty[dataset_name][col] = datasets_empty[dataset_name][col].apply(minusculas_sin_acentos)
        
        

In [154]:
for dataset_name, dataset in datasets_empty.items():
    datasets_empty[dataset_name] = datasets_empty[dataset_name].rename(columns={"postal_code_api": "postal_code_catalogo"})

In [155]:
datasets_empty["df_coordenadas_sustentantes_2020_nulos"]

Unnamed: 0,SUS_COL,SUS_CP,SUS_DEL,NOM_ENT,lat_centro,lng_centro,lat_principal,lng_principal,postal_code_catalogo
0,caltenco,54665,coyotepec,edomex,19.785197,-99.199699,19.785052,-99.202366,
1,acatepec,43050,huautla,cdmx,19.390734,-99.143613,19.432608,-99.133208,
2,la providencia,54783,teoloyucan,edomex,19.754744,-99.146617,19.760593,-99.147691,
3,san lucas huitzilhuacan,56040,chiautla,edomex,19.590117,-98.887229,19.588801,-98.884530,
4,villa magna,43806,tizayuca,edomex,19.326405,-99.604979,19.496873,-99.723267,
...,...,...,...,...,...,...,...,...,...
4827,av.amp. vicente villada,57710,nezahualcoyotl,edomex,19.398464,-99.007368,19.399870,-99.007534,
4828,isrrael,56343,chimalhuacan,edomex,19.387560,-98.973484,19.387264,-98.973188,
4829,la perla,58220,nezahualcoyotl,edomex,19.385274,-98.992950,19.385956,-98.992175,
4830,esperanza,57000,nezahualcoyotl,cdmx,19.391691,-98.983155,19.390855,-98.982508,


Busca un código postal en el catálogo basado en colonia, delegación y entidad.
    
Parámetros:

row: Fila del dataframe con datos del sustentante

df_catalogo: Dataframe del catálogo de códigos postales

umbral_colonia: Valor mínimo de similitud para considerar una coincidencia (0-100)
    
Retorna:
Código postal encontrado o np.nan si no hay coincidencia

In [None]:


def buscar_codigo_postal(row, df_catalogo, umbral_colonia=70):
  
    # Filtrar por delegación/municipio y estado (coincidencia exacta)
    candidatos = df_catalogo[(df_catalogo['D_mnpio'] == row['SUS_DEL']) & 
                            (df_catalogo['d_estado'] == row['NOM_ENT'])]
    
    if candidatos.empty:
        return np.nan
    
    # Buscar la mejor coincidencia para la colonia con un umbral mínimo de similitud
    mejor_puntaje = 0
    mejor_cp = np.nan
    
    for _, candidato in candidatos.iterrows():
        puntaje = fuzz.token_sort_ratio(row['SUS_COL'], candidato['d_asenta'])
        if puntaje > mejor_puntaje and puntaje >= umbral_colonia:
            mejor_puntaje = puntaje
            mejor_cp = candidato['d_codigo']
    
    return mejor_cp

In [157]:
def llenar_codigos_postales(datasets, catalogo):
    """
    Llena los códigos postales faltantes en todos los datasets
    """
    resultados = {}
    
    for nombre, df in datasets.items():
        print(f"Procesando {nombre}...")
        
        # Crear copia para no modificar el original
        df_procesado = df.copy()
        
        # Solo procesar filas donde el código postal es nulo
        filas_nulas = df_procesado['postal_code_catalogo'].isna()
        total_nulos = filas_nulas.sum()
        
        if total_nulos > 0:
            # Para cada fila con CP nulo, buscar en el catálogo
            for idx, row in df_procesado[filas_nulas].iterrows():
                cp_encontrado = buscar_codigo_postal(row, catalogo)
                df_procesado.at[idx, 'postal_code_catalogo'] = cp_encontrado
            
            # Reporte de resultados
            nulos_restantes = df_procesado['postal_code_catalogo'].isna().sum()
            print(f"  - Nulos originales: {total_nulos}")
            print(f"  - Nulos completados: {total_nulos - nulos_restantes}")
            print(f"  - Nulos restantes: {nulos_restantes}")
            print(f"  - Tasa de éxito: {100 * (total_nulos - nulos_restantes) / total_nulos:.2f}%\n")
        else:
            print("  - No hay códigos postales nulos para procesar\n")
            
        resultados[nombre] = df_procesado
        
    return resultados

In [158]:
# Cargar el catálogo ya procesado
df_catalogo = datasets_catalogos["df_cncp_unificado"]

# Llenar códigos postales faltantes
datasets_procesados = llenar_codigos_postales(datasets_empty, df_catalogo)

# Guardar los resultados
for nombre, df in datasets_procesados.items():
    año = nombre.split('_')[-2]  # Extraer el año del nombre del dataset
    ruta_salida = f"{DATA_DIR_EMPTY}df_coordenadas_sustentantes_{año}_completos.csv"
    df.to_csv(ruta_salida, index=False, encoding="utf-8")
    print(f"Archivo guardado: {ruta_salida}")

Procesando df_coordenadas_sustentantes_2020_nulos...
  - Nulos originales: 4832
  - Nulos completados: 2078
  - Nulos restantes: 2754
  - Tasa de éxito: 43.00%

Procesando df_coordenadas_sustentantes_2021_nulos...
  - Nulos originales: 4664
  - Nulos completados: 2033
  - Nulos restantes: 2631
  - Tasa de éxito: 43.59%

Procesando df_coordenadas_sustentantes_2022_nulos...
  - Nulos originales: 2791
  - Nulos completados: 1498
  - Nulos restantes: 1293
  - Tasa de éxito: 53.67%

Procesando df_coordenadas_sustentantes_2023_nulos...
  - Nulos originales: 2876
  - Nulos completados: 2134
  - Nulos restantes: 742
  - Tasa de éxito: 74.20%

Archivo guardado: ../DataSets_Iniciales/coordenadas_obtenidas_google_maps/Coordernadas_obtenidas_clasificadas/nulos/df_coordenadas_sustentantes_2020_completos.csv
Archivo guardado: ../DataSets_Iniciales/coordenadas_obtenidas_google_maps/Coordernadas_obtenidas_clasificadas/nulos/df_coordenadas_sustentantes_2021_completos.csv
Archivo guardado: ../DataSets_I

In [162]:
def analizar_resultados(datasets_originales, datasets_procesados):
    """
    Analiza y visualiza los resultados del proceso de llenado
    """
    import matplotlib.pyplot as plt
    
    años = []
    porcentajes = []
    
    for nombre in datasets_originales.keys():
        año = nombre.split('_')[-2]
        años.append(año)
        
        df_orig = datasets_originales[nombre]
        df_proc = datasets_procesados[nombre]
        
        total = len(df_orig)
        completos_orig = df_orig['postal_code_catalogo'].notna().sum()
        completos_final = df_proc['postal_code_catalogo'].notna().sum()
        
        porcentaje_orig = 100 * completos_orig / total
        porcentaje_final = 100 * completos_final / total
        
        porcentajes.append([porcentaje_orig, porcentaje_final])
        
        print(f"Año {año}:")
        print(f"  - Total de registros: {total}")
        print(f"  - Completos finales: {completos_final} ({porcentaje_final:.2f}%)") #Los registros completos después del procesamiento
      
   

# Ejecutar análisis de resultados
analizar_resultados(datasets_empty, datasets_procesados)

Año 2020:
  - Total de registros: 4832
  - Completos finales: 2078 (43.00%)
Año 2021:
  - Total de registros: 4664
  - Completos finales: 2033 (43.59%)
Año 2022:
  - Total de registros: 2791
  - Completos finales: 1498 (53.67%)
Año 2023:
  - Total de registros: 2876
  - Completos finales: 2134 (74.20%)
