# Exploración de archivos colonia
Análisis exploratorio de los archivos CSV en `/data/processed/INEGI/colonia`.
Columnas de interés: `road`, `quarter`, `borough`, `postcode`.

In [1]:
import os
import pandas as pd

data_folder = "../../data/processed/INEGI/colonia"
csv_files = [f for f in os.listdir(data_folder) if f.endswith('.csv')]
print("Archivos encontrados:", csv_files)

Archivos encontrados: ['20250925224413_benito_juarez.csv', '20250926110422_cuauhtemoc.csv', '20250926043944_milpa_alta.csv', '20250926223742_venustiano_carranza.csv', '20250926014033_cuajimalpa_de_morelos.csv', '20250926074342_la_magdalena_contreras.csv', '20250927030053_azcapotzalco.csv', '20250927085746_tlahuac.csv', '20250926182507_iztacalco.csv', '20250926143135_miguel_hidalgo.csv']


In [2]:
data = []
for file in csv_files:
    print(f"\nArchivo: {file}")
    df_tmp = pd.read_csv(os.path.join(data_folder, file), low_memory=False)
    data.append(df_tmp)


Archivo: 20250925224413_benito_juarez.csv

Archivo: 20250926110422_cuauhtemoc.csv

Archivo: 20250926043944_milpa_alta.csv

Archivo: 20250926223742_venustiano_carranza.csv

Archivo: 20250926014033_cuajimalpa_de_morelos.csv

Archivo: 20250926074342_la_magdalena_contreras.csv

Archivo: 20250927030053_azcapotzalco.csv

Archivo: 20250927085746_tlahuac.csv

Archivo: 20250926182507_iztacalco.csv

Archivo: 20250926143135_miguel_hidalgo.csv


In [3]:
df = pd.concat(data, ignore_index=True)

In [4]:
cols = ['road', 'quarter', 'borough', 'postcode']
df[cols].isnull().sum() 

road         12149
quarter     124591
borough      10616
postcode         1
dtype: int64

In [5]:
df.address

0         {'shop': 'Soriana', 'house_number': '320', 'ro...
1         {'amenity': 'Parroquia de Nuestra Señora de la...
2         {'road': 'Viaducto Miguel Alemán', 'quarter': ...
3         {'amenity': 'Parroquia de Nuestra Señora de la...
4         {'house_number': '399', 'road': 'Calle Tonalá'...
                                ...                        
133268    {'road': 'Calle General Francisco Murguía', 'n...
133269    {'road': 'Calle General Diego García Conde Pal...
133270    {'road': 'Calle General Diego García Conde Pal...
133271    {'road': 'Avenida Cantíl', 'neighbourhood': 'R...
133272    {'road': 'Calle 12', 'neighbourhood': 'Colonia...
Name: address, Length: 133273, dtype: object

In [10]:
import re

pat = re.compile(r"'neighbourhood':\s*'([^']+)'")
df['neighbourhood'] = df['address'].str.extract(pat)

In [11]:
df.neighbourhood.isnull().sum()

12795

In [14]:
df[df.neighbourhood.isnull()]

Unnamed: 0,ENTIDAD,NOM_ENT,MUN,NOM_MUN,LOC,NOM_LOC,AGEB,MZA,POBTOT,POBFEM,...,NOMREF3,lon,lat,municipio,address,road,quarter,borough,postcode,neighbourhood
0,9,Ciudad de México,14,Benito Juárez,1,Benito Juárez,0011,1,155,89,...,Presidente Miguel Alemán,2.797545e+06,825591.332517,benito_juarez,"{'shop': 'Soriana', 'house_number': '320', 'ro...",Calzada Casa del Obrero Mundial,La Piedad,Benito Juárez,3000.0,
1,9,Ciudad de México,14,Benito Juárez,1,Benito Juárez,0011,1,155,89,...,Tonalá,2.797569e+06,825635.785614,benito_juarez,{'amenity': 'Parroquia de Nuestra Señora de la...,Calle Enrique Rébsamen,La Piedad,Benito Juárez,3000.0,
2,9,Ciudad de México,14,Benito Juárez,1,Benito Juárez,0011,1,155,89,...,Obrero Mundial,2.797551e+06,825751.429750,benito_juarez,"{'road': 'Viaducto Miguel Alemán', 'quarter': ...",Viaducto Miguel Alemán,La Piedad,Benito Juárez,3000.0,
3,9,Ciudad de México,14,Benito Juárez,1,Benito Juárez,0011,1,155,89,...,Tonalá,2.797577e+06,825717.416172,benito_juarez,{'amenity': 'Parroquia de Nuestra Señora de la...,Calle Enrique Rébsamen,La Piedad,Benito Juárez,3000.0,
4,9,Ciudad de México,14,Benito Juárez,1,Benito Juárez,0011,1,155,89,...,Enrique Rébsamen,2.797523e+06,825666.169055,benito_juarez,"{'house_number': '399', 'road': 'Calle Tonalá'...",Calle Tonalá,La Piedad,Benito Juárez,3000.0,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
129510,9,Ciudad de México,16,Miguel Hidalgo,1,Miguel Hidalgo,1014,36,0,0,...,Paseo de la Reforma,2.792939e+06,828175.619281,miguel_hidalgo,"{'road': 'Calle Pedregal', 'suburb': 'Polanco'...",Calle Pedregal,,Miguel Hidalgo,11100.0,
129993,9,Ciudad de México,16,Miguel Hidalgo,1,Miguel Hidalgo,1071,2,0,0,...,Ignacio Zaragoza,2.791065e+06,824954.089663,miguel_hidalgo,"{'road': 'Avenida Constituyentes', 'city': 'Ci...",Avenida Constituyentes,,Miguel Hidalgo,11100.0,
130000,9,Ciudad de México,16,Miguel Hidalgo,1,Miguel Hidalgo,1071,5,0,0,...,José María Velasco,2.791397e+06,825050.372099,miguel_hidalgo,"{'road': 'Avenida Constituyentes', 'city': 'Ci...",Avenida Constituyentes,,Miguel Hidalgo,11100.0,
130022,9,Ciudad de México,16,Miguel Hidalgo,1,Miguel Hidalgo,1086,1,0,0,...,,2.792403e+06,825619.422756,miguel_hidalgo,"{'road': 'Avenida Constituyentes', 'city': 'Ci...",Avenida Constituyentes,,Miguel Hidalgo,11100.0,
