# Estandarización de colonias

In [22]:
import pandas as pd # Manipulación df
import unicodedata # Función para eliminar acentos
import re # Manipulación de cadenas de texto (expresiones regulares)

In [23]:
df = pd.read_csv("C:/xampp/htdocs/datalpine/resources/db/Scrapining/ciudades/pachuca/clean/agosto_2024.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1406 entries, 0 to 1405
Data columns (total 27 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id                         1406 non-null   int64  
 1   categoria                  1243 non-null   object 
 2   precio                     1404 non-null   float64
 3   precio_mxn                 1404 non-null   float64
 4   precio_usd                 1404 non-null   float64
 5   fecha_conversion           1406 non-null   object 
 6   propiedad                  1406 non-null   object 
 7   metros_total               1406 non-null   int64  
 8   metros_construido          1406 non-null   int64  
 9   precio_m2_terreno          1404 non-null   float64
 10  precio_m2_construido       1404 non-null   float64
 11  tiempo_de_publicacion      1406 non-null   object 
 12  meses_transcurridos        1406 non-null   int64  
 13  meses_transcurridos_fecha  1406 non-null   objec

# Separación

In [24]:
# Siempre regresar una lista de 3 elementos
def split_location(location):
    parts = location.split(',')
    parts = [part.strip() for part in parts]  # Eliminar espacios al principio y final de cada parte
    parts = [unicodedata.normalize('NFKD', part).encode('ascii', 'ignore').decode('utf-8') for part in parts]  # Eliminar acentos y otros caracteres no ascii
    parts += [None] * (3 - len(parts))  # Asegurar que siempre hay 3 partes
    return parts[:3]  # Devolver solo las primeras 3 partes

df[['Colonia', 'Municipio', 'Estado']] = df['ubicacion'].apply(split_location).apply(pd.Series)

# Limpiando valores nulos
df['Colonia'] = df['Colonia'].str.strip().fillna('Sin_colonia')
df['Municipio'] = df['Municipio'].str.strip().fillna('Sin_municipio')
df['Estado'] = df['Estado'].str.strip().fillna('Sin_estado')
df[['ubicacion', 'Colonia', 'Municipio', 'Estado']]

Unnamed: 0,ubicacion,Colonia,Municipio,Estado
0,"Arboledas Santa Elena, Pachuca de Soto, Hidalgo",Arboledas Santa Elena,Pachuca de Soto,Hidalgo
1,"El Tezontle, Pachuca de Soto, Hidalgo",El Tezontle,Pachuca de Soto,Hidalgo
2,"El Tezontle, Pachuca de Soto, Hidalgo",El Tezontle,Pachuca de Soto,Hidalgo
3,"Centro Histórico, Pachuca de Soto, Hidalgo",Centro Historico,Pachuca de Soto,Hidalgo
4,"Parque La Esmeralda, Pachuca de Soto, Hidalgo",Parque La Esmeralda,Pachuca de Soto,Hidalgo
...,...,...,...,...
1401,"Reforma, Mineral de La Reforma, Hidalgo",Reforma,Mineral de La Reforma,Hidalgo
1402,"San José, Mineral de La Reforma, Hidalgo",San Jose,Mineral de La Reforma,Hidalgo
1403,"Lomas del Portezuelo, Mineral de La Reforma, H...",Lomas del Portezuelo,Mineral de La Reforma,Hidalgo
1404,"Rinconadas de San Francisco, Mineral de La Ref...",Rinconadas de San Francisco,Mineral de La Reforma,Hidalgo


In [25]:
# Aplicando valor de acuerdo a la base a limpiar
df['Estado'] = df['Estado'].replace('Sin_estado', 'Hidalgo')

### Estandarizar

In [26]:
# Minúsculas
df['Colonia'] = df['Colonia'].str.strip().str.lower()
df['Municipio'] = df['Municipio'].str.strip().str.lower()
df['Estado'] = df['Estado'].str.strip().str.lower()

In [28]:
# Esta línea de código aplica la función unicodedata.normalize a la columna 'Colonia' del DataFrame df.
# El argumento 'NFKD' indica que se debe aplicar la normalización NFKD, que elimina los acentos y otros caracteres diacríticos.
#df['Colonia'] = df['Colonia'].apply(lambda x: unicodedata.normalize('NFKD', x))

import unicodedata# Función para eliminar acentos
def eliminar_acentos(texto):
    # Normaliza y elimina los acentos
    texto_normalizado = unicodedata.normalize('NFKD', texto)
    return ''.join(char for char in texto_normalizado if unicodedata.category(char) != 'Mn')
df['Colonia'] = df['Colonia'].apply(eliminar_acentos)
df['Municipio'] = df['Municipio'].apply(eliminar_acentos)
df['Estado'] = df['Estado'].apply(eliminar_acentos)
print(df['Colonia'].unique())

['arboledas santa elena' 'el tezontle' 'centro historico'
 'parque la esmeralda' 'santa julia' 'la moraleja'
 'san antonio el desmonte' 'valle de san javier' 'periodista'
 'villa aquiles serdan' 'paseo de carmelinas' 'ex hacienda las torres'
 'san antonio' 'parque de poblamiento' 'maestranza' 'santa matilde'
 'valle dorado' 'pitahayas' 'santiago tlapacoya' 'real de minas'
 'bosques del penar' 'rinconadas de san antonio' 'el palmar' 'el huixmi'
 'cespedes' 'lomas residencial pachuca' 'haciendas de hidalgo'
 'centro sct hidalgo' 'real del valle' 'villas de pachuca' 'el porvenir'
 'el carmen' 'la puerta de hierro' 'colosio i'
 'felipe angeles sur 1a secc' 'privada rincon de las lomas'
 'ciudad de pachuca' 'las palmitas' 'coscotitlan'
 'arboledas san javier 2a seccion' 'sendero de los pinos' 'piracantos'
 'punta azul' 'spauah' 'real de la plata' 'santa julia 1a secc'
 'los arrayanes' 'san pedro nopalcalco' 'pachuca de soto' 'felipe angeles'
 'san cayetano el bordo' 'lopez mateos 1a secc' '

### Separación de prefijo de colonia

In [29]:
# Añade las diferentes formas de identificar el tipo de lugar (etiquetas de ubicación)
tipos = ['condominio', 'fraccionamiento', 'infonavit','colonia', 'frac','fracc','fraccio','fracc.','namiento','ionamiento', 'uhp', 'urbanización','urbanizacion', 'sector', 'barrio', 'zona', 'sector', 'unidad habitacional', ]
#, 'residencial','unidad residencial'
def obtener_tipo_lugar(nombre):
    for tipo in tipos:
        if tipo in nombre:
            return tipo
    return None

df['tipo_lugar'] = df['Colonia'].apply(obtener_tipo_lugar)
# Eliminar el tipo de lugar de la columna 'colonia'
df['Colonia'] = df.apply(lambda row: row['Colonia'].replace(row['tipo_lugar'], '').strip() if row['tipo_lugar'] else row['Colonia'], axis=1)
print(df[['Colonia','tipo_lugar','ubicacion']])
print(df['tipo_lugar'].unique())

                          Colonia tipo_lugar  \
0           arboledas santa elena       None   
1                     el tezontle       None   
2                     el tezontle       None   
3                centro historico       None   
4             parque la esmeralda       None   
...                           ...        ...   
1401                      reforma       None   
1402                     san jose       None   
1403         lomas del portezuelo       None   
1404  rinconadas de san francisco       None   
1405             villas del alamo       None   

                                              ubicacion  
0       Arboledas Santa Elena, Pachuca de Soto, Hidalgo  
1                 El Tezontle, Pachuca de Soto, Hidalgo  
2                 El Tezontle, Pachuca de Soto, Hidalgo  
3            Centro Histórico, Pachuca de Soto, Hidalgo  
4         Parque La Esmeralda, Pachuca de Soto, Hidalgo  
...                                                 ...  
1401            R

# Mapeo

In [38]:
# Carga el diccionario de colonias estandarizadas desde un archivo CSV
diccionario = pd.read_csv('colonias_estandarizadas.csv')
print(diccionario.info())

ParserError: Error tokenizing data. C error: Expected 32 fields in line 3145, saw 34


In [9]:
archivo_excel = 'D:/yoe11/Documents/TESEO/Modelo Factible/Scraplining/CPdescarga.xlsx'
hojas_excel = pd.ExcelFile(archivo_excel, engine='openpyxl')
# Imprimir los nombres de las hojas
print(hojas_excel.sheet_names)

['Nota', 'Aguascalientes', 'Baja_California', 'Baja_California_Sur', 'Campeche', 'Coahuila_de_Zaragoza', 'Colima', 'Chiapas', 'Chihuahua', 'Distrito_Federal', 'Durango', 'Guanajuato', 'Guerrero', 'Hidalgo', 'Jalisco', 'México', 'Michoacán_de_Ocampo', 'Morelos', 'Nayarit', 'Nuevo_León', 'Querétaro', 'Oaxaca', 'Puebla', 'Quintana_Roo', 'Sonora', 'San_Luis_Potosí', 'Sinaloa', 'Tabasco', 'Tamaulipas', 'Tlaxcala', 'Veracruz_de_Ignacio_de_la_Llave', 'Yucatán', 'Zacatecas']


In [10]:
# Obtener el DataFrame específico para el estado 'Puebla'
df_codigos_postales = pd.read_excel(archivo_excel, sheet_name='Hidalgo', engine='openpyxl', usecols=['D_mnpio', 'd_asenta', 'd_tipo_asenta', 'd_codigo'])
df_codigos_postales['estado'] = 'Hidalgo'  # Agregar el nombre del estado como 'estado'
df_codigos_postales.head()

Unnamed: 0,d_codigo,d_asenta,d_tipo_asenta,D_mnpio,estado
0,42000,Centro,Colonia,Pachuca de Soto,Hidalgo
1,42004,La Granada,Colonia,Pachuca de Soto,Hidalgo
2,42010,La Alcantarilla,Barrio,Pachuca de Soto,Hidalgo
3,42010,El Arbolito,Barrio,Pachuca de Soto,Hidalgo
4,42010,El Atorón,Barrio,Pachuca de Soto,Hidalgo


In [11]:
df_codigos_postales = df_codigos_postales[df_codigos_postales['D_mnpio'].str.contains('Tulancingo de Bravo')]
df_codigos_postales

Unnamed: 0,d_codigo,d_asenta,d_tipo_asenta,D_mnpio,estado
4953,43600,Tulancingo Centro,Colonia,Tulancingo de Bravo,Hidalgo
4954,43604,Del Villar,Fraccionamiento,Tulancingo de Bravo,Hidalgo
4955,43610,Nueva Morelos,Colonia,Tulancingo de Bravo,Hidalgo
4956,43612,De los Electricistas,Fraccionamiento,Tulancingo de Bravo,Hidalgo
4957,43612,Los Pinos,Colonia,Tulancingo de Bravo,Hidalgo
...,...,...,...,...,...
5151,43710,San Vicente,Ranchería,Tulancingo de Bravo,Hidalgo
5152,43713,Axatempa,Ranchería,Tulancingo de Bravo,Hidalgo
5153,43715,Otontepec,Ranchería,Tulancingo de Bravo,Hidalgo
5154,43715,Atlalpan,Ranchería,Tulancingo de Bravo,Hidalgo


In [12]:
# Limpiar y estandarizar las columnas
df_codigos_postales['D_mnpio'] = df_codigos_postales['D_mnpio'].str.lower().str.strip()
df_codigos_postales['d_asenta'] = df_codigos_postales['d_asenta'].str.lower().str.strip()
df_codigos_postales['d_tipo_asenta'] = df_codigos_postales['d_tipo_asenta'].str.lower().str.strip()
df_codigos_postales['estado'] = df_codigos_postales['estado'].str.lower().str.strip()
# Eliminar acentos de todas las columnas de df_codigos_postales para que se pueda mapear bien
df_codigos_postales['d_asenta'] = df_codigos_postales['d_asenta'].apply(lambda x: unicodedata.normalize('NFKD', x).encode('ascii', errors='ignore').decode('utf-8') if isinstance(x, str) else x)

## Diccionario estandarizado

In [13]:
def estand_col(colonia, diccionario):
    # Busca en el diccionario si la colonia existe y devuelve su nombre estandarizado
    # Si no existe, devuelve el nombre original de la colonia
    return diccionario[diccionario['Colonia'] == colonia]['Colonia_Estandarizada'].values[0] if colonia in diccionario['Colonia'].values else colonia

# Aplica la función de estandarización a la columna 'Colonia' del DataFrame df
df['Colonia_Estandarizada'] = df['Colonia'].apply(lambda x: estand_col(x, diccionario))
df[['Colonia_Estandarizada','Colonia']]

Unnamed: 0,Colonia_Estandarizada,Colonia
0,20 de noviembre,20 de noviembre
1,20 de noviembre,20 de noviembre
2,20 de noviembre,20 de noviembre
3,20 de noviembre,20 de noviembre
4,20 de noviembre,20 de noviembre
...,...,...
136,insurgentes,insurgentes
137,tulancingo centro,tulancingo centro
138,jardines del sur,jardines del sur
139,felipe angeles,felipe angeles


In [14]:
df['Colonia_Estandarizada'].unique()

array(['20 de noviembre', 'jardines del sur', 'vicente guerrero',
       'jaltepec', 'lomas de progreso', 'francisco i madero', 'la morena',
       'huapalcalco', 'cebolletas', 'los pinos',
       'pedregal de san francisco', 'napateco', 'tulancingo centro',
       'san juan', 'el mirador', 'insurgentes', 'rojo gomez',
       'san jose caltengo', 'medias tierras', 'lindavista', 'caltengo',
       'valle verde', 'la herradura', 'el banco', 'benito juarez',
       'santa ana', 'felipe angeles'], dtype=object)

In [16]:
# Función para obtener el código postal dado estado, municipio, y colonia
def obtener_codigo_postal(colonia, municipio, estado, df_codigos_postales):
    # Normalizar los inputs
    estado = estado.lower().strip()
    municipio = municipio.lower().strip()
    colonia = colonia.lower().strip()
    
    estado = estado.lower().strip().translate(str.maketrans('', '', 'áéíóúÁÉÍÓÚ'))
    municipio = municipio.lower().strip().translate(str.maketrans('', '', 'áéíóúÁÉÍÓÚ'))
    colonia = colonia.lower().strip().translate(str.maketrans('', '', 'áéíóúÁÉÍÓÚ'))

    # Filtrar el DataFrame según estado y municipio
    df_filtrado = df_codigos_postales[(df_codigos_postales['estado'] == estado) & (df_codigos_postales['D_mnpio'] == municipio)]
    
    # Intentar encontrar coincidencias exactas de la colonia
    resultado = df_filtrado[df_filtrado['d_asenta'] == colonia]
    
    if not resultado.empty:
        # Si se encuentra una coincidencia, devolver el código postal
        return resultado['d_codigo'].values[0]
    
    return None  # Devolver None si no hay coincidencia

In [17]:
df['codigo_postal'] = df.apply(lambda row: obtener_codigo_postal(row['Colonia_Estandarizada'], row['Municipio'], row['Estado'], df_codigos_postales), axis=1)

# Verificar si hay registros sin código postal asignado
sin_codigo_p = df[df['codigo_postal'].isna()]
Limpio = df[df['codigo_postal'].notna()]
print(sin_codigo_p[['Colonia','Municipio','Estado','codigo_postal']])
print(sin_codigo_p.shape)

                Colonia            Municipio   Estado  codigo_postal
23   francisco i madero  tulancingo de bravo  hidalgo            NaN
26            la morena  tulancingo de bravo  hidalgo            NaN
27            la morena  tulancingo de bravo  hidalgo            NaN
28            la morena  tulancingo de bravo  hidalgo            NaN
29            la morena  tulancingo de bravo  hidalgo            NaN
32            la morena  tulancingo de bravo  hidalgo            NaN
33            la morena  tulancingo de bravo  hidalgo            NaN
34            la morena  tulancingo de bravo  hidalgo            NaN
39            la morena  tulancingo de bravo  hidalgo            NaN
40            la morena  tulancingo de bravo  hidalgo            NaN
41            la morena  tulancingo de bravo  hidalgo            NaN
42            la morena  tulancingo de bravo  hidalgo            NaN
43            la morena  tulancingo de bravo  hidalgo            NaN
44            la morena  tulancing

## Diccionario base de códigos postales

In [18]:
# Eliminar acentos de todas las columnas de df_codigos_postales para que se pueda mapear bien
df_codigos_postales['d_asenta'] = df_codigos_postales['d_asenta'].apply(lambda x: unicodedata.normalize('NFKD', x).encode('ascii', errors='ignore').decode('utf-8') if isinstance(x, str) else x)

### Primera estandarización, Por mapeo en coincidencia flexible (fuzzy)

In [19]:
from fuzzywuzzy import process
from fuzzywuzzy import fuzz

# Función para mapear colonias con coincidencia flexible
def mapear_colonia_flexible(colonia, df_codigos_postales):
    # Lista de todas las colonias en el diccionario
    colonias_diccionario = df_codigos_postales['d_asenta'].unique()

    # Buscar la coincidencia más cercana con fuzzywuzzy
    mejor_coincidencia = process.extractOne(colonia, colonias_diccionario, scorer=fuzz.ratio, score_cutoff=80)  # Ajusta el threshold de similitud a 80
    
    # Si se encuentra una coincidencia, devolverla; de lo contrario, devolver el valor original
    return mejor_coincidencia[0] if mejor_coincidencia else colonia

# Aplicar la función al DataFrame original
sin_codigo_p['Colonia_Estandarizada'] = sin_codigo_p['Colonia'].apply(lambda x: mapear_colonia_flexible(x, df_codigos_postales))
print(sin_codigo_p[['tipo_lugar', 'Colonia', 'Colonia_Estandarizada', 'Municipio', 'Estado', 'ubicacion']])



    tipo_lugar             Colonia Colonia_Estandarizada            Municipio  \
23        None  francisco i madero   francisco i. madero  tulancingo de bravo   
26        None           la morena             la morena  tulancingo de bravo   
27        None           la morena             la morena  tulancingo de bravo   
28        None           la morena             la morena  tulancingo de bravo   
29        None           la morena             la morena  tulancingo de bravo   
32        None           la morena             la morena  tulancingo de bravo   
33        None           la morena             la morena  tulancingo de bravo   
34        None           la morena             la morena  tulancingo de bravo   
39        None           la morena             la morena  tulancingo de bravo   
40        None           la morena             la morena  tulancingo de bravo   
41        None           la morena             la morena  tulancingo de bravo   
42        None           la 

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sin_codigo_p['Colonia_Estandarizada'] = sin_codigo_p['Colonia'].apply(lambda x: mapear_colonia_flexible(x, df_codigos_postales))


In [20]:
sin_codigo_p['codigo_postal'] = sin_codigo_p.apply(lambda row: obtener_codigo_postal(row['Colonia_Estandarizada'], row['Municipio'], row['Estado'], df_codigos_postales), axis=1)
# Verificar si hay registros sin código postal asignado

sin_codigo_postal = sin_codigo_p[sin_codigo_p['codigo_postal'].isna()]
Limpios = sin_codigo_p[sin_codigo_p['codigo_postal'].notna()]
print(sin_codigo_postal[['Colonia','Municipio','Estado','codigo_postal']])
print(sin_codigo_postal.shape)

        Colonia            Municipio   Estado  codigo_postal
26    la morena  tulancingo de bravo  hidalgo            NaN
27    la morena  tulancingo de bravo  hidalgo            NaN
28    la morena  tulancingo de bravo  hidalgo            NaN
29    la morena  tulancingo de bravo  hidalgo            NaN
32    la morena  tulancingo de bravo  hidalgo            NaN
33    la morena  tulancingo de bravo  hidalgo            NaN
34    la morena  tulancingo de bravo  hidalgo            NaN
39    la morena  tulancingo de bravo  hidalgo            NaN
40    la morena  tulancingo de bravo  hidalgo            NaN
41    la morena  tulancingo de bravo  hidalgo            NaN
42    la morena  tulancingo de bravo  hidalgo            NaN
43    la morena  tulancingo de bravo  hidalgo            NaN
44    la morena  tulancingo de bravo  hidalgo            NaN
45    la morena  tulancingo de bravo  hidalgo            NaN
46    la morena  tulancingo de bravo  hidalgo            NaN
48    la morena  tulanci

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sin_codigo_p['codigo_postal'] = sin_codigo_p.apply(lambda row: obtener_codigo_postal(row['Colonia_Estandarizada'], row['Municipio'], row['Estado'], df_codigos_postales), axis=1)


###  Segunda estandarización, por coincidencias parciales

In [21]:
# Mapear colonias de df_codigos_postales a las colonias de df para estandarizar

# Coincidencias exactas
#sin_codigo_postal['Colonia_Estandarizada'] = sin_codigo_postal['Colonia'].apply(lambda x: df_codigos_postales[df_codigos_postales['d_asenta'].str.lower() == x.lower()]['d_asenta'].values[0] if not df_codigos_postales[df_codigos_postales['d_asenta'].str.lower() == x.lower()].empty else x)
# Coincidencias parciales
sin_codigo_postal.loc[:, 'Colonia_Estandarizada'] = sin_codigo_postal['Colonia'].apply(lambda x: df_codigos_postales[df_codigos_postales['d_asenta'].str.contains(x, case=False)]['d_asenta'].values[0] if not df_codigos_postales[df_codigos_postales['d_asenta'].str.contains(x, case=False)].empty else x)
print(sin_codigo_postal[['Colonia','Colonia_Estandarizada','Municipio','Estado','ubicacion']].head(40))

        Colonia                Colonia_Estandarizada            Municipio  \
26    la morena                  rinconada la morena  tulancingo de bravo   
27    la morena                  rinconada la morena  tulancingo de bravo   
28    la morena                  rinconada la morena  tulancingo de bravo   
29    la morena                  rinconada la morena  tulancingo de bravo   
32    la morena                  rinconada la morena  tulancingo de bravo   
33    la morena                  rinconada la morena  tulancingo de bravo   
34    la morena                  rinconada la morena  tulancingo de bravo   
39    la morena                  rinconada la morena  tulancingo de bravo   
40    la morena                  rinconada la morena  tulancingo de bravo   
41    la morena                  rinconada la morena  tulancingo de bravo   
42    la morena                  rinconada la morena  tulancingo de bravo   
43    la morena                  rinconada la morena  tulancingo de bravo   

In [22]:
sin_codigo_postal.loc[:, 'codigo_postal'] = sin_codigo_postal.apply(lambda row: obtener_codigo_postal(row['Colonia_Estandarizada'], row['Municipio'], row['Estado'], df_codigos_postales), axis=1)
# Verificar si hay registros sin código postal asignado
sin_codigo_postal_2 = sin_codigo_postal[sin_codigo_postal['codigo_postal'].isna()]
Limpios2 = sin_codigo_postal[sin_codigo_postal['codigo_postal'].notna()]

print(sin_codigo_postal_2[['Colonia','Municipio','Estado','codigo_postal']])
print(sin_codigo_postal_2.shape)

      Colonia            Municipio   Estado  codigo_postal
124  el banco  tulancingo de bravo  hidalgo            NaN
(1, 32)


### Convirtiendo números a palabras y coincidencias parciales segunda vez

In [23]:
# Diccionario para convertir números cardinales a palabras
numeros_cardinales = {
    '1': 'uno',
    '2': 'dos',
    '3': 'tres',
    '4': 'cuatro',
    '5': 'cinco',
    '6': 'seis',
    '7': 'siete',
    '8': 'ocho',
    '9': 'nueve',
    '10': 'diez',
}

# Diccionario para convertir números ordinales a palabras
numeros_ordinales = {
    '1ra': 'primera',
    '2da': 'segunda',
    '3ra': 'tercera',
    '4ta': 'cuarta',
    '5ta': 'quinta',
    '6ta': 'sexta',
    '7ma': 'séptima',
    '8va': 'octava',
    '9na': 'novena',
    '10ma': 'décima',
    # Agregar más ordinales si es necesario
}
import re

def reemplazar_numeros(colonia):
    # Primero reemplazar los ordinales
    for num_ord, palabra_ord in numeros_ordinales.items():
        colonia = re.sub(rf'\b{num_ord}\b', palabra_ord, colonia)
    
    # Luego reemplazar los números cardinales aislados
    for num_card, palabra_card in numeros_cardinales.items():
        colonia = re.sub(rf'\b{num_card}\b', palabra_card, colonia)
    
    return colonia

# Utilizar .loc para asignar el resultado de la aplicación de la función reemplazar_numeros
sin_codigo_postal_2.loc[:, 'Colonia_Estandarizada'] = sin_codigo_postal_2['Colonia'].apply(reemplazar_numeros)
sin_codigo_postal_2['Colonia_Estandarizada'].unique()

array(['el banco'], dtype=object)

In [24]:
sin_codigo_postal_2.loc[:, 'codigo_postal'] = sin_codigo_postal_2.apply(lambda row: obtener_codigo_postal(row['Colonia_Estandarizada'], row['Municipio'], row['Estado'], df_codigos_postales), axis=1)
# Verificar si hay registros sin código postal asignado
sin_codigo_postal_3 = sin_codigo_postal_2[sin_codigo_postal_2['codigo_postal'].isna()]
limpios3 = sin_codigo_postal_2[sin_codigo_postal_2['codigo_postal'].notna()]

print(sin_codigo_postal_3[['Colonia','Municipio','Estado','codigo_postal']])
print(sin_codigo_postal_3.shape)

      Colonia            Municipio   Estado codigo_postal
124  el banco  tulancingo de bravo  hidalgo          None
(1, 32)


  sin_codigo_postal_2.loc[:, 'codigo_postal'] = sin_codigo_postal_2.apply(lambda row: obtener_codigo_postal(row['Colonia_Estandarizada'], row['Municipio'], row['Estado'], df_codigos_postales), axis=1)


## Creación del diccionario

In [26]:
df_correctos = pd.concat([Limpio, Limpios, Limpios2, limpios3])
print(df_correctos.shape)
print(df_correctos.info())

(140, 32)
<class 'pandas.core.frame.DataFrame'>
Index: 140 entries, 0 to 135
Data columns (total 32 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   id                         140 non-null    int64  
 1   categoria                  133 non-null    object 
 2   precio                     140 non-null    int64  
 3   precio_mxn                 140 non-null    int64  
 4   precio_usd                 140 non-null    float64
 5   fecha_conversion           140 non-null    object 
 6   propiedad                  140 non-null    object 
 7   metros_total               140 non-null    int64  
 8   metros_construido          140 non-null    int64  
 9   precio_m2_terreno          140 non-null    float64
 10  precio_m2_construido       140 non-null    float64
 11  tiempo_de_publicacion      140 non-null    object 
 12  meses_transcurridos        140 non-null    int64  
 13  meses_transcurridos_fecha  140 non-null    ob

  df_correctos = pd.concat([Limpio, Limpios, Limpios2, limpios3])


In [37]:
#df_correctos.to_csv('colonias_estandarizadas.csv', index=False, header=True, mode='w', encoding='utf-8')

In [40]:
# Identificar colonias estandarizadas que no se repiten o ya se encuentran estandarizadas en el diccionario
colonias_no_en_diccionario = df_correctos[df_correctos['Colonia_Estandarizada'].apply(lambda x: x not in diccionario)].copy()
# Crear un DataFrame de nuevas entradas sin duplicados, manteniendo las columnas del DataFrame original
nuevas_entradas = colonias_no_en_diccionario.drop_duplicates()

# Actualizar el diccionario con las nuevas colonias sin reemplazar las existentes
# Excluir entradas vacías antes de la concatenación para evitar el FutureWarning
nuevas_entradas_sin_vacios = nuevas_entradas[nuevas_entradas['Colonia_Estandarizada'].notna()]
diccionario = pd.concat([diccionario, nuevas_entradas_sin_vacios]).drop_duplicates(keep='first')
diccionario

Unnamed: 0,id,categoria,precio,precio_mxn,precio_usd,fecha_conversion,propiedad,metros_total,metros_construido,precio_m2_terreno,...,Municipio,Estado,CP,ubicacion,url,descripcion,Colonia_Estandarizada,codigo_postal,0,fecha_estandarizada
0,2.0,E1,280000.0,280000.0,15575.00,2024-10-02,Venta de Departamento en Puebla de zaragoza,70.0,70.0,4000.000000,...,puebla,puebla,0.0,"Las Hadas Mundial 86, Puebla, Puebla",https://www.lamudi.com.mx/detalle/41032-73-b1c...,en iserc nuestro compromiso es que compren una...,las hadas mundial 86,72070.0,,
1,3.0,E1,315000.0,315000.0,17522.00,2024-10-02,"VENTA DE CASA EN PLAZAS AMALUCAN, HEROÍCA PUEB...",151.0,210.0,2086.092715,...,puebla,puebla,0.0,"Plazas de Amalucan, Puebla, Puebla",https://www.lamudi.com.mx/detalle/41032-73-593...,venta de hermosa casa no se aceptan creditos ...,plazas amalucan,72310.0,,
2,4.0,E1,323656.0,323656.0,18003.00,2024-10-02,HERMOSA CASA EN LOS HEROES DE PUEBLA !!!,70.0,90.0,4623.657143,...,puebla,puebla,0.0,"Héroes de Puebla, Puebla, Puebla",https://www.lamudi.com.mx/detalle/41032-73-308...,excelente casa con la mejor ubicacion a 10 mi...,heroes de puebla,72520.0,,
3,5.0,E1,324900.0,324900.0,18073.00,2024-10-02,"GRAN OPORTUNIDAD, Hermosa Casa en Plazas Amalu...",150.0,210.0,2166.000000,...,puebla,puebla,0.0,"Plazas de Amalucan, Puebla, Puebla",https://www.lamudi.com.mx/detalle/41032-73-95e...,recuperacion hipotecariaexcelente oportunidad ...,plazas amalucan,72310.0,,
4,6.0,E1,325000.0,325000.0,18078.00,2024-10-02,CASA EN VENTA ARCO TORAL SAN JOSE MAYORAZGO PU...,85.0,100.0,3823.529412,...,puebla,puebla,0.0,"San José Mayorazgo, Puebla, Puebla",https://www.lamudi.com.mx/detalle/41032-73-aed...,casa en venta la oportunidad de adquirir un in...,san jose mayorazgo,72450.0,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
91,92.0,D1,1193100.0,1193100.0,66366.13,2024-09-18,ACR(EMB) CASA EN VENTA EN COLONIA LA MORENA HI...,90.0,100.0,13256.666667,...,tulancingo de bravo,hidalgo,,"La Morena, Tulancingo de Bravo, Hidalgo",https://www.lamudi.com.mx/detalle/41032-73-1dc...,No dejes pasar esta GRAN OPORTUNIDAD y adquier...,rinconada la morena,43625.0,,2024-07-08
92,93.0,D1,1193100.0,1193100.0,66366.13,2024-09-18,OY CASA EN VENTA LA MORENA\tTULANCINGO DE BRAV...,115.0,110.0,10374.782609,...,tulancingo de bravo,hidalgo,,"La Morena, Tulancingo de Bravo, Hidalgo",https://www.lamudi.com.mx/detalle/41032-73-34e...,Recuperación HipotecariaOportunidad de Inversi...,rinconada la morena,43625.0,,2024-07-08
106,107.0,C1,1890000.0,1890000.0,105131.17,2024-09-18,CASA EN TULANCINGO A 45 MIN DE LA CIUDAD DE ME...,80.0,140.0,23625.000000,...,tulancingo de bravo,hidalgo,,"La Morena, Tulancingo de Bravo, Hidalgo",https://www.lamudi.com.mx/detalle/41032-73-252...,Cochera sala comedor cocina 2 baños y medio te...,rinconada la morena,43625.0,,2023-05-05
121,122.0,B2,2890000.0,2890000.0,160756.12,2024-09-18,CASA EN VENTA EN TULANCINGO A 45 MINUTOS DE LA...,220.0,140.0,13136.363636,...,tulancingo de bravo,hidalgo,,"La Morena, Tulancingo de Bravo, Hidalgo",https://www.lamudi.com.mx/detalle/41032-73-a69...,Cochera sala comedor cocina 2 baños y medio te...,rinconada la morena,43625.0,,2024-04-10


In [None]:
# Validar y eliminar duplicados antes de exportar
diccionario = diccionario.drop_duplicates(subset='Colonia_Estandarizada', keep='first')

# Obtener el df con solo las columnas necesarias
diccionario = diccionario[['Colonia_Estandarizada', 'otra_columna']]
# Exportar el diccionario actualizado al archivo original, pero sin sobrescribirlo
# En su lugar, agregar las nuevas entradas como nuevos registros
diccionario.to_csv('colonias_estandarizadas.csv', index=False, header=False, mode='a', encoding='utf-8')

In [1]:
diccionario.columns

NameError: name 'diccionario' is not defined

# pappapapap


In [10]:
import pandas as pd

# Leer los archivos Excel
archivo1 = pd.read_excel('D:\\yoe11\\Documents\\TESEO\\Mensajes\\masificacion_db\\100-109(721-2160)_200.xlsx')
archivo2 = pd.read_excel('D:\\yoe11\\Documents\\TESEO\\Mensajes\\masificacion_db\\100-109(721-2160)_201-400.xlsx')
archivo3 = pd.read_excel('D:\\yoe11\\Documents\\TESEO\\Mensajes\\masificacion_db\\100-109(721-2160)_401-600.xlsx')
archivo4 = pd.read_excel('D:\\yoe11\\Documents\\TESEO\\Mensajes\\masificacion_db\\100-109(721-2160)_601-800.xlsx')

# Concatenar los archivos
df_concatenado = pd.concat([archivo1, archivo2, archivo3, archivo4])

# Calcular el porcentaje de True y False para la columna 'WHATSAPP'
total_registros = len(df_concatenado)
true_registros = df_concatenado['WHATSAPP'].eq(True).sum()
false_registros = df_concatenado['WHATSAPP'].eq(False).sum()

porcentaje_true = (true_registros / total_registros) * 100
porcentaje_false = (false_registros / total_registros) * 100

print(f'Porcentaje de True: {porcentaje_true}%')
print(f'Porcentaje de False: {porcentaje_false}%')

Porcentaje de True: 46.625%
Porcentaje de False: 53.37499999999999%


In [11]:
print(f"Cantidad de cuentas con WhatsApp en total: {true_registros}")

Cantidad de cuentas con WhatsApp en total: 373
