In [1]:
#Importar librerías
from vivienda_cdmx.vivicdmx import lamudi,easybroker
import pandas as pd
import time
import random
from matplotlib import pyplot as plt
import folium
from folium.plugins import HeatMap,MarkerCluster
import branca

#### Scrapeo de datos de los portales inmobiliarios

In [2]:
# Listado
portales = [ easybroker, lamudi]
# df vacía
df = pd.DataFrame()

# proceso de scrapeo
for portal in portales:
    try:
        # Tiempo de inicio
        print("Proceso iniciado a las ", time.strftime("%H:%M:%S"),"del día", time.strftime("%d/%m/%y"))
        
        # Ejecuta la función de scraping
        df_portal = portal()  
        df = pd.concat([df, df_portal])
        
        # Records
        print("Número de registros: ", len(df))
        
    except Exception as e:
        # Si ocurre un error, lo imprime
        print(f"Ocurrió un error: {e}")
    
    finally:
        
        print("Proceso terminado a las ", time.strftime("%H:%M:%S"),"del día", time.strftime("%d/%m/%y"))
        print("--------------------------------------------------")
        
        # Sleep for a random time before the next iteration
        time.sleep(random.randint(1, 3))

    
df

Proceso iniciado a las  14:31:14 del día 07/04/24


Scrapeando Easybroker: 100%|██████████| 100/100 [06:27<00:00,  3.87s/it]


Número de registros:  2385
Proceso terminado a las  14:37:41 del día 07/04/24
--------------------------------------------------
Proceso iniciado a las  14:37:44 del día 07/04/24


Scrapeando Lamudi: 100%|██████████| 100/100 [05:45<00:00,  3.45s/it]


Número de registros:  5389
Proceso terminado a las  14:44:07 del día 07/04/24
--------------------------------------------------


Unnamed: 0,oferta,precio,mts_const,direccion,bathrooms,recamaras,lat,lon,fuente,fecha_consulta
0,oportunidad departamento con 2 balcones,10799999.0,194.0,"Departamento en Santa Fe, Álvaro Obregón",3.0,3.0,19.3471946,-99.2563456,easybroker,2024-04-07 14:37:41.870985
1,depa remodelado en venta cuajimalpa parte baja,4200000.0,120.0,"Departamento en Cuajimalpa, Cuajimalpa de Morelos",2.0,3.0,19.3578384,-99.2928011,easybroker,2024-04-07 14:37:41.870985
2,venta departamentos narvarte ote icacos 545...,2755000.0,63.0,"Departamento en Narvarte Oriente, Benito Juárez",2.0,2.0,19.3989196,-99.1529289,easybroker,2024-04-07 14:37:41.870985
3,venta departamentos siberia 188 pensador mexic...,1750996.0,50.0,"Departamento en Pensador Mexicano, Venustiano ...",,,19.4427831,-99.0905572,easybroker,2024-04-07 14:37:41.870985
4,venta departamento amazonas col. cuauhtemoc ...,4095000.0,50.0,"Departamento en Renacimiento, Cuauhtémoc",,,19.4356338,-99.1495107,easybroker,2024-04-07 14:37:41.870985
...,...,...,...,...,...,...,...,...,...,...
3001,departamento en venta en san rafael,3950000.0,37.0,,1,1,19.437462,-99.161841,lamudi,2024-04-07 14:44:07.967550
3002,departamento en venta en sta fe,26000000.0,350.0,,3,3,19.361988,-99.266219,lamudi,2024-04-07 14:44:07.967550
3003,departamento en venta en san rafael,2300000.0,54.0,,1,2,19.4418924,-99.1628852,lamudi,2024-04-07 14:44:07.967550
3004,departamento en venta en del carmen,2650000.0,102.0,,1,3,19.3742407,-99.1381217,lamudi,2024-04-07 14:44:07.967550


In [3]:
df["fuente"].unique()

array(['easybroker', 'lamudi'], dtype=object)

#### Limpieza de datos

In [4]:
def limpia_datos(df):
    df = df.reset_index(drop=True)
   
    #Eliminar registros con precio 0 o nan
    df=df[df['precio']>0]
    df=df[df['precio'].notna()]
    #Eliminar registros sin latitud y longitud
    df=df[df['lat'].notna()]
    df=df[df['lon'].notna()]
    #Eliminar registros que en oferta contengan "terreno"
    df=df[~df['oferta'].str.contains('terreno')]
    df=df[~df['oferta'].str.contains('renta')]
    df=df[~df['oferta'].str.contains('remodelar')]
    df=df[~df['oferta'].str.contains('hectareas')]
    #Eliminar registros con misma oferta y mismo precio
    df=df.drop_duplicates(subset=['oferta','precio'],keep='first')

    #Calcular precio por metro cuadrado
    df['precio_m2'] = df['precio'] / df['mts_const']

    return df

In [5]:
df_limpia=limpia_datos(df)
df_limpia

Unnamed: 0,oferta,precio,mts_const,direccion,bathrooms,recamaras,lat,lon,fuente,fecha_consulta,precio_m2
0,oportunidad departamento con 2 balcones,10799999.0,194.0,"Departamento en Santa Fe, Álvaro Obregón",3.0,3.0,19.3471946,-99.2563456,easybroker,2024-04-07 14:37:41.870985,55670.097938
1,depa remodelado en venta cuajimalpa parte baja,4200000.0,120.0,"Departamento en Cuajimalpa, Cuajimalpa de Morelos",2.0,3.0,19.3578384,-99.2928011,easybroker,2024-04-07 14:37:41.870985,35000.000000
2,venta departamentos narvarte ote icacos 545...,2755000.0,63.0,"Departamento en Narvarte Oriente, Benito Juárez",2.0,2.0,19.3989196,-99.1529289,easybroker,2024-04-07 14:37:41.870985,43730.158730
3,venta departamentos siberia 188 pensador mexic...,1750996.0,50.0,"Departamento en Pensador Mexicano, Venustiano ...",,,19.4427831,-99.0905572,easybroker,2024-04-07 14:37:41.870985,35019.920000
4,venta departamento amazonas col. cuauhtemoc ...,4095000.0,50.0,"Departamento en Renacimiento, Cuauhtémoc",,,19.4356338,-99.1495107,easybroker,2024-04-07 14:37:41.870985,81900.000000
...,...,...,...,...,...,...,...,...,...,...,...
5384,departamento en venta en san rafael,3950000.0,37.0,,1,1,19.437462,-99.161841,lamudi,2024-04-07 14:44:07.967550,106756.756757
5385,departamento en venta en sta fe,26000000.0,350.0,,3,3,19.361988,-99.266219,lamudi,2024-04-07 14:44:07.967550,74285.714286
5386,departamento en venta en san rafael,2300000.0,54.0,,1,2,19.4418924,-99.1628852,lamudi,2024-04-07 14:44:07.967550,42592.592593
5387,departamento en venta en del carmen,2650000.0,102.0,,1,3,19.3742407,-99.1381217,lamudi,2024-04-07 14:44:07.967550,25980.392157


In [6]:
df_limpia.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4339 entries, 0 to 5388
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   oferta          4339 non-null   object        
 1   precio          4339 non-null   float64       
 2   mts_const       4236 non-null   float64       
 3   direccion       1950 non-null   object        
 4   bathrooms       3842 non-null   object        
 5   recamaras       4093 non-null   object        
 6   lat             4339 non-null   object        
 7   lon             4339 non-null   object        
 8   fuente          4339 non-null   object        
 9   fecha_consulta  4339 non-null   datetime64[ns]
 10  precio_m2       4236 non-null   float64       
dtypes: datetime64[ns](1), float64(3), object(7)
memory usage: 406.8+ KB


In [19]:

mapa = folium.Map(location=[19.4326, -99.1332], zoom_start=12, 
                  tiles="http://www.google.cn/maps/vt?lyrs=s@189&gl=cn&x={x}&y={y}&z={z}", 
                  attr="Google")


agg_data = df_limpia.groupby(['lat', 'lon'])['precio'].mean().reset_index(name='avg_price')


vmin_value = agg_data['avg_price'].min()
vmax_value = agg_data['avg_price'].max()

# Heatmap de precios
HeatMap(data=agg_data[['lat', 'lon', 'avg_price']], radius=9, max_zoom=20, name="Mapa de calor de precios", overlay=True, 
        control=True, show=True, gradient={0.0: 'green', 0.5: 'yellow', 1.0: 'red'}).add_to(mapa)


cmap = branca.colormap.LinearColormap(colors=['green', 'yellow', 'red'], 
                                      index=[vmin_value, (vmin_value + vmax_value) / 2, vmax_value],
                                      vmin=vmin_value, vmax=vmax_value, caption="Precio promedio")
mapa.add_child(cmap)


marker_cluster = MarkerCluster(name="Viviendas").add_to(mapa)


for i in range(len(df_limpia)):
    formatted_precio = f"{df_limpia.iloc[i]['precio']:,}"
    formatted_precio_m2 = f"{round(df_limpia.iloc[i]['precio_m2'], 2):,}"

    folium.Marker([df_limpia.iloc[i]['lat'], df_limpia.iloc[i]['lon']],
                  tooltip=folium.Tooltip(f"<b>Oferta:</b> {df_limpia.iloc[i]['oferta']}<br>"
                                         f"<b>Precio:</b> {formatted_precio}<br>"
                                         f"<b>Metros construidos:</b> {df_limpia.iloc[i]['mts_const']}<br>"
                                         f"<b>Precio por metro cuadrado:</b> {formatted_precio_m2}<br>"),
                  icon=folium.Icon(color='blue', icon='home')
                 ).add_to(marker_cluster)

#Salvar el mapa
mapa.save("mapa_cdmx.html")

mapa