# A. Librerias y datos

In [2]:
import os
import time
import json
import requests
import pandas as pd
from bs4 import BeautifulSoup

# B. Funciones

In [3]:
def set_google_maps_url(lat, lng):
    return f"https://www.google.com/maps/search/?api=1&query={lat},{lng}"

def set_street_view_url(lat, lng):
    return f"https://www.google.com/maps/search/?api=1&query={lat},{lng}"

# C. Prueba

In [4]:
url = 'https://nexoinmobiliario.pe/busqueda/venta-de-departamentos-o-oficinas-o-lotes-o-casas'

response = requests.get(url)
print(response.status_code)

200


In [5]:
if response.status_code == 200:
    html = response.text
    with open('./results/nexoinmobiliario.html', 'w') as f:
        f.write(html)
        
    print(f"Archivo guardado en ./results/nexoinmobiliario.html")
else:
    print(f"Error: {response.status_code}")


Archivo guardado en ./results/nexoinmobiliario.html


# D. Automatizar

## 1. Listar todos los proyectos

In [None]:
# A. Leer el archivo html
with open('./results/nexoinmobiliario.html', 'r', encoding='utf-8', errors='ignore') as infile:
        lines = infile.readlines()

# B. Buscar la línea que contiene la palabra 'url'
cadena = ''
for i in range(len(lines) - 1, 0, -1):
    if '"url":' in lines[i]:
        cadena = lines[i]
        break

# C. Buscar las posiciones de 'url'
posiciones_url = []
posicion = cadena.find('"url":')

while posicion != -1:
    posiciones_url.append(posicion)
    posicion = cadena.find('"url":', posicion + 1)

# D. Buscar las posiciones de 'project_id'
posiciones_ids = []
posicion = cadena.find('"project_id":')

while posicion != -1:
    posiciones_ids.append(posicion)
    posicion = cadena.find('"project_id":', posicion + 1)

# E. Extraer los links
urls_list = []
for a, b in zip(posiciones_url, posiciones_ids):
    url = ''.join(list(cadena)[a + 7:b - 2])
    url = url.replace('\x5C', '')  
    url = str(url)

    base = 'https://nexoinmobiliario.pe/proyecto/venta-de-departamento-' + url.split('/')[-1]
    urls_list.append(base)

len(urls_list)


739

## 2. Extraer los datos de cada proyecto

In [7]:
# Extraer info de cada proyecto
urls_list = urls_list[:4]
urls_list

['https://nexoinmobiliario.pe/proyecto/venta-de-departamento-2249-bravo-pueblo-libre',
 'https://nexoinmobiliario.pe/proyecto/venta-de-departamento-1079-roma',
 'https://nexoinmobiliario.pe/proyecto/venta-de-departamento-1075-gallery',
 'https://nexoinmobiliario.pe/proyecto/venta-de-departamento-2727-concepto-urban-park']

In [8]:
# 4. Extraer los datos de cada proyecto
i = 0
modelos_list = []
dataframes_list = []
for url in urls_list:
    # A. Obtener la URL por request
    response = requests.get(url)
    # print(response.status_code,':' ,url)

    if response.status_code == 200:
        # Parsea el contenido HTML de la página
        soup = BeautifulSoup(response.text, 'html.parser')

        #### A. Datos generales
        # Extrae el texto de <h1>Eres Fase 2</h1>
        try:
            proyecto = soup.find('h1').get_text(strip=True)
        except:
            proyecto = '-'
        # print(f'Proyecto: {proyecto}')

        # Extrae el texto de <p class="Project-header-address">Av. República de Panamá 4077</p>
        try:
            direccion = soup.find('p', class_='Project-header-address').get_text(strip=True)
        except:
            direccion = '-'
        # print(f'Dirección: {direccion}')

        # Extrae el texto de <p class="Project-header-address"> - Surquillo</p>
        try:
            distrito_nexo = soup.find('p', class_='Project-header-address').find_next_sibling('p').get_text(strip=True).replace('-', '').strip()
        except:
            distrito_nexo = '-'
        # print(f'Distrito: {distrito}')

        # Extrae el precio desde <p class="Project-header-price"><span class="title-price">Precio desde</span> <strong> S/. 319,118</strong></p>
        try:
            precio_desde = soup.find('p', class_='Project-header-price').strong.get_text(strip=True)
        except:
            precio_desde = '-'
        # print(f'Precio desde: {precio_desde}')

        # Extrae el valor de referencia <p class="title-price">(<span>valor referencia </span><strong>$ 84,940</strong>)</p>
        try:
            valor_referencia = soup.find('p', class_='title-price').strong.get_text(strip=True)
        except:
            valor_referencia = '-'
        # print(f'Valor de referencia: {valor_referencia}')

        # Listar las áreas comunes
        try:
            areas_lista = soup.find('ul', class_='Project-areas-list')
            elementos_lista = areas_lista.find_all('li')
            areas_comunes = ', '.join(elemento.get_text(strip=True) for elemento in elementos_lista)
        except:
            areas_comunes = '-'

        # Encuentra el campo de entrada para la latitud
        try:
            input_latitud = soup.find('input', id='latitude')
            latitud = input_latitud['value']
        except:
            latitud = '-'
        # print(f'Latitud: {latitud}')

        try:
            input_longitud = soup.find('input', id='longitude')
            longitud = input_longitud['value']
        except:
            longitud = '-'
        # print(f'Longitud: {longitud}')

        try:
            url_google_maps = set_google_maps_url(latitud, longitud)
        except:
            url_google_maps = '-'


        # print('')
        # print('Datos de la inmobiliaria')
        #### B. Datos de la inmobiliaria
        try:
            # Encuentra el div con la clase "bx-data-project box-st"
            div_informacion_proyecto = soup.find('div', class_='bx-data-project box-st')

            if div_informacion_proyecto:
                # Encuentra todas las filas de la tabla dentro del div
                filas_tabla = div_informacion_proyecto.find('table').find_all('tr')

                # Itera sobre las filas de la tabla e imprime la información
                for fila in filas_tabla:
                    columnas = fila.find_all('td')
                    if len(columnas) == 2:
                        try:
                            etiqueta = columnas[0].strong.get_text(strip=True)
                            valor = columnas[1].get_text(strip=True)
                            
                            if etiqueta == 'Tipo de inmueble':
                                tipo_inmueble = valor
                            elif etiqueta == 'Área total':
                                area_total = valor
                            elif etiqueta == 'Dormitorios':
                                dormitorios = valor
                            elif etiqueta == 'Etapa del proyecto':
                                etapa_proyecto = valor
                            elif etiqueta == 'Fecha de entrega':
                                fecha_entrega = valor
                            elif etiqueta == 'Financiamiento':
                                financiamiento = valor
                            elif etiqueta == 'Inmobiliaria Nombre':
                                inmobiliaria_nombre = valor
                            
                            # print(f'{etiqueta} -> {valor}')

                        except:
                            pass

                # También puedes extraer información específica usando el método find para elementos específicos
                # Por ejemplo, para obtener la información de la inmobiliaria
                inmobiliaria_nombre = div_informacion_proyecto.find('tr', class_='Project-inmobiliaria').find('h2').get_text(strip=True)
                # print(f'Inmobiliaria Nombre: {inmobiliaria_nombre}')
        except:
            tipo_inmueble = '-'
            area_total = '-'
            dormitorios = '-'
            etapa_proyecto = '-'
            fecha_entrega = '-'
            financiamiento = '-'
            inmobiliaria_nombre = '-'
            # print('No se encontró información de la inmobiliaria')

        #### C. Modelos disponibles
        try:
            modelos_disponibles = soup.find_all('div', class_='Project-available-model')
            modelos_list.append([  proyecto,modelos_disponibles, distrito_nexo, tipo_inmueble
                                 , etapa_proyecto, fecha_entrega, financiamiento
                                 , inmobiliaria_nombre, areas_comunes
                                 , url_google_maps, url])
            # print('')
            # print('Modelos disponibles')
            # print(f'Cantidad de modelos: {len(modelos_disponibles)}')
        except:
            pass

        #### D. Unir los datos en un diccionario
        proyecto_data = {
            'Proyecto': proyecto,
            'Dirección': direccion,
            'Distrito Nexoinmobiliario': distrito_nexo,
            'Precio Desde': precio_desde,
            'Valor de Referencia': valor_referencia,
            'Latitud': latitud,
            'Longitud': longitud,
            'Tipo de Inmueble': tipo_inmueble,
            'Área Total': area_total,
            'Dormitorios': dormitorios,
            'Etapa del Proyecto': etapa_proyecto,
            'Fecha de Entrega': fecha_entrega,
            'Financiamiento': financiamiento,
            'Inmobiliaria Nombre': inmobiliaria_nombre,
            'Áreas Comunes': areas_comunes,
            'URL Nexoinmobiliario': url,
            'URL Google Maps': url_google_maps

        }

        # Convierte el diccionario en un DataFrame
        df = pd.DataFrame([proyecto_data])
        dataframes_list.append(df)

        # Incrementa el contador
        print(i, '-> ', proyecto , '-> ', url)
        i += 1
        
        # Tiempo de espera
        time.sleep(1.21)

0 ->  Bravo Pueblo Libre - Departamento en Pueblo Libre ->  https://nexoinmobiliario.pe/proyecto/venta-de-departamento-2249-bravo-pueblo-libre
1 ->  Roma - Departamento en San Isidro ->  https://nexoinmobiliario.pe/proyecto/venta-de-departamento-1079-roma
2 ->  GALLERY - Departamento en San Isidro ->  https://nexoinmobiliario.pe/proyecto/venta-de-departamento-1075-gallery
3 ->  Concepto Urban Park - Departamento en Cercado de lima ->  https://nexoinmobiliario.pe/proyecto/venta-de-departamento-2727-concepto-urban-park


In [9]:
# 1. Concatenar los DataFrames
df_proyectos = pd.concat(dataframes_list)

# 2. Eliminar las columnas de Latitud y Longitud
df_proyectos = df_proyectos.drop(columns=['Latitud', 'Longitud'])
df_proyectos.head(3)

Unnamed: 0,Proyecto,Dirección,Distrito Nexoinmobiliario,Precio Desde,Valor de Referencia,Tipo de Inmueble,Área Total,Dormitorios,Etapa del Proyecto,Fecha de Entrega,Financiamiento,Inmobiliaria Nombre,Áreas Comunes,URL Nexoinmobiliario,URL Google Maps
0,Bravo Pueblo Libre - Departamento en Pueblo Libre,Jr. Manuel Belgrano 155,Pueblo Libre,-,"$ 127,491",Departamento,71.60 a 149.90 m2,3 a 3,Entrega inmediata,"31 de Agosto, 2024",Banco BCP,VERONES GRUPO INMOBILIARIO,"Área de juegos para niños, Areas verdes, Gimna...",https://nexoinmobiliario.pe/proyecto/venta-de-...,https://www.google.com/maps/search/?api=1&quer...
0,Roma - Departamento en San Isidro,Calle Roma 485,Country Club San Isidro,-,"S/. 1,083,925",Departamento,119.61 a 215.99 m2,2 a 3,Entrega inmediata,"28 de Febrero, 2020",Otros,BRAZIL GRUPO INMOBILIARIO,Lobby,https://nexoinmobiliario.pe/proyecto/venta-de-...,https://www.google.com/maps/search/?api=1&quer...
0,GALLERY - Departamento en San Isidro,Av. Javier Prado Oeste 2173-2177-2165,San Isidro,-,"$ 172,471",Departamento,91.43 a 109.16 m2,1 a 1,Entrega inmediata,"01 de Enero, 2023",Financiamiento Propio,GRUPO T&C,"Área de juegos para niños, Areas verdes, Gimna...",https://nexoinmobiliario.pe/proyecto/venta-de-...,https://www.google.com/maps/search/?api=1&quer...


## 3. Extraer los datos de cada proyecto

In [15]:
# 5. Extraer los detalles de cada proyecto
data_modelos = []
for   proyecto,modelos_disponibles, distrito_nexo, tipo_inmueble, etapa_proyecto, fecha_entrega, financiamiento \
    , inmobiliaria_nombre, areas_comunes, url_google_maps, url in modelos_list:
    for modelo in modelos_disponibles:
        try:
            # Extrae información del modelo
            nombre_modelo = modelo.find('span', class_='name_tipology').get_text(strip=True).strip()
            #print(f'Nombre del modelo: {nombre_modelo}')

            # Extrae información del número de pisos
            num_pisos = modelo.find('span', class_='num_pisos').get_text(strip=True).strip()
            #print(f'Número de pisos: {num_pisos}')

            # Extrae información del dormitorio, área y precio
            dormitorio = modelo.find('span', class_='bedroom').get_text(strip=True).strip()
            area = modelo.find('span', class_='area').get_text(strip=True).strip()
            precio = modelo.find('span', class_='price').get_text(strip=True).strip()


            # Agregar datos del modelo a la lista
            data_modelos.append({
                'Proyecto': proyecto,
                'Distrito Nexoinmobiliario': distrito_nexo,
                'Tipo de Inmueble': tipo_inmueble,
                'Etapa del Proyecto': etapa_proyecto,
                'Fecha de Entrega': fecha_entrega,
                'Nombre del modelo': nombre_modelo,
                'Número de pisos': num_pisos,
                'Dormitorio': dormitorio,
                'Área': area,
                'Precio desde': precio,
                'Financiamiento': financiamiento,
                'Inmobiliaria Nombre': inmobiliaria_nombre,
                'Áreas Comunes': areas_comunes,
                'URL Nexoinmobiliario': url,
                'URL Google Maps': url_google_maps
            })

            #print("\n---\n")  # Separador entre modelos
        except:
            pass

df_modelos = pd.DataFrame(data_modelos)
df_modelos.head(3)

Unnamed: 0,Proyecto,Distrito Nexoinmobiliario,Tipo de Inmueble,Etapa del Proyecto,Fecha de Entrega,Nombre del modelo,Número de pisos,Dormitorio,Área,Precio desde,Financiamiento,Inmobiliaria Nombre,Áreas Comunes,URL Nexoinmobiliario,URL Google Maps
0,Bravo Pueblo Libre - Departamento en Pueblo Libre,Pueblo Libre,Departamento,Entrega inmediata,"31 de Agosto, 2024",A,Piso: 1,3,71.60 ...,"S/ 512,000",Banco BCP,VERONES GRUPO INMOBILIARIO,"Área de juegos para niños, Areas verdes, Gimna...",https://nexoinmobiliario.pe/proyecto/venta-de-...,https://www.google.com/maps/search/?api=1&quer...
1,Bravo Pueblo Libre - Departamento en Pueblo Libre,Pueblo Libre,Departamento,Entrega inmediata,"31 de Agosto, 2024",G,"Pisos: 4, 5, 8, 9",3,73.90 ...,"S/ 479,000",Banco BCP,VERONES GRUPO INMOBILIARIO,"Área de juegos para niños, Areas verdes, Gimna...",https://nexoinmobiliario.pe/proyecto/venta-de-...,https://www.google.com/maps/search/?api=1&quer...
2,Bravo Pueblo Libre - Departamento en Pueblo Libre,Pueblo Libre,Departamento,Entrega inmediata,"31 de Agosto, 2024",K,Pisos: 5 y 7,3,72.60 ...,"S/ 473,500",Banco BCP,VERONES GRUPO INMOBILIARIO,"Área de juegos para niños, Areas verdes, Gimna...",https://nexoinmobiliario.pe/proyecto/venta-de-...,https://www.google.com/maps/search/?api=1&quer...


# E. Guardar

In [16]:
# Guardar df_proyectos y df_modelos en un solo excel de 2 hojas
with pd.ExcelWriter('nexoinmobiliario.xlsx') as writer:
    df_proyectos.to_excel(writer, sheet_name='Proyectos', index=False)
    df_modelos.to_excel(writer, sheet_name='Modelos', index=False)