# <b><span style="color:#C21611;">EXTRACCIÓN DE DATOS INMOBILIARIOS EN LIMA-PERÚ</span><b>

En el contexto dinámico del mercado inmobiliario en Lima, Perú, la búsqueda de información precisa y contextualizada se ha vuelto más crucial que nunca. Este proyecto, centrado en la "Extracción de Datos Inmobiliarios en Lima-Perú", no solo se propone compilar datos esenciales sobre bienes raíces, sino que aspira a proporcionar un producto final enriquecido con información adicional. La meta es desarrollar una plataforma completa que no solo proporcione información acerca de precios y ubicaciones, sino que también incluya datos sobre el entorno circundante, tales como la cantidad de parques, supermercados, hospitales y otros elementos.

Para lograr esto tambien haremos uso de APIs, las cuales nos facilitarán la conexión y comunicación entre diferentes aplicaciones y servicios. Gracias a estas herramientas, podemos acceder fácilmente a funciones específicas sin tener que construir todo desde cero

<img src="img1.png" alt="imagen1" style="width:60%;">

### <span style="color:#1557D1;">PROPÓSITO</span><b>

Este proyecto está centrado en la recopilación, procesamiento e integración de datos relacionados con el mercado inmobiliario peruano con el fin de ofrecer una plataforma grande y detallada que sirva como una herramienta valiosa para diversos actores involucrados en el mercado.

### <span style="color:#1557D1;">OBJETIVOS</span><b>

- Desarrollar una plataforma valiosa: Con técnicas avanzadas como web scraping y preprocesamiento de datos, para presentar una visión clara y objetiva del mercado inmobiliario en Lima.

- Beneficiar a múltiples partes interesadas: El proyecto no solo tiene como objetivo informar, sino también empoderar a compradores, vendedores, agentes inmobiliarios y autoridades urbanísticas con información relevante y actualizada.

- Fomentar la transparencia y toma de decisiones informada: Al proporcionar una fuente rica de datos, el proyecto busca mejorar la transparencia del mercado inmobiliario y facilitar la toma de decisiones basadas en datos sólidos.

Utilizamos la siguiente página: https://www.laencontre.com.pe/venta/casas/lima-departamento/list. 'LaEncontré' es una página donde se realizan publicaciónes de bienes inmobiliarios en el Perú, en este caso realizamos la busqueda es en la provincia de Lima, filtrando las caracteristicas más importantes, las cuales son: precio, ubicación, área, cantidad de dormitorios y baños.

##### Web scraping de las primeras 5 listas

In [1]:
# Librerias
import requests
from bs4 import BeautifulSoup
import pandas as pd

Obteniendo los links:

In [2]:
# URL de la página principal
url = "https://www.laencontre.com.pe/venta/casas/lima-departamento/list"

# Realiza la solicitud GET a la URL y obtiene la respuesta
response = requests.get(url)

# Utiliza BeautifulSoup para analizar el contenido HTML de la página
html = BeautifulSoup(response.content, 'html.parser')

# Encuentra todos los enlaces que terminan en p_2, p_3, p_4 y p_5
links = html.select("a.linkFilter[href$='p_2'], a.linkFilter[href$='p_3'],a.linkFilter[href$='p_4'], a.linkFilter[href$='p_5'],  a.linkFilter[href$='p_6']")

# Construye y agrega las URLs completas a una lista
base_url = "https://www.laencontre.com.pe"
complete_urls = ["https://www.laencontre.com.pe/venta/casas/lima-departamento/list"]

for link in links:
    # Obtiene el valor del atributo href de cada enlace
    href_value = link.get('href')
    
    # Construye la URL completa concatenando la base_url con el valor de href
    full_url = base_url + href_value
    
    # Agrega la URL completa a la lista
    complete_urls.append(full_url)

# Muestra la lista de URLs completas
#print(complete_urls)

##### Proceso de web scraping para cada link

In [3]:
df = pd.DataFrame(columns=['Precios', 'Ubicaciones', 'Área', 'Dormitorios', 'Baños', 'Descripcion'])

for link in complete_urls:
    # Realizar una solicitud HTTP a la URL actual del bucle
    page = requests.get(link)

    # Verificar si la solicitud fue exitosa (código de estado 200)
    if page.status_code == 200:
        # Analizar el contenido HTML de la página usando BeautifulSoup
        soup = BeautifulSoup(page.content, 'html.parser')

        # Obtener los datos de la página actual
        precios_list = [div.text.strip() for div in soup.find_all('div', attrs={"class": "price"})]
        ubicaciones_list = [a.text.strip() if a.text.strip() else "NA" for a in soup.find_all('a', attrs={"class": "detail-redirection"})]
        areas_list = [span.text.strip() if span.text.strip() else "NA" for span in soup.find_all('span', attrs={"class": "areaBuilt"})]
        dormitorios_list = [span.text.strip() if span.text.strip() else "NA" for span in soup.find_all('span', attrs={"class": "rooms"})]
        banos_list = [span.text.strip() if span.text.strip() else "NA" for span in soup.find_all('span', attrs={"class": "bathrooms"})]
        descrip_list = [p.text.strip() if p.text.strip() else "NA" for p in soup.find_all('p', attrs={"class": "description"})]

        # Obtener la longitud máxima entre todas las listas
        max_length = max(len(precios_list), len(ubicaciones_list), len(areas_list), len(dormitorios_list), len(banos_list), len(descrip_list))

        # Llenar las listas más cortas con "NA" hasta alcanzar la longitud máxima
        precios_list += ["NA"] * (max_length - len(precios_list))
        ubicaciones_list += ["NA"] * (max_length - len(ubicaciones_list))
        areas_list += ["NA"] * (max_length - len(areas_list))
        dormitorios_list += ["NA"] * (max_length - len(dormitorios_list))
        banos_list += ["NA"] * (max_length - len(banos_list))
        descrip_list += ["NA"] * (max_length - len(descrip_list))

        # Crear un DataFrame temporal con los datos de la página actual
        temp_df = pd.DataFrame({'Precios': precios_list,
                                'Ubicaciones': ubicaciones_list,
                                'Área': areas_list,
                                'Dormitorios': dormitorios_list,
                                'Baños': banos_list,
                                'Descripcion': descrip_list})

        # Agregar las filas del DataFrame temporal al DataFrame principal
        df = pd.concat([df, temp_df], ignore_index=True)

    else:
        # Imprimir mensaje de error si la solicitud no fue exitosa
        print("Error al acceder a la página. Código de estado:", page.status_code)

# Guardar el DataFrame en un archivo Excel y CSV
df.to_excel('datos_inmobiliarios.xlsx', index=False)
df.to_csv("datos_inmobiliarios.csv", index=False, encoding='utf-8')

# Imprimir mensaje de éxito
print("Datos guardados correctamente en 'datos_inmobiliarios.xlsx' y 'datos_inmobiliarios.csv'")


Datos guardados correctamente en 'datos_inmobiliarios.xlsx' y 'datos_inmobiliarios.csv'


In [4]:
df= pd.read_excel('datos_inmobiliarios.xlsx', sheet_name ='Sheet1')

In [5]:
df.head()

Unnamed: 0,Precios,Ubicaciones,Área,Dormitorios,Baños,Descripcion
0,"$ 350,000","Casa en Pasaje Santa Rosa 865 Chaclacayo, Los...",300m2,4.0,4.0,"A.T. : 300 m2, A.C. : 300 m2.\nDos plantas, 13..."
1,"$ 930,000","Casa en Calle Los Libertadores, San Isidro, Perú",300m2,3.0,3.0,"A.T. : 300 m2, A.C. : 358 m2.\nDos plantas, 23..."
2,"$ 750,000","Casa en Av. Andrés Aramburú, San Isidro, Perú",360m2,3.0,2.0,"A.T. : 360 m2, A.C. : 300 m2.\nCasa como terre..."
3,"$ 387,188","Casa en La Calera De La Merced, Surquillo, Perú",178m2,5.0,3.0,"SURQUILLO, LA CALERA DE LA MERCED\nVENTA DE CA..."
4,"$ 250,000","Casa en Punta Corrientes, Cerro Azul, Perú",220m2,4.0,5.0,CASA DE PLAYA en CONDOMINIO PLAYA PUNTA CORRIE...


In [31]:
#pip install pivottablejs

Note: you may need to restart the kernel to use updated packages.


In [32]:
from pivottablejs import pivot_ui

In [50]:
pivot_ui(df_1)