# Venta de Casas en Peru 

## Objetivos

1. El proyecto consistirá en extraer los precios de las casas en venta del sitio web [Properati](https://www.properati.com.pe/s/casa/venta) además del lugar y enlace, todo esto mediante el **web scraping**. 
2. Este sitio web cuenta con unas 186 paginas y mas de 6000 mil resultados es por ello que se permitirá al usuario escoger la cantidad de páginas, así como también escoger el precio mínimo y máximo.
3. Los precios obtenidos serán tanto en dólares como en soles, siendo el de principal foco el dólar porque con el previo análisis de este proporcionara al usuario si les conveniente adquirir una casa.


## Tutorial
1. Lo primero que necesitaremos sera el enlace la pagina que queremos webcrapear [Properati](https://www.properati.com.pe/s/casa/venta).
2. Prepararemos las librerias que utlizaremos, en caso de no tener instalarlas usado pip por ejemplo

In [None]:
#!pip install requests beautifulsoup4

### Librerias 

- `requests`: Permite realizar solicitudes HTTP y obtener el contenido de una página web. Se utiliza para enviar solicitudes a un servidor y recibir la respuesta correspondiente. En el contexto del web scraping, se utiliza para obtener el HTML de una página web y luego analizarlo con BeautifulSoup.

- `BeautifulSoup`: Es utilizada para analizar y extraer datos de documentos HTML y XML. Proporciona herramientas para buscar, navegar y manipular la estructura del documento. En el contexto del web scraping, BeautifulSoup se utiliza para extraer información específica de las páginas web.

- `pandas`: Proporciona estructuras de datos y herramientas para el análisis y manipulación de datos. Ofrece una estructura de datos llamada DataFrame, que es útil para organizar y trabajar con datos tabulares. En el contexto del web scraping, pandas se utiliza para almacenar los datos extraídos en un formato tabular y realizar operaciones y análisis posteriores.

- `re`: Proporciona operaciones de coincidencia de patrones mediante expresiones regulares.

- `tabulate`: Permite representar datos tabulares en forma de tablas. Proporciona una forma conveniente de formatear y visualizar datos en una estructura de tabla legible.

**Codigo:**

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
from tabulate import tabulate


3. Comprobar que la pagina web es apta para el webscrapeo. Aqui una guia : ![image.png](attachment:image.png)

In [3]:
url = 'https://www.properati.com.pe/s/casa/venta' # enlace de la pagina a webscrapear
response = requests.get(url) # recibe la respuesta del server de la pagina
html_content = response.content # devuelve el contenido de la pagina en formato byte
response.status_code # con esto comprobamos (codigo)

200

```python
response.text # Muestra el html como cade de texto
``` 

### 1. Webscrapeo 
- Esta es una prueba solamente con el numero de paginas en donde ademas se explica como funciona cada codigo.

In [4]:
import requests
from bs4 import BeautifulSoup

def obtener_datos(num_paginas):
    # URL base
    url_base = 'https://www.properati.com.pe/s/casa/venta/'

    # Listas para almacenar los precios, lugares y enlaces
    precios = []
    lugares = []
    enlaces = []

    # Recorrer las páginas
    for i in range(1, num_paginas + 1):
        # Construir la URL de la página actual
        url_pagina = f'{url_base}{i}'

        # Realizar la solicitud HTTP a la página actual
        response = requests.get(url_pagina)

        # Verificar si la solicitud fue exitosa
        if response.status_code == 200:
            # Obtener el contenido HTML de la página
            html = response.text

            # Crear un objeto BeautifulSoup para parsear el HTML
            soup = BeautifulSoup(html, 'html.parser')

            # Encontrar los elementos de precios en la página actual
            elementos_precios = soup.find_all('div', class_='price')

            # Obtener los precios de los elementos y agregarlos a la lista
            precios_pagina = [elemento.get_text(strip=True) for elemento in elementos_precios]
            precios.extend(precios_pagina)

            # Encontrar los elementos de lugares en la página actual
            elementos_lugares = soup.find_all('div', class_='listing-card__location')

            # Obtener los lugares de los elementos y agregarlos a la lista
            lugares_pagina = [elemento.get_text(strip=True) for elemento in elementos_lugares]
            lugares.extend(lugares_pagina)

            # Encontrar los elementos de enlaces en la página actual
            elementos_enlaces = soup.find_all('a', href=lambda href: href and href.startswith('/detalle'))

            # Obtener los enlaces completos y agregarlos a la lista
            enlaces_pagina = [f'https://www.properati.com.pe{elemento["href"]}' for elemento in elementos_enlaces]
            enlaces.extend(enlaces_pagina)
        else:
            print(f'Error al acceder a la página {url_pagina}')
            continue

    return precios, lugares, enlaces

# Obtener el número de páginas a recorrer
num_paginas = int(input('Ingrese el número de páginas a recorrer: '))

# Obtener los precios, lugares y enlaces de las casas en las páginas especificadas
precios, lugares, enlaces = obtener_datos(num_paginas)

# Imprimir los precios, lugares y enlaces obtenidos
for precio, lugar, enlace in zip(precios, lugares, enlaces):
    print(f'Precio: {precio}, Lugar: {lugar}, Enlace: {enlace}')


Ingrese el número de páginas a recorrer: 4
Precio: USD750,000, Lugar: Los Rosales, Provincia de Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-d7f6-3fe40920d3be-e9c394a9-8bef-4b13
Precio: USD560,000, Lugar: Ur. Casuarinas Sur, Santiago de Surco, Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-5348-5f529e01db4d-e946fa75-a559-43e8
Precio: USD630,000, Lugar: La Encantada De Villa, Provincia de Lima, Gobierno Regional de Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-3637-534a8607857f-e1a2f61b-8dc1-4618
Precio: USD320,000, Lugar: A.h General Jose de San Martin, Provincia de Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-c653-9f73ed1f4354-c0829117-a5c7-4ee1
Precio: USD640,000, Lugar: Ur. Jacaranda, San Borja, Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-84a8-44ce0143a76-ae76846c-97f1-4170
Precio: USD512,000, Lugar: Ur. Aurora, Miraflores, Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-a476-2760419c7547-9b004e79-b

### 2. Clase y definicion
- Se usa una clase para facilitar el proceso ademas que aca si se usa el precio maximo y minimo 

In [242]:
import requests
from bs4 import BeautifulSoup
import re

class ProperatiScraper:
    def __init__(self):
        self.url_base = 'https://www.properati.com.pe/s/casa/venta/'
    
    def obtener_datos(self, num_paginas, precio_min, precio_max):
        precios = []
        lugares = []
        enlaces = []

        for i in range(1, num_paginas + 1):
            url_pagina = f'{self.url_base}{i}'
            response = requests.get(url_pagina)

            if response.status_code == 200:
                html = response.text
                soup = BeautifulSoup(html, 'html.parser')

                elementos_precios = soup.find_all('div', class_='price')
                precios_pagina = [elemento.get_text(strip=True) for elemento in elementos_precios]

                elementos_lugares = soup.find_all('div', class_='listing-card__location')
                lugares_pagina = [elemento.get_text(strip=True) for elemento in elementos_lugares]

                elementos_enlaces = soup.find_all('a', href=lambda href: href and href.startswith('/detalle'))
                enlaces_pagina = [f'https://www.properati.com.pe{elemento["href"]}' for elemento in elementos_enlaces]

                for precio, lugar, enlace in zip(precios_pagina, lugares_pagina, enlaces_pagina):
                    # Extraer solo los valores numéricos del precio
                    precio_numerico = re.findall(r'\d+', precio)
                    if precio_numerico:
                        precio_float = float(''.join(precio_numerico))

                        if precio_min <= precio_float <= precio_max:
                            precios.append(precio)
                            lugares.append(lugar)
                            enlaces.append(enlace)
            else:
                print(f'Error al acceder a la página {url_pagina}')
        
        return precios, lugares, enlaces


# Obtener el número de páginas a recorrer
num_paginas = int(input('Ingrese el número de páginas a recorrer: '))

# Obtener el precio mínimo y máximo del usuario
precio_min = float(input('Ingrese el precio mínimo: '))
precio_max = float(input('Ingrese el precio máximo: '))

# Crear instancia del scraper
scraper = ProperatiScraper()

# Obtener los precios, lugares y enlaces de las casas en las páginas especificadas
precios, lugares, enlaces = scraper.obtener_datos(num_paginas, precio_min, precio_max)

# Imprimir los precios, lugares y enlaces obtenidos
for precio, lugar, enlace in zip(precios, lugares, enlaces):
    print(f'Precio: {precio}, Lugar: {lugar}, Enlace: {enlace}')


Ingrese el número de páginas a recorrer: 1
Ingrese el precio mínimo: 1000
Ingrese el precio máximo: 100000000000000000
Precio: USD750,000, Lugar: Los Rosales, Provincia de Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-d7f6-3fe40920d3be-e9c394a9-8bef-4b13
Precio: USD560,000, Lugar: Ur. Casuarinas Sur, Santiago de Surco, Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-5348-5f529e01db4d-e946fa75-a559-43e8
Precio: USD630,000, Lugar: La Encantada De Villa, Provincia de Lima, Gobierno Regional de Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-3637-534a8607857f-e1a2f61b-8dc1-4618
Precio: USD320,000, Lugar: A.h General Jose de San Martin, Provincia de Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-c653-9f73ed1f4354-c0829117-a5c7-4ee1
Precio: USD640,000, Lugar: Ur. Jacaranda, San Borja, Lima, Enlace: https://www.properati.com.pe/detalle/14032-32-84a8-44ce0143a76-ae76846c-97f1-4170
Precio: USD512,000, Lugar: Ur. Aurora, Miraflores, Lima, Enlace

### 3. Primera visualizacion
- Para esta primera visualizacion se hara uso de la libreria tabulate para un mejor panorama.

In [243]:
from tabulate import tabulate
data = {'Precio': precios, 'Lugar': lugares, 'Enlace': enlaces}
df = pd.DataFrame(data)

# Mostrar la tabla
print(tabulate(df, headers='keys', tablefmt='psql'))

+----+--------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------+
|    | Precio       | Lugar                                                               | Enlace                                                                             |
|----+--------------+---------------------------------------------------------------------+------------------------------------------------------------------------------------|
|  0 | USD750,000   | Los Rosales, Provincia de Lima                                      | https://www.properati.com.pe/detalle/14032-32-d7f6-3fe40920d3be-e9c394a9-8bef-4b13 |
|  1 | USD560,000   | Ur. Casuarinas Sur, Santiago de Surco, Lima                         | https://www.properati.com.pe/detalle/14032-32-5348-5f529e01db4d-e946fa75-a559-43e8 |
|  2 | USD630,000   | La Encantada De Villa, Provincia de Lima, Gobierno Regional de Lima | https://www.properati.c

In [1]:
df

NameError: name 'df' is not defined

### 4. Segunda visualizacion
- Se procede a descargar el data frame como un excel, de tal forma que facilite al usuario. 

In [238]:
# Guardar el DataFrame en un archivo Excel
nombre_archivo = 'datos_casas.xlsx'
df.to_excel(nombre_archivo, index=False)
print(f'Los datos se han guardado exitosamente en el archivo {nombre_archivo}')

Los datos se han guardado exitosamente en el archivo datos_casas.xlsx


![image.png](attachment:image.png)