# Crawler de publicaciones de idealista

Proceso iterativo de rastreo de publicaciones de idealista simulando comportamiento humano
1. acceder a www.idealista.com
1. acceder a https://www.idealista.com/venta-viviendas/barcelona-barcelona/mapa
1. iteración por link de zona
    1. si la zona es un mapa (title contiene "Mapa de ")
        1. iteración por link de zona
    1. si es un listado de vivienas
        1. ordenar por recientes (/?ordenado-por=fecha-publicacion-desc)
        1. Añadir filtros (precio, etc)
        1. iteración por paginador
            1. iteración por elemento de vivienda (title, price, habitaciones, superficie, descrpcion corta, descripcion larga, link)
            1. iteración por link de vivienda
            1. si la vivienda ya está escrapeada o final de pagina
                1. guardar datos en fichero
                1. iteración por link de zona



Para que un **web scraper en Python sea indetectable** y parezca que un usuario real está navegando, puedes emplear diversas técnicas para simular el comportamiento humano. Sin embargo, ten en cuenta que algunas prácticas pueden estar en conflicto con los términos de servicio de ciertos sitios web. Aquí te explico técnicas eficientes y éticas para llevarlo a cabo:

---

### **1. Simulación de Headers HTTP**
- Personaliza los encabezados de las solicitudes HTTP para que parezcan originadas por un navegador real.
  ```python
  headers = {
      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36",
      "Accept-Language": "en-US,en;q=0.9",
      "Accept-Encoding": "gzip, deflate, br",
      "Referer": "https://www.google.com/"
  }
  ```
  Usa **User-Agent strings** válidas para imitar navegadores populares. [Encuentra una lista aquí](https://deviceatlas.com/blog/list-of-user-agent-strings).

---

### **2. Uso de Rotación de Proxies**
- Utiliza proxies para evitar ser bloqueado por realizar demasiadas solicitudes desde una misma IP.
  - **Rotación de IPs**: Emplea servicios como [Bright Data](https://brightdata.com/), [ScraperAPI](https://www.scraperapi.com/) o [ProxyMesh](https://proxymesh.com/).
  - **Proxies residenciales**: Más difíciles de detectar porque las IPs parecen de usuarios reales.
  ```python
  proxies = {
      "http": "http://user:password@proxy_address:port",
      "https": "http://user:password@proxy_address:port"
  }
  ```
  Y rota las IPs periódicamente.

---

### **3. Introducción de Retrasos Aleatorios**
- Agrega pausas entre las solicitudes para simular los tiempos de navegación humana.
  ```python
  import random
  import time

  time.sleep(random.uniform(1, 5))  # Pausa de entre 1 y 5 segundos
  ```

---

### **4. Renderizado de JavaScript**
- Muchos sitios usan JavaScript para cargar contenido dinámico. Usa herramientas como **Selenium** o **Playwright** para renderizar páginas como lo haría un navegador.
  ```python
  from selenium import webdriver
  from selenium.webdriver.common.by import By

  options = webdriver.ChromeOptions()
  options.add_argument("--headless")  # Opcional para no mostrar la ventana del navegador
  driver = webdriver.Chrome(options=options)

  driver.get("https://example.com")
  content = driver.page_source
  driver.quit()
  ```

---

### **5. Rotación de Agentes de Usuario (User-Agent)**
- Cambia el **User-Agent** de manera aleatoria para cada solicitud.
  ```python
  from fake_useragent import UserAgent

  ua = UserAgent()
  headers = {"User-Agent": ua.random}
  ```

---

### **6. Manejo de Cookies y Sesiones**
- Usa cookies para mantener sesiones activas, como lo haría un usuario.
  ```python
  import requests

  session = requests.Session()
  session.headers.update({"User-Agent": "tu user-agent"})
  session.get("https://example.com")  # Guarda cookies automáticamente
  ```

---

### **7. Simulación de Movimiento y Eventos (Con Selenium o Playwright)**
- Emula clics, desplazamientos y movimientos del ratón para parecer humano.
  ```python
  from selenium.webdriver.common.action_chains import ActionChains

  action = ActionChains(driver)
  action.move_by_offset(100, 200).click().perform()
  ```

---

### **8. Cambiar el Referer**
- Modifica el encabezado `Referer` para que las solicitudes parezcan originadas desde otras páginas válidas, como Google.

---

### **9. Uso de Antidetect Browsers**
- Emplea navegadores personalizados como [Undetected ChromeDriver](https://github.com/ultrafunkamsterdam/undetected-chromedriver) para evitar detecciones avanzadas.

---

### **10. Monitorización y Ajustes**
- Identifica patrones de detección:
  - Limita el número de solicitudes por minuto.
  - Cambia el tiempo de actividad.
  - Implementa manejo de captchas (puedes usar servicios como [2Captcha](https://2captcha.com/) o [Anti-Captcha](https://anti-captcha.com/)).


In [1]:
import re
from web_scraper import WebScraper
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

idealista_articles_rx = re.compile(r'<article class="item(.+?)</article>', re.DOTALL)

idealista_list_rx = {
    'link': re.compile(r'<a href="(/inmueble/\d+?/)" role="heading" aria-level="2" class="item-link " title=".+? en .+?">'),
    'type_v': re.compile(r'<a href=".+?" role="heading" aria-level="2" class="item-link " title="(.+?) en .+?">'),
    'address': re.compile(r'<a href=".+?" role="heading" aria-level="2" class="item-link " title=".+? en (.+?)">'),
    'town': re.compile(r'<a href=".+?" role="heading" aria-level="2" class="item-link " title=".+? en (.+?)">'),
    'price': re.compile(r'<span class="item-price h2-simulated">(.+?)<span class="txt-big">€</span></span>'),
    'price_old': re.compile(r'<span class="pricedown_price">(.+?) €</span>'),
    'info_sub': re.compile(r'<div class="item-detail-char">(.+?)</div>'),
    'info_elem': re.compile(r'<span class="item-detail">(.*?)</span>', re.DOTALL),
    'description': re.compile(r'<div class="item-description description">(.+?)</div>'),
    'tags': re.compile(r'<span class="listing-tags ">(.+?)</span>', re.DOTALL),
    'agent': re.compile(r'<span class="hightop-agent-name">(.+?)</span>')
}

idealista_next_list_rx = re.compile(r'<li class="next"><a rel="nofollow" class="icon-arrow-right-after" href="(.+?)">')

idealista_post_fields_rx = {
    'link': re.compile(r'<link rel="canonical" href="https://www.idealista.com(.+?)"/>'),
    'type_v': re.compile(r'<span class="main-info__title-main">(.+?) en venta en .+?</span>'),
    'address': re.compile(r'<span class="main-info__title-main">.+? en venta en (.+?)</span>'),
    'town': re.compile(r'<span class="main-info__title-minor">(.+?)</span>'),
    'price': re.compile(r'<span class="info-data-price"><span class="txt-bold">(.+?)</span>'),
    'price_old': re.compile(r'<span class="pricedown_price">(.+?) €</span>'),
    'info_sub': re.compile(r'<section id="details" class="details-box">(.*?)</section>'),
    'info_elem': re.compile(r'<li>(.*?)</li>', re.DOTALL),
    'description': re.compile(r'<div class="adCommentsLanguage.+?><p>(.+?)</p></div>', re.DOTALL),
    'tags': re.compile(r'<span class="tag ">(.+?)</span>', re.DOTALL),
    'agent': re.compile(r'<h2 class="aditional-link_title .+? href="(.+?)".+?</a>'),
}

idealista_fields_lambda = {
    'link': lambda m: f"https://www.idealista.com{m}" if isinstance(m, str) else f"https://www.idealista.com{m.group(1)}"
}

url = 'https://www.idealista.com/venta-viviendas/barcelona-barcelona/con-precio-hasta_100000/?ordenado-por=fecha-publicacion-desc'

webScraper = WebScraper(url, Path('../datasets/idealista_datafile.csv'), idealista_articles_rx, idealista_list_rx, idealista_next_list_rx, idealista_post_fields_rx, idealista_fields_lambda)
webScraper.scrap()


INFO - Init WebScraper
INFO - URL set to https://www.idealista.com/venta-viviendas/barcelona-barcelona/con-precio-hasta_100000/?ordenado-por=fecha-publicacion-desc
INFO - Procesando: https://www.idealista.com/venta-viviendas/barcelona-barcelona/con-precio-hasta_100000/?ordenado-por=fecha-publicacion-desc
INFO - URL set to https://www.idealista.com/venta-viviendas/barcelona-barcelona/con-precio-hasta_100000/?ordenado-por=fecha-publicacion-desc
INFO - Campos a extraer: ['link', 'type_v', 'address', 'town', 'price', 'price_old', 'info', 'description', 'tags', 'agent']
INFO - Elementos extraidos de la lista: 30 elementos
INFO - Elementos añadidos a la bbdd: 30
INFO - Tiempo transcurrido: 0.8717604350003967
INFO - Procesando: https://www.idealista.com/venta-viviendas/barcelona-barcelona/con-precio-hasta_100000/pagina-2.htm?ordenado-por=fecha-publicacion-desc
INFO - URL set to https://www.idealista.com/venta-viviendas/barcelona-barcelona/con-precio-hasta_100000/pagina-2.htm?ordenado-por=fech