# Tarea: Selenium
## Parsing Urbania
<img src='https://media-exp1.licdn.com/dms/image/C560BAQG8q1NmfKvm-w/company-logo_200_200/0/1519912202985?e=2159024400&v=beta&t=m7bSl3bhLdiMu8vD58aqR0Ng7luM82oneCYGIg-3GWw' width=300></img>

El proyecto se trata de extraer información de la página web de Urbania, específicamente los datos referentes a los anuncios de alquiler de departamentos. **Link de la página:** <a href='https://urbania.pe/'>Urbania</a>.


**1. Importamos las librerías a usar**

In [1]:
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.firefox.firefox_binary import FirefoxBinary
from sqlalchemy import create_engine
import psycopg2
import pandas as pd
import time
import re

**2. Definimos los decoradores a utilizar**

In [2]:
# Esperar el tiempo especificado para realizar una cierta acción
def wait(secs):
     def decorator(func):
         def wrapper(*args, **kwargs):
             time.sleep(secs)
             return func(*args, **kwargs)
         return wrapper
     return decorator

In [3]:
# Manejar los errores de una cierta acción
def manage_error(f):
    def wrap(*args, **kwargs):
        try:
            result = f(*args, **kwargs)
        except:
            result = None
        return result
    return wrap

**3. Definimos las funciones a utilizar**

In [4]:
@wait(2)
@manage_error
def start_browser(path):
    """ Instancia un navegador web para hacer web scraping"""
    #Colocamos la ruta del Firefox
    binary = FirefoxBinary('C:\\Program Files\\Mozilla Firefox\\firefox.exe')
    # Creamos un perfil
    firefox_profile = webdriver.FirefoxProfile()
    # Creamos una opción de Firefox
    firefox_options = webdriver.FirefoxOptions();
    # Navegar como incógnito
    firefox_options.add_argument("--private")
    # Comunicar las funciones admitidas de una sesión
    caps = DesiredCapabilities.FIREFOX;
    # Instanciar un driver del navegador
    driver = webdriver.Firefox(firefox_profile = firefox_profile,
                               firefox_binary=binary,
                               capabilities = caps,
                               executable_path = path,
                               options = firefox_options)
    return driver

In [5]:
@wait(1)
@manage_error
def get_attribute_driver(driver, xpath, attribute):
    """Devuelve un atributo de un webDriver"""
    return driver.find_element_by_xpath(xpath).get_attribute(attribute)

In [6]:
@wait(2)
def get_content_advertisement(driver):
    """Extrae información de un anuncio"""
    data = {}
    # Extraer el título
    data["Title"] = get_attribute_driver(driver, './/a[@class = "go-to-posting"]', "innerText")
    
    # Extraer el precio de alquiler
    data["Rental_Price"] = get_attribute_driver(driver, './/span[@class = "firstPrice"]', "data-price")
    
    # Extraer el precio de mantenimiento
    price_regex = get_attribute_driver(driver, './/span[contains(@class, "postingCardExpenses")]', "innerText")
    if price_regex:
        price_regex = re.findall(r'...-?\d+\.?\d*', price_regex)[0]
    data["Maintenance_Price"] = price_regex
    
    # Extraer el url del anuncio
    data["Url"] = get_attribute_driver(driver, './/a[@class = "go-to-posting"]', "href")
    
    # Extraer el área
    data["Area"] = get_attribute_driver(driver, './/ul[@data-qa = "features"]/li[1]', "innerText")
    
    # Extraer la cantidad de habitaciones
    bedroom_regex = get_attribute_driver(driver, './/ul[@data-qa = "features"]/li[2]', "innerText")
    if bedroom_regex:
        bedroom_regex = re.findall(r'-?\d+\.?\d*', bedroom_regex)[0]
    data["Num_Bedroom"] = bedroom_regex
    
    # Extraer la cantidad de baños
    bathroom_regex = get_attribute_driver(driver, './/ul[@data-qa = "features"]/li[3]', "innerText")
    if bathroom_regex:
        bathroom_regex = re.findall(r'-?\d+\.?\d*', bathroom_regex)[0]
    data["Num_Bathroom"] = bathroom_regex
    
    # Extraer la cantidad de estacionamientos
    parking_regex = get_attribute_driver(driver, './/ul[@data-qa = "features"]/li[4]', "innerText")
    if parking_regex:
        parking_regex = re.findall(r'-?\d+\.?\d*', parking_regex)[0]
    data["Num_Parking"] = parking_regex
    
    # Extraer el arrendatario
    lessor_regex = get_attribute_driver(driver, './/div[@ class = "postingCardRow postingCardBottom"]//a[child::img]', "href")
    if lessor_regex:
        lessor_regex = re.findall("[\w\.-]+(?=_)",lessor_regex)[0].replace("-"," ").title()
    data["Lessor"] = lessor_regex
    
    # Extraer la ubicación
    data["Location"] = get_attribute_driver(driver, './/span[contains(@class, "postingCardLocation")]/span', "innerText")
    return data

In [7]:
@wait(2)
def _get_info_departments(driver, lista):
    """Obtiene información de los anuncios de una determinada página"""
    for element in driver:
        item = get_content_advertisement(element)
        lista.append(item)

In [8]:
@wait(2)
def get_data(url, n):
    """Obtiene la información de los anuncios de las n páginas de Urbania"""
    lista = []
    n += 1
    path = 'C:\\Selenium\\geckodriver.exe'
    for i in range(1,n):
        # Se abre y se cierra el navegador ya que el navegador detecta que somos bots al continuar a la siguiente página
        driver = start_browser(path)
        link = url.format(i)
        print("Retrieving: ", link)
        try:
            time.sleep(2)
            driver.get(link)       
        except Exception as e:
            print(f"No se pudo acceder a la url {link}.\nError {e}")
            continue
        alquileres = driver.find_elements_by_xpath("//div[contains(@class, 'list-card-container')]/div[contains(@class, 'postingCard')]")
        _get_info_departments(alquileres, lista)
        time.sleep(1)
        driver.close()
        print("The page", i, "contains", len(alquileres), "advertisement. The total so far is", len(lista))
    return lista

In [9]:
def save_data(data):
    """Guarda la información en una base de datos csv"""
    if data:
        df = pd.DataFrame(data)
        df.to_csv('Advertisement_Urbania.csv', index = False, encoding='utf-8')
        engine = create_engine('postgresql+psycopg2://postgres:sdc2019PERU@69.164.192.245:5432/alumno')
        df.to_sql('javier_portella', engine, if_exists="append", index=False)
    else:
        print("Error al guardar la data")

**4. Definimos las función principal**

In [10]:
def main(url):
    list_adv = get_data(url, 5)
    save_data(list_adv)
    print("Se terminó la ejecución del Scraper")

**5. Ejecutamos el scraper**

In [11]:
if __name__ == "__main__":
    url = "https://urbania.pe/buscar/alquiler-de-departamentos?page={}"
    main(url)

Retrieving:  https://urbania.pe/buscar/alquiler-de-departamentos?page=1
The page 1 contains 24 advertisement. The total so far is 24
Retrieving:  https://urbania.pe/buscar/alquiler-de-departamentos?page=2
The page 2 contains 24 advertisement. The total so far is 48
Retrieving:  https://urbania.pe/buscar/alquiler-de-departamentos?page=3
The page 3 contains 24 advertisement. The total so far is 72
Retrieving:  https://urbania.pe/buscar/alquiler-de-departamentos?page=4
The page 4 contains 24 advertisement. The total so far is 96
Retrieving:  https://urbania.pe/buscar/alquiler-de-departamentos?page=5
The page 5 contains 24 advertisement. The total so far is 120
Se terminó la ejecución del Scraper
