### Scrapeando la página Toc-Toc con Selenium
![Logo Toc-Toc](https://d1cfu8v5n1wsm.cloudfront.net/toctoc/img/logo-toctoc-200x200.jpg)

Utilizaremos Selenium para poder scrapear la página de *www.toctoc.com*, desde la cual, se obtendrán todos los detalles (valor, m2, nº de habitaciones, nº de baños, etc) de las propiedades usadas en venta(casas y departamentos) que se encuentren en la Región Metropolitana hasta el día de hoy.

### Selenium
Selenium es una herramienta que nos permitirá controlar un navegador y poder utilizar las funcionalidades del motor de JavaScript para cargar el contenido que no viene en el HTML de la página. Para esto, vamor a importar el módulo webdriver y el módulo keys (para poder indicar atajos del teclado para manipular el navegador remotamente)

In [1316]:
from selenium import webdriver
#Para generar eventos de click
from selenium.webdriver.common.keys import Keys
#Para demoras dinámicas
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.common.exceptions import TimeoutException
#Para convertir listas a dataframe
import pandas as pd
#Para medir tiempo de ejecución de funciones
from time import time

**Paso 1**: Instanciar un driver del navegador (en este caso, de Chrome). Asegurarse de que el archivo driver del navegador seleccionado se encuentre en la carpeta que se especifica en el path.

In [1207]:
options = webdriver.ChromeOptions() #Generamos una variable de opción vacía.
options.add_argument('--incognito') #le agregamos a la variable creada un argumento, en este caso de incógnito.
driver = webdriver.Chrome(executable_path= '/Users/danielparedesvillalobos/opt/anaconda3/chromedriver', options=options) #Le agregamos la variable creada al argumento options.

**Paso 2**: Generamos una variable con la url en cuestión y le inicamos al navegador que la carge (mediante webdriver)

In [1208]:
url_main = 'https://www.toctoc.com/resultados/lista/compra/casa-departamento/?moneda=2&precioDesde=0&precioHasta=0&dormitoriosDesde=&dormitoriosHasta=&banosDesde=0&banosHasta=0&estado=2&disponibilidadEntrega=&numeroDeDiasTocToc=0&superficieDesdeUtil=0&superficieHastaUtil=0&superficieDesdeConstruida=0&superficieHastaConstruida=0&superficieDesdeTerraza=0&superficieHastaTerraza=0&superficieDesdeTerreno=0&superficieHastaTerreno=0&ordenarPor=0&pagina=1&paginaInterna=1&zoom=15&idZonaHomogenea=0&atributos=&texto=Regi%C3%B3n%20Metropolitana%20De%20Santiago,%20Chile&viewport=-34.290931418749516,-71.83796149148834,-32.92240654382668,-69.64697082118785&idPoligono=2240&publicador=0&temporalidad=0'
driver.get(url_main)

**Paso 3**: Extraemos la información de interés.

In [1233]:
#Obtenemos los elementos de la lista de resultados (sólo la página actual)
propiedades = driver.find_elements_by_xpath('//li[@class="un-ress tp1"]')

In [1234]:
#Consultamos un sólo resultado de la lista para evaluar su composición
propiedad = propiedades[0]

In [1235]:
#Obtenemos la url de interés para el resultado que evaluamos (sólo el primero) y la abrimos en una nueva pestaña
pagina = propiedad.find_element_by_xpath('./a[@class="lnk-info"]')
pagina.send_keys(Keys.COMMAND + Keys.RETURN)



In [1236]:
# Hacemos foco sobre la nueva pestaña
driver.switch_to.window(driver.window_handles[1])

In [1295]:
#Obtenemos el código de la propiedad
driver.find_element_by_xpath('//li[@class="cod"]').text

'Código: TT-1653633'

In [1296]:
#Obtenemos el tipo de propiedad
if 'Departamento' in driver.find_element_by_xpath('//div[@class="info-cabecera-ficha"]').text:
    tipo_propiedad = 'Departamento'
elif 'Casa' in driver.find_element_by_xpath('//div[@class="info-cabecera-ficha"]').text: 
    tipo_propiedad = 'Casa'
else:
    tipo_propiedad = ''


In [1297]:
tipo_propiedad

'Departamento'

In [918]:
#Obtenemos el nombre principal
driver.find_element_by_xpath('//h1[@class="tt-ficha"]').text

'Serrano'

In [919]:
#Obtenemos el precio A de la propiedad
driver.find_element_by_xpath('//div[@class="precio-b"]/strong').text


'UF 3.130'

In [920]:
#Obtenemos el precio B de la propiedad
driver.find_element_by_xpath('//em[@class="precioAlternativo"]/strong').text

'$ 92.427.272'

In [921]:
#Obtenemos número de dormitorios
driver.find_element_by_xpath('//*[@id="informacionBasica"]/div[2]/ul/li[2]/strong').text

'2'

In [922]:
#Obtenemos número de baños
driver.find_element_by_xpath('//li[@class="baños"]/strong').text[0]

'2'

In [923]:
#Obtenemos superficie de terreno
driver.find_element_by_xpath('//li[@class="metrosTerreno"]/strong').text

''

In [924]:
#Obtenemos superficie construida
driver.find_element_by_xpath('//li[@class="metrosUtiles"]/strong').text

'60 m²'

In [925]:
#Obtenemos fecha de publicación
driver.find_element_by_xpath('//*[@id="informacionBasica"]/div[2]/ul/li[16]/strong').text


'15-06-2021'

In [926]:
#Obtenemos última plusvalia del sector (fecha)
plus_fecha = driver.find_elements_by_xpath('//*[@id="chartPlusvalia"]/div/div[1]/div/div/table/tbody/tr/td[1]')[-1].get_attribute('innerHTML')
plus_fecha

'2020 1ºSem'

In [927]:
#Obtenemos última plusvalia del sector (valor)
plus_valor = driver.find_elements_by_xpath('//*[@id="chartPlusvalia"]/div/div[1]/div/div/table/tbody/tr/td[2]')[-1].get_attribute('innerHTML')
plus_valor

'55'

In [928]:
#Obtenemos ubicación (latitud)
driver.find_element_by_xpath('//input[@id="h_br_lat"]').get_attribute('value')

'-33.4481'

In [929]:
#Obtenemos ubicación (longitud)
driver.find_element_by_xpath('//input[@id="h_br_lon"]').get_attribute('value')

'-70.6484'

In [1246]:
# Cerrar la nueva pestaña de URL-secundaria
driver.close()

In [1300]:
def obtener_info_propiedad(driver):
    '''
    Función que retorna un diccionario con las variables de interés de cada una de las propiedades de la página.
    Nota: El valor de la propiedad no se representará en la misma moneda por cada columna, 
    esto es algo que se debe limpiar después en la próxima etapa.
    '''
    #Obtenemos el código de la propiedad
    cod_propiedad = driver.find_element_by_xpath('//li[@class="cod"]').text
    
    #Obtenemos el tipo de propiedad
    if 'Departamento' in driver.find_element_by_xpath('//div[@class="info-cabecera-ficha"]').text:
        tipo_propiedad = 'Departamento'
    elif 'Casa' in driver.find_element_by_xpath('//div[@class="info-cabecera-ficha"]').text: 
        tipo_propiedad = 'Casa'
    else:
        tipo_propiedad = ''
        
    #Obtenemos información general
    info_general = driver.find_element_by_xpath('//div[@class="info-cabecera-ficha"]').text
    
    #Obtenemos el nombre principal
    nombre_propiedad = driver.find_element_by_xpath('//h1[@class="tt-ficha"]').text
    
    #Obtenemos el precio A de la propiedad
    precio_a = driver.find_element_by_xpath('//div[@class="precio-b"]/strong').text
    
    #Obtenemos el precio B de la propiedad
    precio_b = driver.find_element_by_xpath('//em[@class="precioAlternativo"]/strong').text
    
    #Obtenemos número de dormitorios
    n_dormitorios = driver.find_element_by_xpath('//*[@id="informacionBasica"]/div[2]/ul/li[2]/strong').text
    
    #Obtenemos número de baños
    n_banos = driver.find_element_by_xpath('//li[@class="baños"]/strong').text[0]
    
    #Obtenemos superficie de terreno
    sup_terreno = driver.find_element_by_xpath('//li[@class="metrosTerreno"]/strong').text
    
    #Obtenemos superficie util
    sup_util = driver.find_element_by_xpath('//li[@class="metrosUtiles"]/strong').text
    
    #Obtenemos superficie construida
    sup_construida = driver.find_element_by_xpath('//li[@class="metrosConstruidos"]/strong').text
    
    #Obtenemos avaluo fiscal
    aval_fiscal = driver.find_element_by_xpath('//strong[@id="lblAvaluo"]').text
    
    #Obtenemos fecha de publicación
    fecha_publicacion = driver.find_element_by_xpath('//*[@id="informacionBasica"]/div[2]/ul/li[16]/strong').text
    
    #Obtenemos última plusvalia del sector (fecha)
    fecha_plusvalia = driver.find_elements_by_xpath('//*[@id="chartPlusvalia"]/div/div[1]/div/div/table/tbody/tr/td[1]')[-1].get_attribute('innerHTML')
    
    #Obtenemos última plusvalia del sector (valor)
    valor_plusvalia = driver.find_elements_by_xpath('//*[@id="chartPlusvalia"]/div/div[1]/div/div/table/tbody/tr/td[2]')[-1].get_attribute('innerHTML')
    
    #Obtenemos ubicación (latitud)
    latitud = driver.find_element_by_xpath('//input[@id="h_br_lat"]').get_attribute('value')
    
    #Obtenemos ubicación (longitud)
    longitud = driver.find_element_by_xpath('//input[@id="h_br_lon"]').get_attribute('value')
    info_propiedad = {'cod_propiedad':cod_propiedad,'tipo_propiedad':tipo_propiedad,'info_general':info_general,'nombre_propiedad':nombre_propiedad,
                      'precio_a':precio_a,'precio_b':precio_b,'n_dormitorios':n_dormitorios,'n_banos':n_banos,'sup_terreno':sup_terreno,
                      'sup_util':sup_util,'sup_construida':sup_construida,'aval_fiscal':aval_fiscal,'fecha_publicacion':fecha_publicacion,'fecha_plusvalia':fecha_plusvalia,'valor_plusvalia':valor_plusvalia,
                      'latitud':latitud,'longitud':longitud}
    print(f'Se escrapea propiedad {cod_propiedad}')
    return info_propiedad

In [1301]:
prueba = obtener_info_propiedad(driver)

Se escrapea propiedad Código: TT-1653633


In [1302]:
prueba

{'cod_propiedad': 'Código: TT-1653633',
 'tipo_propiedad': 'Departamento',
 'info_general': 'Departamento en Venta Usado Las Condes - Metropolitana Ver ubicación',
 'nombre_propiedad': 'General Ludwig 4700 809, Las Condes',
 'precio_a': 'UF 10.980',
 'precio_b': '$ 324.233.690',
 'n_dormitorios': '3',
 'n_banos': '3',
 'sup_terreno': '',
 'sup_util': '148 m²',
 'sup_construida': '',
 'aval_fiscal': '',
 'fecha_publicacion': '18-01-2021',
 'fecha_plusvalia': '2020 1ºSem',
 'valor_plusvalia': '73',
 'latitud': '-33.4217525',
 'longitud': '-70.5757153'}

In [1328]:
def obtener_informacion(driver):
    pag= int(driver.find_element_by_xpath('//li[@class="page-item active"]').text)
    prop = 1
    info = []
    while driver.find_element_by_xpath('//a[@aria-label="Next"]'): 
        propiedades = driver.find_elements_by_xpath('//li[@class="un-ress tp1"]')
        print(f'Se encontraron {len(propiedades)} propiedades en la página nº{pag}')
        print(f'Inicializando scraping de la página nº{pag}...') 
        
        for propiedad in propiedades:
            propiedad.find_element_by_xpath('./a[@class="lnk-info"]').send_keys(Keys.COMMAND + Keys.RETURN)
            driver.switch_to.window(driver.window_handles[1])
            delay = 10                                                     
            try:
                #Introducimos una demora dinámica
                print(f'    Inicializando carga de página propiedad nº{prop}')
                WebDriverWait(driver,delay).until(EC.presence_of_element_located((By.XPATH,'//*[@id="chartPlusvalia"]/div/div[1]/div/div/table/tbody/tr/td[1]')))
                print(f'    La página de la propiedad nº{prop} terminó de cargar')
                print(f'    Inicializando scraping a propiedad nº{prop}')                                     
                detalle_propiedad = obtener_info_propiedad(driver)
                prop +=1       
                driver.close()
                driver.switch_to.window(driver.window_handles[0])
                
            except TimeoutException:
                print(f'    Inicializando carga de página propiedad nº{prop}')
                print('     La página tardó demasiado en cargar')
                print(f'    No fue posible scrapear la propiedad nº{prop}') 
                #detalle_propiedad = []
                prop +=1
                driver.close()
                driver.switch_to.window(driver.window_handles[0])
            info.append(detalle_propiedad)
        driver.find_element_by_xpath('//a[@aria-label="Next"]').click()
        pag +=1
        if pag == 2:
            break
        
        try:
            #Introducimos una demora dinámica
            WebDriverWait(driver,delay).until(EC.presence_of_element_located((By.XPATH,'//li[@class="page-item active"]')))
            print('La siguiente página terminó de cargar')
        except TimeoutException:
            print('La página tardó demasiado en cargar')
        
    else:
        print("El scraping ha finalizado")
    return info



    
    

In [1329]:
start_time = time() #Comienza conteo de tiempo
info_total_1_30 = obtener_informacion(driver)
elapsed_time = time() - start_time #Genera variable con la diferencia entre el comienzo y el término de la función
print("Elapsed time: %.10f seconds." % elapsed_time)

Se encontraron 30 propiedades en la página nº1
Inicializando scraping de la página nº1...
La página de la propiedad nº1 terminó de cargar
Inicializando scraping a propiedad nº1
Se escrapea propiedad Código: TT-1712291
Inicializando carga de página propiedad nº2
La página de la propiedad nº2 terminó de cargar
Inicializando scraping a propiedad nº2
Se escrapea propiedad Código: 31534
Inicializando carga de página propiedad nº3
La página de la propiedad nº3 terminó de cargar
Inicializando scraping a propiedad nº3
Se escrapea propiedad Código: TT-1710835
Inicializando carga de página propiedad nº4
La página de la propiedad nº4 terminó de cargar
Inicializando scraping a propiedad nº4
Se escrapea propiedad Código: 33850
Inicializando carga de página propiedad nº5
La página de la propiedad nº5 terminó de cargar
Inicializando scraping a propiedad nº5
Se escrapea propiedad Código: TT-1761872
Inicializando carga de página propiedad nº6
La página tardó demasiado en cargar
No fue posible scrapear 

In [1326]:
info_total_1_30 #78

[{'cod_propiedad': 'Código: TT-1712291',
  'tipo_propiedad': 'Departamento',
  'info_general': 'Departamento en Venta Usado Ñuñoa - Metropolitana Ver ubicación',
  'nombre_propiedad': 'Suecia 2842 122, Ñuñoa',
  'precio_a': 'UF 8.450',
  'precio_b': '$ 249.524.106',
  'n_dormitorios': '4',
  'n_banos': '3',
  'sup_terreno': '',
  'sup_util': '107 m²',
  'sup_construida': '',
  'aval_fiscal': '',
  'fecha_publicacion': '09-04-2021',
  'fecha_plusvalia': '2020 1ºSem',
  'valor_plusvalia': '67',
  'latitud': '-33.44637676',
  'longitud': '-70.60098216'},
 {'cod_propiedad': 'Código: 31534',
  'tipo_propiedad': 'Departamento',
  'info_general': 'Departamento en Venta Usado Providencia - Metropolitana Ver ubicación',
  'nombre_propiedad': 'Luis Amundsen',
  'precio_a': 'UF 8.000',
  'precio_b': '$ 236.235.840',
  'n_dormitorios': '1',
  'n_banos': '2',
  'sup_terreno': '',
  'sup_util': '80 m²',
  'sup_construida': '94 m²',
  'aval_fiscal': '',
  'fecha_publicacion': '15-06-2021',
  'fecha_p

In [1315]:
df = pd.DataFrame(info_total_1_30)
df

Unnamed: 0,cod_propiedad,tipo_propiedad,info_general,nombre_propiedad,precio_a,precio_b,n_dormitorios,n_banos,sup_terreno,sup_util,sup_construida,aval_fiscal,fecha_publicacion,fecha_plusvalia,valor_plusvalia,latitud,longitud
0,Código: TT-1712291,Departamento,Departamento en Venta Usado Ñuñoa - Metropolit...,"Suecia 2842 122, Ñuñoa",UF 8.450,$ 249.524.106,4,3,,107 m²,,,09-04-2021,2020 1ºSem,67,-33.44637676,-70.60098216
1,Código: 31534,Departamento,Departamento en Venta Usado Providencia - Metr...,Luis Amundsen,UF 8.000,$ 236.235.840,1,2,,80 m²,94 m²,,15-06-2021,2020 1ºSem,75,-33.4417,-70.6038
2,Código: TT-1710835,Departamento,Departamento en Venta Usado Ñuñoa - Metropolit...,"SUECIA 2955 DP 95 A, Ñuñoa",UF 4.800,$ 141.741.504,2,2,,57 m²,,42.414.834,07-04-2021,2020 1ºSem,67,-33.44714436,-70.60129982
3,Código: 33850,Departamento,Departamento en Venta Usado Ñuñoa - Metropolit...,Avenida Sucre,UF 5.400,$ 159.459.192,2,2,,45 m²,48 m²,,15-06-2021,2020 1ºSem,67,-33.4489,-70.6059
4,Código: TT-1761872,Casa,Casa en Venta Usado Peñalolén - Metropolitana ...,"EL QUILLAY 7179, Peñalolén",$ 290.000.000,"UF 9.820,69",4,3,335 m²,,125 m²,84.934.065,20-06-2021,2020 1ºSem,56,-33.510182,-70.558784
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
85,Código: 25725,Departamento,Departamento en Venta Usado Las Condes - Metro...,Santa Adriana,UF 7.300,$ 215.565.204,3,3,,90 m²,126 m²,,15-06-2021,2020 1ºSem,66,-33.4256,-70.5787
86,Código: TT-1699656,Departamento,Departamento en Venta Usado Las Condes - Metro...,"AMPLIO, LUMINOSO, 2 ESTAC. | Colon con Felix d...",UF 7.870,$ 232.397.007,2,2,,90 m²,,,23-03-2021,2020 1ºSem,73,-33.4221741,-70.5773254
87,Código: 31682,Departamento,Departamento en Venta Usado Las Condes - Metro...,Martín de Zamora,UF 15.900,$ 469.518.732,3,4,,140 m²,220 m²,,15-06-2021,2020 1ºSem,73,-33.4203,-70.578
88,Código: TT-1761670,Casa,Casa en Venta Usado La Reina - Metropolitana V...,"María Monvel 1800, La Reina",UF 21.000,$ 620.119.080,5,4,464 m²,,259 m²,,19-06-2021,2020 1ºSem,68,-33.43872156,-70.52343717


In [1306]:
# Hacemos foco sobre la pestaña principal
driver.switch_to.window(driver.window_handles[0])

In [1039]:
#Crear variable que permita pasar de página con el evento click
pasar_pagina = driver.find_element_by_xpath('//a[@aria-label="Next"]')
pasar_pagina.click()

In [1040]:
driver.find_element_by_xpath('//li[@class="page-item active"]').text

'2'

In [1118]:
while driver.find_element_by_xpath('//a[@aria-label="Next"]'):
    delay = 10
            driver.find_element_by_xpath('//a[@aria-label="Next"]').click()
            n_pagina = driver.find_element_by_xpath('//li[@class="page-item active"]').text
            print(f"Se escrapea página nº{n_pagina}")
    except TimeoutException:
            print('La página tardó demasiado en cargar')
else:
    print("No existe")

Se escrapea página nº1
La página terminó de cargar
Se escrapea página nº2


In [1176]:
while driver.find_element_by_xpath('//a[@aria-label="Next"]'):
    delay = 10
    try:
            #Introducimos una demora dinámica
            WebDriverWait(driver,delay).until(EC.presence_of_element_located((By.XPATH,'//li[@class="page-item active"]')))
            print('La página terminó de cargar')
            driver.find_element_by_xpath('//a[@aria-label="Next"]').click()
            n_pagina = driver.find_element_by_xpath('//li[@class="page-item active"]').text
            print(f"Se escrapea página nº{n_pagina}")
    except TimeoutException:
            print('La página tardó demasiado en cargar')
else:
    print("No existe")

IndentationError: unexpected indent (<ipython-input-1176-2d0864c74ecc>, line 2)

In [1161]:
pag= driver.find_elements_by_xpath('//li[@class="page-item active"]')
pag.text

AttributeError: 'list' object has no attribute 'text'

In [1163]:
n_pagina = driver.find_element_by_xpath('//li[@class="page-item active"]').text
n_pagina

'1'

In [1320]:
def test():
    for i in range(20):
        a="Hello, world!".replace("Hello", "Goodbye")
        print(a)
start_time = time()
test()
elapsed_time = time() - start_time
print("Elapsed time: %.10f seconds." % elapsed_time)

Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Goodbye, world!
Elapsed time: 0.0008499622 seconds.


In [1323]:
def count_elapsed_time(f):
    """
    Decorator.
    Execute the function and calculate the elapsed time.
    Print the result to the standard output.
    """
    def wrapper():
        # Start counting.
        start_time = time()
        # Take the original function's return value.
        ret = f()
        # Calculate the elapsed time.
        elapsed_time = time() - start_time
        print("Elapsed time: %0.10f seconds." % elapsed_time)
        return ret
    
    return wrapper

**Paso 4**: Cerramos el navegador.

In [1206]:
driver.close()

MaxRetryError: HTTPConnectionPool(host='127.0.0.1', port=55545): Max retries exceeded with url: /session/eadec3f7530e7b0ee100dd1605b4c634/window (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x108630e20>: Failed to establish a new connection: [Errno 61] Connection refused'))