# Cuaderno 13: Web Scrapping - Pagina Venta de Vehiculos

En este cuaderno mostraremos como realizar web scrapping a una pagina, como herramienta de extracción automática de datos. Con ella tu podras recopilar información, complemntar tus analisis o incluso comparar variables para la toma de decisiones en tu organización.

El proceso se basa en establecer en forma precisa que información requerimos y la fuente de la cual la obtendremos, teniendo claro que debemos hacer un uso adecuado y responsable de la misma. 

En este caso queremos saber que vehiculos hay disponibles para la venta y para tal proposito consultamos la pagina de OLX (https://www.olx.com.co/). Sin embargo al ingresar en ella, encontramos que hay varias categorias de productos disponibles por lo tanto debemos hacer mas precisa nuestra consulta, señalando "carros". Esto debería arrojar un resultado similar al de la grafica:

![image.png](attachment:image.png)

Con certeza en el momento que realices el ejercicio de este cuaderno obtendras una imagen diferente, como resultado de la actualización de la pagina de este sitio web. Los resultados corresponden a la direccion https://www.olx.com.co/carros_c378

El objetivo es que al finalizar esta actividad, tengas un archivo tipo csv, denominado "Resultados_WebScrap_OLX.csv" o el que consideres adecuado, el cual contendra la descripción, el detalle y precio de cada uno de los vehiculos presentados en la pagina. 

Nota: Dada que esta actividad es introductoria al uso del web scrapping, solo obtendras los datos correspondientes a la primera pagina. Sin embargo, si observas con detenimiento en la grafica hay 18.423 carros

### 1. Instalar librerias¶

Recuerda que solo se realiza una vez, el resto de las ocasiones puedes reeemplazar el simbolo (!) por el simbolo de (#) que significa comentarios. Es decir que no sera considerado por la maquina en el momento de la ejecución.

In [1]:
# pip install selenium
# pip install webdriver-manager  

### 2. Llamado a las librerias

Debes asegurarte de llamar las librerias necesarias para el desarrollo de tus actividades, de tal forma que no te generen errores o inconsistencias en pasos posteriores.

En este caso se incluyen las librerias de Selenium (para el web scrapping) y webdriver (para indicar que se usara chrome como browser).

In [2]:
import pandas as pd                     # Libreria para la gestion de datos
import csv                              # Libreria para gestion de archivos csv
from selenium import webdriver          # Libreria Selenium - opcion para el webdriver 
from webdriver_manager.chrome import ChromeDriverManager  # Defincion del webdriver para chrome
from selenium.webdriver.chrome.service import Service     # Libreria Selenium - opcion para Chrome como servicio de datos
from selenium.webdriver.common.by import By               # Libreria Selenium - opcion para obtener los datos



### 3. Instalacion de Driver parael browser

Dependiendo del browser que estes utilizando en tu maquina, debes ajustar el driver para que puedas tomar los datos de la pagina web.

Para mayor informacion del tema, puedes consultar la pagina https://www.selenium.dev/downloads/

En esta caso se utilizara el driver para chrome.

In [3]:
# Instalacion del ChromeDriver
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))



Current google-chrome version is 99.0.4844
Get LATEST chromedriver version for 99.0.4844 google-chrome
Driver [C:\Users\USUARIO\.wdm\drivers\chromedriver\win32\99.0.4844.51\chromedriver.exe] found in cache


El webdriver te abrira la ventana de configuracion del browser, la cual debes minimizar para que el resto del proceso te funcione. Si cierras la ventana te generara un error y no te permitirá continuar con la ejecución.


La siguiente secuencia de comandos, te genera los encabezados del archivo de salida. Es decir donde se almacenaran los resultados de tu busqueda. El archivo tendra como titulos: descripción, detalle y precio.

In [4]:
## Apertuta del archivo de salida o resultados 
header = ['descripcion','detalle','precio']
archivo = open('Resultados_WebScrap_OLX.csv', 'w', newline='')
writer = csv.writer(archivo)
writer.writerow(header)

28

### 4.  Proceso de Web Scrapping

El proceso inicia con la copia de la direccion de la pagina de tu consulta especifica, señalada anteriormente.

Si deseas consultar otra categoria, deberias cambiar driver.get('https://www.olx.com.co/carros_c378') por la nueva direccion driver.get('nueva pagina')

In [5]:
# Lectura de la pagina
driver.get('https://www.olx.com.co/carros_c378')   

En la pagina https://www.olx.com.co/carros_c378 se pulsa el boton derecho del mouse y se toma la ultima opción inspeccionar

 
![image.png](attachment:image.png)



A lo cual nos presentará la pagina en HTML donde podremos inspeccionar los codigos que requerimos tomar para extraer la informacion que necesitamos para nuestro analisis.

![image-2.png](attachment:image-2.png)

Como puedes apreciar, la flecha nos indica los codigos que debemos utilizar para extrar cada uno de los valores que deseamos almacenar de la pagina web

De esta forma el codigo "data-aut-id="itemTitle", permite obtener la marca del vehiculo de la pagina web. Asi como data-aut-id="itemPrice" nos entrega el precio y data-aut-id="itemDetails", los detalles particulares del vehiculo o sea las condiciones generales acerca de su estado.


In [6]:
# lectura de los datos de los vehiculos

carros = driver.find_elements(By.XPATH,'//li[@data-aut-id="itemBox"]')
for carros in carros:
    descrip = carros.find_element(By.XPATH,'.//span[@data-aut-id="itemTitle"]').text
    print(descrip)
    detalle = carros.find_element(By.XPATH,'.//span[@data-aut-id="itemDetails"]').text
    print(detalle)
    precio = carros.find_element(By.XPATH,'.//span[@data-aut-id="itemPrice"]').text
    print(precio)

    # escritura de resultados
    reg_sal =[descrip, detalle, precio]  # Registro de salida, escribe en el archivo la marca, las caractersiticas y el precio
    writer.writerow(reg_sal)  
    

Vendo campero Chevrolet Samurai Heart Up 4 por 4
1994 - 175.000 km
$ 24.500.000
Mercedes benz GLE 250D 4matic 2018
2018 - 47.000 km
$ 165.900.000
Volkswagen Crossfox 1.6 MT Wild SUNROOF
2016 - 46.700 km
$ 53.990.000
RENAULT DUSTER INTENS MT PUBLICA 2022 4x4
2022 - 800 km
$ 80.000.000
Kia Cerato pro
2014 - 84.200 km
$ 44.500.000
Hermoso Kia Picanto X-Line Mod. 2020, Unico dueño
2020 - 15.734 km
$ 50.000.000
VENDO BMW X1
2017 - 91.229 km
$ 87.000.000
KIA PICANTO EMOTION 1.0
2020 - 10.000 km
$ 40.000.000
Vendo carro en buen estado
2015 - 77.979 km
$ 32.500.000
NISSAN TIIDA 1.8/ 2012 / MECANICO
2012 - 114.997 km
$ 24.500.000
Mazda CX30 GRAND TOURING
2021 - 0 km
$ 104.000.000
FORD ESCAPE 2.0 AUTOMÁTICO.. FULL
2021 - 11.000 km
$ 1.000.000
Nissan Sentra SL
2012 - 117.000 km
$ 35.200.000
Vendo twingo
2012 - 138.000 km
$ 19.200.000
Venta de camioneta
2013 - 0 km
$ 16.000.000
Chevrolet Sonic 2013
2013 - 59.000 km
$ 30.500.000
VENDO DUSTER 2013 AUTOMATICA
2013 - 79 km
$ 46.000.000
VENDO KIA CERAT

### 5. Finalización del Proceso

In [7]:
# cerrar archivo de resultados, despues de escribir cada uno de los datos de los vehiculos.
archivo.close() 

In [8]:
# Cierra el webdriver que gestiona la captura de datos.
driver.close()            