# Selenium Webscraping
## Notebook de clase

En este notebook podras encontrar el ejercicio que hicimos en clase para aprender las bases de Selenium.

Adicionalmente, se puede consultar la documentación oficial: https://www.selenium.dev/documentation/webdriver/

In [None]:
!apt update
!apt install chromium-chromedriver
!pip install selenium


In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [None]:
options = webdriver.ChromeOptions ()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
# Abrir un navegador
driver = webdriver.Chrome(options=options)

Utilizaremos un sitio web de aprendizaje. Nota: en la vida diaria los sitios se van actualizando, lo cual puede dificultar mantener el código al día y funcionando

In [None]:
url = 'https://scrapepark.org/courses/spanish/'

# Abrir la página web
driver.get(url)

## **Scrapeo básico**

 ``driver.find_element(By.<>,'html')``


In [None]:
nom_pagina = driver.title #titulo de la página
print("El título de la página es:", nom_pagina)


Hora de meternos al mundo de la inspección:

In [None]:
#Obtener la información de la página hallada en el footer e imprimir su contenido:
info_marca = driver.find_element(By.CLASS_NAME,"information-f")
print(info_marca.text)

In [None]:
testimonio= driver.find_element(By.ID,'testimonios')
print(testimonio.text)

In [None]:
#Obtener los testimonios:
import time

testimonio= driver.find_element(By.ID,'testimonios')
print(testimonio.text)

time.sleep(.5)

testimonio= driver.find_element(By.ID,'testimonios')
print(testimonio.text)


¿Qué pasa si queremos el testimonio de todos los clientes? Necesitamos interectuar con el sitio.

``.click()``

In [None]:
#Interactuar con el sitio haciendo click() para obtener distintos testimonios:

¿Qué no estamos tomando en cuenta?

In [None]:
#Arreglar el código de arriba

**¿Cómo localizar un objeto usando su Xpath.**

Ventaja: efectividad;
Desventaja: trabajo

Xpath Syntax:
//tagName[@AttributeName="Value"]

Obtengamos los productos de la página

In [None]:
botonProductos = driver.find_element(By.XPATH,'//*[@id="navbarSupportedContent"]/ul/li[4]/a')

botonProductos.click()

¿Y si la página cambia según el tamaño de la ventana?

In [None]:
detailBoxes =driver.find_elements(By.XPATH,'//div[@class= "detail-box"]')

for box in detailBoxes:
    print(box.text)
    print("")

Regex para formatear los datos scrapeados

In [None]:
#Queremos crear un data frame de los productos con sus precios
#usaremos regex para obtener solo el texto de las boxes que necesitamos
import re

patronProducto= r"Patineta (Nueva|Usada) \d{1,2}"

matches = [box for box in detailBoxes if re.search(patronProducto,box.text)]

for box in matches:
    print(box.text)

In [None]:
import pandas as pd

pattern = r"Patineta (Nueva|Usada) (\d{1,2})\s*\n*\s*\$(\d+)" #ahora más específico

# Crear listas para almacenar los productos, estados, números y precios
productos = [] #un producto es el estado de la patineta con su número
estados = []
numeros = []
precios = []

# Iteramos
for match in matches:
    resultado = re.search(pattern, match.text)
    if resultado:
        #separamos y definimos variables
        tipo = resultado.group(1) + (resultado.group(2))
        estado = resultado.group(1)
        numero = int(resultado.group(2))
        precio = int(resultado.group(3))

        #agregamos a las listas
        productos.append(tipo)
        estados.append(estado)
        numeros.append(numero)
        precios.append(precio)

# Crear el DataFrame usando pandas
data = {
    'Producto': productos,
    'Estado': estados,
    'Número': numeros,
    'Precio': precios
}

df = pd.DataFrame(data)

df

Ya treniendo el data frame podemos usar las funciones de pandas para analizar los datos

In [None]:
print('Precio promedio:',df['Precio'].mean())
print('Precio mínimo:',df['Precio'].min())
print('Precio máximo',df['Precio'].max())

In [None]:
print('Precio promedio de las patinetas usadas', df[df['Estado'] == 'Usada']['Precio'].mean())
print('Precio promedio de las patinetas nuevas', df[df['Estado'] == 'Nueva']['Precio'].mean())


print('Rango de precios de las patinetas usadas', df[df['Estado'] == 'Usada']['Precio'].max()-df[df['Estado'] == 'Usada']['Precio'].min())
print('Rango de precios de las patinetas nuevas', df[df['Estado'] == 'Nueva']['Precio'].max()-df[df['Estado'] == 'Nueva']['Precio'].min())

In [None]:
driver.quit()

### ¡Acabamos! ###