# Selenium Webscraping
## Notebook de clase

En este notebook podras encontrar el ejercicio que hicimos en clase para aprender las bases de Selenium.

Adicionalmente, se puede consultar la documentación oficial: https://www.selenium.dev/documentation/webdriver/

Hagamos los imports relevantes y conectémonos al driver de Chrome. 

In [37]:
from selenium import webdriver
from selenium.webdriver.common.by import By

In [None]:
driver = webdriver.Remote(command_executor='http://localhost:4444/wd/hub',options = webdriver.ChromeOptions())

In [None]:
#options.add_argument('--headless')  # Ejecutar en modo headless (sin interfaz gráfica)
driver = webdriver.Chrome(options= webdriver.ChromeOptions())

In [None]:

# Por si falla algo. URL al driver de Chrome (descargar el driver desde https://sites.google.com/chromium.org/driver/)
#chrome_driver_path = 'driver/chromedriver_mac64/chromedriver' #remplazar esto con el path al chrome driver de tu compu


Utilizaremos un sitio web de aprendizaje. Nota: en la vida diaria los sitios se van actualizando, lo cual puede dificultar mantener el código al día y funcionando 

In [38]:
url = 'https://scrapepark.org/courses/spanish/'

# Abrir la página web
driver.get(url)

## **Scrapeo básico** 

 ``driver.find_element(By.<>,'html')``


In [40]:
nom_pagina = driver.title #titulo de la página
print("El título de la página es:", nom_pagina)

print('\n')

info_marca = driver.find_element(By.CLASS_NAME, 'information-f')
print("La información del sitio es:", info_marca.text) # .text nos da el texto de un elemento

print('\n')

testimonio = driver.find_element(By.ID, 'testimonios') # buequda por ID
print("El texto es:", testimonio.text) # .text nos da el texto de un elemento


El título de la página es: ScrapePark.org


La información del sitio es: DIRECCIÓN: Calle falsa 123
TELÉFONO: 4-444-4444
EMAIL: ventas@mail.com


El texto es: Testimonios de clientes
Cliente 1
Los productos me encantaron y los precios son muy buenos. Lo recomiendo.
Anterior
Siguiente


¿qué pasa si queremos el testimonio de todos los clientes? Necesitamos interectuar con el sitio a través de pithon

In [41]:

testimonio = driver.find_element(By.ID, 'testimonios')
print("El texto es:", testimonio.text) # .text nos da el texto de un elemento
print('\n')

next = driver.find_element(By.CLASS_NAME, 'carousel-control-next')
next.click()

testimonio = driver.find_element(By.ID, 'testimonios')
print("El texto es:", testimonio.text) # .text nos da el texto de un elemento


El texto es: Testimonios de clientes
Cliente 1
Los productos me encantaron y los precios son muy buenos. Lo recomiendo.
Anterior
Siguiente


El texto es: Testimonios de clientes
Cliente 1
Los productos me encantaron y los precios son muy buenos. Lo recomiendo.
Anterior
Siguiente



## paciencia
en este caso se tiene que tomar en cuenta la velocidad del click contra la velocidad de extraccion y definición de un elemento

In [42]:
import time

testimonio = driver.find_element(By.ID, 'testimonios')
print(testimonio.text)
print('\n')

next = driver.find_element(By.CLASS_NAME, 'carousel-control-next')
next.click()

time.sleep(.5) #espera medio segundo

testimonio = driver.find_element(By.ID, 'testimonios')
print(testimonio.text) 


Testimonios de clientes
Cliente 1
Los productos me encantaron y los precios son muy buenos. Lo recomiendo.
Cliente 2
¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.
Anterior
Siguiente


Testimonios de clientes
Cliente 2
¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.
Anterior
Siguiente


¿Cómo localizar un objeto usando su Xpath.

Ventaja: efectividad; 
Desventaja: trabajo

Xpath Syntax:
//tagName[@AttributeName="Value"]

In [43]:
#//a[@href= "#productos"]
botonProductos= driver.find_element(By.XPATH,'//a[@href= "#productos"]')
#botonProductos= driver.find(By.XPATH('//*[@id="navbarSupportedContent"]/ul/li[3]/a'))# Ej. No funciona
botonProductos.click()


In [44]:
detailBoxes= driver.find_elements(By.XPATH,'//div[@class= "detail-box"]') #detail boxes es una lista

for box in detailBoxes:
    print(box.text)


Descuentos 20% Off
¡En todos los productos!
Aprovechá nuestras ofertas.
Comprar ahora


Entrega rápida
Envío gratuito
La mejor calidad
Patineta Nueva 1
$75
Patineta Usada 2
$80
Patineta Nueva 3
$68
Patineta Usada 4
$70
Patineta Nueva 5
$75
Patineta Nueva 6
$58
Patineta Nueva 7
$80
Patineta Nueva 8
$35
Patineta Nueva 9
$165
Patineta Usada 10
$54
Patineta Usada 11
$99
Patineta Nueva 12
$110

Cliente 2
¡La calidad y variedad de patinetas es impresionante! Definitivamente volveré a comprar.



In [45]:
#Queremos crear un data frame de los productos con sus precios 
#usaremos regex para obtener solo el texto de las boxes que necesitamos
import re

patronProducto= r"Patineta (Nueva|Usada) \d{1,2}"

#arreglo de productos
matches = [box for box in detailBoxes if re.search(patronProducto, box.text)]

for box in matches:
    print(box.text)


Patineta Nueva 1
$75
Patineta Usada 2
$80
Patineta Nueva 3
$68
Patineta Usada 4
$70
Patineta Nueva 5
$75
Patineta Nueva 6
$58
Patineta Nueva 7
$80
Patineta Nueva 8
$35
Patineta Nueva 9
$165
Patineta Usada 10
$54
Patineta Usada 11
$99
Patineta Nueva 12
$110


In [57]:
import pandas as pd

pattern = r"Patineta (Nueva|Usada) (\d{1,2})\s*\n*\s*\$(\d+)" #ahora más específico

# Crear listas para almacenar los productos, estados, números y precios
productos = [] #un producto es el estado de la patineta con su número
estados = []
numeros = []
precios = []

# Iteramos
for match in matches:
    resultado = re.search(pattern, match.text)
    if resultado:
        #separamos y definimos variables
        tipo = resultado.group(1) + (resultado.group(2))
        estado = resultado.group(1) 
        numero = int(resultado.group(2))
        precio = int(resultado.group(3))
        
        #agregamos a las listas
        productos.append(tipo)
        estados.append(estado)
        numeros.append(numero)
        precios.append(precio)

# Crear el DataFrame usando pandas
data = {
    'Producto': productos,
    'Estado': estados,
    'Número': numeros,
    'Precio': precios
}

df = pd.DataFrame(data)

print(df)

   Producto Estado  Número  Precio
0    Nueva1  Nueva       1      75
1    Usada2  Usada       2      80
2    Nueva3  Nueva       3      68
3    Usada4  Usada       4      70
4    Nueva5  Nueva       5      75
5    Nueva6  Nueva       6      58
6    Nueva7  Nueva       7      80
7    Nueva8  Nueva       8      35
8    Nueva9  Nueva       9     165
9   Usada10  Usada      10      54
10  Usada11  Usada      11      99
11  Nueva12  Nueva      12     110


Ya treniendo el data frame podemos usar las funciones de pandas para analizar los datos

In [63]:
print('Precio promedio:',df['Precio'].mean())
print('Precio mínimo:',df['Precio'].min())
print('Precio máximo',df['Precio'].max())

Precio promedio: 80.75
Precio mínimo: 35
Precio máximo 165


In [68]:
print('Precio promedio de las patinetas usadas', df[df['Estado'] == 'Usada']['Precio'].mean())
print('Precio promedio de las patinetas nuevas', df[df['Estado'] == 'Nueva']['Precio'].mean())


print('Rango de precios de las patinetas usadas', df[df['Estado'] == 'Usada']['Precio'].max()-df[df['Estado'] == 'Usada']['Precio'].min())
print('Rango de precios de las patinetas nuevas', df[df['Estado'] == 'Nueva']['Precio'].max()-df[df['Estado'] == 'Nueva']['Precio'].min())

Precio promedio de las patinetas usadas 75.75
Precio promedio de las patinetas nuevas 83.25
Rango de precios de las patinetas usadas 45
Rango de precios de las patinetas nuevas 130


In [None]:
# Cerrar el navegador
#driver.quit()

