In [2]:
# pip install selenium


In [3]:
# pip install webdriver-manager

In [1]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.


In [None]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager

# Configurando el driver de Chrome OTRA OPCIÓN
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(ChromeDriverManager().install(), options=options)

# Familiarizandonos con Selenium

## Captura de pantalla

Empezaremos con algo sencillo, como hacer una captura de pantalla usando Selenium. Para ello vamos a usar los metodos `.get()`, `.find_element()` y `.click()` que ya comentamos al incio de la lección. Además usaremos el método `.save_screenshot("ruta/nombre_archivo")`. Este método captura una imagen de la página web actual y la guarda como un archivo de imagen en el directorio especificado por "nombre_archivo". 

In [None]:
# Inicializa el navegador Chrome
driver = webdriver.Chrome()

# Navega a la página web "http://www.adalab.es"
driver.get("http://www.adalab.es")
sleep(10)
# Acepta las cookies haciendo clic en el elemento con el selector CSS "#wt-cli-accept-all-btn"
driver.find_element("css selector", "#wt-cli-accept-all-btn").click()

# Espera durante 5 segundos (esto puede ser útil para permitir que la página cargue completamente)
sleep(5)

# Captura una captura de pantalla de la página web actual y la guarda como "adalab.png"
driver.save_screenshot('adalab.png')

# Cierra el navegador
driver.close()

## Buscar palabras dentro de la página web

En este caso vamos a combinar el método `.find_element()` con el parámetro "link text". Lo que haremos será buscar un elemento en la página web que tenga un enlace (un hipervínculo) y cuyo texto visible sea una palabra concreta (en nuestro ejemplo "Bootcamp Data Analytics" ).

In [None]:
# Inicializa el navegador Chrome
driver = webdriver.Chrome()

# Navega a la página web "http://www.adalab.es"
driver.get("http://www.adalab.es")

driver.maximize_window()

sleep(10)
# Acepta las cookies haciendo clic en el elemento con el selector CSS "#wt-cli-accept-all-btn"
try:
    driver.find_element("css selector", "#wt-cli-accept-all-btn").click()
except:
    pass
# Espera durante 5 segundos (esto puede ser útil para asegurarse de que la página se cargue completamente)
sleep(5)

# Busca un elemento en la página web que contenga el texto "BLOG" utilizando "link text" y hacemos click
driver.find_element("link text", 'BLOG').click()

sleep(10)

# entramos en el apartado de Sobre Data Analytics
driver.find_element("link text", 'Sobre Data Analytics').click()

# cerramos el navegador
driver.close()

## Extracción de datos  

Todos estos métodos son interesantes, pero como analistas de datos, este tipo de herramientas las usaremos para extraer información de una página web. Veamos ahora tres ejemplos: 

- Extracción de información de productos del Día. 

- Extracción de información meteorológica de la AEMET. 

- Extracción de información de Deportes Moya

### Extracción datos del Día

Vamos a automatizar la extracción de información de la página web del supermercado DIA. Extraeremos detalles clave, como el nombre del producto, su precio, el precio por kilo, sus ingredientes y su imagen correspondiente. Esto nos permitirá obtener datos esenciales de productos de manera eficiente y precisa.

In [13]:
# Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

# Navegar a la página web de DIA
url = "https://www.dia.es/"
driver.get(url)
print("Accediendo a la web con éxito")
sleep(2)

# Maximizar la ventana del navegador para mostrar la página completa
driver.maximize_window()

# Esperar 5 segundos para que la página cargue completamente
sleep(5)

# Aceptar las cookies haciendo clic en el botón correspondiente
driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
print("Aceptadas cookies")
# Esperar 2 segundos después de aceptar las cookies
sleep(2)

# Entrar en el apartado de productos
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("click en productos")
# Esperar 2 segundos
sleep(2)

# Entrar en la categoría "carnicería"
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div.categories-list-modal__content > ul > li:nth-child(3) > a").click()
# driver.find_element("css selector", "##app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div.categories-list-modal__content > ul > li:nth-child(2) > ul > div:nth-child(1) > a > span.sub-category-item__text").click()
sleep(2)              

# Crear un diccionario para almacenar información de productos
diccionario_dia = {
    "nombre_producto": [],
    "precio_kilo": [],
    "precio": [],
    "kilocalorias": [],
    "ingredientes": [],
    "imagen": []
}

print("Iniciando extracción de 5 productos...")

# Iterar a través de productos del 1 al 5
for i in range(1, 6):
    try:
        # Hacer clic en el producto para ver detalles
        # El selector CSS usa f-string para cambiar el número de producto en cada iteración.
        driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()

        # Esperar 2 segundos
        sleep(2)

        # Extraer información del producto y agregarla al diccionario 
        diccionario_dia["nombre_producto"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > h1").text)
        diccionario_dia["precio"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__active-price").text)
        diccionario_dia["precio_kilo"].append(driver.find_element("css selector", '#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__price-per-unit').text)
        diccionario_dia["kilocalorias"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__left-content > div.pdp-view__info > div.nutritional > ul > li > div > div.nutritional-values__title-energy > div").text)
        diccionario_dia["ingredientes"].append(driver.find_element("css selector", '#html-container').text)
        diccionario_dia["imagen"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__left-content > div.product-images > div > div > div > img:nth-child(1)").get_attribute("src"))

        print(f"Datos del producto {i} extraídos.")

        # Esperar 2 segundos antes de volver a la lista de productos
        sleep(2)
        driver.back()
        sleep(2)

    except Exception as e:
        print(f"Error al extraer el producto {i}: {e}. Continuando con el siguiente.")
        driver.back() # Intenta volver a la página anterior incluso si hay un error
        sleep(2)
        continue # Continúa con la siguiente iteración del bucle


# Cerrar el navegador
driver.close()
print('Extracción terminada. Navegador cerrado.')

Accediendo a la web con éxito
Aceptadas cookies
click en productos
Iniciando extracción de 5 productos...
Datos del producto 1 extraídos.
Datos del producto 2 extraídos.
Datos del producto 3 extraídos.
Datos del producto 4 extraídos.
Datos del producto 5 extraídos.
Extracción terminada. Navegador cerrado.


In [14]:
# utilizando el método "pd.DataFrame()" que aprendiemos en las lecciones pasadas, convertimos el diccionario a un DataFrame para poder seguir trabajando con el 
df_dia = pd.DataFrame(diccionario_dia)

# mostrar los resultados de la extracción de datos almacenados en un DataFrame
df_dia

Unnamed: 0,nombre_producto,precio_kilo,precio,kilocalorias,ingredientes,imagen
0,Jamoncitos de pollo familiar Selección de Dia ...,"(3,25 €/KILO)","2,93 €",490kJ\n/\n117kcal,Jamoncitos de pollo.,https://www.dia.es/product_images/4211/4211_IS...
1,Pechuga de pollo entera formato familiar Selec...,"(6,49 €/KILO)","6,49 €",416kJ\n/\n99kcal,Pechuga de pollo.,https://www.dia.es/product_images/261371/26137...
2,Filetes de pechuga de pollo corte fino Selecci...,"(8,79 €/KILO)","4,83 €",416kJ\n/\n99kcal,Carne fresca de Pollo.,https://www.dia.es/product_images/50844/50844_...
3,Longaniza de pollo Selección de Dia bandeja 400 g,"(7,48 €/KILO)","2,99 €",645kJ\n/\n155kcal,"Carne de pollo (92%), agua, tripa natural de c...",https://www.dia.es/product_images/275700/27570...
4,Alas partidas de pollo Selección de Dia bandej...,"(5,49 €/KILO)","2,75 €",773kJ\n/\n186kcal,Alas de pollo.,https://www.dia.es/product_images/261367/26136...


### Extracción datos AEMET
En este apartado, aprenderemos cómo utilizar el elemento `Select` de Selenium para interactuar con menús desplegables en páginas web. El elemento Select es una herramienta esencial para interactuar con menús desplegables en páginas web. En nuestro ejemplo de extracción de datos meteorológicos de municipios, utilizamos este elemento para seleccionar opciones específicas del menú de municipios.


In [15]:
# Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

# Navegar a la página web de AEMET que contiene información del tiempo para municipios
driver.get("https://www.aemet.es/es/eltiempo/prediccion/municipios?p=28")

# Esperar 3 segundos para que la página cargue completamente
sleep(3)

# Crear un diccionario llamado "resultados_aemet" para almacenar la información del tiempo
resultados_aemet = {
    "municipio": [],
    "temperatura": [],
    "fecha": []
}

# Encontrar el elemento select donde se selecciona el municipio
select = driver.find_element("css selector", "#localidades_selector")

# Encontrar todas las opciones dentro del elemento select
opcion = select.find_elements("tag name", "option")

# Esperar 3 segundos
sleep(3)

# Iterar a través de las primeras 4 opciones (excluyendo la primera que es un encabezado)
for valores in opcion[1:5]:
    # Imprimir el valor del atributo "value" de cada opción (generalmente contiene el código del municipio)
    print(valores.get_attribute("value"))

    # Obtener el nombre del municipio
    municipio = valores.text

    # Esperar 5 segundos
    sleep(5)

    # Seleccionar la opción actual en el elemento select
    seleccionar = Select(driver.find_element("css selector", "#localidades_selector"))
    seleccionar.select_by_value(valores.get_attribute("value"))

    # Hacer clic para entrar en los datos de este municipio
    driver.find_element("css selector", "#contenedor > div > div.contenedor_contenido > div:nth-child(4) > form > div.contenedor_central > div > input").click()

    # Esperar 5 segundos
    sleep(5)

    # Extraer la fecha de los datos del tiempo
    resultados_aemet["fecha"].append(driver.find_element("css selector", '#tabla_prediccion > thead > tr').text)

    # Extraer la temperatura de los datos del tiempo
    resultados_aemet["temperatura"].append(driver.find_element("css selector", "#tabla_prediccion > tbody > tr:nth-child(7)").text)

    # Agregar el nombre del municipio al diccionario "resultados_aemet"
    resultados_aemet["municipio"].append(municipio)

    # Esperar 5 segundos
    sleep(5)
    
    # Ir a la página anterior (la lista de municipios)
    driver.back()

    # Esperar 2 segundos
    sleep(2)

# Cerrar el navegador
driver.close()


acebeda-la-id28001
ajalvir-id28002
alameda-del-valle-id28003
alamo-el-id28004


In [16]:
# almacenar los resultados en un DataFrame
df_aemet = pd.DataFrame(resultados_aemet)

# mostrar los resultados almacenados en el DataFrame
df_aemet

Unnamed: 0,municipio,temperatura,fecha
0,"Acebeda, La",10 / 30 15 / 29 17 / 31 16 / 28 13 / 26 1...,mar. 08 mié. 09 jue. 10 vie. 11 sáb. 12 dom. 1...
1,Ajalvir,15 / 36 21 / 38 20 / 37 20 / 34 19 / 32 1...,mar. 08 mié. 09 jue. 10 vie. 11 sáb. 12 dom. 1...
2,Alameda del Valle,10 / 31 14 / 32 16 / 33 15 / 30 13 / 28 1...,mar. 08 mié. 09 jue. 10 vie. 11 sáb. 12 dom. 1...
3,"Álamo, El",17 / 36 22 / 38 21 / 36 20 / 33 18 / 31 1...,mar. 08 mié. 09 jue. 10 vie. 11 sáb. 12 dom. 1...


### Extracción datos Deportes Moya

Para este caso, combinaremos Selenium con Beautiful Soup. ¿Por qué al combinación de ambos puede ser interesante? Selenium permite navegar y realizar acciones en un navegador, mientras Beautiful Soup analiza y extrae información del HTML. Por lo tanto, la combinación es útil para automatizar tareas repetitivas y trabajar con páginas web dinámicas, optimizando la extracción de datos. En este caso, trabajaremos con Selebium para entrar en la página de ropa deportiva deportes Moya y extraer todas las deportivas que hay de baloncesto. Después usaremos Beautiful Soup para sacar informarción detallada de cada uno de los productos. 

In [17]:
# Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

driver.get("https://deportesmoya.es/?gclid=CjwKCAjw1t2pBhAFEiwA_-A-NOgfedASQBU_NF_uwwA7F24sXqVGuoG3VTtZ2z9DOJuugxH6F4WrhRoCU3YQAvD_BwE")

# Maximizar la ventana del navegador
driver.maximize_window()

# Pausa de 3 segundos
sleep(3)

# Aceptar las cookies en la página web
driver.find_element("css selector", "#soycontrolcookies > div.soycontrolcookies_header > div.soycontrolcookies_buttons > button.btn.btn-default.accept-button").click()

# Realizar un scroll hacia abajo en la página web utilizando execute_script
# En este caso, el scroll desplazará la página hasta que el eje vertical tenga un valor de 1000 píxeles
driver.execute_script("window.scrollTo(0,1000)")

# Pausa de 3 segundos
sleep(3)
driver.find_element("css selector", '#soy_menu_icon_desktop > span.soyFont-menuHamburguer-2').click()
sleep(2)

driver.find_element("css selector", '#soymenu_subcategories2 > div > div > ul:nth-child(3) > li:nth-child(1) > a').click()

# # Pausa de 3 segundos
# sleep(3)

# Crear una lista vacía para almacenar las URLs de productos
lista_url = []

# Iterar desde 1 hasta 10 (inclusive)
for i in range(1, 11 ):
    # En cada iteración, obtener la URL del producto y agregarla a la lista
    lista_url.append(driver.find_element("xpath", f'//*[@id="js-product-list"]/div/article[1]/div/div[1]/h3/a').get_attribute("href"))

# cerrar el navegador
driver.close()

In [18]:
# Crear un diccionario para almacenar información de zapatillas.
diccionario_zapatillas = {
    "zapatilla": [],
    "precio_rebajado": [],
    "precio_original": []
}

# Iterar a través de las URL en la lista_url.
for url in lista_url:
    # Hacer una solicitud GET a la URL especificada.
    res_tienda = requests.get(url)

    # Crear un objeto BeautifulSoup para analizar el contenido HTML de la página.
    sopa_tienda = BeautifulSoup(res_tienda.content, "html.parser")

    # Extraer el nombre de la zapatilla y agregarlo al diccionario.
    diccionario_zapatillas["zapatilla"].append(sopa_tienda.find("h1", {"class": "h1"}).text)

    # Extraer el precio rebajado y agregarlo al diccionario.
    diccionario_zapatillas["precio_rebajado"].append(sopa_tienda.find("span", {"class": "price"}).text)

    # Extraer el precio original y agregarlo al diccionario.
    diccionario_zapatillas["precio_original"].append(sopa_tienda.find("span", {"class": "regular-price"}).text)


# convertir el diccionario a DataFrame
df_zapatillas = pd.DataFrame(diccionario_zapatillas)
df_zapatillas

Unnamed: 0,zapatilla,precio_rebajado,precio_original
0,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
1,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
2,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
3,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
4,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
5,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
6,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
7,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
8,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"
9,Zapatillas Victoria Barcelona Serraje negro mujer,"59,93 €","79,90 €"


Lección de clase

Con Selenium usamos SELECTORES: nos situamos encima de la etiqueta html que nos interesa, damos con el botón dcho y en la lista cogemos Copy y Copy Selector

In [4]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

In [19]:
# comenzamos por generarnos un Driver:
driver = webdriver.Chrome()

url = "https://www.dia.es/"

driver.get(url)
print("Entro en la página")

driver.maximize_window()
print("Hago la ventana grande")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector #onetrust-accept-btn-handler; por eso ponemos el sleep(2)

try:
    driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
    print("Aceptadas las cookies")

except:
    print("no hay cookies")
    pass

driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("Botón productos")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector de la carnicería; por eso ponemos el sleep(2)
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(3) > a > div > div").click()
print("Botón carnicería")


Entro en la página
Hago la ventana grande
Aceptadas las cookies
Botón productos
Botón carnicería


Selectores:
- #onetrust-accept-btn-handler --> selector de cookies
- #app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button --> selector del botón Productos
- #app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(3) > a > div > div ---> botón carnicería
- Podemos buscar patrones en los selectores: ej: child(3) del selector de carnicería: si ponemos child(2) entra en charcutería, child(5) es verduras..
Nos permiten poder ir entrando en bucle en distintas categorías


In [20]:
# comenzamos por generarnos un Driver:
driver = webdriver.Chrome()

url = "https://www.dia.es/"

driver.get(url)
print("Entro en la página")

driver.maximize_window()
print("Hago la ventana grande")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector #onetrust-accept-btn-handler; por eso ponemos el sleep(2)

try:
    driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
    print("Aceptadas las cookies")

except:
    print("no hay cookies")
    pass

driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("Botón productos")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector de la carnicería; por eso ponemos el sleep(2)
#driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(3) > a > div > div").click()
#print("Botón carnicería")

sleep(2)
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(2) > a > div > div").click()
print("Botón charcutería y quesos")

sleep(2)
print("Vamos a acceder a cada uno de los productos")

for i in range(1,6):
    driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()
    print(f"Entrando en el producto {i}")
    sleep(2)
    driver.back() # le ponemos un back para q vuelva a la página de charcutería


Entro en la página
Hago la ventana grande
Aceptadas las cookies
Botón productos
Botón charcutería y quesos
Vamos a acceder a cada uno de los productos
Entrando en el producto 1
Entrando en el producto 2
Entrando en el producto 3
Entrando en el producto 4
Entrando en el producto 5


Ahora queremos acceder en bucle a varios productos de charcutería. Primero comprobamos dónde cambian los selectores child(1):
- #app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child(1) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img --------------> producto 1 con su child(1) aqui
- #app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child(2) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img --------------> producto 1 con su child(2) aqui
- #app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child(3) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img --------------> producto 1 con su child(3) aqui


In [None]:
for i in range(1,6):
    driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()
    print(f"Entrando en el producto {i}")
    sleep(2)
    driver.back() # le ponemos un back para q vuelva a la página de charcutería

In [None]:
# comenzamos por generarnos un Driver:
driver = webdriver.Chrome()

url = "https://www.dia.es/"

driver.get(url)
print("Entro en la página")

driver.maximize_window()
print("Hago la ventana grande")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector #onetrust-accept-btn-handler; por eso ponemos el sleep(2)

try:
    driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
    print("Aceptadas las cookies")

except:
    print("no hay cookies")
    pass

driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("Botón productos")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector de la carnicería; por eso ponemos el sleep(2)
#driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(3) > a > div > div").click()
#print("Botón carnicería")

sleep(2)
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(2) > a > div > div").click()
print("Botón charcutería y quesos")

sleep(2)
print("Vamos a acceder a cada uno de los productos")

# comprobamos q entra en los productos y nos da su nombre y precio:
for i in range(1,6):
    driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()
    print(f"Entrando en el producto {i}")
    sleep(2)
    # Selector del nombre:                                                                                     # ponemos .text porque ahora queremos q coja el texto:
    print(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > h1").text)
    # Selector del precio:
    print(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__active-price").text)
    driver.back() # le ponemos un back para q vuelva a la página de charcutería

Entro en la página
Hago la ventana grande
Aceptadas las cookies
Botón productos
Botón charcutería y quesos
Vamos a acceder a cada uno de los productos
Entrando en el producto 1
Bacon en tiras Nuestra Alacena de Dia bandeja 2 x 100 g
1,84 €
Entrando en el producto 2
Jamón cocido extra Nuestra Alacena de Dia sobre 2 x 225 g
3,45 €
Entrando en el producto 3
Pechuga de pavo Nuestra Alacena de Dia sobre 2 x 200 g
3,90 €
Entrando en el producto 4
Jamón cocido extra 97% carne Nuestra Alacena de Dia sobre 150 g
1,99 €
Entrando en el producto 5
Pechuga de pavo Elpozo sobre 80 g
1,00 €


Selecctores:
- #app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > h1 --> nombre del producto
- #app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__active-price ---> precio del producto

In [24]:
# comenzamos por generarnos un Driver:
driver = webdriver.Chrome()

url = "https://www.dia.es/"

driver.get(url)
print("Entro en la página")

driver.maximize_window()
print("Hago la ventana grande")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector #onetrust-accept-btn-handler; por eso ponemos el sleep(2)

try:
    driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
    print("Aceptadas las cookies")

except:
    print("no hay cookies")
    pass

driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("Botón productos")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector de la carnicería; por eso ponemos el sleep(2)
#driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(3) > a > div > div").click()
#print("Botón carnicería")

sleep(2)
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(2) > a > div > div").click()
print("Botón charcutería y quesos")

sleep(2)
print("Vamos a acceder a cada uno de los productos")


# ahora organizamos una lista para guardar los datos:
productos={"nombre":[], "precio":[]}

for i in range(1,6):
    driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()
    print(f"Entrando en el producto {i}")
    sleep(2)
    productos["nombre"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > h1").text)
    productos["precio"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__active-price").text)
    driver.back() # le ponemos un back para q vuelva a la página de charcutería


Entro en la página
Hago la ventana grande
Aceptadas las cookies
Botón productos
Botón charcutería y quesos
Vamos a acceder a cada uno de los productos
Entrando en el producto 1
Entrando en el producto 2
Entrando en el producto 3
Entrando en el producto 4
Entrando en el producto 5


In [26]:
productos

{'nombre': ['Bacon en tiras Nuestra Alacena de Dia bandeja 2 x 100 g',
  'Jamón cocido extra Nuestra Alacena de Dia sobre 2 x 225 g',
  'Pechuga de pavo Nuestra Alacena de Dia sobre 2 x 200 g',
  'Jamón cocido extra 97% carne Nuestra Alacena de Dia sobre 150 g',
  'Pechuga de pavo Elpozo sobre 80 g'],
 'precio': ['1,84 €', '3,45 €', '3,90 €', '1,99 €', '1,00 €']}

In [27]:
# comenzamos por generarnos un Driver:
driver = webdriver.Chrome()

url = "https://www.dia.es/"

driver.get(url)
print("Entro en la página")

driver.maximize_window()
print("Hago la ventana grande")

sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector #onetrust-accept-btn-handler; por eso ponemos el sleep(2)

try:
    driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
    print("Aceptadas las cookies")

except:
    print("no hay cookies")
    pass

driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("Botón productos")

# sleep(2) # si mandamos a hacer clic en seguida no nos reconoce el selector de la carnicería; por eso ponemos el sleep(2)
#driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(3) > a > div > div").click()
#print("Botón carnicería")

sleep(2)
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div > ul > li:nth-child(2) > a > div > div").click()
print("Botón charcutería y quesos")

sleep(2)
print("Vamos a acceder a cada uno de los productos")


# ahora organizamos una lista para guardar los datos:
productos={"nombre":[], "precio":[]}

for i in range(1,6):
    sleep(3)
    driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div.basic-section-l1__content > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()
    print(f"Entrando en el producto {i}")
    sleep(2)
    # nombre
    try:
        productos["nombre"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > h1").text)
        print("Hemos obtenido el nombre")
    except:
        productos["nombre"].append("no data") # por si alguno de los nombres no estuviera
    
    # precio
    productos["precio"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__active-price").text)
    print("Hemos obtenido el precio")
    driver.back() # le ponemos un back para q vuelva a la página de charcutería


Entro en la página
Hago la ventana grande
Aceptadas las cookies
Botón productos
Botón charcutería y quesos
Vamos a acceder a cada uno de los productos
Entrando en el producto 1
Hemos obtenido el nombre
Hemos obtenido el precio
Entrando en el producto 2
Hemos obtenido el nombre
Hemos obtenido el precio
Entrando en el producto 3
Hemos obtenido el nombre
Hemos obtenido el precio
Entrando en el producto 4
Hemos obtenido el nombre
Hemos obtenido el precio
Entrando en el producto 5
Hemos obtenido el nombre
Hemos obtenido el precio


In [28]:
productos

{'nombre': ['Bacon en tiras Nuestra Alacena de Dia bandeja 2 x 100 g',
  'Jamón cocido extra Nuestra Alacena de Dia sobre 2 x 225 g',
  'Pechuga de pavo Nuestra Alacena de Dia sobre 2 x 200 g',
  'Jamón cocido extra 97% carne Nuestra Alacena de Dia sobre 150 g',
  'Pechuga de pavo Elpozo sobre 80 g'],
 'precio': ['1,84 €', '3,45 €', '3,90 €', '1,99 €', '1,00 €']}

In [30]:
pd.DataFrame(productos)

Unnamed: 0,nombre,precio
0,Bacon en tiras Nuestra Alacena de Dia bandeja ...,"1,84 €"
1,Jamón cocido extra Nuestra Alacena de Dia sobr...,"3,45 €"
2,Pechuga de pavo Nuestra Alacena de Dia sobre 2...,"3,90 €"
3,Jamón cocido extra 97% carne Nuestra Alacena d...,"1,99 €"
4,Pechuga de pavo Elpozo sobre 80 g,"1,00 €"
