### Opciones ChromeDriver

In [13]:
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager # Se encarga de descargar el driver de chrome y de mantenerlo actualizado
from selenium.webdriver.chrome.options import Options

In [14]:
#Opciones de chrome
options = webdriver.ChromeOptions()

# Abre la ventana maximizada
#options.add_argument('--start-maximized')

# Abre la ventana en un tamaño determinado
options.add_argument('window-size=775,1400')

options.add_argument('--disable-extensions')
#options.add_argument('--headless') # no abre la ventana de chrome

driver = webdriver.Chrome(options=options)   # abre una ventana de chrome
driver.get('https://www.google.es')

In [15]:
driver.quit() #Cerramos la ventana de chrome

In [16]:
#Nos salía un mensaje de "un software automatizado de pruebas esta controlando Chrome"
#Para evitarlo, tenemos que añadir una opción al navegador
options.add_argument('--disable-blink-features=AutomationControlled')
#Quitamos el modo sandbox
options.add_argument('--no-sandbox')
options.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = webdriver.Chrome(options=options)   # abre una ventana de chrome
driver.get('https://www.google.es')

In [17]:
driver.quit()

### Realizando una búsqueda en Google

Importamos `time` para el manejo de los tiempos dentro del código. Haremos una búsqueda en Google y extraeremos los enlaces de los resultados.

In [18]:
import time
#import warnings
#warnings.filterwarnings('ignore')
from selenium.webdriver.common.by import By # By es para buscar por tag, clase, id...

In [19]:
#help(By)

In [20]:
url = 'https://www.google.es/search?q='
busqueda = 'Gamma Tech School'

In [21]:
driver = webdriver.Chrome(options=options)
driver.get(url+busqueda)
#time.sleep(15)
#driver.quit() #Cerramos la ventana de chrome

Entrando en el inspector podemos ubicar el botón por su ID. Primero permitimos que el cursor nos permita identificar el código en el que se encuentra el botón. Localizamos el ID y lo copiamos.

In [22]:
driver.find_element(By.ID, 'W0wltc').click()

In [23]:
driver.quit()

Por XPATH

In [24]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

time.sleep(5)                     # espera 8 secs
#XPATH copiado de chrome --> inspeccionar --> click derecho --> copy --> copy XPATH

# XPATH --> //*[@id="W0wltc"]

driver.find_element(By.XPATH,'//*[@id="W0wltc"]').click()  # clicka en rechazar

time.sleep(3)

driver.quit()

Por CSS:

In [25]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

time.sleep(3)                     # espera 8 secs
#Miramos el CSS del botón de rechazar
#Inspector --> botón derecho --> copy --> copy selector

# #W0wltc

driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar
#driver.find_element(By.CSS_SELECTOR,'button#W0wltc.tHlp8d').click()  # clicka en rechazar

time.sleep(3)
driver.quit()

Scroll en ventanas

Lo vamos a realizar con driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

Donde 0 es el eje x y document.body.scrollHeight es el eje y de la ventana.

Ejemplo: queremos bajar hasta el final de la página y luego subir hasta el inicio en 3 pasos.

In [45]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

#Primero vamos a hacer scroll hasta el final de la página
time.sleep(2)                     # espera 2 secs
driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar

In [28]:
#Nos guardamos el alto de la página en una variable
alto_pagina = driver.execute_script("return document.body.scrollHeight;")

#Bajamos hasta el final de la página
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") # todo el scroll

In [29]:
alto_pagina

2049

In [30]:
#Vamos a subir hasta el principio de la página
driver.execute_script("window.scrollTo(0, 0);") # todo el scroll hasta la posición 0

In [43]:
#Vamos a bajar hasta el primer tercio de la página
driver.execute_script("window.scrollTo(0, document.body.scrollHeight/3);")
alto_pagina_nuevo = driver.execute_script("return document.body.scrollHeight;")
#Tb podría hacerlo con la variable que me he guardado pero ojo con las divisiones, necesito f-strings
#driver.execute_script(f"window.scrollTo(0, {alto_pagina}/3);" )
time.sleep(5)
driver.execute_script(f"window.scrollTo(0, ({alto_pagina}*2)/3);" )
time.sleep(5)
driver.execute_script(f"window.scrollTo(0, {alto_pagina});" )

KeyboardInterrupt: 

In [32]:
alto_pagina, alto_pagina_nuevo

(2049, 2049)

In [42]:
driver.quit()

Vamos a centrarnos en la parte de resultados de videos:

In [41]:
driver = webdriver.Chrome(options = options)   # abre ventana

driver.get(url+busqueda)          # entra en google y busca

# Primero las cookies
time.sleep(2)                     # espera 2 secs
driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar

In [35]:
#Tengo que pinchar el boton de resultados de video:
#Lo primero es buscar dónde se encuentran los botones:
# Lo buscamos por SELECTOR --> div.crJ18e
botones = driver.find_elements(By.CSS_SELECTOR,'div.crJ18e')

# EN LA VERSION ANTERIOR
#Voy a buscar un span con clases = 'FMKtTb UqcIvb' jsname = 'PIvPIe' y texto = 'Vídeos'
#botones = driver.find_elements(By.CSS_SELECTOR,'span.FMKtTb.UqcIvb')

In [36]:
#Tenemos un monton de botones, vamos a verlos:
for btn in botones:
    print(btn.text)

All
Images
News
Videos
Products
Books
Web
More


### Traducciones de XPATHs:

``//*[@id="bqHHPb"]/div/div/div[1]/a[2]/div/span``

*[@id="bqHHPb"] --> cualquier elemento que tenga un atributo id con valor bqHHPb

/div --> cualquier elemento que sea hijo de un elemento div

/div --> cualquier elemento que sea hijo de un elemento div

[1] --> el primer elemento de la lista

/a[2] --> el segundo elemento de la lista

/div --> cualquier elemento que sea hijo de un elemento div

/span --> cualquier elemento que sea hijo de un elemento span

In [None]:
#Vamos a ser más específicos a la hora de buscar el botón
#//*[@id="hdtb-sc"]/div/div/div[1]/div[4]/a/div
boton_video = driver.find_element(By.XPATH, "//div[contains(text(),'Vídeos')]")
boton_video.text
boton_video.click()

In [37]:
driver.quit()

### EJERCICIO
Vamos a hacer un pequeño ejercicio, vamos a buscar en google un término de busqueda 'pesca en Madrid'.

Una vez cargada la página haz click en el botón de vídeos. Coge todos los resultados y accede al link de href para tener los links a los vídeos. Almacena todos los links en una lista.

In [40]:
# voy a buscar vídeos de pesca en madrid
busqueda = 'pesca en madrid'
resultado_videos = []                          #Aquí meteré mis resultados
url = 'https://www.google.es/search?q='
driver = webdriver.Chrome(options = options)   # abre ventana
driver.get(url+busqueda)                       # entra en google y busca
time.sleep(2)                                  # espera 2 secs

# click en rechazar
driver.find_element(By.CSS_SELECTOR,'#W0wltc').click()  # clicka en rechazar
time.sleep(2)

# click en el botón de vídeos
driver.find_element(By.XPATH, '//*[@id="hdtb-sc"]/div/div[1]/div[1]/div[3]/a/div').click()
time.sleep(2)

#Buscamos los videos,Están en un div con ID = 'search'
resultados = driver.find_element(By.ID, 'search')
resultados

#Busco dentro de resultados todos los elementos que sean a con atributo jsname = 'UWckNb'
# a es la etiqueta
# [jsname="UWckNb"] es lo que tiene que coger
videos = resultados.find_elements(By.CSS_SELECTOR, 'a[jsname="UWckNb"]')
videos.__len__()

#Vemos el href que contiene cada uno de esos a:
for video in videos:
    print(video.get_attribute('href'))
    resultado_videos.append(video.get_attribute('href'))

driver.quit()

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//*[@id="hdtb-sc"]/div/div[1]/div[1]/div[3]/a/div"}
  (Session info: chrome=128.0.6613.139); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#no-such-element-exception
Stacktrace:
	GetHandleVerifier [0x00007FF70DFC9412+29090]
	(No symbol) [0x00007FF70DF3E239]
	(No symbol) [0x00007FF70DDFB1DA]
	(No symbol) [0x00007FF70DE4EFE7]
	(No symbol) [0x00007FF70DE4F23C]
	(No symbol) [0x00007FF70DE997C7]
	(No symbol) [0x00007FF70DE7672F]
	(No symbol) [0x00007FF70DE965A2]
	(No symbol) [0x00007FF70DE76493]
	(No symbol) [0x00007FF70DE409D1]
	(No symbol) [0x00007FF70DE41B31]
	GetHandleVerifier [0x00007FF70E2E871D+3302573]
	GetHandleVerifier [0x00007FF70E334243+3612627]
	GetHandleVerifier [0x00007FF70E32A417+3572135]
	GetHandleVerifier [0x00007FF70E085EB6+801862]
	(No symbol) [0x00007FF70DF4945F]
	(No symbol) [0x00007FF70DF44FB4]
	(No symbol) [0x00007FF70DF45140]
	(No symbol) [0x00007FF70DF3461F]
	BaseThreadInitThunk [0x00007FF8E3F1257D+29]
	RtlUserThreadStart [0x00007FF8E564AF28+40]


In [None]:
resultado_videos