# Scraping por Automatización con Selenium

## **XPath (XML Path Language)**

Un selector muy utilizado es el [**Xpath**](https://es.wikipedia.org/wiki/XPath), basado en un lenguaje diseñado para localizar elementos en un archivo XML o HTML.

Es una manera de recorrer un árbol como por ejemplo el DOM (*document object model*).

Existen dos maneras de acceder a un elemento usando Xpath:

### XPath absoluto
* Contiene la ruta completa desde el elemento raíz hasta el elemento de interés. <br> Ejemplo: `/html/body/section[3]/div[2]/a[2]/div/div[1]/img`
  * **Contra**: Cualquier cambio en la ruta del elemento hace que ya no se acceda de esa forma.

### XPath relativo
* Comienza haciendo referencia al elemento que queremos ubicar en relación con una ubicación particular. Esto significa que el elemento está posicionado con relación a su posición normal. <br> Ejemplo: 
`//*[@id="que-hacemos-a-tag"]/div/div[1]/img`
  * Cualquier cambio en el diseño de la página o la jerarquía DOM tendrá un impacto mínimo (o nulo) en el selector XPath existente.
  * Su estructura básica es la siguiente: <br>
  <font size=6>
  <center>
  <font color='red'>//</font><font color='blue'>nombreDelTag</font>[@<font color='green'>Atributo</font>=<font color='purple'>"valor"</font>]
</center>
<font>

### Selección de nodos desconocidos

* El asterisco (**\***) o *wildcard* sirve como reemplazo para el nombre del tag, funcionando como comodín para cualquiera de ellos. <br>
Ejemplo: `//*[@id="soy_un_div"]`


* El arroba seguido de asterisco (**\@***) *matchea* cualquier atributo de un elemento. <br>
Ejemplo: `//h2[@*="soy_un_subtitulo"]`

### Algunas funciones

* `contains()` permite ver si un elemento contiene una *string* en particular. No es necesario que sea match exacto, sino que forme parte de la *string*.<br>
Ejemplo: `//div[contains(@class,"que")]`

* ` text() ` nos permite obtener un elemento en base al texto que tiene dentro del tag <br>
Ejemplo: `//*[text()="SABER MÁS"]`

También los podríamos usar juntos: `//*[contains(text(),"SABER")]` 🤯




**Hay mucho mucho más!** <br>

Xpath [cheatsheet](https://www.lambdatest.com/blog/most-exhaustive-xpath-locators-cheat-sheet/) super completa



## **Bots que controlan nuestro browser** 🦾

A veces los sitios webs tienen ciertas características que hacen que los métodos que venimos utilizando no funcionen.

En esos casos uno puede intentar desarrollar una especie de robot que controle nuestro navegador interactuando con internet de igual forma que lo hace un humano. Hay una herramienta llamada __Selenium__ que puede utilizarse exactamente para eso.


### ¿Cómo se hace para programar un bot para que utilice un sitio web?

Lo principal es saber como localizar un elemento en la pagina.
Selenium nos permite hacerlo de diversas formas (id, tag, clase, selector de CSS, etc)

## **Web scraping avanzado con Selenium**

<img src="https://selenium-python.readthedocs.io/_static/logo.png" alt="selenium-logo">

### ¿Qué es Selenium?
* Es una herramienta de testing y automatización que tiene una API para Python

* No fue pensado específicamente para web scraping ni web crawling, pero gracias al sistema cliente/servidor Web Driver permite utilizar un navegador de forma local o en remoto.
Esto nos da acceso a un navegador con el que podemos recorrer la web.

### ¿En qué casos podría resultarnos util?
* Páginas dinámicas (por ej: [AJAX](https://developer.mozilla.org/es/docs/Web/Guide/AJAX), [lazy loading](https://developer.mozilla.org/en-US/docs/Web/Performance/Lazy_loading))
* Scroll infinito
* Completar formularios, autenticación, pop ups, manejo de sesiones, ¿captchas?,  etc  ...

* va a permitirnos recorrer internet con un navegador "virtual", permitiéndonos hacer click, scroll, etc.

* En Google Colab solo podremos usarlo sin interfaz gráfica (*headless*).


Si podemos ver esa información en el navegador, deberíamos poder *scrapearla*.

- Documentacion oficial: https://www.selenium.dev/documentation/
- Documentacion no oficial pero recomendada: https://selenium-python.readthedocs.io/



## **Hola mundo con Selenium: Buscar en google**

Veamos un poco como se usa esta nueva herramienta.

La base de Selenium (y un poco del web scraping en general) es la selección de elementos en la web. Para esto nos provee varios métodos:


Para aprender más: https://selenium-python.readthedocs.io/locating-elements.html

### Instalación y configuración

Necesitamos descargar el Driver de Chrome desde esta [url](https://googlechromelabs.github.io/chrome-for-testing/)

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service  # Importa la clase Service
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

options = webdriver.ChromeOptions()
options.add_argument('--headless')  # Chromium sin interfaz gráfica
options.add_argument('--no-sandbox')  # Seguridad
options.add_argument('--disable-dev-shm-usage')  # Configuración de Linux
options.add_argument('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"')  # User agent
# options.add_argument('--start-maximized')  # Abrir en pantalla completa

# Crear un objeto Service con la ruta correcta a chromedriver
service = Service(executable_path='driver/chromedriver.exe')


In [2]:
# Inicializar el WebDriver utilizando el objeto Service y las opciones
wd = webdriver.Chrome(service=service, options=options)

# Probemos buscando en google automágicamente
url = "https://www.google.com/" 
wd.get(url)

# Busco el boton de wikipedia en español
boton_aceptar = wd.find_element(By.XPATH, '//*[@id="L2AGLb"]/div')

# Le hago click
boton_aceptar.click()

# Aca lo que hacemos es usar las funciones de `expected_conditions` para no clickear hasta que se haya cargado el elemento
WebDriverWait(wd, 10).until(EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/div[2]/div/img")))

input = wd.find_element(By.XPATH, '//*[@id="APjFqb"]')

input.send_keys("The Bridge" + Keys.ENTER)


NoSuchDriverException: Message: Unable to obtain driver for chrome; For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors/driver_location


In [3]:
# tomemos un screenshot
wd.save_screenshot('screenshot/screenshot_google.png')

NameError: name 'wd' is not defined

In [None]:
wd.close()

In [None]:
# Otro ejemplo

# Inicializar el WebDriver utilizando el objeto Service y las opciones
wd = webdriver.Chrome(service=service, options=options)

url = "https://www.wikipedia.org/" 
wd.get(url)

# Tiempo  de espera ( si encuentra antes, no espera)
wd.implicitly_wait(20)

# Busco el boton de wikipedia en español
boton_wiki_esp = wd.find_element(By.ID, 'js-link-box-es')

# Le hago click
boton_wiki_esp.click()

hello_wiki = wd.find_element(By.ID,'Bienvenidos_a_Wikipedia,')
main_article = wd.find_element(By.ID,'main-tfa')

print(f'Texto de bienvenida:\n {hello_wiki.text}\n')
print(f'Texto del articulo destacado:\n{main_article.text}')

In [None]:
# El input de busqueda
input_busqueda = wd.find_element(By.XPATH, '//*[@id="p-search"]/a/span[1]')

# Le hago click
input_busqueda.click()

input = wd.find_element(By.XPATH, '//*[@id="searchform"]/div/div/div[1]/input')

input.send_keys('Procesamiento del lenguaje natural' + Keys.ENTER)

# Imprimo el título de la página a la que se accedió
heading = wd.find_element(By.ID,"firstHeading")
print(f'Heading: \n{heading.text}') 

In [None]:
# Podemos sacar una captura de pantalla 
wd.save_screenshot('screenshot/screenshot_wikipedia.png')

In [None]:
# Cerramos el web driver
wd.close()

## **Caso de uso Nº 1: Scroll infinito**

Existen páginas que no muestran todo el contenido a menos que vayamos hasta abajo (*scroll*). Esta acción dispara un evento de javascript que renderiza más HTML y por lo tanto vemos contenido nuevo.

Podemos emular la acción de mediante Selenium.

In [None]:
# Inicializar el WebDriver utilizando el objeto Service y las opciones
driver = webdriver.Chrome(service=service, options=options)

# Hacemos el pedido a la URL
url = "https://infinite-scroll.com/demo/full-page/" 
driver.get(url)

# Busco todos los h2 (notar la sutileza del metodo elements con la 's' al final)
h2_list = driver.find_elements(By.CSS_SELECTOR, 'h2')
for h2 in h2_list:
  print(h2.text)

Ahora veamos si obtenemos los mismos `h2` si utilizamos selenium para hacer *scroll*

In [None]:
driver.save_screenshot('screenshot/infinite_page.screenshot.png')

# Hago lo mismo que antes pero iterando 5 veces y pidiendole que scrollee hasta el final cada vez y saque un screenshot
for i in range(5):
  print(f'Iteracion numero {i+1}\n\n')
  driver.save_screenshot(f'infinite_page_{i+1}.screenshot.png')
  # el metodo execute_script me permite ejecutar codigo de javascript, en este caso para ir al final de la pagina
  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 
  h2_list = driver.find_elements(By.CSS_SELECTOR, 'h2')
  
  for h2 in h2_list:
    print(h2.text)
  print('\n\n')

In [None]:
driver.close()