# Scraping por Automatizaci√≥n con Selenium

## **XPath (XML Path Language)**

Un selector muy utilizado es el [**Xpath**](https://es.wikipedia.org/wiki/XPath), basado en un lenguaje dise√±ado para localizar elementos en un archivo XML o HTML.

Es una manera de recorrer un √°rbol como por ejemplo el DOM (*document object model*).

Existen dos maneras de acceder a un elemento usando Xpath:

### XPath absoluto
* Contiene la ruta completa desde el elemento ra√≠z hasta el elemento de inter√©s. <br> Ejemplo: `/html/body/section[3]/div[2]/a[2]/div/div[1]/img`
  * **Contra**: Cualquier cambio en la ruta del elemento hace que ya no se acceda de esa forma.

### XPath relativo
* Comienza haciendo referencia al elemento que queremos ubicar en relaci√≥n con una ubicaci√≥n particular. Esto significa que el elemento est√° posicionado con relaci√≥n a su posici√≥n normal. <br> Ejemplo: 
`//*[@id="que-hacemos-a-tag"]/div/div[1]/img`
  * Cualquier cambio en el dise√±o de la p√°gina o la jerarqu√≠a DOM tendr√° un impacto m√≠nimo (o nulo) en el selector XPath existente.
  * Su estructura b√°sica es la siguiente: <br>
  <font size=6>
  <center>
  <font color='red'>//</font><font color='blue'>nombreDelTag</font>[@<font color='green'>Atributo</font>=<font color='purple'>"valor"</font>]
</center>
<font>

### Selecci√≥n de nodos desconocidos

* El asterisco (**\***) o *wildcard* sirve como reemplazo para el nombre del tag, funcionando como comod√≠n para cualquiera de ellos. <br>
Ejemplo: `//*[@id="soy_un_div"]`


* El arroba seguido de asterisco (**\@***) *matchea* cualquier atributo de un elemento. <br>
Ejemplo: `//h2[@*="soy_un_subtitulo"]`

### Algunas funciones

* `contains()` permite ver si un elemento contiene una *string* en particular. No es necesario que sea match exacto, sino que forme parte de la *string*.<br>
Ejemplo: `//div[contains(@class,"que")]`

* ` text() ` nos permite obtener un elemento en base al texto que tiene dentro del tag <br>
Ejemplo: `//*[text()="SABER M√ÅS"]`

Tambi√©n los podr√≠amos usar juntos: `//*[contains(text(),"SABER")]` ü§Ø




**Hay mucho mucho m√°s!** <br>

Xpath [cheatsheet](https://www.lambdatest.com/blog/most-exhaustive-xpath-locators-cheat-sheet/) super completa



## **Bots que controlan nuestro browser** ü¶æ

A veces los sitios webs tienen ciertas caracter√≠sticas que hacen que los m√©todos que venimos utilizando no funcionen.

En esos casos uno puede intentar desarrollar una especie de robot que controle nuestro navegador interactuando con internet de igual forma que lo hace un humano. Hay una herramienta llamada __Selenium__ que puede utilizarse exactamente para eso.


### ¬øC√≥mo se hace para programar un bot para que utilice un sitio web?

Lo principal es saber como localizar un elemento en la pagina.
Selenium nos permite hacerlo de diversas formas (id, tag, clase, selector de CSS, etc)

## **Web scraping avanzado con Selenium**

<img src="https://selenium-python.readthedocs.io/_static/logo.png" alt="selenium-logo">

### ¬øQu√© es Selenium?
* Es una herramienta de testing y automatizaci√≥n que tiene una API para Python

* No fue pensado espec√≠ficamente para web scraping ni web crawling, pero gracias al sistema cliente/servidor Web Driver permite utilizar un navegador de forma local o en remoto.
Esto nos da acceso a un navegador con el que podemos recorrer la web.

### ¬øEn qu√© casos podr√≠a resultarnos util?
* P√°ginas din√°micas (por ej: [AJAX](https://developer.mozilla.org/es/docs/Web/Guide/AJAX), [lazy loading](https://developer.mozilla.org/en-US/docs/Web/Performance/Lazy_loading))
* Scroll infinito
* Completar formularios, autenticaci√≥n, pop ups, manejo de sesiones, ¬øcaptchas?,  etc  ...

* va a permitirnos recorrer internet con un navegador "virtual", permiti√©ndonos hacer click, scroll, etc.

* En Google Colab solo podremos usarlo sin interfaz gr√°fica (*headless*).


Si podemos ver esa informaci√≥n en el navegador, deber√≠amos poder *scrapearla*.

- Documentacion oficial: https://www.selenium.dev/documentation/
- Documentacion no oficial pero recomendada: https://selenium-python.readthedocs.io/



## **Hola mundo con Selenium: Buscar en google**

Veamos un poco como se usa esta nueva herramienta.

La base de Selenium (y un poco del web scraping en general) es la selecci√≥n de elementos en la web. Para esto nos provee varios m√©todos:


Para aprender m√°s: https://selenium-python.readthedocs.io/locating-elements.html

### Instalaci√≥n y configuraci√≥n

Necesitamos descargar el Driver de Chrome desde esta [url](https://googlechromelabs.github.io/chrome-for-testing/)

In [1]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service  # Importa la clase Service
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait 
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

options = webdriver.ChromeOptions()
options.add_argument('--headless')  # Chromium sin interfaz gr√°fica
options.add_argument('--no-sandbox')  # Seguridad
options.add_argument('--disable-dev-shm-usage')  # Configuraci√≥n de Linux
options.add_argument('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"')  # User agent
# options.add_argument('--start-maximized')  # Abrir en pantalla completa

# Crear un objeto Service con la ruta correcta a chromedriver
service = Service(executable_path='driver/chromedriver.exe')


In [2]:
# Inicializar el WebDriver utilizando el objeto Service y las opciones
wd = webdriver.Chrome(service=service, options=options)

# Probemos buscando en google autom√°gicamente
url = "https://www.google.com/" 
wd.get(url)

# Busco el boton de wikipedia en espa√±ol
boton_aceptar = wd.find_element(By.XPATH, '//*[@id="L2AGLb"]/div')

# Le hago click
boton_aceptar.click()

# Aca lo que hacemos es usar las funciones de `expected_conditions` para no clickear hasta que se haya cargado el elemento
WebDriverWait(wd, 10).until(EC.element_to_be_clickable((By.XPATH, "/html/body/div[1]/div[2]/div/img")))

input = wd.find_element(By.XPATH, '//*[@id="APjFqb"]')

input.send_keys("The Bridge" + Keys.ENTER)


In [None]:
# tomemos un screenshot
wd.save_screenshot('screenshot/screenshot_google.png')

True

: 

In [7]:
wd.close()

In [8]:
# Otro ejemplo

# Inicializar el WebDriver utilizando el objeto Service y las opciones
wd = webdriver.Chrome(service=service, options=options)

url = "https://www.wikipedia.org/" 
wd.get(url)

# Tiempo  de espera ( si encuentra antes, no espera)
wd.implicitly_wait(20)

# Busco el boton de wikipedia en espa√±ol
boton_wiki_esp = wd.find_element(By.ID, 'js-link-box-es')

# Le hago click
boton_wiki_esp.click()

hello_wiki = wd.find_element(By.ID,'Bienvenidos_a_Wikipedia,')
main_article = wd.find_element(By.ID,'main-tfa')

print(f'Texto de bienvenida:\n {hello_wiki.text}\n')
print(f'Texto del articulo destacado:\n{main_article.text}')

Texto de bienvenida:
 Bienvenidos a Wikipedia,

Texto del articulo destacado:
Art√≠culo destacado
David Golder
PAG. M√ºller-Kaempff, Invierno en Dar√ü (detalle). David Golder muere pensando que una tarde de invierno vuelve a ver iluminada la casa de su infancia.
David Golder es una novela de Ir√®ne N√©mirovsky publicada en 1929 por la editorial francesa √âditions Grasset. El √©xito del libro revel√≥ a N√©mirovsky como escritora.
La novela fue, probablemente, la primera edici√≥n en espa√±ol de una obra de N√©mirovsky. Apareci√≥ el 28 de junio de 1936 en la Revista literaria, una publicaci√≥n semanal, como ¬´novela de aventuras¬ª.
La trama se centra en el h√©roe ep√≥nimo, proveniente de un gueto del Imperio ruso, quien se enriqueci√≥ gracias a su implacabilidad en especulaciones financieras a veces dudosas. Quebrar√° cuando problemas card√≠acos le obliguen a modificar su conducta: al final de sus fuerzas, no es para √©l ni para su codiciosa esposa, sino para su hija, fr√≠vola y ego√≠sta,

In [9]:
# El input de busqueda
input_busqueda = wd.find_element(By.XPATH, '//*[@id="p-search"]/a/span[1]')

# Le hago click
input_busqueda.click()

input = wd.find_element(By.XPATH, '//*[@id="searchform"]/div/div/div[1]/input')

input.send_keys('Procesamiento del lenguaje natural' + Keys.ENTER)

# Imprimo el t√≠tulo de la p√°gina a la que se accedi√≥
heading = wd.find_element(By.ID,"firstHeading")
print(f'Heading: \n{heading.text}') 

Heading: 
Procesamiento de lenguajes naturales


In [None]:
# Podemos sacar una captura de pantalla 
wd.save_screenshot('screenshot/screenshot_wikipedia.png')

In [None]:
# Cerramos el web driver
wd.close()

## **Caso de uso N¬∫ 1: Scroll infinito**

Existen p√°ginas que no muestran todo el contenido a menos que vayamos hasta abajo (*scroll*). Esta acci√≥n dispara un evento de javascript que renderiza m√°s HTML y por lo tanto vemos contenido nuevo.

Podemos emular la acci√≥n de mediante Selenium.

In [None]:
# Inicializar el WebDriver utilizando el objeto Service y las opciones
driver = webdriver.Chrome(service=service, options=options)

# Hacemos el pedido a la URL
url = "https://infinite-scroll.com/demo/full-page/" 
driver.get(url)

# Busco todos los h2 (notar la sutileza del metodo elements con la 's' al final)
h2_list = driver.find_elements(By.CSS_SELECTOR, 'h2')
for h2 in h2_list:
  print(h2.text)

Ahora veamos si obtenemos los mismos `h2` si utilizamos selenium para hacer *scroll*

In [None]:
driver.save_screenshot('screenshot/infinite_page.screenshot.png')

# Hago lo mismo que antes pero iterando 5 veces y pidiendole que scrollee hasta el final cada vez y saque un screenshot
for i in range(5):
  print(f'Iteracion numero {i+1}\n\n')
  driver.save_screenshot(f'infinite_page_{i+1}.screenshot.png')
  # el metodo execute_script me permite ejecutar codigo de javascript, en este caso para ir al final de la pagina
  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 
  h2_list = driver.find_elements(By.CSS_SELECTOR, 'h2')
  
  for h2 in h2_list:
    print(h2.text)
  print('\n\n')

In [None]:
driver.close()