<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/auto/Scraping/3_Selenium_y_xpath/scraping_por_automatizacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab" data-canonical-src="https://colab.research.google.com/assets/colab-badge.svg"></a>

# Scraping por Automatización con Selenium

## **XPath (XML Path Language)**

Un selector muy utilizado es el [**Xpath**](https://es.wikipedia.org/wiki/XPath), basado en un lenguaje diseñado para localizar elementos en un archivo XML o HTML.

Es una manera de recorrer un árbol como por ejemplo el DOM (*document object model*).

Por ejempllo si vamos a la [página del Instituto Humai](https://ihum.ai/) y presionamos `f12` veremos esto:

<img src="https://i.ibb.co/cNM04jP/copy-xpath.png" alt="copy-xpath" width="1000">

Existen dos maneras de acceder a un elemento usando Xpath:

### XPath absoluto
* Contiene la ruta completa desde el elemento raiz hasta el elemento de interes. <br> Ejemplo: `/html/body/section[2]/div[2]/a[2]/div/div[1]/img`
  * Contra: Cualquier cambio en la ruta del elemento hace que ya no se acceda de esa forma.

### XPath relativo
* Comienza haciendo referencia al elemento que queremos ubicar en relación con una ubicación particular. Esto significa que el elemento está posicionado con relación a su posición normal. <br> Ejemplo: 
`//*[@id="que-hacemos-a-tag"]/div/div[1]/img`
  * Cualquier cambio en el diseño de la página o la jerarquía DOM tendrá un impacto mínimo (o nulo) en el selector XPath existente.
  * Su estructura básica es la siguiente: <br>
  <font size=6>
  <center>
  <font color='red'>//</font><font color='blue'>nombreDelTag</font>[@<font color='green'>Atributo</font>=<font color='purple'>"valor"</font>]
</center>
<font>

### Seleccion de nodos desconocidos

* El asterisco (**\***) o *wildcard* sirve como reemplazo para el nombre del tag, funcionando como comodín para cualquiera de ellos. <br>
Ejemplo: `//*[@id="soy_un_div"]`


* El arroba seguido de asterisco (**\@***) *matchea* cualquier atributo de un elemento. <br>
Ejemplo: `//h2[@*="soy_un_subtitulo"]`

### Algunas funciones

* `contains()` permite ver si un elemento contiene una *string* en particular. No es necesario que sea match exacto, sino que forme parte de la *string*.<br>
Ejemplo: `//div[contains(@class,"que")]`

* ` text() ` nos permite obtener un elemento en base al texto que tiene dentro del tag <br>
Ejemplo: `//*[text()="SABER MÁS"]`

Tambien los podriamos usar juntos: `//*[contains(text(),"SABER")]` 🤯




**Hay mucho mucho más!** <br>

Xpath cheatsheet super completa: https://www.lambdatest.com/blog/most-exhaustive-xpath-locators-cheat-sheet/



## **Robots que controlan nuestro navegador** 🦾

A veces los sitios webs tienen ciertas características que hacen que los métodos que venimos utilizando no funcionen.

En esos casos uno puede intentar desarrollar una especie de robot que controle nuestro navegador interactuando con internet de igual forma que lo hace un humano. Hay una herramienta llamada __Selenium__ que puede utilizarse exactamente para eso.


### ¿Como se hace para programar un robot para que utilice un sitio web?

Lo principal es saber como localizar un elemento en la pagina.
Selenium nos permite hacerlo de diversas formas (id, tag, clase, selector de CSS, etc)

## **Web scraping avanzado con Selenium**

<img src="https://selenium-python.readthedocs.io/_static/logo.png" alt="selenium-logo">

### ¿Qué es Selenium?
* Es una herramienta de testing y automatización que tiene una API para Python (entre otros lenguajes)

* No fue pensado específicamente para web scraping ni web crawling, pero gracias al sistema cliente/servidor Web Driver permite utilizar un navegador de forma local o en remoto.
Esto nos da acceso a un navegador con el que podemos recorrer la web.

### ¿En qué casos podria resultarnos util?
* Páginas dinámicas (por ej: [AJAX](https://developer.mozilla.org/es/docs/Web/Guide/AJAX), [lazy loading](https://developer.mozilla.org/en-US/docs/Web/Performance/Lazy_loading))
* Scrolleo infinito
* Completar formularios, autenticación, pop ups, manejo de sesiones, ¿captchas?,  etc  ...

* va a permitirnos recorrer internet con un navegador "virtual", permitiéndonos hacer click, scroll, etc.

* En Google Colab solo podremos usarlo sin interfaz grafica (*headless*).


Si podemos ver esa informacion en el navegador, deberiamos poder *scrapearla*.

- Documentacion oficial: https://www.selenium.dev/documentation/
- Documentacion no oficial pero recomendada: https://selenium-python.readthedocs.io/



## **Hola mundo con Selenium: Buscar en google**

Veamos un poco como se usa esta nueva herramienta.

La base de Selenium (y un poco del web scraping en general) es la selección de elementos en la web. Para esto nos provee varios métodos:


Para aprender más: https://selenium-python.readthedocs.io/locating-elements.html

### Instalación y configuración

In [1]:
# Ver https://stackoverflow.com/questions/51046454/how-can-we-use-selenium-webdriver-in-colab-research-google-com

# Instalación de dependencias en la compu que nos presta Google
!pip install selenium
!apt-get update 
!apt install chromium-chromedriver -q

Collecting selenium
  Downloading selenium-4.22.0-py3-none-any.whl.metadata (7.0 kB)
Collecting trio~=0.17 (from selenium)
  Using cached trio-0.25.1-py3-none-any.whl.metadata (8.7 kB)
Collecting trio-websocket~=0.9 (from selenium)
  Using cached trio_websocket-0.11.1-py3-none-any.whl.metadata (4.7 kB)
Collecting websocket-client>=1.8.0 (from selenium)
  Using cached websocket_client-1.8.0-py3-none-any.whl.metadata (8.0 kB)
Collecting attrs>=23.2.0 (from trio~=0.17->selenium)
  Using cached attrs-23.2.0-py3-none-any.whl.metadata (9.5 kB)
Collecting sortedcontainers (from trio~=0.17->selenium)
  Using cached sortedcontainers-2.4.0-py2.py3-none-any.whl.metadata (10 kB)
Collecting outcome (from trio~=0.17->selenium)
  Using cached outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting sniffio>=1.3.0 (from trio~=0.17->selenium)
  Using cached sniffio-1.3.1-py3-none-any.whl.metadata (3.9 kB)
Collecting cffi>=1.14 (from trio~=0.17->selenium)
  Using cached cffi-1.16.0-cp311-cp

"apt-get" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.
"apt" no se reconoce como un comando interno o externo,
programa o archivo por lotes ejecutable.


In [19]:


from selenium import webdriver

from selenium.webdriver.support.wait import WebDriverWait  # esto nos permite generar esperas
from selenium.webdriver.support import expected_conditions as EC  # esto nos permite esperar hasta que algo suceda
from selenium.webdriver.support.select import Select

from selenium.webdriver.common.keys import Keys  # esto nos permite acceder a teclas de accion
from selenium.webdriver.common.by import By  # esto nos permite elegir el tipo de selector (css, xpath...)

# estos imports son solo para el driver de Chrome
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.action_chains import ActionChains
import time

### Configurando el navegador sin interfaz gráfica que usaremos

In [20]:
# # Configuramos las opciones del navegador
# options = Options()
# options.add_argument('--headless')  # sin interfaz gráfica
# # options.add_argument('--no-sandbox')  # Seguridad (solo necesario en Linux)
# # options.add_argument('--disable-dev-shm-usage')  # configuración de Linux
# options.add_argument('--disable-gpu')
# options.add_argument('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"')
# Configuramos las opciones del navegador
options = Options()
options.add_argument('--headless')  # sin interfaz gráfica (opcional)
options.add_argument('--disable-gpu')
options.add_argument('--window-size=1920x1080')
options.add_argument('--user-agent="Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.157 Safari/537.36"')

### Creando una instancia del Navegador(Uasando el drive de Chrome)

In [22]:
# # Configuramos el web driver
# driver = webdriver.Chrome(service=Service(),options=options)
# driver.quit() # con .quit() cerramos el navegador y apagamos el driver
# Ruta al chromedriver en Windows (asegúrate de que el chromedriver.exe está en el PATH o proporciona la ruta completa)
webdriver_service = Service('D:/Programas/chrome-win64/chromedriver-win64/chromedriver.exe')  # reemplaza 'path/to/chromedriver' con la ruta real
# Crear una instancia del WebDriver
wd = webdriver.Chrome(service=webdriver_service, options=options)

### Haciendo una búsqueda en google

In [23]:

# # Configuramos el web driver
# wd = webdriver.Chrome(service=Service(), options=options)

# # Probemos buscando en google automágicamente
# url = "https://www.google.com/"
# wd.get(url)

# # Aca lo que hacemos es usar las funciones de `expected conditions` para no clickear hasta que se haya cargado el elemento
# # WebDriverWait(wd, 10).until(EC.element_to_be_clickable((By.XPATH, "//*[@id='APjFqb']")))
# # WebDriverWait(wd, 20).until(EC.visibility_of_element_located((By.XPATH, "//*[@id='APjFqb']")))
# search_box = WebDriverWait(wd, 20).until(EC.element_to_be_clickable((By.XPATH, "//*[@id='APjFqb']")))

# # input = wd.find_element(By.XPATH, "//*[@id='APjFqb']")
# # input.send_keys("humai inteligencia artificial" + Keys.ENTER)
# # Mover el ratón al elemento antes de interactuar
# # input = wd.find_element(By.XPATH, "//*[@id='APjFqb']")
# # ActionChains(wd).move_to_element(input).perform()
# # input.send_keys("humai inteligencia artificial" + Keys.ENTER)

# # Hacer clic en el elemento para asegurarse de que está interactuable
# search_box.click()
# time.wait(2)
# # Enviar las teclas al elemento
# search_box.send_keys("humai inteligencia artificial" + Keys.ENTER)
# time.wait(2)
# # tomemos un screenshot, REVISA EL SCREENSHOT EN 📁 en el panel de la izquierda
# wd.save_screenshot('screenshot_google.png')

# wd.close()
# Navegar a Google
url = "https://www.google.com/"
wd.get(url)

# Esperar a que la caja de búsqueda esté visible y sea interactuable
search_box = WebDriverWait(wd, 10).until(EC.element_to_be_clickable((By.NAME, "q")))

# Enviar las teclas de búsqueda
search_box.send_keys("humai inteligencia artificial" + Keys.ENTER)

# Esperar a que los resultados se carguen
WebDriverWait(wd, 10).until(EC.presence_of_element_located((By.ID, "search")))

# Tomar una captura de pantalla
wd.save_screenshot('screenshot_google.png')

# Cerrar el WebDriver
wd.quit()


ElementNotInteractableException: Message: element not interactable
  (Session info: chrome-headless-shell=126.0.6478.115)
Stacktrace:
	GetHandleVerifier [0x00007FF607703E32+31618]
	(No symbol) [0x00007FF60767B099]
	(No symbol) [0x00007FF6075386B9]
	(No symbol) [0x00007FF607581E73]
	(No symbol) [0x00007FF607580031]
	(No symbol) [0x00007FF6075AD10A]
	(No symbol) [0x00007FF60757BBA6]
	(No symbol) [0x00007FF6075AD320]
	(No symbol) [0x00007FF6075CCA80]
	(No symbol) [0x00007FF6075ACEB3]
	(No symbol) [0x00007FF60757A46B]
	(No symbol) [0x00007FF60757B001]
	GetHandleVerifier [0x00007FF607A09FFD+3202381]
	GetHandleVerifier [0x00007FF607A56A1D+3516269]
	GetHandleVerifier [0x00007FF607A4C490+3473888]
	GetHandleVerifier [0x00007FF6077B5D36+760454]
	(No symbol) [0x00007FF607686B3F]
	(No symbol) [0x00007FF607681CD4]
	(No symbol) [0x00007FF607681E62]
	(No symbol) [0x00007FF60767120F]
	BaseThreadInitThunk [0x00007FFDE7867344+20]
	RtlUserThreadStart [0x00007FFDE8CFCC91+33]


In [None]:



# Probemos buscando en google automágicamente
url = "https://www.google.com/" 
wd.get(url)
WebDriverWait(wd, 10).until(EC.element_to_be_clickable((By.XPATH, "//input[@name='q']")))

input = wd.find_element(By.XPATH, "//input[@name='q']")

input.send_keys("humai inteligencia artificial" + Keys.ENTER)



In [None]:
# tomemos un screenshot
wd.save_screenshot('screenshot_google.png')

True

In [None]:
# Otro ejemplo

url = "https://www.wikipedia.org/" 
wd.get(url)

# Tiempo  de espera ( si encuentra antes, no espera)
wd.implicitly_wait(20)

# Busco el boton de wikipedia en español
boton_wiki_esp = wd.find_element(By.ID, 'js-link-box-es')

# Le hago click
boton_wiki_esp.click()

hello_wiki = wd.find_element(By.ID,'Bienvenidos_a_Wikipedia,')
main_article = wd.find_element(By.ID,'main-tfa')

print(f'Texto de bienvenida:\n {hello_wiki.text}\n')
print(f'Texto del articulo destacado:\n{main_article.text}')

Texto de bienvenida:
 Bienvenidos a Wikipedia,

Texto del articulo destacado:
Artículo destacado
All I Want for Christmas Is You
Mariah Carey en una interpretación en vivo en Las Vegas en 2009.
«All I Want for Christmas Is You» es una canción navideña de estilo pop coescrita e interpretada por la cantante estadounidense Mariah Carey, y distribuida por Columbia Records a partir de 1994 como el sencillo principal del cuarto álbum de estudio de la intérprete, Merry Christmas.
Carey y Walter Afanasieff participaron tanto en la redacción de la letra como en la producción de la canción, en la que ella declara su interés en pasar las fiestas decembrinas acompañada de su ser amado, en vez de recibir obsequios o adornos navideños. Es una canción con tempo rápido, cuya instrumentación incluye el uso de piano, pandereta y coros. Para su promoción se produjeron en diciembre de 1993 dos videos musicales con Carey como protagonista.
Leer
Todos los artículos destacados


In [None]:
# El input del formulario de busqueda

search_input = wd.find_element(By.ID,'searchInput')

# El boton de busqueda
search_button = wd.find_element(By.ID,'searchButton')

# Envio el texto que quiero que ponga en el formulario
search_input.send_keys('Procesamiento del lenguaje natural')

#Hago click
search_button.click()

# Imprimo el título de la página a la que se accedió
heading = wd.find_element(By.ID,"firstHeading")
print(f'Heading: \n{heading.text}') 

Heading: 
Procesamiento de lenguajes naturales


In [None]:
# Podemos sacar una captura de pantalla 
wd.save_screenshot('screenshot_wikipedia.png')

True

In [None]:
# Cerramos el web driver
wd.close()

## **Caso de uso Nº 1: Scroll infinito**

Existen páginas que no muestran todo el contenido a menos que vayamos hasta abajo (*scroll*). Esta acción dispara un evento de javascript que renderiza más HTML y por lo tanto vemos contenido nuevo.

Podemos emular la acción de mediante Selenium.

In [None]:
# Configuramos el web driver
driver = webdriver.Chrome('chromedriver',options=options)

# Hacemos el pedido a la URL
url = "https://infinite-scroll.com/demo/full-page/" 
driver.get(url)

# Busco todos los h2 (notar la sutileza del metodo elements con la 's' al final)
h2_list = driver.find_elements(By.CSS_SELECTOR, 'h2')
for h2 in h2_list:
  print(h2.text)

1a - Infinite Scroll full page demo
1b - RGB Schemes logo in Computer Arts


Ahora veamos si obtenemos los mismos `h2` si utilizamos selenium para hacer *scroll*

In [None]:
driver.save_screenshot(f'infinite_page.screenshot.png')

# Hago lo mismo que antes pero iterando 5 veces y pidiendole que scrollee hasta el final cada vez y saque un screenshot
for i in range(5):
  print(f'Iteracion numero {i+1}\n\n')
  driver.save_screenshot(f'infinite_page_{i+1}.screenshot.png')
  # el metodo execute_script me permite ejecutar codigo de javascript, en este caso para ir al final de la pagina
  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 
  h2_list = driver.find_elements(By.CSS_SELECTOR, 'h2')
  
  for h2 in h2_list:
    print(h2.text)
  print('\n\n')

Iteracion numero 1


1a - Infinite Scroll full page demo
1b - RGB Schemes logo in Computer Arts



Iteracion numero 2


1a - Infinite Scroll full page demo
1b - RGB Schemes logo in Computer Arts
2a - RGB Schemes logo
2b - Masonry gets horizontalOrder
2c - Every vector 2016



Iteracion numero 3


1a - Infinite Scroll full page demo
1b - RGB Schemes logo in Computer Arts
2a - RGB Schemes logo
2b - Masonry gets horizontalOrder
2c - Every vector 2016
3a - Logo Pizza delivered
3b - Some CodePens
3c - 365daysofmusic.com
3d - Holograms



Iteracion numero 4


1a - Infinite Scroll full page demo
1b - RGB Schemes logo in Computer Arts
2a - RGB Schemes logo
2b - Masonry gets horizontalOrder
2c - Every vector 2016
3a - Logo Pizza delivered
3b - Some CodePens
3c - 365daysofmusic.com
3d - Holograms
4a - Huebee: 1-click color picker
4b - Word is Flickity is good



Iteracion numero 5


1a - Infinite Scroll full page demo
1b - RGB Schemes logo in Computer Arts
2a - RGB Schemes logo
2b - Masonry gets

In [None]:
driver.quit()

## **Caso de uso Nº 2: Páginas que usan JavaScript para mostrar el contenido de manera asíncrona**

* Hay páginas que cuando hacemos un request a su URL no nos devuelve lo que esperamos. Sino bastante código de JavaScript (entre etiquetas `<script>`)

* En esos casos hay que esperar un tiempo y/o interactuar con la pagina.

Ejemplo: http://www.parrocchiemap.it/parrocchiemap/ricerca_pm.jsp?diocesi=Milano&idzonapastoraler=296



In [None]:
# options = webdriver.ChromeOptions() # Usamos chrome, se podria usar otro.
# options.add_argument('--headless')
# options.add_argument('--no-sandbox')
# options.add_argument('--disable-dev-shm-usage')

idzonapastorale_value = []
idzonapastorale_text = []

driver = webdriver.Chrome('chromedriver',options=options)

url = "http://www.parrocchiemap.it/parrocchiemap/ricerca_pm.jsp?diocesi=Milano&idzonapastoraler=296"

# Hacemos el pedido a la URL
driver.get(url)

# Ejecuto codigo de javacript para ir al final de la pagina
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 

# # Espero a que cargue la pagina
WebDriverWait(driver, timeout=5)


# El metodo Select nos permite acceder a las opciones en un menu desplegable (drop-down)
select = Select(driver.find_element(By.ID, 'idzonapastorale'))
for item in select.options:
    print(item.get_attribute('innerText'), item.get_attribute('value')) 
    idzonapastorale_value.append(item.get_attribute('value'))
    idzonapastorale_text.append(item.get_attribute('innerText'))

In [None]:
pagesource_list = []

diocesi = 'Milano' 
for zona in idzonapastorale_value:
  print(f'Mirando la zona: {zona}' )
  # Configuramos el web driver
  driver = webdriver.Chrome('chromedriver',options=options)
  idzonapastorale = zona
  url = f"http://www.parrocchiemap.it/parrocchiemap/ricerca_pm.jsp?diocesi={diocesi}&idzonapastoraler={idzonapastorale}" 

  # Hacemos el pedido a la URL
  driver.get(url)

  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 

  # # Espero a que cargue la pagina a la vieja usanza
  # time.sleep(10) 
  WebDriverWait(driver, timeout=5)

  # Cambio el driver para que este en el iframe
  driver.switch_to.frame(driver.find_element(By.TAG_NAME, "iframe"))

  # Una manera de quedarse con el HTML
  html = driver.execute_script("return document.getElementsByTagName('html')[0].innerHTML")

  # Otra manera usando el atributo del web driver
  pageSource = driver.page_source

  pagesource_list.append(pageSource)

  driver.save_screenshot(f'screenshot_{zona}.png')

In [None]:
# Proceso los mails

import re

def procesar_mails(pagesource_list):
  mails_total = []

  for zona in pagesource_list:
    mails = []
    pos = []
    # obteniendo los mails
    match = re.findall(r'(mailto:\S+@\S+)', zona)
    
    for num, i in enumerate(match):
      pos.append(num)
      lista = i.split('+')
      mail = ''.join(lista[0][7:].replace("'", "")+lista[1].replace("'", "")+lista[2].replace("'", "")).split(',')[0].split(';')[0]
      mails.append(mail)

    mails_total.append(mails)

  return mails_total

mails_total = procesar_mails(pagesource_list)

In [None]:
# Armo un Pandas Dataframe en base al diccionario
import pandas as pd

diccionario_mails = dict()
df_list = [] 
for num, zona in enumerate(idzonapastorale_text[1:]):
   diccionario_mails[f'df{num+1}']= pd.DataFrame(mails_total[num+1], columns=[f'{zona}'])
   df_list.append(diccionario_mails[f'df{num+1}'])

df_final = pd.concat(df_list, axis=1)
df_final

In [None]:
# Pasamos el dataframe a formato csv
df_final.to_csv() # Si pasan como argumento un string con el nombre del archivo lo guarda. Ej: 'datos.csv'

## **Caso de uso Nº 3: Alertas, prompts y confirmaciones**

La idea es aprender como lidiar con distintos tipos de ventanas emergentes que pueden aparecer mientras nuestro scrapper está funcionando.

alerta simple de javascript

In [None]:
driver = webdriver.Chrome('chromedriver',options=options)

url = "https://www.selenium.dev/documentation/webdriver/js_alerts_prompts_and_confirmations/" 

# Hacemos el pedido a la URL
driver.get(url)

# Click para activar al alerta

driver.find_element(By.XPATH, "/html/body/div/div[1]/div/main/div/p[6]/a").click()

# Wait for the alert to be displayed and store it in a variable
# WebDriverWait(driver, 10).until(EC.alert_is_present())

alert = driver.switch_to.alert

print('Texto de la alerta: ', alert.text)

# Aceptamos
alert.accept()



Texto de la alerta:  What is your tool of choice?


In [None]:
wd.save_screenshot('screenshot_alert1.png')

True

In [None]:
driver.quit()

Caja de confirmacion

In [None]:
# Hacemos el pedido a la URL
driver = webdriver.Chrome('chromedriver',options=options)

driver.get(url)
# Click para activar al alerta
driver.find_element(By.LINK_TEXT, "See a sample confirm").click()

# Wait for the alert to be displayed and store it in a variable
WebDriverWait(driver, 10).until(EC.alert_is_present())
alert = driver.switch_to.alert

print('Texto de la alerta: ', alert.text)

# para cancelar
alert.dismiss()

Texto de la alerta:  Are you sure?


In [None]:
driver.quit()

Prompt

Son como las cajas de confirmacion pero tiene un input para texto

In [None]:
driver = webdriver.Chrome('chromedriver',options=options)

# Hacemos el pedido a la URL
driver.get(url)

# Click para activar al alerta
driver.find_element(By.LINK_TEXT, "See a sample prompt").click()

# Esperamos
WebDriverWait(driver, 10).until(EC.alert_is_present())
alert = driver.switch_to.alert

print('Texto de la alerta: ', alert.text)

# Mensaje
alert.send_keys("Python, obvio")

# Apretamos OK
alert.accept()

Texto de la alerta:  What is your tool of choice?


## **Ejemplo real: Spotify 🎵**

Veamos como podemos extraer datos

In [None]:
driver = webdriver.Chrome('chromedriver',options=options)

url = 'https://open.spotify.com/'

# Hacemos el pedido a la URL
driver.get(url)
driver.save_screenshot(f'Spotify0.png')

#Scroll
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 
driver.save_screenshot('spoty.png')

True

In [None]:
xpath_playlist = '//*[@id="main"]/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/section/div/div/section[1]/div[2]/div[1]/div/div[2]/a/div'
WebDriverWait(driver, 10).until(EC.element_to_be_clickable((By.XPATH, xpath_playlist))).click()

In [None]:
driver.save_screenshot(f'playlist.png')


True

In [None]:
xpath_titulo = '//*[@id="main"]/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[2]/span/h1'
titulo = driver.find_element(By.XPATH, xpath_titulo).text

print(f"Título de la playlist: {titulo}")

likes_xpath = '//*[@id="main"]/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[2]/div/span[1]'
likes = driver.find_element(By.XPATH, likes_xpath).text

print(f"Cantidad de likes: {likes}")

Título de la playlist: Today's Top Hits
Cantidad de likes: 31,890,675 likes


### <font color='red'>Ejercicio</font>
Descargar también la duración de la playlist

In [None]:
## espacio para la resolucion
xpath_duracion = '//*[@id="main"]/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[2]/div/span[2]/span'
duracion = driver.find_element(By.XPATH, xpath_duracion).text

print(f"Duración de la playlist {titulo}: {duracion}")


Duración de la playlist Today's Top Hits: 2 hr 31 min


## Ejemplo 3: Spotify

Veamos como descargar mayores cantidades de datos y recorrer un sitio web

In [None]:
driver = webdriver.Chrome('chromedriver',options=options)
url = 'https://open.spotify.com/genre/funk'

driver.get(url)

WebDriverWait(driver, 10)


<selenium.webdriver.support.wait.WebDriverWait (session="6e7befa662ee80307bf31cfadf630c91")>

In [None]:
#Scroll
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 
WebDriverWait(driver, 10)
# Obtenemos los elementos. 
# Observen que en el xpath reconocí como era el link a una playlist y usé el operador `*` para generalizar a todas (`/div[*]/div/div[2]/a`)
playlists_elements = driver.find_elements(By.XPATH, "//*[@id='main']/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[2]/div/section/div[2]/div[*]/div/div[2]/a")
playlists_links = [playlist.get_attribute("href") for playlist in playlists_elements]
playlists_links

### Ejercicio
Completar el siguiente código

In [None]:
for url in playlists_links:
    # Obtener e imprimir el titulo y likes de cada playlist
    # Utilizar un try catch por si alguna playlist falla.
    # Para así no frenar todo el procesamiento por una playlist

driver.close()

In [None]:
driver.close()

In [None]:
url = playlists_links[0]
driver = webdriver.Chrome('chromedriver',options=options)

driver.get(url)
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='main']/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[5]/span/h1")))

driver.save_screenshot('mi_url.png')


True

In [None]:
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='main']/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[5]/span/h1")))


<selenium.webdriver.remote.webelement.WebElement (session="68f51ae98bf117ec1b25a0fa4ac15efd", element="373ce038-fd20-480a-b760-2aa1b363d2ee")>

In [None]:
driver.save_screenshot('mi_url.png')


True

In [None]:
# Respuesta

for url in playlists_links:
  print(url)
  driver = webdriver.Chrome('chromedriver',options=options)
  driver.get(url)
  WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//*[@id='main']/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[5]/span/h1")))
  driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") 
  print(driver.find_element(By.XPATH, '//*[@id="main"]/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[5]/span/h1').text)
  print(driver.find_element(By.XPATH, '//*[@id="main"]/div/div[2]/div[3]/div[1]/div[2]/div[2]/div/div/div[2]/main/div/section/div[1]/div[5]/div/span[1]').text)
  print("###", end='\n\n')

https://open.spotify.com/playlist/37i9dQZF1DWZgauS5j6pMv
Nu-Funk
273,175 likes
###

https://open.spotify.com/playlist/37i9dQZF1DWUcRrhkfhG22
Robo-Funk
27,250 likes
###

https://open.spotify.com/playlist/37i9dQZF1DXattPCMpISJh


KeyboardInterrupt: ignored


## Recursos útiles
### videos

* [Damian Sire: Videotutoriales de selenium con ejemplos de uso entretenidos](https://www.youtube.com/watch?v=iIYzkeQAgp8&list=PLVxN95ZVpcJsG8TQMozeOVBDkf7EYMuPz)
* [Selenium FULL COURSE - Learn Selenium by creating a bot in 3 hours [2021]](https://youtu.be/6gxhcvrf2Jk)

### Libros

* [Web Scraping with Python, 2nd Edition](https://www.oreilly.com/library/view/web-scraping-with/9781491985564/)
  * [Código asociado al libro](https://github.com/REMitchell/python-scraping)
* [Hands-On Web Scraping with Python](https://www.amazon.com/Hands-Web-Scraping-Python-operations-ebook/dp/B07VFFYPGK)