# Web Scraping: Selenium

A menudo, los datos están disponibles públicamente para nosotros, pero no en una forma que sea fácilmente utilizable. Ahí es donde entra en juego el web scraping, podemos usar web scraping para obtener nuestros datos deseados en un formato conveniente que luego se puede usar. a continuación, mostraré cómo se puede extraer información de interés de un sitio web usando el paquete Selenium en Python. Selenium nos permite manejar una ventana del navegador e interactuar con el sitio web mediante programación. 

Selenium también tiene varios métodos que facilitan la extracción de datos.
En este Jupyter Notebook vamos a usar Python 3 en Windows.

En primer lugar, tendremos que descargar un controlador.

Usaremos ChromeDriver para Google Chrome. Para obtener una lista completa de controladores y plataformas compatibles, consulte [Selenium](https://www.selenium.dev/downloads/). Si desea utilizar Google Chrome, diríjase a [chrome](https://chromedriver.chromium.org/) y descargue el controlador que corresponde a su versión actual de Google Chrome.

Como saber cual es la version de chrome que utilizo simple utilizamos pegamos el siguiente enlace en la barra de chrome chrome://settings/help

Antes de comenzar se preguntaran si ya se BeautifulSoup cual es la diferencia con Selenium.

A diferencia BeautifulSoup, Selenium no trabaja con el texto fuente en HTML de la web en cuestión, sino que carga la página en un navegador sin interfaz de usuario. El navegador interpreta entonces el código fuente de la página y crea, a partir de él, un Document Object Model (modelo de objetos de documento o DOM). Esta interfaz estandarizada permite poner a prueba las interacciones de los usuarios. De esta forma se consigue, por ejemplo, simular clics y rellenar formularios automáticamente. Los cambios en la web que resultan de dichas acciones se reflejan en el DOM. La estructura del proceso de web scraping con Selenium es la siguiente:

URL → Solicitud HTTP → HTML → Selenium → DOM

---
---
---
## La forma que en verdad vamos a trabajar o por lo menos la que mejor nos funciono mejor...


In [59]:
#!pip install selenium

In [60]:
#!pip install webdriver-manager 

In [1]:
from bs4 import BeautifulSoup as bs
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys

import time
import pandas as pd

In [62]:
driver = webdriver.Chrome()

url = "https://boardgamegeek.com/"

driver.get(url)

In [65]:
# Cookies = driver.find_element_by_css_selector("a.btn.btn-sm")
# Detalle a comentar de las diferentes formas de hacerlo
# https://stackoverflow.com/questions/7475449/webdriver-classname-with-space-using-java
# https://selenium-python.readthedocs.io/locating-elements.html
# https://saucelabs.com/resources/articles/selenium-tips-css-selectors

Cookies = driver.find_element(By.XPATH, "/html/body/div[3]/div/div[1]/div/div[2]/button[1]")

In [66]:
Cookies.click()

In [69]:
pagina = driver.find_element(By.XPATH, '/html/body/gg-app/div/main/div/div/gg-home/div/gg-home-game-explorer-row-hotness/gg-home-game-explorer-row/section/header/h2/a')

In [70]:
pagina.click()

In [71]:
soup = bs(driver.page_source,"lxml")

In [72]:
soup

<html lang="en-US"><head>
<style type="text/css">:root, :host {
  --fa-font-solid: normal 900 1em/1 "Font Awesome 6 Solid";
  --fa-font-regular: normal 400 1em/1 "Font Awesome 6 Regular";
  --fa-font-light: normal 300 1em/1 "Font Awesome 6 Light";
  --fa-font-thin: normal 100 1em/1 "Font Awesome 6 Thin";
  --fa-font-duotone: normal 900 1em/1 "Font Awesome 6 Duotone";
  --fa-font-sharp-solid: normal 900 1em/1 "Font Awesome 6 Sharp";
  --fa-font-sharp-regular: normal 400 1em/1 "Font Awesome 6 Sharp";
  --fa-font-sharp-light: normal 300 1em/1 "Font Awesome 6 Sharp";
  --fa-font-brands: normal 400 1em/1 "Font Awesome 6 Brands";
}

svg:not(:root).svg-inline--fa, svg:not(:host).svg-inline--fa {
  overflow: visible;
  box-sizing: content-box;
}

.svg-inline--fa {
  display: var(--fa-display, inline-block);
  height: 1em;
  overflow: visible;
  vertical-align: -0.125em;
}
.svg-inline--fa.fa-2xs {
  vertical-align: 0.1em;
}
.svg-inline--fa.fa-xs {
  vertical-align: 0em;
}
.svg-inline--fa.fa-sm 

In [73]:
titulos = soup.select('div.global-body-content-container.container-fluid h3 a')
lista = []
for titulo in titulos:
    lista.append(titulo.get_text())
lista

[' Space Marine: The Board Game ',
 ' The White Castle ',
 ' Ancient Knowledge ',
 ' Nucleum ',
 ' Evacuation ',
 ' Voidfall ',
 ' Kutná Hora: The City of Silver ',
 ' Dune: Imperium – Uprising ',
 ' Heat: Pedal to the Metal ',
 ' Moon ',
 ' Septima ',
 ' Ark Nova ',
 ' Evenfall ',
 ' Sky Team ',
 ' Forest Shuffle ',
 ' Dune: Imperium ',
 ' Brass: Birmingham ',
 ' Expeditions ',
 ' Spirit Island ',
 ' The Witcher: Old World ',
 ' Oathsworn: Into the Deepwood ',
 ' The Witcher: Path Of Destiny ',
 ' Rats of Wistar ',
 ' Terraforming Mars ',
 ' Apiary ',
 ' Revive ',
 ' Age of Innovation ',
 ' Ark Nova: Marine Worlds ',
 ' Sea Salt & Paper ',
 ' Hegemony: Lead Your Class to Victory ',
 ' Unmatched Adventures: Tales to Amaze ',
 ' Planta Nubo ',
 ' Cascadia ',
 ' Lost Ruins of Arnak ',
 ' Wingspan ',
 ' Everdell ',
 ' Faraway ',
 ' Earth ',
 ' The Castles of Burgundy: Special Edition ',
 ' Root ',
 ' Arkham Horror: The Card Game ',
 ' Obsession ',
 ' Art Society ',
 ' Scythe ',
 ' Final G

In [77]:
driver.back()

In [78]:

browse = driver.find_element(By.XPATH, '/html/body/gg-app/div/gg-header/header/nav/div/div[1]/div/div[1]/ul/li[1]/button')
browse.click()


In [79]:
all_games = driver.find_element(By.XPATH, '/html/body/gg-app/div/gg-header/header/nav/div/div[1]/div/div[1]/ul/li[1]/div/div/div/div[1]/span[1]/a')
all_games.click()

In [80]:
driver.close()

# Ahora algo más visual

In [81]:
driver = webdriver.Chrome()

url = 'https://www.filmaffinity.com/es/main.html'

driver.get(url)

La página de Filmaffinity se ha abierto pero nos vuelven a molestar las cookies

In [82]:
element_by_xpath = driver.find_element(By.XPATH, '/html/body/div[1]/div/div/div/div[2]/div/button[2]')

Una vez tenemos los elementos podemos hacer varias cosas con ellos

vamos a ver...

In [83]:
dir(element_by_xpath)

['__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_execute',
 '_id',
 '_parent',
 '_upload',
 'accessible_name',
 'aria_role',
 'clear',
 'click',
 'find_element',
 'find_elements',
 'get_attribute',
 'get_dom_attribute',
 'get_property',
 'id',
 'is_displayed',
 'is_enabled',
 'is_selected',
 'location',
 'location_once_scrolled_into_view',
 'parent',
 'rect',
 'screenshot',
 'screenshot_as_base64',
 'screenshot_as_png',
 'send_keys',
 'shadow_root',
 'size',
 'submit',
 'tag_name',
 'text',
 'value_of_css_property']

Podemos evaluar que tipo de elemento es (tag)

In [84]:
element_by_xpath.tag_name

'button'

Podemos sacar el valor que tiene (el texto)

In [85]:
element_by_xpath.text

'ACEPTO'

In [86]:
element_by_xpath.screenshot('mi_imagen.png')

True

Bueno vamos a seguir

In [87]:
element_by_xpath.click()

Vamos a buscar una pelicula por su nombre

In [88]:
buscador = driver.find_element(By.XPATH, '/html/body/header/div[1]/div/div[2]/div/form/div/input')

In [89]:
buscador.send_keys('titanicas')

Está mal escrito limpiamos

In [90]:
buscador.clear()

In [91]:
buscador.send_keys('titanic')

In [92]:
buscador.send_keys(Keys.ENTER)

In [93]:
driver.back()

In [None]:
for i in range(20):

    driver.execute_script("window.scrollBy(0, 250)")

    time.sleep(1)

Control de ventanas

In [94]:
driver.execute_script('window.open("");')

In [95]:
driver.switch_to.window(driver.window_handles[0])

In [96]:
driver.close()

In [97]:
driver.switch_to.window(driver.window_handles[-1])

In [98]:
driver.close()