# Selenium

**`Selenium WebDriver`** es una herramienta para recopilar datos de los sitios web y simular las interacciones del usuario.

```python
pip install selenium
```

*Documentación: https://selenium-python.readthedocs.io/index.html*

Para utilizar **`selenium`** debemos tener el archivo **`chromedriver.exe`** si estamos usando Chrome. Este se puede descargar desde la documentación, hay que descargar el **`chromedriver.exe`** que sea compatible con la version de nuestro navegador.

In [None]:
import requests 

from bs4 import BeautifulSoup


from selenium import webdriver

from time import sleep

In [None]:
# Driver de Chrome

chrome_driver = "chromedriver.exe"

In [None]:
# Ejecutar webdriver.Chrome abrirá una ventana nueva en el navegador 
# A traves de esta ventana podremos seguir usando selenium

browser = webdriver.Chrome(executable_path = chrome_driver)

browser.get("https://google.com")

browser.maximize_window()

Para "encontrar" los elementos de una página web podemos usar sus características. Usando las herramientas del navegador podemos elegir cual usar, los métodos para buscar son estos:


|Método                                     |
|-------------------------------------------|
|**`.find_element_by_id()`**                |
|**`.find_element_by_name()`**              |
|**`.find_element_by_xpath()`**             |
|**`.find_element_by_link_text()`**         |
|**`.find_element_by_partial_link_text()`** |
|**`.find_element_by_tag_name()`**          |
|**`.find_element_by_class_name()`**        |
|**`.find_element_by_css_selector()`**      |
|**`.find_elements_by_name()`**             |
|**`.find_elements_by_xpath()`**            |
|**`.find_elements_by_link_text()`**        |
|**`.find_elements_by_partial_link_text()`**|
|**`.find_elements_by_tag_name()`**         |
|**`.find_elements_by_class_name()`**       |
|**`.find_elements_by_css_selector()`**     |

In [None]:
# Aceptamos los términos de google

browser.find_element_by_css_selector("#L2AGLb > div").click()

In [None]:
# En el buscador de google escribimos "Python"

# Encontramos el buscador
buscador = browser.find_element_by_xpath("/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input")

sleep(1)

# .clear() limpia lo que este escrito
buscador.clear()

sleep(1)

# .send_keys() escribe
buscador.send_keys("Python")

sleep(1)

#.submit() hace submit.
buscador.submit()

In [None]:
# .current_url retorna el url de la página del navegador.

browser.current_url

In [None]:
# Con .page_source sacamos el html de esa página

browser.page_source

In [None]:
# En este punto ya podemos usar BeautifulSoup para sacar la información.

soup = BeautifulSoup(browser.page_source, "html.parser")

In [None]:
soup

In [None]:
# Si queremos ir a la página anterior, podemos hacer:

browser.back()

In [None]:
# Y si quisieramos cerrar el navegador:

browser.quit()

# Helium

**`helium`** es otra libreria de python para automatizar web scraping. Está construida sobre **`selenium`**. Según su documentación, **`helium`** es más fácil de usar que **`selenium`**.

```python
pip install helium
```

*Documentation: https://selenium-python-helium.readthedocs.io/en/latest/*

In [None]:
import helium

In [None]:
# Vamos a intentar extraer el html de esta página usando solo bs4

url = "https://www.online.bmsupermercados.es/es/c/ofertas/99999"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

# Vemos que no toma toda la información de la página

In [None]:
# Vamos a hacer lo mismo pero esta vez usando Helium

url = "https://www.online.bmsupermercados.es/es/c/ofertas/99999"

browser = helium.start_chrome(url, headless = True)

# Hay que hacer sleep para que de tiempo de cargar la pagina

sleep(10)

# Hacemos .page_source para tomer el html de la página

soup = BeautifulSoup(browser.page_source, "html.parser")

soup

# Ahora si tomó toda la información, esto es porque le da tiempo a la página para poder cargar el html

# Guardar imagenes usando `requests` y `shutil`:

In [None]:
import requests

import shutil

In [None]:
url = "https://google.com/"

browser = helium.start_chrome(url, headless = True)

sleep(3)

soup = BeautifulSoup(browser.page_source, "html.parser")

In [None]:
img_enlace = soup.find("img", class_ = "lnXdpd")["srcset"].split(",")[0].split(" ")[0]

img_enlace = f'https://www.google.com{img_enlace}'

img_enlace

In [None]:
response_img = requests.get(img_enlace, stream = True)

with open("google.png", "bw") as file:
    response_img.raw.decode_content = True
    shutil.copyfileobj(response_img.raw, file)