# Selenium

**`Selenium WebDriver`** es una herramienta para recopilar datos de los sitios web y simular las interacciones del usuario.

```python
pip install selenium
```

*Documentación: https://selenium-python.readthedocs.io/index.html*

Para utilizar **`selenium`** debemos tener el archivo **`chromedriver.exe`** si estamos usando Chrome. Este se puede descargar desde la documentación, hay que descargar el **`chromedriver.exe`** que sea compatible con la version de nuestro navegador.

In [1]:
import requests 

from bs4 import BeautifulSoup

from selenium import webdriver

from time import sleep

In [2]:
# Driver de Chrome

chrome_driver = "chromedriver.exe"

In [3]:
# Ejecutar webdriver.Chrome abrirá una ventana nueva en el navegador 
# A traves de esta ventana podremos seguir usando selenium

browser = webdriver.Chrome(executable_path = chrome_driver)

browser.get("https://google.com")

browser.maximize_window()

Para "encontrar" los elementos de una página web podemos usar sus características. Usando las herramientas del navegador podemos elegir cual usar, los métodos para buscar son estos:


|Método                                     |
|-------------------------------------------|
|**`.find_element_by_id()`**                |
|**`.find_element_by_name()`**              |
|**`.find_element_by_xpath()`**             |
|**`.find_element_by_link_text()`**         |
|**`.find_element_by_partial_link_text()`** |
|**`.find_element_by_tag_name()`**          |
|**`.find_element_by_class_name()`**        |
|**`.find_element_by_css_selector()`**      |
|**`.find_elements_by_name()`**             |
|**`.find_elements_by_xpath()`**            |
|**`.find_elements_by_link_text()`**        |
|**`.find_elements_by_partial_link_text()`**|
|**`.find_elements_by_tag_name()`**         |
|**`.find_elements_by_class_name()`**       |
|**`.find_elements_by_css_selector()`**     |

In [4]:
# Aceptamos los términos de google

browser.find_element_by_css_selector("#L2AGLb > div").click()

In [5]:
# En el buscador de google escribimos "Python"

# Encontramos el buscador
buscador = browser.find_element_by_xpath("/html/body/div[1]/div[3]/form/div[1]/div[1]/div[1]/div/div[2]/input")

sleep(1)

# .clear() limpia lo que este escrito
buscador.clear()

sleep(1)

# .send_keys() escribe
buscador.send_keys("Python")

sleep(1)

#.submit() hace submit.
buscador.submit()

In [6]:
# .current_url retorna el url de la página del navegador.

browser.current_url

'https://www.google.com/search?q=Python&source=hp&ei=v6gNYuaYA8WCi-gPj4eBsAc&iflsig=AHkkrS4AAAAAYg22z-XhRlq2KutA1ehDwLVIQRo9BBOA'

In [7]:
# Con .page_source sacamos el html de esa página

browser.page_source

'<html itemscope="" itemtype="http://schema.org/SearchResultsPage" lang="es"><head><meta charset="UTF-8"><meta content="dark" name="color-scheme"><meta content="origin" name="referrer"><meta content="Anb2GUnhMjfTIX0D2a4a6NPAqPI5GaxxRAiF81XTjHJ2qK4E3Hw3VFM4eaJBgRzz45CNPt624audv+wHOJwfAAEAAABieyJvcmlnaW4iOiJodHRwczovL2dvb2dsZS5jb206NDQzIiwiZmVhdHVyZSI6IlRydXN0VG9rZW5zIiwiZXhwaXJ5IjoxNjI2MjIwNzk5LCJpc1N1YmRvbWFpbiI6dHJ1ZX0=" http-equiv="origin-trial"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Python - Buscar con Google</title><script src="https://apis.google.com/_/scs/abc-static/_/js/k=gapi.gapi.en.fQLVS3SAB_U.O/m=gapi_iframes,googleapis_client/rt=j/sv=1/d=1/ed=1/rs=AHpOoo9-gtqpJORJvBFDdao_eAhWe8xjHw/cb=gapi.loaded_0" nonce="" async=""></script><script nonce="">(function(){\nvar b=window.addEventListener;window.addEventListener=function(a,c,d){"unload"!==a&&b(a,c,d)};}).call(this);(function(){window.google={kEI:\'wqgNYovqKMTmsAeN2r

In [8]:
# En este punto ya podemos usar BeautifulSoup para sacar la información.

soup = BeautifulSoup(browser.page_source, "html.parser")

In [9]:
soup

<html itemscope="" itemtype="http://schema.org/SearchResultsPage" lang="es"><head><meta charset="utf-8"/><meta content="dark" name="color-scheme"/><meta content="origin" name="referrer"/><meta content="Anb2GUnhMjfTIX0D2a4a6NPAqPI5GaxxRAiF81XTjHJ2qK4E3Hw3VFM4eaJBgRzz45CNPt624audv+wHOJwfAAEAAABieyJvcmlnaW4iOiJodHRwczovL2dvb2dsZS5jb206NDQzIiwiZmVhdHVyZSI6IlRydXN0VG9rZW5zIiwiZXhwaXJ5IjoxNjI2MjIwNzk5LCJpc1N1YmRvbWFpbiI6dHJ1ZX0=" http-equiv="origin-trial"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Python - Buscar con Google</title><script async="" nonce="" src="https://apis.google.com/_/scs/abc-static/_/js/k=gapi.gapi.en.fQLVS3SAB_U.O/m=gapi_iframes,googleapis_client/rt=j/sv=1/d=1/ed=1/rs=AHpOoo9-gtqpJORJvBFDdao_eAhWe8xjHw/cb=gapi.loaded_0"></script><script nonce="">(function(){
var b=window.addEventListener;window.addEventListener=function(a,c,d){"unload"!==a&&b(a,c,d)};}).call(this);(function(){window.google={kEI:'wqgNYovqKMTmsAeN

In [13]:
# Si queremos ir a la página anterior, podemos hacer:

browser.back()

In [None]:
# Y si quisieramos cerrar el navegador:

browser.quit()

# Helium

**`helium`** es otra libreria de python para automatizar web scraping. Está construida sobre **`selenium`**. Según su documentación, **`helium`** es más fácil de usar que **`selenium`**.

```python
pip install helium
```

*Documentation: https://selenium-python-helium.readthedocs.io/en/latest/*

In [10]:
import helium

In [11]:
# Vamos a intentar extraer el html de esta página usando solo bs4

url = "https://www.online.bmsupermercados.es/es/c/ofertas/99999"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

# Vemos que no toma toda la información de la página

<!DOCTYPE html>

<html lang="">
<head>
<meta charset="utf-8"/>
<title>Tienda Online</title>
<base href="/"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="favicon.ico" rel="icon" type="image/x-icon"/>
<link href="styles.c57269fd9c5744439da1.css" rel="stylesheet"/></head>
<body>
<app-root></app-root>
<script src="runtime.ec2944dd8b20ec099bf3.js" type="text/javascript"></script><script src="polyfills.e726ecb246e02ce0452c.js" type="text/javascript"></script><script src="scripts.03d3378743d4f94f001d.js" type="text/javascript"></script><script src="main.389bac885f7d05a7a54a.js" type="text/javascript"></script></body>
</html>

In [12]:
# Vamos a hacer lo mismo pero esta vez usando Helium

url = "https://www.online.bmsupermercados.es/es/c/ofertas/99999"

browser = helium.start_chrome(url, headless = True)

# Hay que hacer sleep para que de tiempo de cargar la pagina

sleep(10)

# Hacemos .page_source para tomer el html de la página

soup = BeautifulSoup(browser.page_source, "html.parser")

soup

# Ahora si tomó toda la información, esto es porque le da tiempo a la página para poder cargar el html

<html class="overflow-hidden ebx-empathy-x--mobile ebx-empathy-x--scroll-up" lang="es"><head>
<meta charset="utf-8"/>
<title>Ofertas | BM</title>
<base href="/"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="favicon.ico" rel="icon" type="image/x-icon"/>
<link href="styles.c57269fd9c5744439da1.css" rel="stylesheet"/><script async="" src="https://www.google-analytics.com/plugins/ua/linkid.js" type="text/javascript"></script><script async="" src="https://www.google-analytics.com/plugins/ua/ec.js" type="text/javascript"></script><script async="" src="https://www.google-analytics.com/analytics.js" type="text/javascript"></script><script async="" src="https://www.google-analytics.com/analytics.js" type="text/javascript"></script><script async="" src="https://cstatic.weborama.fr/js/advertiserv2/adperf_conversion.js" type="text/javascript"></script><script async="" src="https://cstatic.weborama.fr/js/advertiserv2/adperf_conversion.js" type="text/javascript"