## Selenium

**`Selenium WebDriver`** es una herramienta para recopilar datos de los sitios web y simular las interacciones del usuario.

```python
pip install selenium
```

*__Documentación__: https://selenium-python.readthedocs.io/index.html*

Para utilizar **`selenium`** debemos tener el archivo **`chromedriver.exe`** si estamos usando Chrome. Este se puede descargar desde la documentación, hay que descargar el **`chromedriver.exe`** que sea compatible con la versión de nuestro navegador.

In [None]:
import requests 

import bs4 # Para ver la versión
from bs4 import BeautifulSoup

import selenium # Para ver la versión
from selenium import webdriver
from selenium.webdriver.common.by import By

from time import sleep

In [None]:
# Versiones

print(f"requests=={requests.__version__}")
print(f"bs4=={bs4.__version__}")
print(f"selenium=={selenium.__version__}")

In [None]:
# Driver de Chrome

chrome_driver = "chromedriver.exe"

In [None]:
# Ejecutar webdriver.Chrome abrirá una ventana nueva en el navegador 
# A traves de esta ventana podremos seguir usando selenium

browser = webdriver.Chrome()

browser.get("https://google.com")

browser.maximize_window()

Para "encontrar" los elementos de una página web podemos usar sus características. Usando las herramientas del navegador podemos elegir cual usar, los métodos para buscar son:


|Método                                     |
|-------------------------------------------|
|**`.find_element(by, value)`**             |
|**`.find_elements(by, value)`**            |

Y los posibles elementos para filtrar en el parámetro **by** son:

|Filtro                                     |
|-------------------------------------------|
|**`By.NAME`**              |
|**`By.XPATH`**             |
|**`By.LINK_TEXT`**         |
|**`By.PARTIAL_LINK_TEXT`** |
|**`By.TAG_NAME`**          |
|**`By.CLASS_NAME`**        |
|**`By.CSS_SELECTOR`**      |

In [None]:
# Aceptamos los términos de google

#L2AGLb > div

browser.find_element(by = By.CSS_SELECTOR, value = "#L2AGLb > div").click()

In [None]:
# En el buscador de google escribimos "Python"

# Encontramos el buscador
buscador = browser.find_element(by = By.CSS_SELECTOR, value = "#APjFqb")

sleep(1)

# .clear() limpia lo que este escrito
buscador.clear()

sleep(1)

# # .send_keys() escribe
buscador.send_keys("Python")

sleep(1)

#.submit() hace submit.
buscador.submit()

In [None]:
# .current_url retorna el url de la página del navegador.

browser.current_url

In [None]:
# Con .page_source sacamos el html de esa página

browser.page_source

In [None]:
# En este punto ya podemos usar BeautifulSoup para sacar la información.

soup = BeautifulSoup(browser.page_source, "html.parser")

In [None]:
[x.text for x in soup.find_all("h3")][:-4]

In [None]:
# Si queremos ir a la página anterior, podemos hacer:

browser.back()

In [None]:
# Y si quisieramos cerrar el navegador:

browser.quit()

### Guardar imagenes usando `requests` y `shutil`:

In [None]:
import requests

import shutil

In [None]:
url = "https://google.com/"

browser = webdriver.Chrome()

browser.get(url)

sleep(3)

soup = BeautifulSoup(browser.page_source, "html.parser")

In [None]:
img_enlace = soup.find("img", class_ = "lnXdpd")["srcset"].split(",")[0].split(" ")[0]

img_enlace = f'https://www.google.com{img_enlace}'

img_enlace

In [None]:
response_img = requests.get(img_enlace, stream = True)

with open("google.png", "bw") as file:
    
    response_img.raw.decode_content = True
    
    shutil.copyfileobj(response_img.raw, file)

In [None]:
################################################################################################################################