## Selenium

**`Selenium WebDriver`** es una herramienta para recopilar datos de los sitios web y simular las interacciones del usuario.

```python
pip install selenium
```

*__Documentación__: https://selenium-python.readthedocs.io/index.html*

Para utilizar **`selenium`** debemos tener el archivo **`chromedriver.exe`** si estamos usando Chrome. Este se puede descargar desde la documentación, hay que descargar el **`chromedriver.exe`** que sea compatible con la versión de nuestro navegador.

In [20]:
import requests 

from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.webdriver.common.by import By

from time import sleep

In [21]:
import selenium

selenium.__version__

'3.141.0'

In [22]:
# Driver de Chrome

chrome_driver = "chromedriver.exe"

In [23]:
# https://chromedriver.chromium.org/downloads

In [25]:
# Ejecutar webdriver.Chrome abrirá una ventana nueva en el navegador 
# A traves de esta ventana podremos seguir usando selenium

#browser = webdriver.Chrome(executable_path = chrome_driver)
browser = webdriver.Chrome()

browser.get("https://google.com")

browser.maximize_window()

Para "encontrar" los elementos de una página web podemos usar sus características. Usando las herramientas del navegador podemos elegir cual usar, los métodos para buscar son:


|Método                                     |
|-------------------------------------------|
|**`.find_element(by, value)`**             |
|**`.find_elements(by, value)`**            |

Y los posibles elementos para filtrar en el parámetro **by** son:

|Filtro                                     |
|-------------------------------------------|
|**`By.NAME`**              |
|**`By.XPATH`**             |
|**`By.LINK_TEXT`**         |
|**`By.PARTIAL_LINK_TEXT`** |
|**`By.TAG_NAME`**          |
|**`By.CLASS_NAME`**        |
|**`By.CSS_SELECTOR`**      |

In [31]:
browser.find_element(by = By.ID, value = "L2AGLb").click()

In [32]:
# En el buscador de google escribimos "Python"

# Encontramos el buscador
buscador = browser.find_element(by = By.ID, value = "APjFqb")

sleep(1)

# .clear() limpia lo que este escrito
buscador.clear()

sleep(1)

# # .send_keys() escribe
buscador.send_keys("Python")

sleep(1)

#.submit() hace submit.
buscador.submit()

In [33]:
# .current_url retorna el url de la página del navegador.

browser.current_url

'https://www.google.com/search?q=Python&sca_esv=85af15397c77c0f6&sca_upv=1&source=hp&ei=QRveZZujHYGkkdUP1o2ImAo&iflsig=ANes7DEAAAAAZd4pUWAMCjsWD4IkMsjT0YDe-RBXXUeK'

In [None]:
# Con .page_source sacamos el html de esa página

browser.page_source

In [34]:
# En este punto ya podemos usar BeautifulSoup para sacar la información.

soup = BeautifulSoup(browser.page_source, "html.parser")

In [35]:
[x.text for x in soup.find_all("h3")][:-4]

['Python España',
 'Welcome to Python.org',
 'Download Python',
 '¿Qué es Python? - Explicación del lenguaje Python - AWS',
 '¿Es muy difícil aprender a programar Python? - Quora',
 'Descripción del puesto: Desarrollador de Python (m/h/x)',
 '¿En cuánto tiempo puedo aprender Python? (+ consejos de aprendizaje)',
 'Python - Wikipedia, la enciclopedia libre',
 '¿Qué es Python? - Explicación del lenguaje Python - AWS',
 'Online Python - IDE, Editor, Compiler, Interpreter',
 'Aprende Python',
 'Qué es Python, para qué sirve y cómo se usa (+ recursos para ...',
 'Learn Python']

In [36]:
# Si queremos ir a la página anterior, podemos hacer:

browser.back()

In [37]:
# Y si quisieramos cerrar el navegador:

browser.quit()

### Guardar imagenes usando `requests` y `shutil`:

In [38]:
import requests

import shutil

In [39]:
url = "https://google.com/"

browser = webdriver.Chrome()

browser.get(url)

sleep(3)

soup = BeautifulSoup(browser.page_source, "html.parser")

In [41]:
img_enlace = soup.find("img", class_ = "lnXdpd")["src"]

img_enlace = f'https://www.google.com{img_enlace}'

img_enlace

'https://www.google.com/images/branding/googlelogo/2x/googlelogo_color_272x92dp.png'

In [42]:
response_img = requests.get(img_enlace, stream = True)

with open("google.png", "bw") as file:
    
    response_img.raw.decode_content = True
    
    shutil.copyfileobj(response_img.raw, file)

In [None]:
################################################################################################################################