## Selenium

**`Selenium WebDriver`** es una herramienta para recopilar datos de los sitios web y simular las interacciones del usuario.

```python
pip install selenium
```

*__Documentación__: https://selenium-python.readthedocs.io/index.html*

Para utilizar **`selenium`** debemos tener el archivo **`chromedriver.exe`** si estamos usando Chrome. Este se puede descargar desde la documentación, hay que descargar el **`chromedriver.exe`** que sea compatible con la versión de nuestro navegador.

Si no disponemos del chromedriver tendremos que descarganos la versión compatible con nuestro navegador desde la siguiente dirección https://chromedriver.chromium.org/downloads

In [None]:
%pip install selenium

In [1]:
import requests 

from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.webdriver.common.by import By

from time import sleep

In [2]:
# Driver de Chrome

chrome_driver = "./chromedriver.exe"

In [5]:
# Ejecutar webdriver.Chrome abrirá una ventana nueva en el navegador 
# A traves de esta ventana podremos seguir usando selenium

browser = webdriver.Chrome(executable_path = chrome_driver)

browser.get("https://google.com")

browser.maximize_window()

Para "encontrar" los elementos de una página web podemos usar sus características. Usando las herramientas del navegador podemos elegir cual usar, los métodos para buscar son:


|Método                                     |
|-------------------------------------------|
|**`.find_element(by, value)`**             |
|**`.find_elements(by, value)`**            |

Y los posibles elementos para filtrar en el parámetro **by** son:

|Filtro                                     |
|-------------------------------------------|
|**`By.NAME`**              |
|**`By.XPATH`**             |
|**`By.LINK_TEXT`**         |
|**`By.PARTIAL_LINK_TEXT`** |
|**`By.TAG_NAME`**          |
|**`By.CLASS_NAME`**        |
|**`By.CSS_SELECTOR`**      |

In [6]:
# Aceptamos los términos de google

#L2AGLb > div

browser.find_element(by = By.CSS_SELECTOR, value = "#L2AGLb > div").click()

In [8]:
# En el buscador de google escribimos "Python"

# Encontramos el buscador
buscador = browser.find_element(by = By.CSS_SELECTOR, value = "#APjFqb")

sleep(1)

# .clear() limpia lo que este escrito
buscador.clear()

sleep(1)

# .send_keys() escribe
buscador.send_keys("Python")

sleep(1)

#.submit() hace submit.
buscador.submit()

In [9]:
# .current_url retorna el url de la página del navegador.

browser.current_url

'https://www.google.com/search?q=Python&sca_esv=572214004&source=hp&ei=E34lZdi8Nu3p1e8P3IuGkAs&iflsig=AO6bgOgAAAAAZSWMIwt5u3GC9j0IWI0Y6DLZ_U8utKkt'

In [10]:
# Con .page_source sacamos el html de esa página

browser.page_source



In [11]:
# En este punto ya podemos usar BeautifulSoup para sacar la información.

soup = BeautifulSoup(browser.page_source, "html.parser")

In [12]:
soup

<html itemscope="" itemtype="http://schema.org/SearchResultsPage" lang="es"><head><meta charset="utf-8"/><meta content="dark" name="color-scheme"/><meta content="origin" name="referrer"/><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"/><title>Python - Buscar con Google</title><script async="" id="www-widgetapi-script" nonce="" src="https://www.youtube.com/s/player/4a66ccde/www-widgetapi.vflset/www-widgetapi.js" type="text/javascript"></script><script async="" nonce="" src="https://apis.google.com/_/scs/abc-static/_/js/k=gapi.gapi.en.Ox0HebTIzao.O/m=gapi_iframes,googleapis_client/rt=j/sv=1/d=1/ed=1/rs=AHpOoo9JBE0z9__nE4FgyS-eLRbRwEP9Gw/cb=gapi.loaded_0"></script><script nonce="">(function(){var b=window.addEventListener;window.addEventListener=function(a,c,d){"unload"!==a&&b(a,c,d)};}).call(this);(function(){var _g={kEI:'xX8lZarlMaqikdUP-JGz4AI',kEXPI:'31',kBL:'4B3H',kOPI:89978449};(function(){var a;(null==(a=window.google)?0:a.stvsc)?google

In [13]:
# Si queremos ir a la página anterior, podemos hacer:

browser.back()

In [14]:
# Y si quisieramos cerrar el navegador:

browser.quit()

## Helium

**`helium`** es otra libreria de python para automatizar web scraping. Está construida sobre **`selenium`**. Según su documentación, **`helium`** es más fácil de usar que **`selenium`**.

```python
pip install helium
```

*Documentation: https://selenium-python-helium.readthedocs.io/en/latest/*

In [None]:
%pip install helium

In [15]:
import helium

In [20]:
help(helium)

Help on package helium:

NAME
    helium

DESCRIPTION
    Helium's API is contained in module ``helium``. It is a simple Python API that
    makes specifying web automation cases as simple as describing them to someone
    looking over their shoulder at a screen.
    
    The public functions and classes of Helium are listed below. If you wish to use
    Helium functions in your Python scripts you can import them from the
    ``helium`` module::
    
            from helium import *

PACKAGE CONTENTS
    _impl (package)

CLASSES
    builtins.object
        Config
        GUIElement
            Alert
            HTMLElement
                Button
                CheckBox
                ComboBox
                Image
                Link
                ListItem
                RadioButton
                S
                Text
                TextField
            Window
    Point(builtins.tuple)
        Point
    
    class Alert(GUIElement)
     |  Alert(search_text=None)
     |  
  

In [16]:
# Vamos a intentar extraer el html de esta página usando solo bs4

url = "https://www.online.bmsupermercados.es/es/c/ofertas/99999"

response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")

soup

# Vemos que no toma toda la información de la página

<!DOCTYPE html>
<html lang=""><head><script data-language="es" id="cookiefirst" src="https://consent.cookiefirst.com/sites/online.bmsupermercados.es-d073e67d-0442-4075-a928-db3f049e250b/consent.js" type="text/javascript"></script>
<meta charset="utf-8"/>
<title></title>
<base href="/"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="favicon.ico" rel="icon" type="image/x-icon"/>
<link href="manifest.webmanifest" rel="manifest"/>
<meta content="#000000" name="theme-color"/>
<link href="assets/icons/icon-192x192.png" rel="apple-touch-icon"/>
<body>
<div class="m-spinner--modal" id="tol-spinner">
<span class="spinner-gif"></span>
</div>
<app-root></app-root>
<noscript>Please enable JavaScript to continue using this application.</noscript>
<script src="runtime.5c31f89842b4e59c.js" type="module"></script><script src="polyfills.60e08ef1e9d0afb7.js" type="module"></script><script defer="" src="scripts.5ba526d27fabc56a.js"></script><script src="main.c6f79aa4a2

In [17]:
# Vamos a hacer lo mismo pero esta vez usando Helium

url = "https://www.online.bmsupermercados.es/es/c/ofertas/99999"

browser = helium.start_chrome(url, headless = True)

# Hay que hacer sleep para que de tiempo de cargar la pagina

sleep(10)

# Hacemos .page_source para tomer el html de la página

soup = BeautifulSoup(browser.page_source, "html.parser")

soup

# Ahora si tomó toda la información, esto es porque le da tiempo a la página para poder cargar el html

<html class="overflow-hidden" lang="es"><head><script async="" src="https://www.googletagmanager.com/gtag/js?id=G-CNZH0GW2MX&amp;l=dataLayer&amp;cx=c" type="text/javascript"></script><script data-cookiefirst-category="necessary" src="https://www.googletagmanager.com/gtm.js?id=GTM-M4DRD2"></script><script data-language="es" id="cookiefirst" src="https://consent.cookiefirst.com/sites/online.bmsupermercados.es-d073e67d-0442-4075-a928-db3f049e250b/consent.js" type="text/javascript"></script><script src="https://consent.cookiefirst.com/banner.js"></script>
<meta charset="utf-8"/>
<title>Ofertas | BM Supermercados</title>
<base href="/"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<link href="favicon.ico" rel="icon" type="image/x-icon"/>
<link href="manifest.webmanifest" rel="manifest"/>
<meta content="#000000" name="theme-color"/>
<link href="assets/icons/icon-192x192.png" rel="apple-touch-icon"/>
          w[l]=w[l]||[];
          w[l].push({'gtm.start':new Date(

### Guardar imagenes usando `requests` y `shutil`:

In [21]:
import requests

import shutil

In [22]:
url = "https://google.com/"

browser = helium.start_chrome(url, headless = True)

sleep(3)

soup = BeautifulSoup(browser.page_source, "html.parser")

In [27]:
soup.find("img", class_ = "lnXdpd")["srcset"].split(",")[0].split(" ")[0]

'/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png'

In [23]:
img_enlace = soup.find("img", class_ = "lnXdpd")["srcset"].split(",")[0].split(" ")[0]

img_enlace = f'https://www.google.com{img_enlace}'

img_enlace

'https://www.google.com/images/branding/googlelogo/1x/googlelogo_color_272x92dp.png'

In [24]:
response_img = requests.get(img_enlace, stream = True)

with open("google.png", "bw") as file:
    
    response_img.raw.decode_content = True
    
    shutil.copyfileobj(response_img.raw, file)

In [None]:
################################################################################################################################