# Acceso a los datos de la web

## ¿Qué es Web Scraping?

El __Web Scraping__ (o Scraping) son un conjunto de técnicas que se utilizan para obtener de forma automática el contenido que hay en páginas web a través de su código HTML. 
 
 > Es una opción cuando no hay API's para extraer datos de la web


En este taller introduciremos cómo realizar scraping utilizando el lenguaje Python. Se pondrán en práctica dos técnicas de scraping diferentes y las ejemplificaremos usando las librerías __Beautiful Soup__ y __Selenium__. Para finalizar el taller, hablaremos sobre los problemas éticos que conlleva el web scraping.



## Versiones

En este taller utilizaremos:

* Python 3.x.
* La versión de BS4  es la 4.7.1

## Documentos en formato HTML y XML

Para sacar el máximo partido a esta técnica es recomendable estar familiarizado o familiarizarse con el formato interno de las páginas web, es decir, conocer el formato [HTML](https://en.wikipedia.org/wiki/HTML) y las reglas CSS.

Para comenzar vamos a trabajar con una página web estática muy sencilla. Puedes verla pinchando en el siguiente enlace: [ejemplo.html](./HTML_examples/example.html)

* Una página web tiene asociado un documento en formato HTML. 
* Los navegadores (FireFox, Chrome, etc. ) reciben un documento HTML y lo interpretan mostrando la página web. 
* Un documento HTML describe la estructura y la apariencia de la página web.

![dimagen](./HTML_examples/html_web.png)


Una característica que tienen los documentos HTML es que se pueden representar mediante una estructura en forma de árbol, donde cada elemento del árbol (tag) representa una parte del documento.

* Cada elemento está contenido en otro elemento (su padre), excepto la raíz.
* Cada elemento puede contener otros elementos (sus hijos)

![dimagen](./HTML_examples/DOM.png)

Como podemos ver en la figura, hay dos tipos de elementos: los elementos sombreados y los elementos de texto. Estos últimos nunca tienen hijos.

Conocer la estructura del árbol nos ayudará a buscar y seleccionar la información que aparece en la página web.

## Recuperación de información en páginas estáticas 

### Beautiful Soup (BS4)

BS4 es una librería para extraer información de documentos  HTML o XML. Permite navegar por el árbol del documento, extraer datos, modificar dicho árbol, etc. Aquí está la [documentación completa de Beautiful Soup 4.](https://www.crummy.com/software/BeautifulSoup/bs4/doc/).

Para mostrar su funcionamiento con nuestra página de juguete, lo primero que tenemos que hacer es cargar el documento HTML asociado en memoria:

In [1]:
from bs4 import BeautifulSoup
import bs4

In [2]:
bs4.__version__

'4.7.1'

In [2]:
# carga de la página web de prueba en memoria : (carga del documentos html)
with open("./HTML_examples/example.html") as html_doc:
    soup = BeautifulSoup(html_doc)

La variable `html_doc` contiene el texto interno de la página web. Buscar la información directamente en éste documento puede ser muy laborioso. Para ello utilizamos Beautiful Soup, que parsea dicho documento y lo transforma en un árbol de elementos (lo llamamos `soup`) con la estructura que hemos visto arriba. Además BS nos proporciona herramientas para localizar información de una manera sencilla y eficaz. 

Ejecutando el método `prettify()` podemos ver dicha estructura:

In [3]:
print(soup.prettify())

<html>
 <head>
  <title>
   Recipes
  </title>
 </head>
 <body>
  <h1>
   Over 100 Quick and Easy Recipes
  </h1>
  <p class="intro">
   The majority of recipes we offer can be both prepared and cooked in 30 minutes or less, 
		from start to finish. Examples are
   <a class="breakfast desserts" href="http://example.com/Breakfast ">
    Breakfast
   </a>
   ,
   <a class="salad" href="http://example.com/salad">
    Salad Entrees
   </a>
   and
   <a class="salad soups" href="http://example.com/soup">
    Soups
   </a>
   .
  </p>
  <p class="listado">
  </p>
  <h3 id="vbreakfast">
   Breakfast
  </h3>
  <p class="info">
   Try this easy-to-prepare version for a breakfast.
  </p>
  <ul class="vbreakfast">
   <li>
    <a href="http://example.com/breakfast_huevos">
     10-Minute Huevos Rancheros
    </a>
   </li>
   <li>
    <a href="http://example.com/breakfast_bagel">
     Breakfast Bagel
    </a>
   </li>
   <li>
    <a href="http://example.com/breakfast_poached_huevos">
     Poached H

Para buscar información en la página web, es necesario conocer el nombre de los elementos ó __tag__ que contienen la información que buscamos. El acceso a los elementos del documento se realiza mediante __expresiones de ruta__. Estas expresiones son usandas habitualmente cuando navegamos por un árbol de directorios. 

Por ejemplo, para recuperar el título de la página web, utilizaremos la siguiente expresión:

In [4]:
soup.h1        # navegamos por el árbol buscando un elemento con nombre 'h1'

<h1>Over 100 Quick and Easy Recipes</h1>

Si queremos buscar el primer párrafo de la página:

In [8]:
soup.html.body.p

<p class="intro">
		The majority of recipes we offer can be both prepared and cooked in 30 minutes or less, 
		from start to finish. Examples are
		<a class="breakfast desserts" href="http://example.com/Breakfast ">Breakfast</a>, 
		<a class="salad" href="http://example.com/salad">Salad Entrees</a> and
		<a class="salad soups" href="http://example.com/soup">Soups </a>.		
	  </p>

 <img src='./HTML_examples/primerP.png' style='width: 200px;'/>

O directamente podemos escribir la siguietne instrucción:

In [9]:
soup.p

<p class="intro">
		The majority of recipes we offer can be both prepared and cooked in 30 minutes or less, 
		from start to finish. Examples are
		<a class="breakfast desserts" href="http://example.com/Breakfast ">Breakfast</a>, 
		<a class="salad" href="http://example.com/salad">Salad Entrees</a> and
		<a class="salad soups" href="http://example.com/soup">Soups </a>.		
	  </p>

Para recuperar el título de la página, buscamos el tag `h1` y accedemos al texto:

In [11]:
soup.h1.text

'Over 100 Quick and Easy Recipes'

 <img src='./HTML_examples/titulo.png' style='width: 200px;'/>




La búsqueda del primer enlace (elemento `a`, atributo `href`):


<img src='./HTML_examples/attrs.png' style='width: 300px;'/>

In [12]:
# Lista de atributos
soup.p.a.attrs

{'href': 'http://example.com/Breakfast ', 'class': ['breakfast', 'desserts']}

In [12]:
# valor del atributo 'href'
soup.p.a['href']
# Equivalente a soup.a.attrs['href']

'http://example.com/Breakfast '

Podemos recuperar la lista de hijos de un elemento. 

    <ul class="vbreakfast">
       <li>
            <a href="http://example.com/breakfast_huevos">
             10-Minute Huevos Rancheros
            </a>
       </li>
       <li>
            <a href="http://example.com/breakfast_bagel">
             Breakfast Bagel
            </a>
       </li>
       <li>
            <a href="http://example.com/breakfast_poached_huevos">
             Poached Huevos
            </a>
       </li>
     </ul>


Por ejemplo los hijos del elemento `ul`:

In [13]:
list(soup.ul.children)

['\n',
 <li><a href="http://example.com/breakfast_huevos">10-Minute Huevos Rancheros</a></li>,
 '\n',
 <li><a href="http://example.com/breakfast_bagel">Breakfast Bagel</a></li>,
 '\n',
 <li><a href="http://example.com/breakfast_poached_huevos">Poached Huevos</a></li>,
 '\n']

Realmente, la parte más interesante es la de encontrar todos los elementos de un determinado tipo (por ejemplo, tag `h3`), o que sean de una determinada clase (por ejemplo tag `p` con `class = listado`), o en el que alguno de sus atributos tenga algún valor especial. Esto lo haremos con los métodos:

- `find`: encuentra el primer elemento
- `find_all`: genera una lista con todos los elementos que cumplen la condición.

In [14]:
soup.find_all('h3')

[<h3 id="vbreakfast">Breakfast</h3>,
 <h3 id="vsalad">Salad Entrees</h3>,
 <h3 id="vsalad">Traditional Salads</h3>]

También se pueden añadir filtros:

In [15]:
soup.find_all('h3', attrs = {'id':"vsalad"})

[<h3 id="vsalad">Salad Entrees</h3>, <h3 id="vsalad">Traditional Salads</h3>]

Devuelve la lista vacía si no encuentra ningún elemento que cumpla las condiciones.

In [17]:
soup.find_all('h3', attrs = {'idsssss':"vfoo"})

[]

__Ejercicio:__

Extraer todos los enlaces que aparecen en el documento. Buscamos el valor del atributo `href` de los elementos con tag `a`.

In [18]:
# Sol:
a_elem = soup.find_all('a')
for elem in a_elem:
    print(elem['href'])

http://example.com/Breakfast 
http://example.com/salad
http://example.com/soup
http://example.com/breakfast_huevos
http://example.com/breakfast_bagel
http://example.com/breakfast_poached_huevos
http://example.com/salad_1
http://example.com/cheese_salad_2
http://example.com/veggie_salad_3
http://example.com/mex_salad_4
http://www.whfoods.com


Aún más interesante...

   Utilizar la función `select` (o `select_one`, si solo nos queremos quedar con el primero), que recibe como parámetro un selector CSS para decidir con qué elementos me quiero quedar. Por ejemplo, si queremos seleccionar los elementos con tag `p` de la clase `info`:
   
       <p class = 'listado'>
			...
			<p class = "info">Try this easy-to-prepare version for a breakfast.</p>
			...
			<p class = "info">The spicy dressing with adds a little extra zest to this salads.</p>
			...
			<p class = "info">Other principal salads.</p>
			...
		</p>

In [23]:
# Selección de elementos por selector 'class' 
infos = soup.select('p.info')
for t in infos:
    print (t.text)

Try this easy-to-prepare version for a breakfast.
The spicy dressing with adds a little extra zest to this salads.
Other principal salads.


Para seleccionar los elementos con taga `a` hijos de eleemntos con tag `ul` de la clase `vsalad`:

    <ul class="vsalad">
        <li>
            <a href="http://example.com/veggie_salad_3">
                 Healthy Veggie Salad
            </a>
        </li>
        <li>
            <a href="http://example.com/mex_salad_4">
             Mexican Cheese Salad
            </a>
        </li>
    </ul>

In [25]:
# Selección de elementos por selector 'class' 
links = soup.select('ul.vsalad  a' )
links

[<a href="http://example.com/salad_1">Healthy Veggie Salad</a>,
 <a href="http://example.com/cheese_salad_2">Mexican Cheese Salad</a>,
 <a href="http://example.com/veggie_salad_3">Healthy Veggie Salad</a>,
 <a href="http://example.com/mex_salad_4">Mexican Cheese Salad</a>]

In [26]:
for l in links:
    print(l['href'])

http://example.com/salad_1
http://example.com/cheese_salad_2
http://example.com/veggie_salad_3
http://example.com/mex_salad_4


## BS4 y request

Una vez introducida la librería Beutiful Soup y parte de su funcionalidad, vamos a ver su funcionamiento con una página web con algo más de entidad. Para ello vamos a ver cómo descargar una página web y posteriormente cómo extraer información. Combinamos por tanto dos técnicas: descarga (con la librería `request`) y búsqueda (con BS4).

En primer lugar importamos las librerías:

In [27]:
from bs4 import BeautifulSoup
import requests

Escribimos la función que permite descargar la página web y crear el objeto `soup` de BS4 que contiene el documento HTML.

In [30]:
def descargarPagina(url):
    """
    Carga el contenido de una URL usando la librería request
    Devuelve:
       - (True, el documento) :  si todo va bien
       - (False, mensaje de error):   en caso de no poder cargar la página
    """
    # Realizamos la petición a la web
    req = requests.get(url)

    # Comprobamos que la petición nos devuelve un Status Code = 200
    statusCode = req.status_code
    # la petición ha ido bien
    if statusCode == 200:   

        # Pasamos el contenido HTML de la web a un objeto BeautifulSoup()
        soup = BeautifulSoup(req.text,"lxml")
        return True, soup
    
    # la petición ha ido mal     
    else:   
        return False, "ERROR {}".format(statusCode)

 <img src='./HTML_examples/peticion.png' style='width: 300px;'/>

### Ejemplo 1: Aslan Blue Planet

Vamos a probar cómo hacer scraping con BS4 utilizando el sitio web [Aslan Blue Planet](https://aslan-blue-planet.es/tienda-vegana/). La estructura de esta página es bastante más compleja, aunque utilizando las __herramientas de desarrollador__ del navegador podemos visualizar y navegar por dicha estructura.

In [31]:
url = 'https://aslan-blue-planet.es/tienda-vegana/'

#### Información de la página de un producto concreto



Entramos en la página de un producto concreto, para ver cómo está estructurada. Posteriormente analizamos el catálogo completo.

Por ejemplo: https://aslan-blue-planet.es/tienda/vego-bio-chocolate-blanco-con-almendras/

<img src='./HTML_examples/almendras.png' style='width: 300px;'/>

In [41]:
url_1 = 'https://aslan-blue-planet.es/tienda/vego-bio-chocolate-blanco-con-almendras/'
exito, soup = descargarPagina(url_1)
exito

True

Si queremos  información del producto, como por ejemplo el precio, el nombre, ....

Si inspeccionamos el elemento vemos que tiene el siguiente aspecto:


	<h1 itemprop="name" class="product_title entry-title">VEGO Bio Chocolate Blanco con Almendras</h1>
	...
    <p class="price"><span class="amount">2.39&nbsp;€</span></p>
    ...  
    

Seleccionamos el nombre del producto

In [61]:
m = soup.select_one("h1.product_title ").text
m

'VEGO Bio Chocolate Blanco con Almendras'

Seleccionamos el precio del producto

In [62]:
datos_precio = soup.select_one('p.price span.amount')
if datos_precio : 
    print(datos_precio.text)

2.39 €


In [63]:
datos_precio.text

'2.39\xa0€'

Podemos separar la moneda:
    

In [64]:
datos_precio.text.replace('\xa0', '')

'2.39€'

In [65]:
datos_precio.text.replace('\xa0', '')[-1]

'€'

In [66]:
datos_precio.text.replace('\xa0', '')[:-1]

'2.39'

Si queremos más información del producto, como por ejemplo los ingredientes, procedencia, etc..
La estructura es algo como:

      <div class="panel entry-content wc-tab" id="tab-description" style="display: block;">

            <p> ...<\p>
            
            <p><strong>Ingredientes</strong>: Azúcar de caña*, manteca de cacao* (26%), inulina*, 
             sal marina, vainilla en polvo*<strong> ( *cultivo orgánico controlado/ Certif. DE-OKO-003)<br>
                </strong>
            </p>
            ...
       </div>

 

In [67]:
producto = soup.select_one('div.entry-content p') 
detalle = producto.findNextSiblings('p')
info = ''
for p in detalle:
    info = info + ' '+  p.text.strip().replace('\xa0' , ' ')
info

'  Ingredientes: Azúcar de caña*, manteca de cacao* (26%), inulina*, sal marina, vainilla en polvo* ( *cultivo orgánico controlado/ Certif. DE-OKO-003) Alérgenos: Puede contener trazas de leche y avellanas. SIN GLUTEN. Valor nutritivo por 100 g:\nEnergía 2350 KJ / 567 kcal\nGrasas  41 g de las cuáles saturadas 17 g\nCarbohidratos 35 g de los cuáles azúcar  35 g\nProteína 6 g\nSal  0,22 g Contenido: 50g Procedencia: Alemania Conservación: en lugar fresco y seco.'

Ahora podemos escribir una función que recoja toda la información de un producto:

In [71]:
def info_producto(soup):
    producto = soup.select_one('div.entry-summary')   
    
    # nombre
    nombre = producto.select_one("h1.product_title ").text
    # datos precio
    datos_precio = producto.select_one('p.price span.amount')
    if datos_precio : 
        datos_precio = datos_precio.text
        moneda = datos_precio.replace('\xa0', '')[-1]
        importe = datos_precio.replace('\xa0', '')[:-1]
    else:
        moneda =''
        importe = 0
    # +Info
    p = producto.select_one('div.entry-content p')  
    detalle = p.findNextSiblings('p')
    info = ''
    for p in detalle:
        info = info + ' '+  p.text.strip()
    
    datos = {'nombre' : nombre, 'precio': importe, 'moneda' : moneda, 'masInfo': info}
    
    return datos

In [73]:
url_1 = 'https://aslan-blue-planet.es/tienda/vego-bio-chocolate-blanco-con-almendras/'
exito, soup = descargarPagina(url_1)
if exito:
    p = info_producto(soup)
    
p

{'nombre': 'VEGO Bio Chocolate Blanco con Almendras',
 'precio': '2.39',
 'moneda': '€',
 'masInfo': '  Ingredientes: Azúcar de caña*, manteca de cacao* (26%), inulina*, sal marina, vainilla en polvo* ( *cultivo orgánico controlado/ Certif. DE-OKO-003) Alérgenos: Puede contener trazas de leche y avellanas. SIN GLUTEN. Valor nutritivo por 100 g:\nEnergía 2350 KJ / 567 kcal\nGrasas\xa0 41 g de las cuáles saturadas 17 g\nCarbohidratos 35 g de los cuáles azúcar\xa0 35 g\nProteína 6 g\nSal\xa0 0,22 g Contenido: 50g Procedencia: Alemania Conservación: en lugar fresco y seco.'}

#### Catálogo completo

Una vez que sabemos cómo procesar un producto vamos a intentar obtener el catálogo completo. La estructura de cada uno de los productos de la página es la que ya hemos visto en el punto anterior. 

Por defecto se muestran 24 productos por página y hay un botón al final de la página para avanzar. Sin embargo, si nos fijamos un poco veremos que cada vez que pulsamos en el botón nos lleva a una nueva página con una URL del tipo https://aslan-blue-planet.es/tienda-vegana/page/X/. 


Además, podemos ver que no se lanza ningún error 404 si llegamos al final del catálogo, sino que se carga una página inicial https://aslan-blue-planet.es/

De acuerdo a esto, vamos a ver cómo obtener los enlaces de cada uno de los productos y cómo crear una lista con la información de todos los productos:

Cada producto tiene esta estructura:

    <div class="ci-product">
    ...
		<a class="ci-product-img-container" 
           href="https://aslan-blue-planet.es/tienda/vego-bio-chocolate-blanco-con-almendras/">
			<img width="240" heigh...>
        </a>
	</div>

In [74]:
def obtener_enlaces_productos(soup):
    # Lista de enlaces 
    enlaces = []
    # Procesamos el HTML descargado
    all_productos = soup.select('div.ci-product')    
    for producto in all_productos:
        enlace = producto.select_one('a[href]')['href']
        enlaces.append(enlace)
    return enlaces  

In [75]:
url = 'https://aslan-blue-planet.es/tienda-vegana/'
exito, soup = descargarPagina(url)
if exito:
    lista_enlaces = obtener_enlaces_productos(soup)
    
len(lista_enlaces)

24

In [76]:
lista_enlaces

['https://aslan-blue-planet.es/tienda/vego-bio-chocolate-blanco-con-almendras/',
 'https://aslan-blue-planet.es/tienda/huevos-de-chocolate-100-grs/',
 'https://aslan-blue-planet.es/tienda/conejo-de-chocolate-vegano-100-grs/',
 'https://aslan-blue-planet.es/tienda/conejo-de-chocolate-vegano-blanco-100-grs/',
 'https://aslan-blue-planet.es/tienda/conejos-de-chocolate-en-piruletas-3-uds-2/',
 'https://aslan-blue-planet.es/tienda/conejos-de-chocolate-blanco-en-piruletas-3-uds/',
 'https://aslan-blue-planet.es/tienda/sim-sala-mi-snack-3x35g/',
 'https://aslan-blue-planet.es/tienda/barritas-de-choco-latte/',
 'https://aslan-blue-planet.es/tienda/chocofresa/',
 'https://aslan-blue-planet.es/tienda/bacon-vegano-bio-60g/',
 'https://aslan-blue-planet.es/tienda/bacon-vegano-meetlyke-60g-2/',
 'https://aslan-blue-planet.es/tienda/bloque-violife-sabor-mozzarella-400g/',
 'https://aslan-blue-planet.es/tienda/cappelletti-bio-con-tofu-ahumado-vantastic-foods/',
 'https://aslan-blue-planet.es/tienda/c

La url de las páginas siguientes se construyen de la siguiente manera:

In [77]:
i = 2
url_sig = 'https://aslan-blue-planet.es/tienda-vegana/page/{}/'.format(i)
url_sig

'https://aslan-blue-planet.es/tienda-vegana/page/2/'

Como no sabemos cuántas páginas hay, procesaremos hasta recibir un código de retorno distinto de 200 o cuando la página es la página inicial.

In [78]:
url = 'https://aslan-blue-planet.es/tienda-vegana/'
def procesar_catalogo(url):
    datos = []
    exito, soup = descargarPagina(url)
    i = 1
    while exito:
        enlaces = obtener_enlaces_productos(soup)
        # Procesamos cada producto
        for url_p in enlaces:
            exito, soup_p = descargarPagina(url_p)
            datos_producto = info_producto(soup_p)
            datos.append (datos_producto)
            
        # siguiente página 
        i = i + 1          
        siguiente_url = 'https://aslan-blue-planet.es/tienda-vegana/page/{}/'.format(i)
        exito, soup = descargarPagina(siguiente_url)
        # comprobar que no es la última
        if exito and soup.select_one('body.home'):
            exito = False
        print('Procesando página: ' + str(i) )     
    
    return datos, i

In [79]:
datos, i = procesar_catalogo(url)

2
3
4
5
6
7
8
9
10
11
12
13


In [None]:
datos

Finalmente cargaremos todos los datos en un dataframe de pandas para procesarlo, extraer información y guardarlo a un fichero excel.

In [None]:
import pandas as pd

tabla = pd.DataFrame(datos)
tabla.to_excel('productos.xlsx', index = False)
tabla.head()

-----