Antes de empezar: un poco de documentación para enterder ligeramente cómo funciona HTML: https://www.w3schools.com/html/html_intro.asp

# Web Scraping: Beautiful Soup

**Beautiful Soup** es una librería **Python** que permite extraer información de contenido en formato **HTML o XML**. Para usarla, es necesario especificar un **parser**, que es responsable de transformar un documento HTML o XML en un árbol complejo de objetos Python. Esto permite, por ejemplo, que podamos interactuar con los elementos de una página web como si estuviésemos utilizando las herramientas del desarrollador de un navegador.

A la hora de extraer información de una web, uno de los parsers más utilizado es el parser HTML de **lxml**. Precisamente, será el que utilicemos en este tutorial.

**Será necesario instalar las siguientes librerías** (si no las tienes ya):

        pip3 install beautifulsoup4 requests pandas

        pip3 install beautifulsoup4 

        pip3 install requests

        pip3 install pandas 

###  Pasos a seguir en el proceso de 'scraping':

1. Encuentra la URL que quieres 'escrapear'.
2. Inspecciona la página (código fuente).
3. Localiza los datos que necesitas obtener.
4. Desarrolla tu código en Python.
    1. Crea tu sopa
    2. Busca los elementos que cotienen los datos y extráelos
5. Ejecuta tu código y obten los datos.
6. Alamacena los datos en el formato requerido.

Algunos ejemplos de Web Scraping utilizando Beautiful Soup:

https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/

http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html

https://towardsdatascience.com/top-5-beautiful-soup-functions-7bfe5a693482

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [4]:
# Importamos librerías
import requests
from bs4 import BeautifulSoup
import pandas as pd
import html
import numpy as np
import lxml

## Caso 1: Scraping de un catálogo: Labirratorium

In [5]:
URL = 'https://www.labirratorium.com/es/67-cervezas-por-estilo?page='

Queremos obtener un dataFrame con todas las cervezas del catálogo y sus características descritas. Analizamos la página para ver qué tenemos que hacer para conseguirlo

In [None]:
# La web tiene 80 páginas con 12 cervezas listadas en cada página.

Hacemos la consulta (request) y creamos la SOPA inicial:

In [6]:
r = requests.get(URL)
# Parseamos la URL
soup = BeautifulSoup(r.text, "lxml")

In [7]:
type(soup)

bs4.BeautifulSoup

In [8]:
soup

nes </a>
</div>
<div class="captchaerror alert alert-danger">Por favor, rellene la verificación captcha</div>
</div>
</div><div class="flex-container" id="idxlopdCompatible" style="display:none;">
<div style="background-color:#383838;opacity:0.9;">
<p class="content-lopd-tit flex-item">Condiciones de la tienda</p>
<div class="min-text-compatible flex-item"></div>
<div class="flex-item" id="buttons">
<a id="idxlopdOK" onclick="javaScript:acceptLopdCompatible();">Aceptar</a>
<a id="Nolopd" onclick="javascript:quitLopd();">No, gracias</a>
</div>
<div class="lopd-link flex-item">
<a href="" target="_blank">Ver condiciones de la tienda</a>
</div>
<div class="captchaerror alert alert-danger">Por favor rellene el captcha</div>
</div>
</div>
</div>
<div class="col-xs-12 col-conditions">
<p>Responsable del Fichero: Labirratorium; Finalidad: solicitar recibir el boletín de noticias; Legitimación: Consentimiento; Destinatarios: No se comunicarán los datos a terceros; Derechos: Acceder, rectificar

In [9]:
# Guardamos lista de cervezas

# Sacamos los elementos de nuestra "sopa" a trav'es de su atributo en el HTML
# Esto puede leer todo: html, css, javascript, ...
cervezas_grid = soup.find_all(class_ = "product-image")

In [12]:
len(cervezas_grid)

12

In [15]:
# necesitamos acceder a cada una de las cervezas del grid:
lista_URL = []

for cerv in cervezas_grid:
    # Cada cerveza dentro del grid, es a suvez un beautifulsoup object 
    # Como solo hay un elemento que necesitamos en cada soup, podemos usar un find_simple()
    # Vamos a sacar el elemento "a" -> enlace, y de aquí, solamente el "href"
    URL_cerv = cerv.find("a")["href"]
    lista_URL.append(URL_cerv)

lista_URL

['https://www.labirratorium.com/es/lambic/284-boon-kriek-2013.html',
 'https://www.labirratorium.com/es/alemania/225-stortebeker-schwarz-bier.html',
 'https://www.labirratorium.com/es/inicio/199-orval.html',
 'https://www.labirratorium.com/es/alemania/184-augustiner-lagerbier-hell.html',
 'https://www.labirratorium.com/es/inicio/183-schneider-eisbock.html',
 'https://www.labirratorium.com/es/inicio/181-schlenkerla-rauchbier-weizen.html',
 'https://www.labirratorium.com/es/inicio/173-samuel-adams-boston-lager.html',
 'https://www.labirratorium.com/es/inicio/165-laugar-epa.html',
 'https://www.labirratorium.com/es/inicio/82-westmalle-dubbel.html',
 'https://www.labirratorium.com/es/inicio/75-duchesse-de-bourgogne.html',
 'https://www.labirratorium.com/es/inicio/61-tripel-karmeliet33.html',
 'https://www.labirratorium.com/es/inicio/21-weihenstephaner-vitus.html']

In [20]:
# Hacemos un nuevo request para la primera cerveza: 

# Hacemos un request de esta nueva URL
r2 = requests.get(lista_URL[0])

# Hacemos otra sopa para sacarle la info a la nueva URL
soup_cerv = BeautifulSoup(r2.text, "lxml")

In [21]:
soup_cerv

ext/javascript">
        document.addEventListener('DOMContentLoaded', function() {
            var MBG = GoogleAnalyticEnhancedECommerce;
            MBG.setCurrency('EUR');
            MBG.addProductDetailView({"id":284,"name":"boon-oude-kriek-375cl","category":"lambic","brand":"","variant":false,"type":"typical","position":"0","quantity":1,"list":"product","url":"https%3A%2F%2Fwww.labirratorium.com%2Fes%2Flambic%2F284-boon-kriek-2013.html","price":"7,15\u00a0\u20ac"});
        });
    </script>
</div></div>
<footer class="page-footer">
<!-- Footer content -->
</footer>
</section>
</div>
</div>
</div>
</section>
<footer class="footer-container" id="footer">
<div class="footer-top">
<div class="inner"></div>
</div>
<div class="footer-center">
<div class="inner"><!-- @file modules\appagebuilder\views\templates\hook\ApRow -->
<div class="wrapper" style="background: #222 no-repeat">
<div class="container">
<div class="row box-ftoph1 ApRow has-bg bg-fullwidth-container" style="">
<!-- @fi

In [22]:
# Nombre

nombre = soup_cerv.find(class_ = "h1 product-detail-name").text     # Como hay mucho espacio en blanco, le pido que me devuelva solo el text
nombre

'Boon Oude Kriek 37,5cl'

In [24]:
# Precio
# Accedo primero a current-price
# De aquí accedo a "span"
# Y de esto solo me interesa lo que este dentro de "content"    --> aquí uso corchete porque content tiene algo asignado (es un atributo)
price = soup_cerv.find(class_ = "current-price").find("span")["content"]
price

'7.15'

In [25]:
# Descripcion corta
desc_short = soup_cerv.find(id = "product-description-short-284").find("p").text
desc_short

'Lambic / Kriek'

In [26]:
# Descripción larga
desc_long = soup_cerv.find(class_ = "product-description").find("p").text
desc_long

'Cerveza de fermentación espontánea (Lambic) de 6.5% ABV sin filtrar ni pasteurizar de estilo Kriek, elaborada con cerezas naturales.'

In [29]:
# Imagen
image = soup_cerv.find(id = "zoom_product")["src"]
image

'https://www.labirratorium.com/19351-large_default/boon-kriek-2013.jpg'

In [30]:
 # Brand
brand = soup_cerv.find(class_ = "img img-thumbnail manufacturer-logo")["alt"]
brand

'Brouwerij F. Boon'

In [None]:
# Código de barras


In [31]:
# Features
features = soup_cerv.find(class_ = "data-sheet")

features_dt = features.find_all("dt")
features_dd = features.find_all("dd")

features_dict = {}

for feature, value in zip(features_dt, features_dd):
    features_dict[feature.text] = value.text

features_dict

{'Estilo': 'KRIEK',
 'Origen': 'Bélgica',
 '% Alc.': '6.5\nALTO (6-9%)',
 'Otros ingredientes': 'Cerezas Naturales',
 'Volumen (cl)': '37.5 Cl',
 'Tipo Fermentación': 'Lambic (Fermentación espontánea o salvaje)',
 'Maltas': 'Cebada y Trigo',
 'IBU': '0-25 Amargor bajo',
 'Color': 'Rojiza',
 'Envase': 'Botella'}

In [34]:
features_dt

[<dt class="name">Estilo</dt>,
 <dt class="name">Origen</dt>,
 <dt class="name">% Alc.</dt>,
 <dt class="name">Otros ingredientes</dt>,
 <dt class="name">Volumen (cl)</dt>,
 <dt class="name">Tipo Fermentación</dt>,
 <dt class="name">Maltas</dt>,
 <dt class="name">IBU</dt>,
 <dt class="name">Color</dt>,
 <dt class="name">Envase</dt>]

In [None]:
# Creamos un Id único que os permita diferenciar cada entrada en la BBDD
id_cerv = "lbt_" + str()

Ya tenemos todos los datos que queremos de la cerveza: Agrupamos todo en una lista:

In [40]:
# Haciendolo para todas las cervezas y metiendolas en una lista
pages = np.arange(1, 81)
count = 1
lista_cervezas = []


for page in pages:
    URL = 'https://www.labirratorium.com/es/67-cervezas-por-estilo?page=' + str(page)
    r = requests.get(URL)
    soup = BeautifulSoup(r.text, "lxml")
    cervezas_grid = soup.find_all(class_ = "product-image")


    for cerv in cervezas_grid:

        URL_cerv = cerv.find("a")["href"]
        r2 = requests.get(URL_cerv)

        id_cerv = "lbt_" + str(count)

        soup_cerv = BeautifulSoup(r2.text, "lxml")

        name = soup_cerv.find(class_ = "h1 product-detail-name").text
        price = soup_cerv.find(class_ = "current-price").find("span")["content"]
        try:
            descr_short = soup_cerv.find(id = "product-description-short-284").find("p").text
        except:
            descr_short = None

        try:
            descr_long = soup_cerv.find(class_ = "product-description").find("p").text
        except:
            desc_long = None
        
        try:
            image = soup_cerv.find(id = "zoom_product")["src"]
        except:
            image = None

        try:
            brand = soup_cerv.find(class_ = "img img-thumbnail manufacturer-logo")["alt"]
        except:
            brand = None


        features_dict = {}
        features = soup_cerv.find(class_ = "data-sheet")

        try:
            features_dt = features.find_all("dt")
            features_dd = features.find_all("dd")

            for feature, value in zip(features_dt, features_dd):
                features_dict[feature.text] = value.text
        except:
            features_dict = {}

        x.append([
            ('id', id_cerv),
            ('name', name), 
            ('price', price),
            ('descr_short', descr_short),
            ('image', image),
            ('brand', brand),
            ('features', features_dict)
            ])
            
        count += 1

    print(page)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80


In [42]:
lista_cervezas

': 'Canela y Vainilla',
    'Volumen (cl)': '47,3 Cl',
    'Tipo Fermentación': 'Ale (Alta Fermentación)',
    'IBU': '0-25 Amargor bajo\n15',
    'Color': 'Negro',
    'Envase': 'Lata'})],
 [('id', 'lbt_1'),
  ('name', 'Guaja Maple Paymon'),
  ('price', '6.4'),
  ('descr_short', None),
  ('image',
   'https://www.labirratorium.com/22694-large_default/guaja-maple-paymon.jpg'),
  ('brand', 'Guaja Brewery'),
  ('features',
   {'Estilo': 'IMPERIAL STOUT',
    'Origen': 'Madrid',
    '% Alc.': '13\nMUY ALTO (+10%)',
    'Otros ingredientes': 'Sirope de Arce y Vainillas de Vainilla de Madagascar',
    'Volumen (cl)': '33 Cl',
    'Tipo Fermentación': 'Ale (Alta Fermentación)',
    'Maltas': 'Cebada y Avena',
    'IBU': '25-50 Amargor medio\n40',
    'Color': 'Negro',
    'Envase': 'Lata'})],
 [('id', 'lbt_1'),
  ('name', 'Uiltje Mind Your Step! Vanilla Marshmallow Edition'),
  ('price', '6.4'),
  ('descr_short', None),
  ('image',
   'https://www.labirratorium.com/22736-large_default/uiltje

In [47]:
df = pd.DataFrame([[x[0][1],
                    x[1][1],
                    x[2][1],
                    x[3][1],
                    x[4][1],
                    x[5][1],
                    x[6][1]] for x in lista_cervezas], columns = ["id", "name", "price", "descr_short", "image", "brand", "features"])

df.head()

Unnamed: 0,id,name,price,descr_short,image,brand,features
0,lbt_1,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon,"{'Estilo': 'KRIEK', 'Origen': 'Bélgica', '% Al..."
1,lbt_1,Störtebeker Schwarz-Bier,2.4,,https://www.labirratorium.com/488-large_defaul...,Störtebeker,"{'Estilo': 'SCHWARZBIER', 'Origen': 'Alemania'..."
2,lbt_1,Orval,2.8,,https://www.labirratorium.com/385-large_defaul...,Orval,"{'Estilo': 'BELGIAN PALE ALE', 'Origen': 'Bélg..."
3,lbt_1,Augustiner Lagerbier Hell,2.5,,https://www.labirratorium.com/367-large_defaul...,Augustiner,"{'Estilo': 'MUNICH HELLES', 'Origen': 'Alemani..."
4,lbt_1,Schneider Aventinus Weizen-Eisbock,2.7,,https://www.labirratorium.com/366-large_defaul...,Schneider,"{'Origen': 'Alemania', '% Alc.': '12', 'Volume..."


In [48]:
df.to_csv("df_labirratorium.csv", sep = ";")

In [49]:
df.head(20)

Unnamed: 0,id,name,price,descr_short,image,brand,features
0,lbt_1,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon,"{'Estilo': 'KRIEK', 'Origen': 'Bélgica', '% Al..."
1,lbt_1,Störtebeker Schwarz-Bier,2.4,,https://www.labirratorium.com/488-large_defaul...,Störtebeker,"{'Estilo': 'SCHWARZBIER', 'Origen': 'Alemania'..."
2,lbt_1,Orval,2.8,,https://www.labirratorium.com/385-large_defaul...,Orval,"{'Estilo': 'BELGIAN PALE ALE', 'Origen': 'Bélg..."
3,lbt_1,Augustiner Lagerbier Hell,2.5,,https://www.labirratorium.com/367-large_defaul...,Augustiner,"{'Estilo': 'MUNICH HELLES', 'Origen': 'Alemani..."
4,lbt_1,Schneider Aventinus Weizen-Eisbock,2.7,,https://www.labirratorium.com/366-large_defaul...,Schneider,"{'Origen': 'Alemania', '% Alc.': '12', 'Volume..."
5,lbt_1,Aecht Schlenkerla Rauchbier Weizen,2.5,,https://www.labirratorium.com/364-large_defaul...,Brauerei Heller,"{'Estilo': 'RAUCHBIER', 'Origen': 'Alemania', ..."
6,lbt_1,Samuel Adams Boston Lager,2.4,,https://www.labirratorium.com/343-large_defaul...,Samuel Adams,"{'Estilo': 'AMERICAN LAGER', 'Origen': 'EEUU',..."
7,lbt_1,Laugar EPA! Euskadiko Pale Ale,2.65,,https://www.labirratorium.com/11103-large_defa...,Laugar,"{'Estilo': 'APA (AMERICAN PALE ALE)', 'Origen'..."
8,lbt_1,Westmalle Dubbel,2.3,,https://www.labirratorium.com/102-large_defaul...,Van Westmalle,"{'Estilo': 'DUBBEL', 'Origen': 'Bélgica', '% A..."
9,lbt_1,Duchesse De Bourgogne,2.95,,https://www.labirratorium.com/12300-large_defa...,Verhaeghe,{'Estilo': 'FLANDERS RED ALE OUD BRUIN Oud Bru...


### Ya sabemos obtener todos los datos que nos interesan de una cerveza, ahora tenemos que aplicar esta lógica para obtener todas las demás 

### FBI: Top ten criminals

#### Queremos guardar las imágenes de cada fugitivo y que el nombre de cada archivo sea el nombre del fugitivo:

In [None]:
fbi_url = 'https://www.fbi.gov/wanted/topten'

cervezas_grid = soup.find_all(class_ = "product-image")
cervezas_grid = soup.find_all(class_ = "product-image")