Antes de empezar: un poco de documentación para enterder ligeramente cómo funciona HTML: https://www.w3schools.com/html/html_intro.asp

# Web Scraping: Beautiful Soup

**Beautiful Soup** es una librería **Python** que permite extraer información de contenido en formato **HTML o XML**. Para usarla, es necesario especificar un **parser**, que es responsable de transformar un documento HTML o XML en un árbol complejo de objetos Python. Esto permite, por ejemplo, que podamos interactuar con los elementos de una página web como si estuviésemos utilizando las herramientas del desarrollador de un navegador.

A la hora de extraer información de una web, uno de los parsers más utilizado es el parser HTML de **lxml**. Precisamente, será el que utilicemos en este tutorial.

**Será necesario instalar las siguientes librerías** (si no las tienes ya):

        pip3 install beautifulsoup4 requests pandas

        pip3 install beautifulsoup4 

        pip3 install requests

        pip3 install pandas 

###  Pasos a seguir en el proceso de 'scraping':

1. Encuentra la URL que quieres 'escrapear'.
2. Inspecciona la página (código fuente).
3. Localiza los datos que necesitas obtener.
4. Desarrolla tu código en Python.
    1. Crea tu sopa
    2. Busca los elementos que cotienen los datos y extráelos
5. Ejecuta tu código y obten los datos.
6. Alamacena los datos en el formato requerido.

Algunos ejemplos de Web Scraping utilizando Beautiful Soup:

https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/

http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html

https://towardsdatascience.com/top-5-beautiful-soup-functions-7bfe5a693482

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [8]:
# mirar video de clase para sacar la página de w3school

In [1]:
# Importamos librerías
import requests
from bs4 import BeautifulSoup
import pandas as pd
import html
import numpy as np
import lxml

## Caso 1: Scraping de un catálogo: Labirratorium

In [10]:
URL = 'https://www.labirratorium.com/es/67-cervezas-por-estilo?page='

Queremos obtener un dataFrame con todas las cervezas del catálogo y sus características descritas. Analizamos la página para ver qué tenemos que hacer para conseguirlo

In [11]:
# La web tiene 80 páginas con 12 cervezas listadas en cada página. 958 cervezas en total.

Hacemos la consulta (request) y creamos la SOPA inicial:

In [12]:
r = requests.get(URL) #Nos estamos conectando a la página
soup = BeautifulSoup(r.text, "lxml") #parseamos


In [13]:
type(soup)

bs4.BeautifulSoup

In [2]:
#obtengo todo el código de la web
#
# soup

In [15]:
# Guardamos lista de cervezas. 

# find_all es un metodo de la libreria soup que me permite coger todos los productos que tengan la misma clase, entonces vamos a traer todos los product-image que hay, no solo el de una cerveza
cervezas_grid = soup.find_all(class_="product-image") # pero no puedo utilizar class porque es un palabra reservada en python
len(cervezas_grid)

12

In [16]:
# necesitamos acceder a cada una de las cervezas del grid:
lista_URL = []
for cerveza in cervezas_grid:
    URL_cerveza = cerveza.find("a")["href"] #solo quiero acceder al href, entonces accedo a esa parte solo como si fuera una lista
    lista_URL.append(URL_cerveza)

lista_URL

['https://www.labirratorium.com/es/lambic/284-boon-kriek-2013.html',
 'https://www.labirratorium.com/es/alemania/225-stortebeker-schwarz-bier.html',
 'https://www.labirratorium.com/es/inicio/199-orval.html',
 'https://www.labirratorium.com/es/alemania/184-augustiner-lagerbier-hell.html',
 'https://www.labirratorium.com/es/inicio/183-schneider-eisbock.html',
 'https://www.labirratorium.com/es/inicio/181-schlenkerla-rauchbier-weizen.html',
 'https://www.labirratorium.com/es/inicio/173-samuel-adams-boston-lager.html',
 'https://www.labirratorium.com/es/inicio/165-laugar-epa.html',
 'https://www.labirratorium.com/es/inicio/82-westmalle-dubbel.html',
 'https://www.labirratorium.com/es/inicio/75-duchesse-de-bourgogne.html',
 'https://www.labirratorium.com/es/inicio/61-tripel-karmeliet33.html',
 'https://www.labirratorium.com/es/inicio/21-weihenstephaner-vitus.html']

In [17]:
# Hacemos un nuevo request para la primera cerveza: 
r = requests.get(lista_URL[0])
soup_cerveza = BeautifulSoup(r.text, "lxml")    #lxml es el parse, es traducir el html a algo más simple

In [None]:
# Nombre
nombre = soup_cerveza.find(class_= "h1 product-detail-name").text   #.text para que solo me saque el texto y no el espacio en blanco
nombre

In [71]:
# Precio
precio = soup_cerveza.find(class_= "current-price").find("span")["content"] #el precio estan dentro de span, y de ahi solo quiero el content para no tener simbolos raros
precio

'7.15'

In [72]:
# Descripcion corta
descrip_corta = soup_cerveza.find(class_= "description-short").find("p").text
descrip_corta

'Lambic / Kriek'

In [73]:
# Descripción larga
descrip_larga = soup_cerveza.find(class_= "product-description").find("p").text
descrip_larga

'Cerveza de fermentación espontánea (Lambic) de 6.5% ABV sin filtrar ni pasteurizar de estilo Kriek, elaborada con cerezas naturales.'

In [74]:
# Imagen
imagen = soup_cerveza.find(class_= "js-qv-product-cover img-fluid")["src"]
imagen

'https://www.labirratorium.com/19351-large_default/boon-kriek-2013.jpg'

In [75]:
 # Brand
marca = soup_cerveza.find(class_='img img-thumbnail manufacturer-logo')["alt"]
marca

'Brouwerij F. Boon'

In [76]:
# Código de barras


In [77]:
# Features
# en la pagina web la tabla tiene forma de diccionario, la clave es dt y el valor dd
features = soup_cerveza.find(class_="data-sheet")
features

<dl class="data-sheet">
<dt class="name">Estilo</dt>
<dd class="value">KRIEK</dd>
<dt class="name">Origen</dt>
<dd class="value">Bélgica</dd>
<dt class="name">% Alc.</dt>
<dd class="value">6.5<br/>
ALTO (6-9%)</dd>
<dt class="name">Otros ingredientes</dt>
<dd class="value">Cerezas Naturales</dd>
<dt class="name">Volumen (cl)</dt>
<dd class="value">37.5 Cl</dd>
<dt class="name">Tipo Fermentación</dt>
<dd class="value">Lambic (Fermentación espontánea o salvaje)</dd>
<dt class="name">Maltas</dt>
<dd class="value">Cebada y Trigo</dd>
<dt class="name">IBU</dt>
<dd class="value">0-25 Amargor bajo</dd>
<dt class="name">Color</dt>
<dd class="value">Rojiza</dd>
<dt class="name">Envase</dt>
<dd class="value">Botella</dd>
</dl>

In [78]:
features_dt = features.find_all("dt")
features_dd = features.find_all("dd")
feature_dict = {}
for feature, value in zip(features_dt, features_dd):
    feature_dict[feature.text] = value.text

feature_dict

{'Estilo': 'KRIEK',
 'Origen': 'Bélgica',
 '% Alc.': '6.5\nALTO (6-9%)',
 'Otros ingredientes': 'Cerezas Naturales',
 'Volumen (cl)': '37.5 Cl',
 'Tipo Fermentación': 'Lambic (Fermentación espontánea o salvaje)',
 'Maltas': 'Cebada y Trigo',
 'IBU': '0-25 Amargor bajo',
 'Color': 'Rojiza',
 'Envase': 'Botella'}

In [79]:
# Creamos un Id único que os permita diferenciar cada entrada en la BBDD
id_cerv = "lbt_" + str()

Ya tenemos todos los datos que queremos de la cerveza: Agrupamos todo en una lista:

In [80]:
# Agregamos a una lista


### Ya sabemos obtener todos los datos que nos interesan de una cerveza, ahora tenemos que aplicar esta lógica para obtener todas las demás 

In [20]:
pages = np.arange(1,81)
count = 1   # Cuenta todas las cervezas, 958
lista_cervezas = []


for page in pages:
    
    count_beer = 1 #solo es un print de seguimiento. count de las paginas
    URL = "https://www.labirratorium.com/es/67-cervezas-por-estilo?page=" + str()
    r = requests.get(URL)
    soup = BeautifulSoup(r.text, "lxml")
    cervezas_grid = soup.find_all(class_= "product-image")


    for cerveza in cervezas_grid:

        print('Cerveza {} de {}, pag {}/{}'.format(
            count_beer, len(cervezas_grid), page, len(pages)))

        URL_cerveza = cerveza.find("a")["href"]
        r = requests.get(URL_cerveza)


        id_cerv = "lbt_" + str(count)

        name = soup_cerveza.find(class_ = "h1 product-detail-name").text

        precio = soup_cerveza.find(class_= "current-price").find("span")["content"]

        imagen = soup_cerveza.find(class_= "js-qv-product-cover img-fluid")["src"]

        try:

            descrip_corta = soup_cerveza.find(class_= "description-short").find("p").text
            descrip_larga = soup_cerveza.find(class_= "product-description").find("p").text
        except:
            descrip_corta = None
            descrip_larga = None

        try:

            marca = soup_cerveza.find(class_='img img-thumbnail manufacturer-logo')["alt"]
        except:
            marca = None

        feature_dict = {}
        features = soup_cerveza.find(class_="data-sheet")

        try:
            features_dt = features.find_all("dt")
            features_dd = features.find_all("dd")
            for feature, value in zip(features_dt, features_dd):
                feature_dict[feature.text] = value.text
        except:
            feature_dict={}

        lista_cervezas.append([
        ('id', id_cerv),
        ('name', name), 
        ('precio', precio),
        ('descrip_corta', descrip_corta),
        ('descrip_larga', descrip_larga),
        ("imagen", imagen),
        ('marca', marca),
        ('features', feature_dict)
        ]) 

        count +=1
        count_beer +=1

Cerveza 1 de 12, pag 1/80
Cerveza 2 de 12, pag 1/80
Cerveza 3 de 12, pag 1/80
Cerveza 4 de 12, pag 1/80
Cerveza 5 de 12, pag 1/80
Cerveza 6 de 12, pag 1/80
Cerveza 7 de 12, pag 1/80
Cerveza 8 de 12, pag 1/80
Cerveza 9 de 12, pag 1/80
Cerveza 10 de 12, pag 1/80
Cerveza 11 de 12, pag 1/80
Cerveza 12 de 12, pag 1/80
Cerveza 1 de 12, pag 2/80
Cerveza 2 de 12, pag 2/80
Cerveza 3 de 12, pag 2/80
Cerveza 4 de 12, pag 2/80
Cerveza 5 de 12, pag 2/80
Cerveza 6 de 12, pag 2/80
Cerveza 7 de 12, pag 2/80
Cerveza 8 de 12, pag 2/80
Cerveza 9 de 12, pag 2/80
Cerveza 10 de 12, pag 2/80
Cerveza 11 de 12, pag 2/80
Cerveza 12 de 12, pag 2/80
Cerveza 1 de 12, pag 3/80
Cerveza 2 de 12, pag 3/80
Cerveza 3 de 12, pag 3/80
Cerveza 4 de 12, pag 3/80
Cerveza 5 de 12, pag 3/80
Cerveza 6 de 12, pag 3/80
Cerveza 7 de 12, pag 3/80
Cerveza 8 de 12, pag 3/80
Cerveza 9 de 12, pag 3/80
Cerveza 10 de 12, pag 3/80
Cerveza 11 de 12, pag 3/80
Cerveza 12 de 12, pag 3/80
Cerveza 1 de 12, pag 4/80
Cerveza 2 de 12, pag 4/80
Cer

In [24]:
df = pd.DataFrame([[x[0][1],
                    x[1][1],
                    x[2][1],
                    x[3][1],
                    x[4][1],
                    x[5][1],
                    x[6][1]] for x in lista_cervezas],
                    columns = ["id", "name", "price", "descrip_corta", "imagen", "marca", "features"])

df.to_csv("df_labirra.csv", sep=";")
df

Unnamed: 0,id,name,price,descrip_corta,imagen,marca,features
0,lbt_1,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
1,lbt_2,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
2,lbt_3,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
3,lbt_4,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
4,lbt_5,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
...,...,...,...,...,...,...,...
955,lbt_956,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
956,lbt_957,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
957,lbt_958,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon
958,lbt_959,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,Cerveza de fermentación espontánea (Lambic) de...,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon


### FBI: Top ten criminals

#### Queremos guardar las imágenes de cada fugitivo y que el nombre de cada archivo sea el nombre del fugitivo:

In [None]:
fbi_url = 'https://www.fbi.gov/wanted/topten'

