Antes de empezar: un poco de documentación para enterder ligeramente cómo funciona HTML: https://www.w3schools.com/html/html_intro.asp

# Web Scraping: Beautiful Soup

**Beautiful Soup** es una librería **Python** que permite extraer información de contenido en formato **HTML o XML**. Para usarla, es necesario especificar un **parser**, que es responsable de transformar un documento HTML o XML en un árbol complejo de objetos Python. Esto permite, por ejemplo, que podamos interactuar con los elementos de una página web como si estuviésemos utilizando las herramientas del desarrollador de un navegador.

A la hora de extraer información de una web, uno de los parsers más utilizado es el parser HTML de **lxml**. Precisamente, será el que utilicemos en este tutorial.

**Será necesario instalar las siguientes librerías** (si no las tienes ya):

        pip3 install beautifulsoup4 requests pandas

        pip3 install beautifulsoup4 

        pip3 install requests

        pip3 install pandas 

###  Pasos a seguir en el proceso de 'scraping':

1. Encuentra la URL que quieres 'escrapear'.
2. Inspecciona la página (código fuente).
3. Localiza los datos que necesitas obtener.
4. Desarrolla tu código en Python.
    1. Crea tu sopa
    2. Busca los elementos que cotienen los datos y extráelos
5. Ejecuta tu código y obten los datos.
6. Alamacena los datos en el formato requerido.

Algunos ejemplos de Web Scraping utilizando Beautiful Soup:

https://j2logo.com/python/web-scraping-con-python-guia-inicio-beautifulsoup/

http://omz-software.com/pythonista/docs/ios/beautifulsoup_guide.html

https://towardsdatascience.com/top-5-beautiful-soup-functions-7bfe5a693482

https://www.crummy.com/software/BeautifulSoup/bs4/doc/

In [1]:
# Importamos librerías
import requests
from bs4 import BeautifulSoup
import pandas as pd
import html
import numpy as np



## Caso 1: Scraping de un catálogo: Labirratorium

In [2]:
URL = 'https://www.labirratorium.com/es/67-cervezas-por-estilo?page='

Queremos obtener un dataFrame con todas las cervezas del catálogo y sus características descritas. Analizamos la página para ver qué tenemos que hacer para conseguirlo

In [3]:
# La web tiene 80 páginas con 12 cervezas listadas en cada página.

Hacemos la consulta (request) y creamos la SOPA inicial:

In [4]:
r = requests.get(URL)
soup = BeautifulSoup(r.text, 'lxml')

In [48]:
# Guardamos lista de cervezas
cervezas_grid = soup.find_all(class_ = 'product-image')
cervezas_grid

[<div class="product-image">
 <!-- @file modules\appagebuilder\views\templates\front\products\file_tpl -->
 <ul class="product-flags">
 </ul>
 <a class="thumbnail product-thumbnail" href="https://www.labirratorium.com/es/lambic/284-boon-kriek-2013.html">
 <img alt="" class="img-fluid" data-full-size-image-url="https://www.labirratorium.com/19351-large_default/boon-kriek-2013.jpg" src="https://www.labirratorium.com/19351-home_default/boon-kriek-2013.jpg"/>
 <span class="product-additional" data-idproduct="284"></span>
 </a>
 </div>,
 <div class="product-image">
 <!-- @file modules\appagebuilder\views\templates\front\products\file_tpl -->
 <ul class="product-flags">
 </ul>
 <a class="thumbnail product-thumbnail" href="https://www.labirratorium.com/es/alemania/225-stortebeker-schwarz-bier.html">
 <img alt="Störtebeker Schwarz-Bier" class="img-fluid" data-full-size-image-url="https://www.labirratorium.com/488-large_default/stortebeker-schwarz-bier.jpg" src="https://www.labirratorium.com/48

In [6]:
# necesitamos acceder a cada una de las cervezas del grid:
lista_url = []
for cervezas in cervezas_grid:
    lista_url.append(cervezas.find('a')['href'])
lista_url

['https://www.labirratorium.com/es/lambic/284-boon-kriek-2013.html',
 'https://www.labirratorium.com/es/alemania/225-stortebeker-schwarz-bier.html',
 'https://www.labirratorium.com/es/inicio/199-orval.html',
 'https://www.labirratorium.com/es/alemania/184-augustiner-lagerbier-hell.html',
 'https://www.labirratorium.com/es/inicio/183-schneider-eisbock.html',
 'https://www.labirratorium.com/es/inicio/181-schlenkerla-rauchbier-weizen.html',
 'https://www.labirratorium.com/es/inicio/173-samuel-adams-boston-lager.html',
 'https://www.labirratorium.com/es/inicio/165-laugar-epa.html',
 'https://www.labirratorium.com/es/inicio/82-westmalle-dubbel.html',
 'https://www.labirratorium.com/es/inicio/75-duchesse-de-bourgogne.html',
 'https://www.labirratorium.com/es/inicio/61-tripel-karmeliet33.html',
 'https://www.labirratorium.com/es/inicio/21-weihenstephaner-vitus.html']

In [7]:
# Hacemos un nuevo request para la primera cerveza: 
cerveza_individual = requests.get(lista_url[0])
soup_cerveza = BeautifulSoup(cerveza_individual.text, 'lxml')

In [16]:
# Nombre
nombre = soup_cerveza.find(class_ = 'h1 product-detail-name').text
nombre

'Boon Oude Kriek 37,5cl'

In [11]:
# Precio
precio = soup_cerveza.find(class_ = 'current-price').find('span')['content']
precio

'7.15'

In [17]:
# Descripcion corta
desc_corta = soup_cerveza.find(class_ = 'description-short').find('p').text
desc_corta

'Lambic / Kriek'

In [18]:
# Descripción larga
desc_larga = soup_cerveza.find(class_ = 'product-description').find('p').text
desc_larga

'Cerveza de fermentación espontánea (Lambic) de 6.5% ABV sin filtrar ni pasteurizar de estilo Kriek, elaborada con cerezas naturales.'

In [29]:
# Imagen
imagen = soup_cerveza.find(class_ = 'js-qv-product-cover img-fluid')['src']
imagen

'https://www.labirratorium.com/19351-large_default/boon-kriek-2013.jpg'

In [30]:
 # Brand
brand = soup_cerveza.find(class_ = 'img img-thumbnail manufacturer-logo')['alt']
brand

'Brouwerij F. Boon'

In [None]:
# Código de barras


In [47]:
# Features
fetures = soup_cerveza.find(class_ = 'data-sheet')
fetures_dt = fetures.find_all('dt')
fetures_dd = fetures.find_all('dd')
features_dict = {}
for feature, value in zip(fetures_dt, fetures_dd):
    features_dict[feature.text] = value.text
features_dict

{'Estilo': 'KRIEK',
 'Origen': 'Bélgica',
 '% Alc.': '6.5\nALTO (6-9%)',
 'Otros ingredientes': 'Cerezas Naturales',
 'Volumen (cl)': '37.5 Cl',
 'Tipo Fermentación': 'Lambic (Fermentación espontánea o salvaje)',
 'Maltas': 'Cebada y Trigo',
 'IBU': '0-25 Amargor bajo',
 'Color': 'Rojiza',
 'Envase': 'Botella'}

In [None]:
# Creamos un Id único que os permita diferenciar cada entrada en la BBDD
id_cerv = 'lbt' + str()

Ya tenemos todos los datos que queremos de la cerveza: Agrupamos todo en una lista:

In [68]:
# Agregamos a una lista
pages = np.arange(1, 81)
count = 1
lista_cervezas = []
for page in pages:
    URL = 'https://www.labirratorium.com/es/67-cervezas-por-estilo?page=' +str(page)
    r = requests.get(URL)
    soup = BeautifulSoup(r.text, 'lxml')
    cervezas_grid = soup.find_all(class_ = 'product-image')
    for cervezas in cervezas_grid:
        
        print('Cerveza {} de {}, pag {}/{}'.format(count, 958, page, len(pages)))
        cerveza_individual = requests.get(cervezas.find('a')['href'])
        soup_cerveza = BeautifulSoup(cerveza_individual.text, 'lxml')
        nombre = soup_cerveza.find(class_ = 'h1 product-detail-name').text
        precio = soup_cerveza.find(class_ = 'current-price').find('span')['content']
        try:
            desc_corta = soup_cerveza.find(class_ = 'description-short').find('p').text
        except:
            desc_corta = None
        #desc_larga = soup_cerveza.find(class_ = 'product-description').find('p').text
        imagen = soup_cerveza.find(class_ = 'js-qv-product-cover img-fluid')['src']
        try:
            brand = soup_cerveza.find(class_ = 'img img-thumbnail manufacturer-logo')['alt']
        except:
            brand = None
        try:
            fetures = soup_cerveza.find(class_ = 'data-sheet')
            fetures_dt = fetures.find_all('dt')
            fetures_dd = fetures.find_all('dd')
            features_dict = {}
            for feature, value in zip(fetures_dt, fetures_dd):
                features_dict[feature.text] = value.text
        except:
            features_dict = {}
        id_cerv = 'lbt' + str(count)
        
        lista_cervezas.append([
            ('id', id_cerv),
            ('name', nombre), 
            ('price', precio),
            ('descr_short', desc_corta),
            ('image', imagen),
            ('brand', brand),
            ('features', features_dict)
            ])
        
        count += 1

4 de 958, pag 25/80
Cerveza 295 de 958, pag 25/80
Cerveza 296 de 958, pag 25/80
Cerveza 297 de 958, pag 25/80
Cerveza 298 de 958, pag 25/80
Cerveza 299 de 958, pag 25/80
Cerveza 300 de 958, pag 25/80
Cerveza 301 de 958, pag 26/80
Cerveza 302 de 958, pag 26/80
Cerveza 303 de 958, pag 26/80
Cerveza 304 de 958, pag 26/80
Cerveza 305 de 958, pag 26/80
Cerveza 306 de 958, pag 26/80
Cerveza 307 de 958, pag 26/80
Cerveza 308 de 958, pag 26/80
Cerveza 309 de 958, pag 26/80
Cerveza 310 de 958, pag 26/80
Cerveza 311 de 958, pag 26/80
Cerveza 312 de 958, pag 26/80
Cerveza 313 de 958, pag 27/80
Cerveza 314 de 958, pag 27/80
Cerveza 315 de 958, pag 27/80
Cerveza 316 de 958, pag 27/80
Cerveza 317 de 958, pag 27/80
Cerveza 318 de 958, pag 27/80
Cerveza 319 de 958, pag 27/80
Cerveza 320 de 958, pag 27/80
Cerveza 321 de 958, pag 27/80
Cerveza 322 de 958, pag 27/80
Cerveza 323 de 958, pag 27/80
Cerveza 324 de 958, pag 27/80
Cerveza 325 de 958, pag 28/80
Cerveza 326 de 958, pag 28/80
Cerveza 327 de 958, 

### Ya sabemos obtener todos los datos que nos interesan de una cerveza, ahora tenemos que aplicar esta lógica para obtener todas las demás 

In [69]:
df = pd.DataFrame([[x[0][1],x[1][1],x[2][1],x[3][1],x[4][1],x[5][1],x[6][1]] for x in lista_cervezas],
    columns = ['id',
               'name',
               'price',
               'descr_short',
               'imagen',
               'brand',
               'featurs'])
#df.to_csv('df_lairratorium.csv')
df.head()

Unnamed: 0,id,name,price,descr_short,imagen,brand,featurs
0,lbt1,"Boon Oude Kriek 37,5cl",7.15,Lambic / Kriek,https://www.labirratorium.com/19351-large_defa...,Brouwerij F. Boon,"{'Estilo': 'KRIEK', 'Origen': 'Bélgica', '% Al..."
1,lbt2,Störtebeker Schwarz-Bier,2.4,Cerveza negra de baja fermentación,https://www.labirratorium.com/488-large_defaul...,Störtebeker,"{'Estilo': 'SCHWARZBIER', 'Origen': 'Alemania'..."
2,lbt3,Orval,2.8,Belgian Pale Ale,https://www.labirratorium.com/385-large_defaul...,Orval,"{'Estilo': 'BELGIAN PALE ALE', 'Origen': 'Bélg..."
3,lbt4,Augustiner Lagerbier Hell,2.5,Lager / Helles,https://www.labirratorium.com/367-large_defaul...,Augustiner,"{'Estilo': 'MUNICH HELLES', 'Origen': 'Alemani..."
4,lbt5,Schneider Aventinus Weizen-Eisbock,2.7,"Cerveza de color medio oscuro, aromas alcohóli...",https://www.labirratorium.com/366-large_defaul...,Schneider,"{'Origen': 'Alemania', '% Alc.': '12', 'Volume..."


### FBI: Top ten criminals

#### Queremos guardar las imágenes de cada fugitivo y que el nombre de cada archivo sea el nombre del fugitivo:

In [None]:
fbi_url = 'https://www.fbi.gov/wanted/topten'



In [1]:
from selenium import webdriver

In [2]:
driver = webdriver.Chrome(executable_path='/home/jose/Descargas/chromedriver_linux64/chromedriver')

In [3]:
driver.get('https://www.fbi.gov/wanted/topten')

In [4]:
driver.current_url

'https://www.fbi.gov/wanted/topten'

In [20]:
mosaico = driver.find_element_by_id('query-results-0f737222c5054a81a120bce207b0446a')

In [29]:
fbi_top_ten = mosaico.find_elements_by_class_name('portal-type-person')

In [31]:
imagenes = []
for elemen in fbi_top_ten:
    imagenes.append(elemen.find_element_by_tag_name('img'))

In [50]:
import shutil

for pos, elemen in enumerate(imagenes):
    with open('fbi.images/' + elemen.get_attribute('alt') + '.png', 'w+') as img:
       shutil.copyfileobj(elemen, img)


ValueError: invalid mode: '+w+'

In [51]:
driver.close()

In [52]:
driver.current_url()

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=90.0.4430.212)
