# Beautiful Soup Tutorial

## En este notebook...

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Extraeremos datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente.

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [None]:
!pip install beautifulsoup4

Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parser, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [None]:
!pip install lxml

Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [None]:
!pip install requests

Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [None]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
from splinter import Browser
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [None]:
url = "https://www.bookdepository.com/bestsellers/es"
response = requests.get(url)

Cómo saber si se guardo correctamente el sitio web?

In [None]:
print(response)

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [None]:
html = response.content

Lo podemos imprimir para ver su estructura

In [None]:
# print(html)

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [None]:
soup = bs(html, "lxml")

Ahora vamos a ver el cambio

In [None]:
print(soup)

## Cómo navegar por un objeto de Beautiful Soup

![image](img\html-content-web-scraping.png)

![image](img\attribute-example-for-web-scraping-1536x386.png)

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [None]:
soup.title

In [None]:
soup.h1

Eliminamos las etiquetas

In [None]:
soup.h1.get_text()

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [None]:
soup.a['href']

También podemos..
> soup.a.get("href")

También puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [None]:
print("Sin utilizar método .find()")
print(soup.h1)
print("")
print("Utilizando método .find()")
print(soup.find("h1"))

A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [None]:
soup.find_all('a')

Si nos fijamos podemos ver que lo que nos devuelve es una lista..

In [None]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)

La página contiene 30 libros con información relacionada con ellos. De los datos disponibles extraeremos los siguientes:

- book titles
- formats (paperback or hardback)
- publication dates
- prices

## Suficiente información...

Manos a la obra

## Obtener los titulos de los libros (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un libro y elegimos inspeccionar)

## Obtener los formatos de los libros

Del paso anterior tenemos todos los títulos de libros de la página de los más vendidos. Pero, ¿qué sabemos acerca de sus formatos? ¿Hay más libros de tapa dura o tapa blanda?

Averigüémoslo inspeccionando el elemento de formato de libro:

Como siempre inspeccionamos y buscamos el formato..

Y como queremos saber la cantidad de cada formato lo metemos en dataframe

div.item-info p.format

## Obtener las fechas de publicación (find_all + get_text)

Al igual que antes inspeccionamos....

published

## Obtener los precios (find_all + get_text)

Inspeccionamos..

price

## Recolectar información de un libro

Primero creamos un soup en la pagína 'principal'

Guardamos en una variable la url principal

Creamos una lista con los urls de los libros

Vamos a analizar el url de un libro primero

In [None]:
# Hacemos un nuevo request para el primer libro: 


# Creamos una sopa específica con la info de cada libro


creamos un soup del primer libro

Obtenemos el titulo del libro

El rating

Cantidad de votaciones para el rating

Tipo de formato

Autor

Precio

Url de la portada

Ahora lo automatizamos para hacer un web scraping

---------------