# Beautiful Soup Tutorial



En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Extraeremos datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente.

**Beautiful Soup** es una librería **Python** que permite extraer información de contenido en formato **HTML o XML**. Para usarla, es necesario especificar un **parser**, que es responsable de transformar un documento HTML o XML en un árbol complejo de objetos Python. Esto permite, por ejemplo, que podamos interactuar con los elementos de una página web como si estuviésemos utilizando las herramientas del desarrollador de un navegador.

A la hora de extraer información de una web, uno de los parsers más utilizado es el parser HTML de **lxml**. Precisamente, será el que utilicemos en este tutorial.

**Será necesario instalar las siguientes librerías** (si no las tienes ya):

        pip install beautifulsoup4 requests pandas

        pip install lxml

In [1]:
# !pip install beautifulsoup4
# !pip install requests

###  Pasos a seguir en el proceso de 'scraping':

1. Encuentra la URL que quieres 'escrapear'.
2. Inspecciona la página (código fuente).
3. Localiza los datos que necesitas obtener.
4. Desarrolla tu código en Python.
    1. Crea tu "sopa"
    2. Busca los elementos que contienen los datos y extráelos
5. Ejecuta tu código y obtén los datos.
6. Alamacena los datos en el formato requerido.

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [3]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
# from splinter import Browser
import numpy as np

pd.set_option('max_colwidth', 800)

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [5]:
url = "https://www.thebridge.tech/bootcamps/bootcamp-data-science"
response = requests.get(url)

Cómo saber si se guardo correctamente el sitio web?

In [6]:
print(response)

<Response [200]>


Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [7]:
html = response.content

Lo podemos imprimir para ver su estructura

In [8]:
print(html)

b'<!DOCTYPE html><!-- Last Published: Tue May 16 2023 14:48:27 GMT+0000 (Coordinated Universal Time) --><html data-wf-domain="www.thebridge.tech" data-wf-page="642bcdb704ea37ae91616497" data-wf-site="60780bff57ddc42a6adc1d7e" lang="es"><head><meta charset="utf-8"/><title>Data Science | The Bridge</title><meta content="Eleva tus capacidades con el bootcamp de Data Science m\xc3\xa1s completo: formaci\xc3\xb3n inmersiva y mentorizaci\xc3\xb3n continua. The Bridge, el puente hacia tus sue\xc3\xb1os." name="description"/><meta content="Data Science FT | The Bridge" property="og:title"/><meta content="Eleva tus capacidades con el bootcamp de Data Science m\xc3\xa1s completo: formaci\xc3\xb3n inmersiva y mentorizaci\xc3\xb3n continua. The Bridge, el puente hacia tus sue\xc3\xb1os." property="og:description"/><meta content="https://uploads-ssl.webflow.com/60782404b8e195845053206a/61b356a24ba5746ddec2dd6b_iconowebDS.png" property="og:image"/><meta content="Data Science FT | The Bridge" propert

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [9]:
soup = bs(html, 'html.parser')

Ahora vamos a ver el cambio

In [10]:
print(soup)

<!DOCTYPE html>
<!-- Last Published: Tue May 16 2023 14:48:27 GMT+0000 (Coordinated Universal Time) --><html data-wf-domain="www.thebridge.tech" data-wf-page="642bcdb704ea37ae91616497" data-wf-site="60780bff57ddc42a6adc1d7e" lang="es"><head><meta charset="utf-8"/><title>Data Science | The Bridge</title><meta content="Eleva tus capacidades con el bootcamp de Data Science más completo: formación inmersiva y mentorización continua. The Bridge, el puente hacia tus sueños." name="description"/><meta content="Data Science FT | The Bridge" property="og:title"/><meta content="Eleva tus capacidades con el bootcamp de Data Science más completo: formación inmersiva y mentorización continua. The Bridge, el puente hacia tus sueños." property="og:description"/><meta content="https://uploads-ssl.webflow.com/60782404b8e195845053206a/61b356a24ba5746ddec2dd6b_iconowebDS.png" property="og:image"/><meta content="Data Science FT | The Bridge" property="twitter:title"/><meta content="Eleva tus capacidades c

## Cómo navegar por un objeto de Beautiful Soup

![image](img\html-content-web-scraping.png)

![image](img\attribute-example-for-web-scraping-1536x386.png)

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

In [33]:
soup.title

<title>Data Science | The Bridge</title>

In [34]:
soup.h1

<h1 class="heading headers-white square-element">Data Science</h1>

In [35]:
soup.h1.get_text()

'Data Science'

¿Qué sucede si solo necesita el atributo de un elemento? Tampoco hay problema:

In [36]:
soup.a['href']

'/'

También podemos..
> soup.a.get("href")

También puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [37]:
print("Sin utilizar método .find()")
print(soup.a)
print("")
print("Utilizando método .find()")
print(soup.find("a"))

Sin utilizar método .find()
<a class="brand-2 w-nav-brand" href="/"><img alt="Logo The Bridge" class="image-2" loading="lazy" src="https://uploads-ssl.webflow.com/60780bff57ddc42a6adc1d7e/607eeb4b0517b6659206c10f_thebridgelogo.svg"/></a>

Utilizando método .find()
<a class="brand-2 w-nav-brand" href="/"><img alt="Logo The Bridge" class="image-2" loading="lazy" src="https://uploads-ssl.webflow.com/60780bff57ddc42a6adc1d7e/607eeb4b0517b6659206c10f_thebridgelogo.svg"/></a>


A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [38]:
soup.find_all('a')

[<a class="brand-2 w-nav-brand" href="/"><img alt="Logo The Bridge" class="image-2" loading="lazy" src="https://uploads-ssl.webflow.com/60780bff57ddc42a6adc1d7e/607eeb4b0517b6659206c10f_thebridgelogo.svg"/></a>,
 <a class="link" href="/bootcamp/online">Bootcamps ONLINE</a>,
 <a class="link" href="/bootcamp/bootcamps-full-time">Bootcamps Full Time</a>,
 <a class="link" href="/bootcamp/bootcamps-part-time">Bootcamps part Time</a>,
 <a class="link-header link-header-hover" href="/bootcamps/bootcamp-ciberseguridad">Ciberseguridad</a>,
 <a class="link-header link-header-hover" href="/bootcamps/bootcamp-cloud-devops">Cloud &amp; DevOps</a>,
 <a aria-current="page" class="link-header link-header-hover w--current" href="/bootcamps/bootcamp-data-science">Data Science</a>,
 <a class="link-header link-header-hover" href="/bootcamps/bootcamp-fullstack-developer">Desarrollo Web Full Stack</a>,
 <a class="link-header link-header-hover" href="/bootcamps/bootcamp-marketing-digital">Marketing Digital</

Si nos fijamos podemos ver que lo que nos devuelve es una lista..

In [39]:
all_a = soup.find_all('a')
for a in all_a[:5]:
    print(a)

<a class="brand-2 w-nav-brand" href="/"><img alt="Logo The Bridge" class="image-2" loading="lazy" src="https://uploads-ssl.webflow.com/60780bff57ddc42a6adc1d7e/607eeb4b0517b6659206c10f_thebridgelogo.svg"/></a>
<a class="link" href="/bootcamp/online">Bootcamps ONLINE</a>
<a class="link" href="/bootcamp/bootcamps-full-time">Bootcamps Full Time</a>
<a class="link" href="/bootcamp/bootcamps-part-time">Bootcamps part Time</a>
<a class="link-header link-header-hover" href="/bootcamps/bootcamp-ciberseguridad">Ciberseguridad</a>


## Obtener los títulos del ¿Qué aprenderas? (find_all + get_text)

Para ello vamos a inspeccionar en el navegador (click derecho sobre un titulo de un libro y elegimos inspeccionar)

In [48]:
var_1 = soup.find("h3", class_="heading-11")

In [49]:
print(var_1)

<h3 class="heading-11">Python para Data Science</h3>


In [50]:
all_h3 = soup.find_all("h3", class_="heading-11")
for h3 in all_h3:
    print(h3.get_text(strip=True))

Python para Data Science
Data Analysis
Machine Learning Engineering
Productización y Negocio


## Obtener los nombres, imágenes y links del linkedin de los profesores (find_all + get_text)

In [62]:
profes = soup.find_all("div", class_="fs-slide-content")
for profe in profes:
    print(profe)

<div class="fs-slide-content"><img alt="" class="fs-image" loading="lazy" src="https://uploads-ssl.webflow.com/60782404b8e195845053206a/613a358c0aa9a0d0d27d11f3_miguel-angel.jpg"/><div class="fs-text">Miguel Angel Nievas</div><div class="fs-job">Lead Instructor</div><a class="fs-link w-inline-block" href="https://www.linkedin.com/in/miguelangelnievasfuertes/" target="_blank"><img alt="Icono LinkedIn" loading="lazy" src="https://uploads-ssl.webflow.com/60780bff57ddc42a6adc1d7e/6364fb56b7651575416e2738_icono-linkedin.png" width="40"/></a></div>
<div class="fs-slide-content"><img alt="" class="fs-image" loading="lazy" sizes="(max-width: 479px) 100vw, 190px" src="https://uploads-ssl.webflow.com/60782404b8e195845053206a/62d52849074c2e7609477546_Alberto_Romero.png" srcset="https://uploads-ssl.webflow.com/60782404b8e195845053206a/62d52849074c2e7609477546_Alberto_Romero-p-500.png 500w, https://uploads-ssl.webflow.com/60782404b8e195845053206a/62d52849074c2e7609477546_Alberto_Romero-p-800.png 80

In [58]:
profes = soup.find_all("div", class_="fs-text")
for profe in profes:
    print(profe)

<div class="fs-text">Miguel Angel Nievas</div>
<div class="fs-text">Alberto Romero</div>
<div class="fs-text">Alberto Becerra</div>
<div class="fs-text">José Luis Gómez</div>
<div class="fs-text">Marco Russo</div>
<div class="fs-text">Gustavo Martín</div>
<div class="fs-text">Fernando Carrasco</div>
<div class="fs-text">Carlos Sevilla</div>
<div class="fs-text">Miguel Ángel Valle</div>
<div class="fs-text">Miguel Angel Nievas</div>
<div class="fs-text">Alberto Romero</div>
<div class="fs-text">Alberto Becerra</div>
<div class="fs-text">José Luis Gómez</div>
<div class="fs-text">Marco Russo</div>
<div class="fs-text">Gustavo Martín</div>
<div class="fs-text">Fernando Carrasco</div>
<div class="fs-text">Carlos Sevilla</div>
<div class="fs-text">Miguel Ángel Valle</div>


In [64]:
profes = soup.find_all("div", class_="fs-slide-content")
for profe in profes:
    print(profe.find('img').get('src'))

https://uploads-ssl.webflow.com/60782404b8e195845053206a/613a358c0aa9a0d0d27d11f3_miguel-angel.jpg
https://uploads-ssl.webflow.com/60782404b8e195845053206a/62d52849074c2e7609477546_Alberto_Romero.png
https://uploads-ssl.webflow.com/60782404b8e195845053206a/639b3feca5ce5fd3c24d967d_Foto-alberto.png
https://uploads-ssl.webflow.com/60782404b8e195845053206a/638e1295b69ba827e3dc2635_joseramon.png
https://uploads-ssl.webflow.com/60782404b8e195845053206a/60e584a4da592ca831acd878_MARCO%20RUSSO_LI%20DS.png
https://uploads-ssl.webflow.com/60782404b8e195845053206a/624a91a92fd62063d8fbee73_IMG_20180924_094619%20(1).jpg
https://uploads-ssl.webflow.com/60782404b8e195845053206a/632037cb5478cc7416eecc5a_Fernando%20Carrasco.jpeg
https://uploads-ssl.webflow.com/60782404b8e195845053206a/63357b80e8f05d18fa0738cb_Copia%20de%20foto.jpeg
https://uploads-ssl.webflow.com/60782404b8e195845053206a/632d570b49c0b16b4a0700f9_Miguel-Angel-Valle.png
https://uploads-ssl.webflow.com/60782404b8e195845053206a/613a358c0aa

In [59]:
profes = soup.find_all("div", class_="fs-slide-content")
for profe in profes:
    print(profe.find('a').get('href'))

https://www.linkedin.com/in/miguelangelnievasfuertes/
https://www.linkedin.com/in/albertoromv/
https://www.linkedin.com/in/alberto-becerra-tome-data-science-instructor/
https://www.linkedin.com/in/jlgortega/
https://www.linkedin.com/in/marcusrb/
https://www.linkedin.com/in/gustavomartinvela/
https://www.linkedin.com/in/fernando-carrasco-847a28aa/
https://www.linkedin.com/in/carlos-sevilla-barcel%C3%B3/
https://www.linkedin.com/in/mvalleheath/
https://www.linkedin.com/in/miguelangelnievasfuertes/
https://www.linkedin.com/in/albertoromv/
https://www.linkedin.com/in/alberto-becerra-tome-data-science-instructor/
https://www.linkedin.com/in/jlgortega/
https://www.linkedin.com/in/marcusrb/
https://www.linkedin.com/in/gustavomartinvela/
https://www.linkedin.com/in/fernando-carrasco-847a28aa/
https://www.linkedin.com/in/carlos-sevilla-barcel%C3%B3/
https://www.linkedin.com/in/mvalleheath/


## Almacenar la información en un dataframe

<table align="left">
 <tr><td width="80"><img src="./img/ejercicio.png" style="width:auto;height:auto"></td>
     <td style="text-align:left">
         <h3>Ejercicio almacenar en dataframe</h3>

      
<ol>
    <li>Crea un diccionario con las keys que vamos a recoger (nombre, foto, rol y link) y listas vacías</li>
    <li>Escoge la etiqueta que vamos a buscar y recorrer. Implementa un bucle for.</li>
    <li>Captura cada dato por profesor y almacénalo en el diccionario</li>
    <li>Una vez finalizado, guarda ese diccionario con los valores recogidos en un dataframe</li>
    <li>Crea un bucle para recoger la misma información del claustro de las diferentes verticales de la escuela</li>
</ol>
         
 </td></tr>
</table>