# Beautiful Soup Tutorial

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tranquilo tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

## ¿Pero.... qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este Jupyter, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

Lo harás extrayendo datos de la página de libros más vendidos de Book Depository, y para lograr esto, también tendrá que hacer uso de un poco de pandas principalmente..

### Conoce a tus nuevos mejores amigos: 

- Beautiful Soup
- Requests

In [15]:
!pip install beautifulsoup4



Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parswer, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib


Vamos a utilizar el lxml ya que es el mas rápido 

In [16]:
!pip install lxml



Se necesita una cosa más para que podamos comenzar a hacer web scraping, y es la biblioteca de ```requests```. Con ```requests``` podemos solicitar páginas web de sitios web.

In [17]:
!pip install requests



Ahora asi manos a la obra..

## Mi primer scraping

Como siempre lo primero es importar las librerías 

In [18]:
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
import numpy as np

Ahora, estamos listos para solicitar nuestra primera página web. No es nada complicado: guardamos la URL que queremos raspar en la variable URL, luego solicitamos la URL (requests.get (url)) y guardamos la respuesta en la variable de respuesta:

In [19]:
url = "https://lanzadera.es/proyectos/"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'
}
response = requests.get(url, headers=headers)

Cómo saber si se guardo correctamente el sitio web?

In [20]:
print(response)

<Response [200]>


Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

Pero necesitamos el contenido HTML de la página web solicitada, así que como siguiente paso guardamos el contenido de la respuesta a html:

In [21]:
html = response.content

Lo podemos imprimir para ver su estructura

In [22]:
# print(html)
# Descomenta la celda de arriba por si quieres leer el antiguo tesmamento

Este es el resultado obtenido en HTML de la página de los libros más vendidos, pero es realmente difícil de leer...

Pero para eso usamos BeautifulSoup y lxml

Cómo lo hacemos?..

Creamos un objeto BeautifulSoup llamado soup con la siguiente línea de código:

In [23]:
soup = bs(html, "lxml")


> from bs4 import BeautifulSoup as bs

El primer parámetro del método bs() es html (que fue la variable en la que guardamos ese contenido HTML difícil de leer de la URL de los libros más vendidos)

El segundo parámetro ('lxml'), es el parser que se usa en html 

In [24]:
html



Ahora vamos a ver el cambio

In [25]:
soup

<!DOCTYPE html>
<html lang="es"><head><meta charset="utf-8"/><script>if(navigator.userAgent.match(/MSIE|Internet Explorer/i)||navigator.userAgent.match(/Trident\/7\..*?rv:11/i)){var href=document.location.href;if(!href.match(/[?&]nowprocket/)){if(href.indexOf("?")==-1){if(href.indexOf("#")==-1){document.location.href=href+"?nowprocket=1"}else{document.location.href=href.replace("#","?nowprocket=1#")}}else{if(href.indexOf("#")==-1){document.location.href=href+"&nowprocket=1"}else{document.location.href=href.replace("#","&nowprocket=1#")}}}}</script><script>class RocketLazyLoadScripts{constructor(){this.v="1.2.3",this.triggerEvents=["keydown","mousedown","mousemove","touchmove","touchstart","touchend","wheel"],this.userEventHandler=this._triggerListener.bind(this),this.touchStartHandler=this._onTouchStart.bind(this),this.touchMoveHandler=this._onTouchMove.bind(this),this.touchEndHandler=this._onTouchEnd.bind(this),this.clickHandler=this._onClick.bind(this),this.interceptedClicks=[],windo

## Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: nombre del atributo = "valor del atributo".

Ahora que hemos aprendido algo de HTML básico, finalmente podemos comenzar a extraer datos de soup. Simplemente escriba un nombre de etiqueta después de soup y un punto (como soup.title), y observe cómo se desarrolla la magia:

Estructura de html

``<!DOCTYPE html>``: Define el tipo de documento y la versión de HTML utilizada.

``<html>``: Elemento raíz que engloba todo el contenido de la página.

``<head>``: Contiene meta información sobre el documento, como el título de la página (que aparece en la pestaña del navegador).

``<title>``: Define el título de la página que se muestra en la barra de título del navegador.

``<body>``: Contiene el contenido visible de la página, como encabezados (``<h1>``), párrafos (``<p>``), enlaces (``<a>``), imágenes (``<img>``), etc.

Elementos HTML

Etiquetas, Atributos y Valores:

Etiquetas: Son palabras clave envueltas en corchetes angulares (< >) que representan elementos HTML. Por ejemplo, ``<div>``, ``<p>``, ``<h1>``, ``<a>``.
Atributos: Proporcionan información adicional sobre un elemento y se encuentran dentro de la etiqueta de apertura. Por ejemplo, en ``<a href="https://www.ejemplo.com">``, href es un atributo que especifica la URL a la que el enlace apunta.
Valores: Los atributos pueden tener valores asociados. En el ejemplo anterior, el valor del atributo href es "https://www.ejemplo.com".
Ejemplos de Etiquetas Comunes:

``<div>``: Define una división o sección en el documento.

``<p>``: Representa un párrafo de texto.

``<h1>, <h2>, <h3>, <h4>, <h5>, <h6>``: Encabezados de diferentes niveles, siendo ``<h1>`` el más alto y ``<h6>`` el más bajo.

``<a>``: Crea un enlace a otra página.

``<img>``: Inserta una imagen en la página.

``<div class="mi-clase">Contenido con clase</div>``

``<div id="mi-id">Contenido con ID</div>``

In [26]:
soup.title

<title>Proyectos en Lanzadera - Lanzadera Apoyo a Emprendedores</title>

Y sí queremos solo el texto?..

In [27]:
soup.title.string

'Proyectos en Lanzadera - Lanzadera Apoyo a Emprendedores'

In [28]:
soup.title.get_text()

'Proyectos en Lanzadera - Lanzadera Apoyo a Emprendedores'

Si quisieramos el atributo dentro de la etiqueta

In [29]:
soup.link.attrs

{'rel': ['preload'],
 'href': 'https://lanzadera.es/wp-content/plugins/elementor/assets/lib/font-awesome/fonts/fontawesome-webfont.woff2?v=4.7.0',
 'as': 'font',
 'crossorigin': 'anonymous'}

In [30]:
soup.link['href']

'https://lanzadera.es/wp-content/plugins/elementor/assets/lib/font-awesome/fonts/fontawesome-webfont.woff2?v=4.7.0'

También podemos..
> soup.a.get("href")

In [31]:
soup.link.get("href")

'https://lanzadera.es/wp-content/plugins/elementor/assets/lib/font-awesome/fonts/fontawesome-webfont.woff2?v=4.7.0'

La sintaxis de soup.```cualquier_etiqueta``` devuelve solo el primer elemento con ese nombre de etiqueta. En lugar de soup.```cualquier_etiqueta```, también puedes usar el método .find() y obtendrás exactamente el mismo resultado:

In [32]:
print("Sin utilizar .find()")
print(soup.link['href'])
print("Utilizando .find()")
print(soup.find("link")['href'])

Sin utilizar .find()
https://lanzadera.es/wp-content/plugins/elementor/assets/lib/font-awesome/fonts/fontawesome-webfont.woff2?v=4.7.0
Utilizando .find()
https://lanzadera.es/wp-content/plugins/elementor/assets/lib/font-awesome/fonts/fontawesome-webfont.woff2?v=4.7.0


A menudo, no solo necesitas uno, sino todos los elementos (por ejemplo, cada enlace en una página). Para eso es bueno el método .find_all():

In [33]:
soup.find_all('a')

[<a class="jupiterx-a11y jupiterx-a11y-skip-navigation-link" href="#jupiterx-main">Skip to content</a>,
 <a href="https://lanzadera.es">
 <img alt="" class="attachment-large size-large wp-image-9001" data-lazy-src="https://lanzadera.es/wp-content/uploads/2017/10/logo-lanzadera-ok.png" height="31" src="data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%20246%2031'%3E%3C/svg%3E" width="246"/><noscript><img alt="" class="attachment-large size-large wp-image-9001" height="31" src="https://lanzadera.es/wp-content/uploads/2017/10/logo-lanzadera-ok.png" width="246"/></noscript> </a>,
 <a class="elementor-item elementor-item-anchor" href="#">Sobre Lanzadera</a>,
 <a class="elementor-sub-item" href="https://lanzadera.es/equipo-lanzadera/">Mentores</a>,
 <a class="elementor-sub-item" href="https://lanzadera.es/juan-roig/">Juan Roig</a>,
 <a class="elementor-sub-item" href="https://lanzadera.es/innovacion-abierta/">Innovación abierta</a>,
 <a class="elementor-sub-item

Si nos fijamos podemos ver que lo que nos devuelve es una lista..

Qué podemos hacer con una lista?..

In [34]:
all_links = soup.find_all('a')
for a in all_links:
    print(a['href'])

#jupiterx-main
https://lanzadera.es
#
https://lanzadera.es/equipo-lanzadera/
https://lanzadera.es/juan-roig/
https://lanzadera.es/innovacion-abierta/
https://lanzadera.es/marina-de-empresas/
https://lanzadera.es/inversion/
https://lanzadera.es/trabajar-en-startups-lanzadera/
https://lanzadera.es/proyectos/
https://lanzadera.es/blog/
https://lanzadera.es/programa/
https://lanzadera.es/inscripcion/
#
https://lanzadera.es/equipo-lanzadera/
https://lanzadera.es/juan-roig/
https://lanzadera.es/innovacion-abierta/
https://lanzadera.es/marina-de-empresas/
https://lanzadera.es/inversion/
https://lanzadera.es/trabajar-en-startups-lanzadera/
https://lanzadera.es/proyectos/
https://lanzadera.es/blog/
https://lanzadera.es/programa/
https://lanzadera.es/inscripcion/
https://lanzadera.es/proyecto/internxt/
https://lanzadera.es/proyecto/hipoo/
https://lanzadera.es/proyecto/gana-energia/
https://lanzadera.es/proyecto/growpro-experience/
https://lanzadera.es/proyecto/libeen/
https://lanzadera.es/proyec

Ok.. Pero como extraigo la data con BeautifilSoup?..

Mientras trabajamos con BeautifulSoup, el flujo general de extracción de datos será un enfoque de dos pasos:

* Inspeccionar en el navegador los elementos HTML que queremos extraer 
* Luego encontrar los elementos HTML con BeautifulSoup.

## Select

In [35]:
soup.select('div .elementor-widget-container p')[1].get_text()

'¿Buscas una startup en concreto?'

In [36]:
soup.select("div.elementor-element.elementor-element-2d13401.elementor-widget.elementor-widget-text-editor p")[0].string

'¿Buscas una startup en concreto?'

In [37]:
soup.select('div.elementor-element.elementor-element-604a9eb.elementor-widget.elementor-widget-text-editor')

[<div class="elementor-element elementor-element-604a9eb elementor-widget elementor-widget-text-editor" data-element_type="widget" data-id="604a9eb" data-widget_type="text-editor.default">
 <div class="elementor-widget-container">
 <p>¿Conoces a…?</p> </div>
 </div>]

## Suficiente información...

Manos a la obra

## Obtener los titulos (find_all + get_text)

Para ello vamos a inspeccionar en el navegador

In [38]:
proyectos = soup.select('section .projects-grid article')
titulos = []
for proyecto in proyectos:
    titulo = proyecto['data-name']
    titulos.append([titulo])
titulos

[['noirshop'],
 ['framearq'],
 ["flappin'"],
 ['kiwit investment '],
 ['boo travels'],
 ['smartur'],
 [''],
 ['eatsygo'],
 ['paymefy'],
 ['supernieto'],
 [''],
 ['yendoplan'],
 ['etrivium'],
 ['eotec'],
 ['viver'],
 ['kubik'],
 ['elevatorfy'],
 ['soyguiri'],
 [''],
 ['brand new verse'],
 [''],
 ['filmaker hub'],
 ['clinics developer'],
 ['voicit'],
 ['clous'],
 ['mamba'],
 ['eaship'],
 ['fazul neobank'],
 ['tronando'],
 ['antara'],
 ['propers'],
 ['dasana'],
 ['manax'],
 ['larnii'],
 [''],
 ['the wow patio'],
 ['terrormakers'],
 ['housiders'],
 ['indie'],
 ['aimanager'],
 ['advisorsy'],
 ['my food plan'],
 ['neuroads'],
 ['qualitime'],
 ['modelium'],
 ['domotik'],
 ['bioferric'],
 ['switch'],
 ['inteligencia farmacéutica'],
 ['revel sport'],
 [''],
 ['chatfy'],
 ['snowfy'],
 ['activacar'],
 ['university of sales'],
 ['ditto'],
 ['the printable company '],
 ['jopeful'],
 ['swipet'],
 ['bettermaps'],
 ['nidus '],
 ['dencanto community'],
 ['feending'],
 ['coolx'],
 ['domoblock'],
 ['link

## Obtener los enlaces

Del paso anterior tenemos todos los títulos.

Vamos a completar informacion obteniendo los enlaces a sus respectivos proyectos

Como siempre inspeccionamos y buscamos

In [39]:
links = []
for proyecto in proyectos:
    link = proyecto.select_one('.projects-grid__more-link')['href']
    links.append([link])
links

[['https://lanzadera.es/proyecto/noirshop/'],
 ['https://lanzadera.es/proyecto/framearq/'],
 ['https://lanzadera.es/proyecto/flappin/'],
 ['https://lanzadera.es/proyecto/kiwit-investment/'],
 ['https://lanzadera.es/proyecto/boo-travels/'],
 ['https://lanzadera.es/proyecto/smartur/'],
 ['https://lanzadera.es/proyecto/xhockware/'],
 ['https://lanzadera.es/proyecto/eatsygo/'],
 ['https://lanzadera.es/proyecto/paymefy/'],
 ['https://lanzadera.es/proyecto/supernieto/'],
 ['https://lanzadera.es/proyecto/remolonas-foods/'],
 ['https://lanzadera.es/proyecto/yendoplan/'],
 ['https://lanzadera.es/proyecto/etrivium/'],
 ['https://lanzadera.es/proyecto/eotec/'],
 ['https://lanzadera.es/proyecto/51551/'],
 ['https://lanzadera.es/proyecto/kubic/'],
 ['https://lanzadera.es/proyecto/elevatorfy/'],
 ['https://lanzadera.es/proyecto/soyguiri/'],
 ['https://lanzadera.es/proyecto/kiwit/'],
 ['https://lanzadera.es/proyecto/brand-new-verse/'],
 ['https://lanzadera.es/proyecto/suited/'],
 ['https://lanzadera.

In [45]:
datos = {'titulo':titulos,'links':links}
df = pd.DataFrame(datos)

In [46]:
df

Unnamed: 0,titulo,links
0,[noirshop],[https://lanzadera.es/proyecto/noirshop/]
1,[framearq],[https://lanzadera.es/proyecto/framearq/]
2,[flappin'],[https://lanzadera.es/proyecto/flappin/]
3,[kiwit investment ],[https://lanzadera.es/proyecto/kiwit-investment/]
4,[boo travels],[https://lanzadera.es/proyecto/boo-travels/]
...,...,...
833,[escuela de ciencia],[https://lanzadera.es/proyecto/escuela-de-cien...
834,[ekuore],[https://lanzadera.es/proyecto/ekuore/]
835,[dental doctors],[https://lanzadera.es/proyecto/dental-doctors/]
836,[codigames],[https://lanzadera.es/proyecto/codigames/]
