### Web Scrapping con Beautiful Soup (lvl. 1)

Como científico de datos, tarde o temprano llegarás a un punto en el que tendrás que recopilar grandes cantidades de datos. Ya sea un proyecto o por pasatiempo y no siempre podremos contar con las API, pero tenemos el web scraping... ¡Y una de las mejores herramientas de web scraping es Beautiful Soup!

### ¿Pero qué es el web scraping?

En pocas palabras, el web scraping es la recopilación automatizada de datos de sitios web (para ser más precisos, del contenido HTML de los sitios web).

En este notebook, aprenderás los conceptos básicos sobre cómo extraer datos de HTML. 

In [11]:
#!pip install requests
#!pip install beautifulsoup4

In [12]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

Para obtener la experiencia completa de Beautiful Soup, también deberás instalar un parswer, dentro de ellos tenemos..

- html.parser
- lxml
- html5lib

In [13]:
#!pip install lxml
#!pip install html.parser

In [14]:
# Paso 0: Guardar la url del sitio en una variable
sitio = "https://rivaquiroga.github.io/taller-web-scraping-python-2023/ejercicio-1.html"

In [6]:
# Paso 1: Hacer una "solicitud" a la página web para traer el código fuente
respuesta = requests.get(sitio)

¿Cómo sé si se guardo correctamente el sitio web?

Posibles respuestas:

- [Respuestas informativas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#information_responses) (100–199)
- [Respuestas exitosas](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#successful_responses) (200–299)
- [Mensajes de redirección](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#redirection_messages) (300–399)
- [Respuestas de error del cliente](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#client_error_responses) (400–499)
- [Respuestas de error del servidor](https://developer.mozilla.org/en-US/docs/Web/HTTP/Status#server_error_responses) (500–599)

In [7]:
print(respuesta)

<Response [200]>


In [8]:
# Paso 2: 
contenido = respuesta.text

print(contenido)

<head>
<link href="https://fonts.googleapis.com/css2?family=Montserrat&display=swap" rel="stylesheet"> 
<link href="https://fonts.googleapis.com/css2?family=Source+Code+Pro&display=swap" rel="stylesheet">
<link rel="stylesheet" href="estilos.css">
</head>
<body>
<h1>Librerías para hacer web scraping</h1>
<p>
	Estas son algunas de las librerías más conocidas para hacer web scraping con Python:
</p>
<div>
	<h2>BeautifulSoup</h2>
	<p class="librerias">Es fácil de instalar y práctica para personas que se instán iniciando en web scraping. Con unas pocas líneas de código podemos obtener los datos que nos interesan. Solo funciona para sitios web estáticos, es decir, no sirve para páginas que cargan datos de forma dinámica con JavaScript. </p>
	<a href="https://www.crummy.com/software/BeautifulSoup/">Más info</a>
	<h2>Selenium</h2>
	<p class="librerias">Es una herramienta diseñada originalmente para automatización y testeo de aplicaciones web (por lo tanto, su foco no es extraer datos). Seleni

Este es el resultado obtenido en HTML de la página, pero es realmente difícil de leer... Pero para eso usamos *BeautifulSoup* y *html.parser*. 
Lo primero que necesitamos es crear un objeto BS, comúnmente llamado **soup**:

In [9]:
# Paso 3: crear la "sopa"

soup = BeautifulSoup(contenido, "html.parser")

print(soup)

<head>
<link href="https://fonts.googleapis.com/css2?family=Montserrat&amp;display=swap" rel="stylesheet"/>
<link href="https://fonts.googleapis.com/css2?family=Source+Code+Pro&amp;display=swap" rel="stylesheet"/>
<link href="estilos.css" rel="stylesheet"/>
</head>
<body>
<h1>Librerías para hacer web scraping</h1>
<p>
	Estas son algunas de las librerías más conocidas para hacer web scraping con Python:
</p>
<div>
<h2>BeautifulSoup</h2>
<p class="librerias">Es fácil de instalar y práctica para personas que se instán iniciando en web scraping. Con unas pocas líneas de código podemos obtener los datos que nos interesan. Solo funciona para sitios web estáticos, es decir, no sirve para páginas que cargan datos de forma dinámica con JavaScript. </p>
<a href="https://www.crummy.com/software/BeautifulSoup/">Más info</a>
<h2>Selenium</h2>
<p class="librerias">Es una herramienta diseñada originalmente para automatización y testeo de aplicaciones web (por lo tanto, su foco no es extraer datos). S

### Cómo navegar por un objeto de Beautiful Soup

HTML consta de elementos como enlaces, párrafos, encabezados, bloques, etc. Estos elementos están envueltos entre etiquetas; dentro de la etiqueta de apertura y cierre se puede encontrar el contenido del elemento.

![image](img\html-content-web-scraping.png)

Los elementos HTML también pueden tener atributos que contienen información adicional sobre el elemento. Los atributos se definen en las etiquetas de apertura con la siguiente sintaxis: 

    *nombre del atributo* = "valor del atributo"

![image](img\attribute-example-for-web-scraping-1536x386.png)

In [10]:
# Paso 4: buscar los datos que nos interesan dentro del código fuente de la página

''' La función find() nos permite encontrar el primer elemento que tenga una determinada etiqueta/clase.
Nos devuelve todo el elemento html (o sea, las etiquetas y el contenido) '''

soup.find("h1")

<h1>Librerías para hacer web scraping</h1>

In [15]:
# En lugar de usar find(), también es posible llamar a las clases con .
soup.h1

<h1>Librerías para hacer web scraping</h1>

In [8]:
# Para quedarnos solo con el texto, usamos el método get_text()
soup.find("h1").get_text()

'Librerías para hacer web scraping'

In [9]:
# Si queremos encontrar todos los elementos que tengan una determinada etiqueta/clase, usamos el método find_all(). Eso nos devuelve una lista con todos esos elementos. 
soup.find_all("h2")

[<h2>BeautifulSoup</h2>, <h2>Selenium</h2>, <h2>Scrapy</h2>]

In [10]:
# No podemos utilizar get_text() con find_all() porque ese método funciona con cada elemento de forma individual, no con una lista:
# Tenemos que aplicarlo a cada elemento de forma individual.
soup.find_all("h2")[0].get_text()

'BeautifulSoup'

In [11]:
# La opción más rápida sería iterar. Los pasos entonces, serían:

# primero, guardar en  una variable la lista con todos los elementos h2:
elementos_h2 = soup.find_all("h2")

In [13]:
# luego, iterar por los elementos de esa lista, aplicarles get_text() y guardar el texto en la lista librerías

librerias = []
for elemento in elementos_h2:
    elemento = elemento.get_text()
    librerias.append(elemento)

In [14]:
# ¡Listo!
print(librerias)

['BeautifulSoup', 'Selenium', 'Scrapy']


In [15]:
# Ahora, extraigamos las descripciones:
# Como hay varias cosas etiquetadas como "p", tenemos que especificar la clase para que nos devuelva solo las que nos interesan

elementos_p = soup.find_all("p", class_ = "librerias")

### A tener en cuenta

1. Con **soup.find_all('p')** encontramos cada elemento *párrafo* en la página web.

2. Con **class_= 'librerias'** especificamos que buscamos específicamente etiquetas p que contengan el atributo **class_= 'librerias'** 

                Nota importante: el “_”  en    class**__**=”title”  no es un error tipográfico, se requiere en Beautiful Soup cuando seleccionando atributos de clase.

In [17]:
# siempre es útil chequear con len() si la cantidad de elementos es la que esperábamos
print(len(elementos_p))
print(elementos_p)


3
[<p class="librerias">Es fácil de instalar y práctica para personas que se instán iniciando en web scraping. Con unas pocas líneas de código podemos obtener los datos que nos interesan. Solo funciona para sitios web estáticos, es decir, no sirve para páginas que cargan datos de forma dinámica con JavaScript. </p>, <p class="librerias">Es una herramienta diseñada originalmente para automatización y testeo de aplicaciones web (por lo tanto, su foco no es extraer datos). Selenium puede trabajar con páginas dinámicas que usan JavaScript y es más fácil de aprender que Scrapy. Es útil para proyectos pequeños en que la velocidad no sea una prioridad. A veces la instalación no es tan fácil. 
	</p>, <p class="librerias">Es un framework creado para hacer web scraping. Es rápido y completo, pero es más difícil de aprender.</p>]


In [18]:
# Y ahora iteramos. En este caso agregamos "strip = True" a get_text(). 
'''Con esta opción podemos eliminar espacios antes y después del texto que nos interesa.'''

descripciones = []
for elemento in elementos_p:
    elemento = elemento.get_text(strip = True)
    descripciones.append(elemento)

print(descripciones)

['Es fácil de instalar y práctica para personas que se instán iniciando en web scraping. Con unas pocas líneas de código podemos obtener los datos que nos interesan. Solo funciona para sitios web estáticos, es decir, no sirve para páginas que cargan datos de forma dinámica con JavaScript.', 'Es una herramienta diseñada originalmente para automatización y testeo de aplicaciones web (por lo tanto, su foco no es extraer datos). Selenium puede trabajar con páginas dinámicas que usan JavaScript y es más fácil de aprender que Scrapy. Es útil para proyectos pequeños en que la velocidad no sea una prioridad. A veces la instalación no es tan fácil.', 'Es un framework creado para hacer web scraping. Es rápido y completo, pero es más difícil de aprender.']


In [19]:
# Finalmente, extraemos los enlaces.
# En este caso no nos sirve get_text(), porque nos devuelve el texto al que está asociado el enlace, no el enlace propiamente tal
soup.find("a").get_text()

'Más info'

In [20]:
# Para obtener el enlace usamos get() e indicamos que queremos el "href". Esto es igual para todos los sitios web.
soup.find("a").get("href")

'https://www.crummy.com/software/BeautifulSoup/'

In [21]:
# Ahora, repetimos el proceso: guardamos todo en una lista y luego iteramos para guardar solo los enlaces en una lista nueva.

elementos_a = soup.find_all("a")
len(elementos_a)

3

In [22]:
enlaces = []
for elemento in elementos_a:
    elemento = elemento.get("href")
    enlaces.append(elemento)

print(enlaces)

['https://www.crummy.com/software/BeautifulSoup/', 'https://www.selenium.dev/', 'https://scrapy.org/']


In [23]:
# Guardar todo en un data frame

web_scraping = {"libreria": librerias, "descripcion": descripciones, "enlace": enlaces}
print(web_scraping)

{'libreria': ['BeautifulSoup', 'Selenium', 'Scrapy'], 'descripcion': ['Es fácil de instalar y práctica para personas que se instán iniciando en web scraping. Con unas pocas líneas de código podemos obtener los datos que nos interesan. Solo funciona para sitios web estáticos, es decir, no sirve para páginas que cargan datos de forma dinámica con JavaScript.', 'Es una herramienta diseñada originalmente para automatización y testeo de aplicaciones web (por lo tanto, su foco no es extraer datos). Selenium puede trabajar con páginas dinámicas que usan JavaScript y es más fácil de aprender que Scrapy. Es útil para proyectos pequeños en que la velocidad no sea una prioridad. A veces la instalación no es tan fácil.', 'Es un framework creado para hacer web scraping. Es rápido y completo, pero es más difícil de aprender.'], 'enlace': ['https://www.crummy.com/software/BeautifulSoup/', 'https://www.selenium.dev/', 'https://scrapy.org/']}


In [25]:
df_librerias = pd.DataFrame(web_scraping)
df_librerias

Unnamed: 0,libreria,descripcion,enlace
0,BeautifulSoup,Es fácil de instalar y práctica para personas ...,https://www.crummy.com/software/BeautifulSoup/
1,Selenium,Es una herramienta diseñada originalmente para...,https://www.selenium.dev/
2,Scrapy,Es un framework creado para hacer web scraping...,https://scrapy.org/


In [26]:
df_librerias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   libreria     3 non-null      object
 1   descripcion  3 non-null      object
 2   enlace       3 non-null      object
dtypes: object(3)
memory usage: 204.0+ bytes


In [None]:
# guardar el data frame

df_librerias.to_csv("datos-extraidos/librerias-web-scraping.csv", index=False)
