# Tutorial de Web Scraping con BeautifulSoup


Este tutorial tiene como objetivo enseñar los fundamentos de web scraping utilizando la biblioteca BeautifulSoup en Python. Aprenderemos a extraer datos de páginas web analizando el HTML y seleccionando los elementos específicos que necesitamos.


## ¿Qué es BeautifulSoup?

BeautifulSoup es una biblioteca de Python que facilita la tarea de realizar web scraping, es decir, extraer información de páginas web. Permite analizar documentos HTML y XML y extraer los datos que necesitamos de una manera fácil y rápida.


## Instalación de BeautifulSoup

Para utilizar BeautifulSoup, primero debemos instalarlo. Esto se puede hacer mediante pip, el gestor de paquetes de Python. Además, necesitaremos la biblioteca `requests` para realizar peticiones HTTP. Ejecute el siguiente comando en su terminal para instalar ambas bibliotecas:



In [None]:
%pip install beautifulsoup4 requests

Importamos las bibliotecas en el encabezado

In [None]:

from bs4 import BeautifulSoup
import requests


## Haciendo una petición a la web

Para extraer datos de una página web, primero necesitamos obtener el contenido HTML de la página. Utilizamos la biblioteca `requests` para hacer una petición HTTP y obtener este contenido.


In [None]:
url = "https://bleach.fandom.com/es/wiki/"
respuesta = requests.get(url)
contenido_html = respuesta.text
#print(contenido_html)


`respuesta.text` obtiene el contenido de la respuesta (en este caso, el código HTML de la página web) como un string (cadena de texto). Este contenido es lo que BeautifulSoup analizará para extraer datos.

## Parsear el contenido HTML con BeautifulSoup

Una vez que tenemos el contenido HTML, podemos usar BeautifulSoup para analizar y estructurar este contenido, lo que facilita la extracción de información. De hecho, Parsear significa analizar y convertir una cadena de datos (en este caso, el código HTML de una página web) en una estructura de datos que el programa puede manejar y entender fácilmente.


In [None]:
soup = BeautifulSoup(contenido_html, 'html.parser')
#print(soup)

## Buscando elementos en el documento

BeautifulSoup permite buscar elementos específicos dentro del documento HTML. Podemos buscar elementos por su etiqueta, atributos, contenido de texto, etc.


In [None]:
# Buscar el primer elemento 'h1'
titulo = soup.find('h1')
print(titulo.text)


In [None]:
# Buscar todos los elementos 'p'
parrafos = soup.find_all('p')
print(parrafos)

In [None]:
# imprimir el texto de cada parrafo
for parrafo in parrafos:
    print(parrafo.text)

## Accediendo a los datos de los elementos

Una vez que hemos seleccionado un elemento o un conjunto de elementos, podemos acceder a su contenido de texto, atributos y más.


In [None]:
# Obtener texto del título
texto_titulo = titulo.text

# Obtener el atributo href de un enlace
enlace = soup.find('a')
url_enlace = enlace['href']


print(texto_titulo)
print(url_enlace)


## Navegación por el árbol de elementos

BeautifulSoup también permite navegar por el árbol de elementos del documento, moviéndonos entre elementos padres, hijos, hermanos, etc.



In [None]:
# Obtener el elemento padre de 'titulo'
padre = titulo.parent

# Obtener el siguiente hermano de 'titulo'
siguiente_hermano = titulo.find_next_sibling()

print(padre)
print(siguiente_hermano)


### BeautifulSoup: Accediendo al Elemento Padre y al Siguiente Hermano

#### Elemento Padre
La función `.parent` en BeautifulSoup se usa para acceder al elemento padre (o contenedor) de un elemento específico en el árbol del documento HTML. Esto es útil cuando necesitas subir un nivel en la jerarquía del árbol HTML.

Ejemplo:
Si tenemos un elemento HTML identificado como `titulo`, al ejecutar `titulo.parent`, obtenemos el elemento HTML que contiene directamente a `titulo`, es decir, su elemento padre.

#### Siguiente Hermano
La función `.find_next_sibling()` se utiliza para encontrar el siguiente elemento en el mismo nivel de jerarquía que el elemento especificado, es decir, su "hermano" en términos de estructura del árbol HTML. Esto nos permite movernos horizontalmente en el árbol HTML para encontrar el próximo elemento al mismo nivel.

Ejemplo:
Al hacer `titulo.find_next_sibling()`, estamos obteniendo el elemento que está justo después de `titulo` al mismo nivel de jerarquía.

#### Ejemplo Visual
Considera el siguiente fragmento de HTML:

```html
<div>
    <h1 id="titulo">Título</h1>
    <p>Parágrafo siguiente al título</p>
</div>


- El elemento `div` es el padre de `h1` (con id titulo).
- El elemento `p` es el siguiente hermano del elemento `h1` (con id `titulo`).

# Métodos de BeautifulSoup

BeautifulSoup es una biblioteca en Python para analizar documentos HTML y XML. Aquí se describen algunos métodos clave utilizados en análisis web:

https://beautiful-soup-4.readthedocs.io/



- `find()`
  - **Descripción:** Busca el primer elemento que coincide con los criterios especificados.
  - **Uso:** Ideal para obtener un elemento específico cuando se sabe que solo hay uno en el documento o se necesita el primero de varios elementos similares.

- `find_all()`
  - **Descripción:** Busca todos los elementos que coinciden con los criterios especificados.
  - **Uso:** Util para recopilar una lista de elementos que comparten la misma etiqueta o clase.

- `find_next_sibling()`
  - **Descripción:** Obtiene el siguiente elemento hermano (del mismo nivel) de un elemento dado.
  - **Uso:** Útil para navegar a elementos adyacentes en la misma jerarquía de la estructura HTML.

- `find_next()`
  - **Descripción:** Encuentra el primer elemento que coincide con los criterios después del elemento actual.
  - **Uso:** Ideal para encontrar el próximo elemento en el documento HTML, sin importar su posición en la jerarquía.

- `find_all_next()`
  - **Descripción:** Recupera todos los elementos que coinciden con los criterios después del elemento actual.
  - **Uso:** Se usa para obtener todos los elementos que siguen a un elemento dado y que cumplen con los criterios especificados.

- `find_previous()`
  - **Descripción:** Este método busca el elemento anterior en el documento que coincide con los criterios especificados. Es útil para navegar hacia atrás en el árbol del documento HTML.
  - **Uso:** Se utiliza para encontrar el elemento que precede inmediatamente a un elemento dado, según los criterios de búsqueda. Es especialmente útil en análisis detallados de la estructura HTML donde se necesita explorar elementos en dirección opuesta al flujo de lectura usual del documento.


- `parent`
  - **Descripción:** Propiedad que devuelve el elemento padre del elemento actual.
  - **Uso:** Permite el acceso al elemento contenedor o superior de un elemento dado en el árbol DOM.

- `text`
  - **Descripción:** Extrae todo el texto de un elemento y sus descendientes.
  - **Uso:** Se emplea para obtener el contenido textual limpio de un elemento HTML.

- `strip()`
  - **Descripción:** Elimina los espacios en blanco al principio y al final de un string.
  - **Uso:** Utilizado en combinación con `text` para limpiar el texto extraído de espacios extra o saltos de línea.


Estos métodos son esenciales para la extracción efectiva y la navegación a través de documentos HTML, facilitando la obtención de datos específicos en el proceso de web scraping.
