# Scraping web con BeautifulSoup

En esta sección vamos a ver cómo podemos extraer información de páginas web usando la librería `BeautifulSoup` de Python, 
veremos el poder de esta librería y cómo podemos usarla para extraer información de páginas web.

## 1. Requerimientos

Antes de empezar, debemos instalar las siguientes librerías:

```bash
pip install requests
pip install beautifulsoup4
```

## 2. Importar librerías

Como en todo codigo de Python, lo primero que debemos hacer es importar las librerías que vamos a usar, en este caso

In [2]:
from bs4 import BeautifulSoup
import requests

## 3. Obtener el contenido de una página web

BeautifulSoup no puede optener el contenido directamente desde una url, por lo que nos vamos ayudar en el módulo `requests`

In [6]:
url = 'https://peps.python.org/pep-0020/'
r = requests.get(url)
html = r.text

## 4. Ver el contenido de la página

BeautifulSoup nos permite ver el contenido de la página de una forma más amigable, para ello usamos el método `prettify()`

In [8]:
soup = BeautifulSoup(html, 'html')
print(soup.prettify())

<!DOCTYPE html>
<html lang="en">
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1.0" name="viewport"/>
  <meta content="light dark" name="color-scheme"/>
  <title>
   PEP 20 – The Zen of Python | peps.python.org
  </title>
  <link href="../_static/py.png" rel="shortcut icon"/>
  <link href="https://peps.python.org/pep-0020/" rel="canonical"/>
  <link href="../_static/style.css" rel="stylesheet" type="text/css"/>
  <link href="../_static/mq.css" rel="stylesheet" type="text/css"/>
  <link href="../_static/pygments.css" id="pyg-light" media="(prefers-color-scheme: light)" rel="stylesheet" type="text/css"/>
  <link href="../_static/pygments_dark.css" id="pyg-dark" media="(prefers-color-scheme: dark)" rel="stylesheet" type="text/css"/>
  <link href="https://peps.python.org/peps.rss" rel="alternate" title="Latest PEPs" type="application/rss+xml"/>
  <meta content="Python Enhancement Proposals (PEPs)" name="description"/>
 </head>
 <body>
  <svg style="di

## 5. Navegar por el contenido

Una vez que tenemos el contenido de la página, podemos navegar por el contenido usando los métodos `find()` y `find_all()`.

In [9]:
a = soup.find_all('a')
for link in a:
    print(link.get('href'))

https://www.python.org/
../pep-0000/
#abstract
#the-zen-of-python
#easter-egg
#references
#copyright
#abstract
#the-zen-of-python
#easter-egg
#references
mailto:comp.lang.python/python-list%40python.org
https://groups.google.com/d/msg/comp.lang.python/B_VxeTBClM0/L8W9KlsiriUJ
#copyright
https://github.com/python/peps/blob/main/pep-0020.txt
https://github.com/python/peps/commits/main/pep-0020.txt
#abstract
#the-zen-of-python
#easter-egg
#references
#copyright
https://github.com/python/peps/blob/main/pep-0020.txt


Para navegar por el contenido del documento, `BeautifulSoup` tiene varios métodos que nos permiten navegar por el contenido del documento, los más usados son:

* `find()`: Nos permite encontrar el primer elemento que cumpla con las condiciones especificadas.
* `find_all()`: Nos permite encontrar todos los elementos que cumplan con las condiciones especificadas.
* `select()`: Nos permite encontrar todos los elementos que cumplan con las condiciones especificadas usando selectores CSS.
* `select_one()`: Nos permite encontrar el primer elemento que cumpla con las condiciones especificadas usando selectores CSS.
* `find_parent()`: Nos permite encontrar el elemento padre que cumpla con las condiciones especificadas.
* `find_parents()`: Nos permite encontrar todos los elementos padres que cumplan con las condiciones especificadas.

Entre otros, para mas información ir a la [documentación](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [12]:
# buscar elementos a por class
elements = soup.find_all('a', {'class': 'reference internal'})
for element in elements:
    print(element.get('href'))

#abstract
#the-zen-of-python
#easter-egg
#references
#copyright
#abstract
#the-zen-of-python
#easter-egg
#references
#copyright


In [16]:
# buscar elementos por id
elements = soup.find_all(id = 'copyright')
print(elements)

[<section id="copyright">
<h2><a class="toc-backref" href="#copyright" role="doc-backlink">Copyright</a></h2>
<p>This document has been placed in the public domain.</p>
</section>]


In [26]:
# buscar elementos por texto
elements = soup.find_all(string='PEP 20')
elements

[]

In [32]:
# buscar elementos por texto con expresiones regulares
import re
elements = soup.find_all(re.compile('^sy'))
elements

[<symbol id="svg-sun-half" pointer-events="all" viewbox="0 0 24 24">
 <title>Following system colour scheme</title>
 <svg fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="2" viewbox="0 0 24 24" xmlns="http://www.w3.org/2000/svg">
 <circle cx="12" cy="12" r="9"></circle>
 <path d="M12 3v18m0-12l4.65-4.65M12 14.3l7.37-7.37M12 19.6l8.85-8.85"></path>
 </svg>
 </symbol>,
 <symbol id="svg-moon" pointer-events="all" viewbox="0 0 24 24">
 <title>Selected dark colour scheme</title>
 <svg fill="none" stroke="currentColor" stroke-linecap="round" stroke-linejoin="round" stroke-width="2" viewbox="0 0 24 24" xmlns="http://www.w3.org/2000/svg">
 <path d="M0 0h24v24H0z" fill="none" stroke="none"></path>
 <path d="M12 3c.132 0 .263 0 .393 0a7.5 7.5 0 0 0 7.92 12.446a9 9 0 1 1 -8.313 -12.454z"></path>
 </svg>
 </symbol>,
 <symbol id="svg-sun" pointer-events="all" viewbox="0 0 24 24">
 <title>Selected light colour scheme</title>
 <svg fill="none" stroke="cur

## 6. Conclusiones

Como hemos visto, `BeautifulSoup` es una librería muy poderosa que nos permite extraer información de páginas web de una forma rapida y sencilla, pero tiene sus limitaciones y no es la mejor opción para extraer información de páginas web complejas, para ello existen otras librerías como `Scrapy` que nos permiten extraer información de páginas web de una forma más eficiente.

Cuando hagamos scraping de páginas web, debes de tener en cuenta que tienes que respetar las políticas de privacidad de la página web, para ello debes de leer los términos y condiciones de la página web, asi como el acceso a los robots de búsqueda, del archivo `robots.txt` de la página web.