## Introdução

Assim como com a biblioteca `requests`, nós precisamos instalar o `BeautifulSoup` antes de utilizá-lo. Para isso, use o comando:

```cmd
pip install beautifulsoup4
```


In [21]:
from bs4 import BeautifulSoup

## Extraindo dados do HTML

Para extrair os dados de um documento HTML, precisamos instanciar um objeto `BeautifulSoup`. A partir dele podemos obter as informações contidas nos elementos acessando-os de forma hierárquica.


In [30]:
html = '<body><p id="main-paragraph">Conteúdo do parágrafo principal</p><p></p></body>'
html = (
    "<body>"
    '   <p id="main-paragraph">Conteúdo do parágrafo principal</p>'
    "   <p>Conteúdo de um parágrafo comum</p>"
    "<body>"
)

soup = BeautifulSoup(html, "html.parser")
soup

<body> <p id="main-paragraph">Conteúdo do parágrafo principal</p> <p>Conteúdo de um parágrafo comum</p><body></body></body>

## Trabalhando com o requests

Como o `BeautifulSoup` é uma biblioteca voltada para a análise e extração de dados estruturados seguindo o HTML e o XML, nós podemos utilizar a biblioteca `requests` para baixar o arquivo HTML e usá-lo para "alimentar" o `BeautifulSoup`.

No exemplo abaixo, estaremos extraindo informações dos filmes que aparecem na lista de "melhores 250 filmes" da IMDB.


In [22]:
import requests
from requests.exceptions import HTTPError  # uma exceção específica para erros HTTP

In [8]:
url = "https://www.python.org"

response = requests.get(url)

# checa se a requisição foi bem sucedida

if response.status_code != 200:
    raise HTTPError("Houve um problema durante a requisição dos dados.")

In [20]:
soup = BeautifulSoup(response.content, "html.parser")

news_articles = soup.select("div.blog-widget li")

for article in news_articles:
    article_anchor = article.a

    link = article_anchor["href"]
    title = article_anchor.text

    print(f"Title: {title}")
    print(f"Link: {link}")
    print()

Title: Python 3.12.0 beta 4 released
Link: https://pythoninsider.blogspot.com/2023/07/pleased-to-announce-release-of-python-3.html

Title: Announcing the 2023 PSF Board Election Results!
Link: https://pyfound.blogspot.com/2023/06/announcing-2023-psf-board-election.html

Title: Announcing Our New Security Developer in Residence!
Link: https://pyfound.blogspot.com/2023/06/announcing-our-new-security-developer.html

Title: Python 3.12.0 beta 3 released
Link: https://pythoninsider.blogspot.com/2023/06/python-3120-beta-3-released.html

Title: The 2023 PSF Board Election is Open!
Link: https://pyfound.blogspot.com/2023/06/the-2023-psf-board-election-is-open.html

