## Introdução

Assim como com a biblioteca `requests`, nós precisamos instalar o `BeautifulSoup` antes de utilizá-lo. Para isso, use o comando:

```cmd
pip install beautifulsoup4
```


In [None]:
from bs4 import BeautifulSoup

## Extraindo dados do HTML

Para extrair os dados de um documento HTML, precisamos instanciar um objeto `BeautifulSoup`. A partir dele podemos obter as informações contidas nos elementos acessando-os de forma hierárquica.


In [None]:
html = '<body><p id="main-paragraph">Conteúdo do parágrafo principal</p><p></p></body>'
html = (
    "<body>"
    '   <p id="main-paragraph">Conteúdo do parágrafo principal</p>'
    "   <p>Conteúdo de um parágrafo comum</p>"
    "<body>"
)

soup = BeautifulSoup(html, "html.parser")
soup

A partir desse objeto, pode-se extrair qualquer conteúdo com o uso dos identificadores. Nós podemos pegar, por exemplo, o parágrafo principal usando o ID `main-paragraph`:

In [None]:
main_paragraph = soup.find(id="main-paragraph")
main_paragraph.text

Podemos, também, pegar elementos a partir de sua tag:

In [None]:
paragraphs = soup.find_all("p")

for paragraph in paragraphs:
    print(paragraph.text)

Além disso, podemos também acessar os atributos dos elementos. Eles podem ser acessados como chaves de um  dicionário:

In [None]:
first_paragraph = paragraphs[0]
first_paragraph["id"]

## Trabalhando com o requests

Como o `BeautifulSoup` é uma biblioteca voltada para a análise e extração de dados estruturados seguindo o HTML e o XML, nós podemos utilizar a biblioteca `requests` para baixar o arquivo HTML e usá-lo para "alimentar" o `BeautifulSoup`.

No exemplo abaixo, estaremos extraindo informações dos filmes que aparecem na lista de "melhores 250 filmes" da IMDB.


In [None]:
import requests
from requests.exceptions import HTTPError  # uma exceção específica para erros HTTP

In [None]:
url = "https://www.python.org"

response = requests.get(url)

# checa se a requisição foi bem sucedida

if response.status_code != 200:
    raise HTTPError("Houve um problema durante a requisição dos dados.")

In [None]:
soup = BeautifulSoup(response.content, "html.parser")

blog_widget = soup.find("div", class_="blog-widget")
news_articles = blog_widget.find_all("li")

In [None]:
print(f"tipo do blog_widget: {type(blog_widget)}")
print(f"tipo do news_articles: {type(news_articles)}")
print(f"tipo de um item do news_articles: {type(news_articles[0])}")

In [None]:
for article in news_articles:
    article_anchor = article.a

    link = article_anchor["href"]
    title = article_anchor.text

    print(f"Title: {title}")
    print(f"Link: {link}")
    print()