# Introdução ao BeautifulSoup

> Bela Sopa, tão rica e verde, <br>
> À espera em uma terrina quente! <br>
> Quem não se derreteria por uma iguaria como essa? <br>
> Sopa do jantar, bela Sopa! <br>

<p style="text-align: justify">
A biblioteca BeautifulSoup tem o mesmo nome de um poema de Lewis Carroll que aparece no livro Alice no País das Maravilhas. Na história, esse poema é declamado por uma personagem chamada Falsa Tartaruga (Mock Turtle) – por si só, é um trocadilho com o nome do popular prato vitoriano chamado Sopa Falsa de Tartaruga (Mock Turtle Soup), que não é feito de tartaruga, mas de vaca).
</p>
<p style="text-align: justify">
Assim como o seu homônimo no País das Maravilhas, o BeautifulSoup tenta dar sentido ao que não faz sentido: ajuda a  formatar e a organizar a web confusa, fazendo correções em um código HTML mal formatado e apresentando objetos Python que podem ser facilmente percorridos, os quais representam estruturas XML.
</p>

## Instalando o BeautifulSoup

In [3]:
# Jupyter notebook (já vem com Anaconda)
!pip install beautifulsoup4



## Executando o BeautifulSoup

O objeto mais comum usado na biblioteca BeautifulSoup, como não poderia deixar de ser, é o objeto **BeautifulSoup**. Vamos observá-lo em ação, modificando o exemplo apresentado no início deste capítulo:

In [18]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('http://www.pythonscraping.com/pages/page1.html') # Armazena o arquivo page1.html
bs = BeautifulSoup(html.read(), 'html.parser') # par1:: Texto HTML | par2:: parser escolhido

# Imprime a tag h1 definida no HTML (todos tem o mesmo resultado)
print(bs.html.body.h1)
print(bs.body.h1)
print(bs.html.h1)
print(bs.h1) 

<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>
<h1>An Interesting Title</h1>


### Outras opções de parser

* **lxml:** pip install lxml
* **html5lib:** pip install html5lib

**obs.:** mais informações na página 25 do livro. 

In [21]:
html = urlopen('http://www.pythonscraping.com/pages/page1.html') # Armazena o arquivo page1.html
bs = BeautifulSoup(html.read(), 'html5lib') # par1:: Texto HTML | par2:: parser escolhido

# Imprime a tag h1 definida no HTML (todos tem o mesmo resultado)
print(bs.h1) 

<h1>An Interesting Title</h1>


In [22]:
html = urlopen('http://www.pythonscraping.com/pages/page1.html') # Armazena o arquivo page1.html
bs = BeautifulSoup(html.read(), 'lxml') # par1:: Texto HTML | par2:: parser escolhido

# Imprime a tag h1 definida no HTML (todos tem o mesmo resultado)
print(bs.h1) 

<h1>An Interesting Title</h1>


## Conectando-se de forma confiável e tratando exceções

<p style="text-align: justify">
A web é confusa. Os dados são mal formatados, os sites ficam inativos e tags de fechamento podem estar ausentes. Uma das experiências mais
frustrantes em web scraping é ir dormir com um scraper executando, sonhar com todos os dados que estarão em seu banco de dados no dia
seguinte – somente para descobrir que o scraper deparou com um erro em algum formato de dados inesperado e interrompeu a execução logo depois
que você parou de olhar para a tela. Em situações como essas, pode ser tentador amaldiçoar o nome do desenvolvedor que criou o site (e os dados
peculiarmente formatados), mas a pessoa que você de fato deveria acusar é a si mesmo, por não ter previsto a exceção, antes de tudo!
</p>
<p style="text-align: justify">
Vamos analisar a primeira linha de nosso scraper, depois das instruções de importação, e descobrir como lidar com qualquer exceção que seja
lançada:
</p>

`html = urlopen('http://www.pythonscraping.com/pages/page1.html')`

Dois erros podem ocorrer nessa linha:
* A página não é encontrada no servidor (ou houve um erro ao obtê-la).
* O servidor não foi encontrado.

<p style="text-align: justify">
Na primeira situação, um erro de HTTP será devolvido. Esse erro pode ser “404 Page Not Found” (página não encontrada), “500 Internal Server Error” (erro interno do servidor), e assim por diante. Em todos esses casos, a função urlopen lançará a exceção genérica HTTPError. Essa exceção pode ser tratada da seguinte maneira:
</p>

In [28]:
from urllib.request import urlopen 
from urllib.error import HTTPError

try:
    html = urlopen('http://www.pythonscraping.com/pages/page1.html')
except HTTPError as e:
    print(e)
    # devolve null, executa um break ou algum outro "Plano B"
else:
    print(html)
    # o programa continua. Nota: se você retornar ou executar um break no
    # catch da exceção, não será necessário usar a instrução "else"

<http.client.HTTPResponse object at 0x000001536D7D32E0>


<p style="text-align: justify">
Se um código de erro HTTP for devolvido, o programa agora exibirá o erro e não executará o resto do programa que está na instrução else.
</p>

In [30]:
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup

def getTitle(url):
    try:
        html = urlopen(url)
    except HTTPError as e:
        return None
    try:
        bs = BeautifulSoup(html.read(), 'html.parser')
        title = bs.body.h1
    except AttributeError as e:
        return None
    return title
    
title = getTitle('http://www.pythonscraping.com/pages/page1.html')
if title == None:
    print('Title could not be found')
else:
    print(title)

<h1>An Interesting Title</h1>


In [36]:
from urllib.request import urlopen
from bs4 import BeautifulSoup

html = urlopen('https://fundamentus.com.br/detalhes.php?papel=PLPL3.html') # Armazena o arquivo page1.html
bs = BeautifulSoup(html.read(), 'html.parser') # par1:: Texto HTML | par2:: parser escolhido

# Imprime a tag h1 definida no HTML (todos tem o mesmo resultado)
print(bs) 

HTTPError: HTTP Error 403: Forbidden