<h1>Laboratório Prático 1 - Beautiful Soup</h1>

<h2>Introdução</h2>

Neste laboratório, veremos como utilizar na prática a biblioteca BeautifulSoup, muito útil para realizar web scrapings com sites que não utilizem conteúdos dinâmicos.

Este laboratório tem como base a própria documentação da bilioteca, que pode ser encontrada em:
https://www.crummy.com/software/BeautifulSoup/bs4/doc/

Abaixo criaremos um variável com o HTML que utilizaremos como exemplo neste laboratório. É um trecho de "Alice no País das Maravilhas" formatado em HTML.

In [None]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

Considerando que já tenhamos a biblioteca instalada, podemos ver como o BeautifulSoup armazena o HTML.

In [None]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_doc, 'html.parser')

print(soup.prettify())


O Beautiful Soup não só suporta o parser HTML incluído na biblioteca padrão do Python como também inúmeros parsers de terceiros. Abaixo, temos uma tabela listando os principais parsers que podem ser utilizado com BeautifulSoup.

Se não for passado nenhum parser quando um objeto BS for instanciado, a biblioteca utiliza automaticamente o parser padrão do Python.

<table border="1" class="docutils">
<colgroup>
<col width="18%">
<col width="35%">
<col width="26%">
<col width="21%">
</colgroup>
<tbody valign="top">
<tr class="row-odd"><td>Parser</td>
<td>Uso Padrão</td>
<td>Vantagens</td>
<td>Desvantagens</td>
</tr>
<tr class="row-even"><td>html.parser (puro)</td>
<td><code class="docutils literal notranslate"><span class="pre">BeautifulSoup(markup,</span> <span class="pre">"html.parser")</span></code></td>
<td><ul class="first last simple">
<li>Baterias inclusas</li>
<li>Velocidade Decente</li>
<li>Leniente (Python 2.7.3
e 3.2.)</li>
</ul>
</td>
<td><ul class="first last simple">
<li>Não tão rápido quanto
lxml, menos leniente
que html5lib.</li>
</ul>
</td>
</tr>
<tr class="row-odd"><td>HTML (lxml)</td>
<td><code class="docutils literal notranslate"><span class="pre">BeautifulSoup(markup,</span> <span class="pre">"lxml")</span></code></td>
<td><ul class="first last simple">
<li>Muito rápido</li>
<li>Leniente</li>
</ul>
</td>
<td><ul class="first last simple">
<li>Dependencia externa de
C</li>
</ul>
</td>
</tr>
<tr class="row-even"><td>XML (lxml)</td>
<td><code class="docutils literal notranslate"><span class="pre">BeautifulSoup(markup,</span> <span class="pre">"lxml-xml")</span></code>
<code class="docutils literal notranslate"><span class="pre">BeautifulSoup(markup,</span> <span class="pre">"xml")</span></code></td>
<td><ul class="first last simple">
<li>Muito rápido</li>
<li>O único parser XML atualmente
suportado</li>
</ul>
</td>
<td><ul class="first last simple">
<li>Dependência externa de
C</li>
</ul>
</td>
</tr>
<tr class="row-odd"><td>html5lib</td>
<td><code class="docutils literal notranslate"><span class="pre">BeautifulSoup(markup,</span> <span class="pre">"html5lib")</span></code></td>
<td><ul class="first last simple">
<li>Extremamente leniente</li>
<li>Analisa as páginas da mesma
maneira que o navegador o faz</li>
<li>Cria HTML5 válidos</li>
</ul>
</td>
<td><ul class="first last simple">
<li>Muito lento</li>
<li>Dependência externa de
Python</li>
</ul>
</td>
</tr>
</tbody>
</table>

<h2>Criando um objeto do tipo BeautifulSoup</h2>


Para analisar um documento HTML (ou XML), basta passar ele como argumento dentro de um construtor BeautifulSoup. O Beautiful Soup então interpreta o documento usando o melhor parser disponível.

In [None]:
soup = BeautifulSoup(html_doc)
print(soup)

<h2>Tipos de Objeto</h2>




O Beautiful Soup transforma um documento HTML complexo em uma complexa árvore de objetos Python. Mas você terá apenas que lidar com quatro tipos de objetos: <b>Tag</b>, <b>NavigableString</b>, <b>BeautifulSoup</b> e <b>Comment</b>.

<h3>Tag</h3>



Um objeto Tag corresponde a uma tag XML ou HTML do documento original. Tags possuem diversos atributos e métodos que podem ser utilizados para acessá-las. 

Por exemplo, podemos acessar uma tag chamando diretamente seu nome dentro do objeto BS. Note que quando existirem diversas tags com o mesmo nome somente a primeira ocorrência dela será acessada.

In [None]:
tag_paragrafo = soup.p
print(tag_paragrafo)

Tags também podem possuir diversos atributos HTML que podemos acessar diretamente:

In [None]:
print(tag_paragrafo["class"])
tag_link = soup.a
print(tag_link["class"])

<h3>Navigable String</h3>
Uma string corresponde a um texto dentro de uma tag. O Beautiful Soup usa a classe NavigableString para armazenar este texto.

In [None]:
print(tag_paragrafo.string)

<h3>BeautifulSoup</h3>
O objeto BeautifulSoup em si representa o documento como um todo. Para maioria dos propósitos, você pode tratá-lo como um objeto Tag. Isso significa que irá suportar a maioria dos métodos que a classe Tag possui, porém como não é uma Tag propriamente dita, não possui nome nem atributos.

<h3>Comment</h3>
Tag, NavigableString, e BeautifulSoup abrangem quase tudo o que você encontrará em um arquivo HTML ou XML, mas há alguns pontos faltando. O único deles que você provavelmente precisará se preocupar é o comentário. Na prática, o objeto Comment é apenas um tipo especial de NavigableString. A diferença é que quando aparece como parte de um documento HTML, um Comment é exibido com uma formatação especial:


In [None]:
markup = "<b><!--Hey, buddy. Want to buy a used parser?--></b>"
soup_comentario = BeautifulSoup(markup)
comment = soup_comentario.b.string
print(type(comment))
print(soup_comentario.b.prettify())

<h2>Navegando pela árvore BeautifulSoup</h2>

Podemos navegar pela árvore do HTML criada pelo BeautifulSoup diretamente pelos nomes e atributos das tags ou através de seus métodos. O mais indicado é o acesso via métodos, pois além de permitir uma busca em qualquer posição na árvore (o acesso direto pelo nome apenas retorna a primeira ocorrência da tag) é mais fácil de lidar com possíveis erros no HTML e com isso tornar o código mais robusto.

De maneira geral, BeautifulSoup trabalha com dois métodos básicos: <b>find_all()</b> e o método <b>find()</b>. Também existem diversas variações que modificam algum aspecto destes métodos básicos. Veremos em mais profundidade o método find_all() e depois as variações.

Além dos métodos "find", existe também um método chamado <b>select()</b>, que funciona com base em selectores CSS. Veremos este método na próxima seção, onde falaremos mais a fundo sobre CSS.

Por conveniência, vamos recarregar e visualizar outra vez nosso HTML do texto de "Alice no País das Maravilhas".

In [None]:
soup = BeautifulSoup(html_doc)
print(soup)

<h3>find_all()</h3>


Definição: find_all(name, attrs, recursive, string, limit, **kwargs)


O método find_all() busca entre os decendentes de uma tag e retorna todos os decendentes que correspondem a seus filtros. Os tipos de filtros podem ser uma <i>string</i>, uma <i>lista</i>, uma <i>expressão regular</i>, uma <i>função</i> ou o valor <i>True</i>.

<h4>Filtros</h4>

<h5>String</h5>
O filtro mais simples é uma string. Passando uma string para um método de pesquisa, o Beautiful Soup irá buscar uma correspondência a esta exata string. O seguinte código encontrará todas as tags <b>b</b> no documento:

In [None]:
soup.find_all('b')

<h5>Lista</h5>

Se você passar uma lista, o Beautiful Soup irá buscar uma correspondência com qualquer item dessuma lista. O código seguinte buscará todas as tags <b>a</b> (hyperlinks) e todas as tags <b>b</b> (texto em negrito):

In [None]:
soup.find_all(["a", "b"])

<h5>Expressão Regular</h5>
Se você passar um objeto regex, o Beautiful Soup irá realizar um filtro com ela utilizando seu método search(). O código seguinte buscará todas as tags as quais os nomes comecem com a letra “b”; neste caso, a tag <b>body</b> e a tag <b>b</b>:

In [None]:
import re
for tag in soup.find_all(re.compile("^b")):
    print(tag.name)

<h5>True</h5>
O valor True irá corresponder com tudo. O código abaixo encontrará todas as tags do documento, mas nenhuma das strings:

In [None]:
for tag in soup.find_all(True):
    print(tag.name)

<h5>Função</h5>
Se nenhuma das opções anteriores funcionar para você, defina uma função que pegará um elemento como seu único argumento. A função deverá retornar True se o argumento corresponder e False caso contrário.

A função pode ser tão complexa quanto você precise que seja. Aqui temos uma função que retorna True se uma tag esta cercada por objetos string:d:

In [None]:
from bs4 import NavigableString
def surrounded_by_strings(tag):
    return (isinstance(tag.next_element, NavigableString)
            and isinstance(tag.previous_element, NavigableString))

for tag in soup.find_all(surrounded_by_strings):
    print(tag.name)

Passe esta função dentro de find_all() e você irá retornar todas as tags <b>p</b>:

<h4>Argumentos da função find_all()</h4>
A função find_all é definida assim: find_all(name, attrs, recursive, string, limit, **kwargs). Veremos cada um destes argumentos agora.

<h5>Argumento <i>name</i></h5>

É o uso mais simples, foi como usamos os filtros até agora. Quando passamos um valor para o argumento <i>name</i> o BeautifulSoup considera apenas tags com os nomes passados, seja uma string literal ou qualquer outro filtro.

In [None]:
soup.find_all("title")

<h5>Argumento <i>attrs</i></h5>

Qualquer argumento que não for reconhecido se tornará um filtro de <b>atributos</b> da tag. Se você passar um valor para um argumento chamado id, o Beautiful Soup irá buscar correspondentes entre todas tags que possuam o atributo id com o valor passado. Tags que tenham atributo id com valor 'link2':

In [None]:
soup.find_all(id='link2')

Se você passar um valor para href, o Beautiful Soup buscar correspondentes em cada tag que possua o atributo href:

In [None]:
soup.find_all(href=re.compile("elsie"))

Na busca acima, passamos uma expressão regular para o nome "elsie" porque o match que o Beautiful Soup faz é <i>literal</i>, ou seja, ele procura exatamente o texto passado. O que a regex fez nesta caso foi aceitar qualquer texto que contenha pelo menos parcialmente a string "elsie".

Você pode filtrar um atributo baseado em uma string, uma expressão regular, uma lista, uma função, ou o valor True.

Este código encontra todas as tags em que o atributo id possuem um valor, independente de qual valor seja:

In [None]:
soup.find_all(id=True)

<h5>Argumento <i>string</i></h5>

Com o argumento <i>string</i> você pode buscar por strings ao invés de tags. Assim como <i>name</i> e os argumentos palavras-chave, você pode passar uma string, uma expressão regular, uma lista, uma função, ou o valor True. Aqui estão alguns exemplos:

In [None]:
print(soup.find_all(string="Elsie"))
print(soup.find_all(string=["Tillie", "Elsie", "Lacie"]))
print(soup.find_all(string=re.compile("Dormouse")))

<h5>Argumento <i>limit</i></h5>

find_all() retorna todas as tags e strings que correspondem aos seus filtros. Isso pode levar algum tempo se o documento for extenso. Se você não precisar de todos os resultados, você pode passar um número limite (limit). Ele diz ao Beautiful Soup para parar de adquirir resultados assim que atingir um certo número.

In [None]:
soup.find_all("a", limit=2)

<h5>Argumento <i>recursive</i></h5>

Se você chamar tag.find_all(), o Beautiful Soup irá examinar todos os descendentes de tag: suas filhas, as filhas de suas filhas e daí em diante. Se você quer apenas que o Beautiful Soup considere filhas diretas, você pode passar o parâmetro recursive=False. Veja a diferença aqui:

In [None]:
soup.html.find_all("title")

In [None]:
soup.html.find_all("title", recursive=False)

<h5>Buscando por classes CSS</h5>

É muito útil buscar por uma tag que tem uma certa classe CSS, mas o nome do atributo CSS, “class”, é uma palavra reservada no Python. Utilizar class como um argumento palavra-chave lhe trará um erro de sintaxe. A partir do Beautiful Soup 4.1.2, você pode buscar por uma classe CSS utilizando o argumento palavra-chave <b>class_</b>

In [None]:
soup.find_all("a", class_="sister")

Assim como qualquer argumento palavra-chave, você pode passar para class_ uma string, uma expressão regular (regex), uma função ou True.

Lembre-se que uma tag pode ter valores múltiplos para seu atributo classe. Quando você buscar por uma tag que tenha uma certa classe CSS, você estará buscando correspondência em qualquer de suas classes CSS:

In [None]:
css_soup = BeautifulSoup('<p class="body strikeout"></p>')
css_soup.find_all("p", class_="strikeout")

In [None]:
css_soup.find_all("p", class_="body")

<h3>find()</h3>

O método find_all() varre todo o documento em busca de resultados, mas algumas vezes você irá querer apenas um resultado. Se você sabe que o documento possui apenas uma tag <body>, é perda de tempo varrer todo o o documento procurando por outras. Ao invés de passar limit=1 toda vez em que chamar find_all, você pode usar o método find(). Estas duas linhas de código são quase equivalentes:

In [None]:
soup.find_all('title', limit=1)

In [None]:
soup.find('title')

A única diferença é que find_all() retorna uma lista contendo apenas um resultado, enquanto find() retorna o resultado diretamente.

In [None]:
print(type(soup.find_all('title', limit=1)))
print(type(soup.find('title')))

Outro aspecto relevante é que se find_all() não encontrar nada, ele retornará uma lista vazia. Já se find() não encontrar nada, ele retornará None.

<h3>Variações de find_all() e find()</h3>

A API do Beautiful Soup define dez outros métodos para buscas na árvore. Cinco destes métodos são basicamente o mesmo que find_all(), e os outros cinco são basicamente o mesmo que find(). A única diferença está em qual parte da árvore eles procuram.

<h4>find_parents() e find_parent()</h4>

Lembre-se que find_all() e find() trabalham de sua própria maneira descendo através da árvore, procurando pelos descendentes de uma tag. Estes métodos fazem o contrário: eles trabalham subindo a árvore, procurando pelas mães de uma tag (ou string). Estes métodos são recursivos, então buscam todos ascendentes de um objeto.

Vejamos um exemplo com uma string que está em um nodo folha de nossa árvore:

In [None]:
a_string = soup.find(string="Lacie")
a_string

In [None]:
a_string.find_parents("a")

In [None]:
a_string.find_parent("p")

<h4>find_next_siblings() e find_next_sibling()</h4>

find_next_siblings() buscará todos os próximos objetos que estão no mesmo nível (irmãos), enquanto find_next_sibling() buscará apenas o próximo irmão.

In [None]:
elsie = soup.find(id="link1")
elsie

In [None]:
elsie.find_next_siblings()

In [None]:
elsie.find_next_sibling()

<h4>find_previous_siblings() e find_previous_sibling()</h4>

Retornam os irmão(s) que antecedem o objeto.

In [None]:
tillie = soup.find(id="link3")
tillie

In [None]:
tillie.find_previous_siblings()

In [None]:
tillie.find_previous_sibling()

<h4>find_all_next(), find_all_previous(), find_next() e find_previous()</h4>

Encontram toda(s) tag(s) próxima(s) ou anterior(es).

In [None]:
elsie = soup.find(id="link1")
elsie

In [None]:
elsie.find_next()

In [None]:
elsie.find_all_next()

In [None]:
elsie.find_previous()

In [None]:
elsie.find_all_previous()

<h2>Seletores CSS e função select()</h2>

Seletores são padrões textuais que casam com algum elemento de uma árvore (de um arquivo XML ou HTML) e que podem ser utilizados para selecionar nodos destas árvores. Uma descrição completa sobre seletores pode ser encontrada em https://www.w3.org/TR/selectors-3/#selector.

BeautifulSoup possui um método select() o qual utiliza a bilioteca SoupSieve para executar um seletor CSS sobre um objeto BeautifulSoup e retorna todos os elementos correspondentes. Tag possui um método similar que executa um seletor CSS sobre o conteúdo de uma única tag.

Seletores são uma ótima maneira de encontrar informações dentro de um documento HTML. É comum que utilizando a função select() do BeautifulSoup encontremos uma informação de maneira muito mais fácil do que utilizando find_all() e suas variantes. Por esta razão, olharemos um pouco mais a fundo a estrutura de seletores CSS para entender como realizar buscas em nossos documentos utilizando a função select().






<h3>Seletores CSS</h3>



Um seletor representa uma estrutura. Esta estrutura pode ser utilizada como uma condição (em uma regra CSS, por exemplo) que determina quais elementos um seletor dá <b>match</b> na árvore do documento. Eles podem variar de nomes simples de elementos até representações complexas.


Um <b>seletor</b> é uma ou mais <b>sequências de seletores simples</b> separados por <b>combinadores</b>.

Um <b>seletor simples</b> é sempre um dos tipos a seguir: <i>seletor de tipo</i>; <i>seletor universal</i>; <i>seletor de atributo</i>; <i>seletor de classe</i>; <i>seletor de ID</i>; ou <i>pseudo-classe</i>.

Uma <b>sequência de seletores simples</b> é uma cadeia de seletores simples que <b>não</b> estão separados por um <b>combinadores</b>. 

<b>Combinadores</b> são quatro caracteres que permitem unir os seletores: espaço em branco; > (maior-que); + (mais); ~ (til). São especialmente importantes para nós porque permitirão que façamos buscas combinando seletores, o que aumenta nosso poder de filtragem dos elementos.

Elementos de uma árvore de documento que estão representados por um seletor são os ditos <b>sujeitos do seletor</b>.

<h4>Grupos de Seletores</h4>

É uma lista de seletores separados por vírgula que representa a união de todos elementos selecionados por cada um dos seletores individuais na lista.

No exemplo abaixo, três regras de css são condensadas em uma. Sendo assim


<pre>h1 { font-family: sans-serif }
h2 { font-family: sans-serif }
h3 { font-family: sans-serif }</pre>

é equivalente a:

<pre>h1, h2, h3 { font-family: sans-serif }</pre>

<h4>Seletores Simples</h4>

Pode ser:
- Seletor de tipo;
- Seletor universal;
- Seletor de atributo;
- Seletor de classe;
- Seletor de ID;
- Pseudo-classe.


<h5>Seletor de tipo</h5>

Representa uma instância de um elemento na árvore de documento. Ou seja, é um tipo que pode ser representado por uma tag.

In [None]:
soup.select("title")

<h5>Seletor universal</h5>

Representa qualquer elemento único em uma árvore. É representado pelo * (asterisco).

In [None]:
soup.select("*")

<h5>Seletor de atributo</h5>

Permite a representação de atributos de elementos. Quando utilizados, devemos considerar que teremos um <b>match</b> apenas se um elemento (tag) possuir como atributo aquele seletor.

Existem várias possibilidades de representação. Dentre elas:
- [att] - casa com o elemento que tiver o atributo, independente do valor.
- [att=val] - casa com o elemento que tiver o atributo com aquele valor específico.
- [att~=val] - casa com o elemento que tiver o atributo com algum dos valores de uma lista separada por espaços.
- [att|=val] - casa com o elemento que tiver o atributo que seja ou exatamente o valour ou que comece com o valor seguido de - (hífen)

In [None]:
soup.select("[id]")

In [None]:
soup.select("[id=link1]")

In [None]:
soup.select("[class^=sto]")

<h5>Seletor de classe</h5>

Funciona como um atributo, porém em HTML tem um tratamento especial utilizando a notação com "." (ponto).

Exemplo:

<pre>.sister { color: black}</pre>

Todos elementos que possuírem a classe "sister" terão a cor preta.



In [None]:
soup.select(".sister")

<h5>Seletor de ID</h5>

ID é um atributo especial porque não podem existir dois elementos que possuam o valor deste atributo igual. Ou seja, é uma maneira de identificar unicamente um elemento. Uma declaração de id sempre inicia com o caractere "#".

Exemplo:

<pre>#link1 { color: black}</pre>

O elemento que possuir o id "link1" terá a cor preta.

In [None]:
soup.select("#link1")

In [None]:
soup.select("#link1, #link3")

<h4>Combinadores</h4>

São compostos por quatro caracteres (" ", ">", "+", "~") e são separados em três tipos.
- Combinadores descendentes
- Combinadores de filhos
- Combinadores de irmãos

<h5>Combinador descendente</h5>

É representado por " " (espaço em branco), e separa seletores que são descendentes de outros, independente do número de níveis.

O código abaixo seleciona todas tags que tenham a <b>classe "sister"</b> e que sejam descendentes da tag <b>body</b>.

In [None]:
soup.select("body .sister")

Como o combinador " " combina seletores que sejam descendentes em qualquer nível, o código abaixo também seleciona todas tags que tenham a <b>classe "sister"</b>, mas agora que sejam descendentes da tag <b>p</b>.

In [None]:
soup.select("p .sister")

<h5>Combinador de filho</h5>

In [None]:
soup.select("body > .sister")

In [None]:
soup.select("p > .sister")

In [None]:
soup.select("body > p > .sister")

<h5>Combinador de irmãos</h5>

Possui dois casos diferentes. Um seletor que represente a tag que seja a irmã imediatamente após o primeiro seletor é representado por "+". Já o caractertere "~" representa todos os irmãos subsequentes.

Abaixo primeiro selecionamos qualquer que seja a tag imediatamente irmã à tag que tenha id = "link1". Representamos "qualquer tag" com o seletor universal "*". Depois, selecionamos todas tags irmãs da tag que tenha id = "link1", novamente utilizando o seletor universal.

In [None]:
soup.select("#link1 + *")

In [None]:
soup.select("#link1 ~ *")

<h2>Exercícios</h2>

<h3>Exercício 1</h3>

Utilizando o método find_all() e suas variações junto ao HTML passado, resolva as questões abaixo.

In [None]:
soup = BeautifulSoup(html_doc)
print(soup)

<b>a) Todas tags da classe "story"</b>

In [None]:
#inicio do código

#fim do código

<b>b) Tag que tenha atributo <b>id</b> com valor "link2" e todas suas irmãs subsequentes</b>

In [None]:
#inicio do código

#fim do código

<h3>Exercício 2</h3>

Faça uma busca no nosso html utilizando a função select() para cada uma das questões abaixo.






<b>a) Todas as tags b que estão dentro de um p</b>

In [None]:
#inicio do código

#fim do código

<b>b) Todas as tags da classe = "story"</b>

In [None]:
#inicio do código

#fim do código

<b>c) Tag com atributo id = "link2" e as suas irmãs subsequentes
</b>

In [None]:
#inicio do código

#fim do código