# BeautifulSoup

É uma biblioteca criada para facilitar a análise e extração de dados de documentos HTML e XML dados como strings. 

Para analisar um documento, devemos passá-lo como argumento dentro de um construtor BeautifulSoup. Você pode passar este argumento como uma string, e o BeautifulSoup então interpreta o documento usando o melhor parser disponível.

O BeautifulSoup transforma um documento HTML complexo em uma complexa árvore de objetos Python que podem ser acessados a partir do objeto `soup` original

**Documentação:** https://www.crummy.com/software/BeautifulSoup/bs4/doc.ptbr/

### Tags

As tags podem conter strings e outras tags. Estes elementos são as tags filhas (children). O BeautifulSoup oferece diferentes atributos para navegar e iterar sobre as tags filhas.

São passadas como atributos do objeto `soup`, e possuem métodos e atributos importantes. A primeira ocorrência da tag é revelada. Caso desejamos todas as ocorrências da tag escolhida, utilizamos a função soup.find_all["tag"] que retorna uma lista com cada tag encontrada.

Métodos das Tags: (Acessáveis com soup.tag)
* name: retorna o nome da tag
* attrs: retorna os atributos HTML que estão dentro da tag
* tag["atributo"]: retorna o valor correspondente a esse atributo HTML dentro da tag
* string: retorna o texto escrito dentro de uma tag (NavigableString)
* contents: retorna as tags filhas
* parent: retorna a tag que engloba a atual

### Exemplo:

In [7]:
html = """<html><head><title>The Dormouse's story</title></head>
          <body>
          <p class="title"><b>The Dormouse's story</b></p>

          <p class="story">Once upon a time there were three little sisters; and their names were
          <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
          <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
          <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
          and they lived at the bottom of a well.</p>

          <p class="story">...</p>"""

In [8]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, "html.parser")

In [48]:
print(soup.get_text()) # Retorna somente as strings do documento
print("-------------------------------------------------------")
print(soup.prettify()) # pretty-printing do HTML

The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
          Elsie,
          Lacie and
          Tillie;
          and they lived at the bottom of a well.
...
-------------------------------------------------------
<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister" href="http://example.com/elsie" id="link1">
    Elsie
   </a>
   ,
   <a class="sister" href="http://example.com/lacie" id="link2">
    Lacie
   </a>
   and
   <a class="sister" href="http://example.com/tillie" id="link3">
    Tillie
   </a>
   ;
          and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>


In [62]:
print("head: ",soup.head) # primeira ocorrência da tag head
print("-------------------------------------------------------")
print("String: ",soup.title.string) # retorna a string situada dentro da tag
print("-------------------------------------------------------")
print("p: ",soup.p) # primeira ocorrência da tag p
print("-------------------------------------------------------")
print("b: ",soup.p.b) # primeira ocorrência da tag b dentro da tag p
print("-------------------------------------------------------")
print("b parente de p: ",soup.b.parent) # primeira ocorrência da tag b dentro da tag p
print("-------------------------------------------------------")
print("p contém atributo 'classe': ",soup.p.has_attr("class")) # primeira ocorrência da tag b dentro da tag p

head:  <head><title>The Dormouse's story</title></head>
-------------------------------------------------------
String:  The Dormouse's story
-------------------------------------------------------
p:  <p class="title"><b>The Dormouse's story</b></p>
-------------------------------------------------------
b:  <b>The Dormouse's story</b>
-------------------------------------------------------
b parente de p:  <p class="title"><b>The Dormouse's story</b></p>
-------------------------------------------------------
p contém atributo 'classe':  True


In [52]:
for i in soup.body.contents: # lista todas as tags dentro de "body"
    if i != "\n": # strings vazias
        print(i) 
print("-------------------------------------------------------")
print("body: ",soup.body.contents[1]) # acessa uma das tags

<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
          <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
          <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
          <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
          and they lived at the bottom of a well.</p>
<p class="story">...</p>
-------------------------------------------------------
body:  <p class="title"><b>The Dormouse's story</b></p>


### FIND_ALL( ): Filtrar ocorrências de uma tag ou expressão regular (regex)

Argumentos:
* name: busca o nome de uma ou mais tags

* kwargs: a função reconhece qualquer argumento que não esteja entre os descritos como kwargs. Eles filtram as tags que contém determinada palavra-chave como atributo HTML dentro dela. 
>Ex.: soup.find_all(id = "link3")

* attrs: é um dicionário com função idêntica ao dos kwargs. Busca tags que possuem um atributo e um valor associado a ele.
>Ex.: soup.find_all(attrs = {"id":"link3"})

* string: permite buscar por strings ao invés de tags

* limit: define a quantidade máxima de ocorrências que devemos filtrar e armazenar na lista

#### name

In [59]:
for i in soup.find_all("b"): print(i) # retorna uma lista com as ocorrências da tag "b" 

<b>The Dormouse's story</b>


In [61]:
for i in soup.find_all(["a", "b"]): print(i) # retorna uma lista com as ocorrências das tags "a" ou "b" 

<b>The Dormouse's story</b>
<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


In [60]:
import re 
for i in soup.find_all(re.compile("^b")): print(i) # retorna uma lista com as tags que começam com a letra b 

<body>
<p class="title"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
          <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
          <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and
          <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;
          and they lived at the bottom of a well.</p>
<p class="story">...</p></body>
<b>The Dormouse's story</b>


#### kwargs

In [70]:
for i in soup.find_all(id = "link3"): print(i) # tags que possuem o atributo HTML "id" como sendo igual a "link3" 

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


In [71]:
for i in soup.find_all(id = True): print(i) # tags que possuem o atributo "id" não-nulo 

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


#### attrs

In [75]:
for i in soup.find_all(attrs = {"id" : "link3"}): print(i) # tags que possuem o atributo "id = link3"

<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>


#### string

In [80]:
soup.find_all("a", string = "Elsie") # ocorrência da string Elsie dentro da tag "a"

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>]

#### limit

In [79]:
for i in soup.find_all("a", limit = 2): print(i) # primeiras duas ocorrências da tag "a"

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>
<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>
