# Introdução ao BeautifulSoup.
    Aqui você aprenderá os principais atributos e métodos do BeautifulSoup.
    Tentei simplificar bastante, para que você possa aprender rapidamente.
    
Vídeo que me ajudou a criar este tutorial: https://www.youtube.com/watch?v=4UcqECQe5Kc&list=WL&index=20

In [1]:
from bs4 import BeautifulSoup
# Não precisaremos importar requests (já que já temos o 'html')

In [2]:
html_doc = """
<div class="header">
  <h2>Blog Name</h2>
</div>

<div class="row">
  <div class="leftcolumn">
    <div class="card">
      <h2>TITLE HEADING</h2>
      <h5>Title description, Dec 7, 2017</h5>
      <div class="fakeimg" style="height:200px;">Image</div>
      <p>Some text..</p>
    </div>
    <div class="card">
      <h2>TITLE HEADING</h2>
      <h5>Title description, Sep 2, 2017</h5>
      <div class="fakeimg" style="height:200px;">Image</div>
      <p>Some text..</p>
    </div>
  </div>
  <div class="rightcolumn">
    <div class="card">
      <h2>About Me</h2>
      <div class="fakeimg" style="height:100px;">Image</div>
      <p>Some text about me in culpa qui officia deserunt mollit anim..</p>
    </div>
    <div class="card">
      <h3>Popular Post</h3>
      <div class="fakeimg">Image</div><br>
      <div class="fakeimg">Image</div><br>
      <div class="fakeimg">Image</div>
    </div>
    <div class="stack-it">
      <span>    
          <h3>Popular Post</h3>
          <div class="fakeimg">Image</div><br>
          <div class="fakeimg">Image</div><br>
          <div class="fakeimg">Image</div>
      </span>
    </div>
    <div class="card">
      <h3 id="follow">Follow Me</h3>
      <p>Some text..</p>
    </div>
  </div>
</div>

<div class="footer">
  <h2>Footer</h2>
</div>
"""

###  Como você verá, o BeautifulSoup "dá sentido" ao documento html
     Mesmo que html_doc seja uma string, o bs4 a analisa e a converte em
     um objeto com certos atributos e métodos que nos ajudarão a obter
     informações específicas.

In [5]:
# ps: soup é uma instância.   BeautifulSoup é um objeto.
soup = BeautifulSoup(html_doc, 'html.parser')

In [6]:
# O conteúdo vem assim ... mas usando .prettify()
print(soup)


<div class="header">
<h2>Blog Name</h2>
</div>
<div class="row">
<div class="leftcolumn">
<div class="card">
<h2>TITLE HEADING</h2>
<h5>Title description, Dec 7, 2017</h5>
<div class="fakeimg" style="height:200px;">Image</div>
<p>Some text..</p>
</div>
<div class="card">
<h2>TITLE HEADING</h2>
<h5>Title description, Sep 2, 2017</h5>
<div class="fakeimg" style="height:200px;">Image</div>
<p>Some text..</p>
</div>
</div>
<div class="rightcolumn">
<div class="card">
<h2>About Me</h2>
<div class="fakeimg" style="height:100px;">Image</div>
<p>Some text about me in culpa qui officia deserunt mollit anim..</p>
</div>
<div class="card">
<h3>Popular Post</h3>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div>
</div>
<div class="stack-it">
<span>
<h3>Popular Post</h3>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div>
</span>
</div>
<div class="card">
<h3 id="follow">Follow Me</h3

In [8]:
# ...é possível ver uma versão "melhorada" do html 

print(soup.prettify())

<div class="header">
 <h2>
  Blog Name
 </h2>
</div>
<div class="row">
 <div class="leftcolumn">
  <div class="card">
   <h2>
    TITLE HEADING
   </h2>
   <h5>
    Title description, Dec 7, 2017
   </h5>
   <div class="fakeimg" style="height:200px;">
    Image
   </div>
   <p>
    Some text..
   </p>
  </div>
  <div class="card">
   <h2>
    TITLE HEADING
   </h2>
   <h5>
    Title description, Sep 2, 2017
   </h5>
   <div class="fakeimg" style="height:200px;">
    Image
   </div>
   <p>
    Some text..
   </p>
  </div>
 </div>
 <div class="rightcolumn">
  <div class="card">
   <h2>
    About Me
   </h2>
   <div class="fakeimg" style="height:100px;">
    Image
   </div>
   <p>
    Some text about me in culpa qui officia deserunt mollit anim..
   </p>
  </div>
  <div class="card">
   <h3>
    Popular Post
   </h3>
   <div class="fakeimg">
    Image
   </div>
   <br/>
   <div class="fakeimg">
    Image
   </div>
   <br/>
   <div class="fakeimg">
    Image
   </div>
  </div>
  <div class

#### Usando os atributos do objeto bs4 (tags do html), podemos buscar as informações que queremos

In [9]:
# Essa abordagem nos fornece a primeira tag, mas nem sempre estamos procurando o conteúdo na primeira tag
soup.div

<div class="header">
<h2>Blog Name</h2>
</div>

In [10]:
# Digamos que precisamos ter TITLE HEADING, sabemos que está dentro da tag h2, mas como eu disse
soup.h2 # Primeira tag h2

<h2>Blog Name</h2>

In [11]:
# Para obter TITLE HEADING, podemos usar o método find(), passando uma tag e um atributo como argumentos
# Como a tag h2 do TITLE HEADING não tem um atributo, vamos procurar uma tag em que ele está

soup.find ('div', class_ = 'card')

<div class="card">
<h2>TITLE HEADING</h2>
<h5>Title description, Dec 7, 2017</h5>
<div class="fakeimg" style="height:200px;">Image</div>
<p>Some text..</p>
</div>

In [13]:
# Também podemos passar esse resultado para uma variável (ainda objeto bs4)
specific_heading = soup.find('div', class_= 'card')

# e agora o conseguimos
specific_heading.h2

<h2>TITLE HEADING</h2>

In [14]:
# Para obter apenas o conteúdo real, você pode usar o atributo .text

specific_heading.h2.text

'TITLE HEADING'

#### O método .findAll() ( ou find_all() ) nos fornece um retorno semelhante, mas como o próprio nome diz, ele retornará all / todos os atributos / tags que passamos como parâmetros. 

In [15]:
# Todos os divs
soup.findAll('div')

[<div class="header">
 <h2>Blog Name</h2>
 </div>,
 <div class="row">
 <div class="leftcolumn">
 <div class="card">
 <h2>TITLE HEADING</h2>
 <h5>Title description, Dec 7, 2017</h5>
 <div class="fakeimg" style="height:200px;">Image</div>
 <p>Some text..</p>
 </div>
 <div class="card">
 <h2>TITLE HEADING</h2>
 <h5>Title description, Sep 2, 2017</h5>
 <div class="fakeimg" style="height:200px;">Image</div>
 <p>Some text..</p>
 </div>
 </div>
 <div class="rightcolumn">
 <div class="card">
 <h2>About Me</h2>
 <div class="fakeimg" style="height:100px;">Image</div>
 <p>Some text about me in culpa qui officia deserunt mollit anim..</p>
 </div>
 <div class="card">
 <h3>Popular Post</h3>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div>
 </div>
 <div class="stack-it">
 <span>
 <h3>Popular Post</h3>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div>
 </span>
 </div>
 <div clas

In [16]:
# Todos os h2s
soup.findAll('h2')

[<h2>Blog Name</h2>,
 <h2>TITLE HEADING</h2>,
 <h2>TITLE HEADING</h2>,
 <h2>About Me</h2>,
 <h2>Footer</h2>]

In [17]:
# Todos os divs em que seu atributo de classe é igual a 'fakeimg'
soup.findAll('div', class_="fakeimg")

[<div class="fakeimg" style="height:200px;">Image</div>,
 <div class="fakeimg" style="height:200px;">Image</div>,
 <div class="fakeimg" style="height:100px;">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>]

#### Outra maneira de obter uma informação específica é 'empilhando' os atributos

In [19]:
soup.find('div', class_="stack-it")

<div class="stack-it">
<span>
<h3>Popular Post</h3>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div>
</span>
</div>

In [20]:
stacking_attributes = soup.find('div', class_="stack-it")

stacking_attributes.span

<span>
<h3>Popular Post</h3>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div>
</span>

In [21]:
stacking_attributes.span.h3

<h3>Popular Post</h3>

In [22]:
stacking_attributes.span.h3.text

'Popular Post'

#### O atributo .contents retorna para nós os filhos da tag (tags dentro dessa tag)

In [23]:
# retorna no formato de uma lista
stacking_attributes.contents

['\n',
 <span>
 <h3>Popular Post</h3>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div>
 </span>,
 '\n']

In [24]:
stacking_attributes.contents[0]

'\n'

In [25]:
''' 
    Observe que <span> é filho, mas <h3> e <<<divs>>> são filhos do <span>,
     é por isso que o segundo item da lista é todo o <span>
'''
stacking_attributes.contents[1]

<span>
<h3>Popular Post</h3>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div>
</span>

#### Podemos usar .select() para selecionar as tags 'diretamente da classe'
     ps: retorna uma lista

In [26]:
soup.select(".stack-it")

[<div class="stack-it">
 <span>
 <h3>Popular Post</h3>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div>
 </span>
 </div>]

In [27]:
soup.select(".fakeimg")

[<div class="fakeimg" style="height:200px;">Image</div>,
 <div class="fakeimg" style="height:200px;">Image</div>,
 <div class="fakeimg" style="height:100px;">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>]

Características de lista

In [28]:
soup.select(".fakeimg")[0]

<div class="fakeimg" style="height:200px;">Image</div>

In [29]:
soup.select(".fakeimg")[2:5]

[<div class="fakeimg" style="height:100px;">Image</div>,
 <div class="fakeimg">Image</div>,
 <div class="fakeimg">Image</div>]

#### .get_text() como você provavelmente pensa ... sim, ele recebe o texto
        Do mesmo modo como o atributo .text
        No entanto, .get_text() também suporta vários argumentos que podem alterar como ele se comporta
        (separator, strip, types). Se você precisar de mais controle sobre o resultado, precisará da forma funcional.

In [30]:
soup.find('div', class_="stack-it").get_text()

'\n\nPopular Post\nImage\nImage\nImage\n\n'

In [31]:
soup.find('div', class_="stack-it").text

'\n\nPopular Post\nImage\nImage\nImage\n\n'

In [32]:
# Você pode especificar uma string a ser usada para unir os pedaços do texto:
soup.find('div', class_="stack-it").get_text('|')

'\n|\n|Popular Post|\n|Image|\n|Image|\n|Image|\n|\n'

In [33]:
soup.find('div', class_="stack-it").get_text(' ')

'\n \n Popular Post \n Image \n Image \n Image \n \n'

In [34]:
# Remover o \n (Enter)
soup.find('div', class_="stack-it").get_text(' ', strip=True)

'Popular Post Image Image Image'

#### Vamos fazer alguns testes hehe 

In [35]:
# Uma lista
soup.select(".stack-it")

[<div class="stack-it">
 <span>
 <h3>Popular Post</h3>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div><br/>
 <div class="fakeimg">Image</div>
 </span>
 </div>]

In [42]:
# Cada item da lista
for item in soup.select(".stack-it"):
    print(item)

<div class="stack-it">
<span>
<h3>Popular Post</h3>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div><br/>
<div class="fakeimg">Image</div>
</span>
</div>


In [46]:
# Já que estamos trabalhando com um objeto bs4... apenas o conteúdo:
for item in soup.select(".stack-it"):
    print(item.text)



Popular Post
Image
Image
Image




In [47]:
# Legal
for item in soup.select(".stack-it"):
    print(item.get_text('-'))


-
-Popular Post-
-Image-
-Image-
-Image-
-



In [48]:
# Sem o '\n'
for item in soup.select(".stack-it"):
    print(item.get_text('-', strip=True))

Popular Post-Image-Image-Image


#### Ah, com .find() também podemos procurar identificadores específicos

In [49]:
soup.find(id='follow')

<h3 id="follow">Follow Me</h3>

In [50]:
# Mesmo resultado? Não! Aqui temos uma lista (de todos os IDs 'follow')
soup.findAll(id='follow')

[<h3 id="follow">Follow Me</h3>]

#####  Agora, voltando ao assunto .contents-children. Podemos encontrar o pai de uma tag (a tag que contém a tag que temos) usando .find_parent() 

In [51]:
# div é o pai de {h3 id = "follow"}
soup.find(id='follow').findParent()

<div class="card">
<h3 id="follow">Follow Me</h3>
<p>Some text..</p>
</div>

In [52]:
#### e é possível encontrar seus irmãos com find_next_sibling()

In [53]:
soup.find(id='follow').findNextSibling()

<p>Some text..</p>

In [54]:
soup.find(id='follow').find_next_sibling()

<p>Some text..</p>

### É isso aí. Claro que há muito mais, mas esses são os principais métodos e atributos que você usará