# <font color='blue'>Scrapping com BeautifulSoup</font>
# <font color='blue'>Apoena Stack</font>

### Link referência : https://beautiful-soup-4.readthedocs.io/en/latest/

### 1 - Extraindo Dados de Páginas Web

In [1]:
# Imports
# https://pypi.org/project/beautifulsoup4/
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

In [2]:
html_doc = """
<html>
<head>
    <title>Os Mestres da Literatura</title>
</head>
<body>
    <p class="title"><b>História dos Mestres da Literatura</b></p>
    <p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a href="http://www.exemplo.com/alice" class="autor" id="link1">Alice</a>,
    <a href="http://www.exemplo.com/bruno" class="autor" id="link2">Bruno</a> e
    <a href="http://www.exemplo.com/clara" class="autor" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>
    <p class="historia">...</p>
    <h1>Mestres da Literatura</h1>
    <ul>
        <li data-id="23456">Alice Martins, autora de romances históricos.</li>
        <li data-id="34567">Bruno Lima, autor de ficção científica.</li>
        <li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
    </ul>
</body>
</html>
"""

In [4]:
# Extraindo a tag a
tagsA = SoupStrainer("a")
tagsA

<bs4.element.SoupStrainer at 0x16979e3e3b0>

In [5]:
# pegando apenas os dados que estão na tag selecionada
soupA = BeautifulSoup(html_doc, parse_only = tagsA)
soupA

<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a><a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a><a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>

In [6]:
print(type(soupA))

<class 'bs4.BeautifulSoup'>


In [7]:
print(soupA)

<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a><a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a><a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>


In [8]:
# Formatando o resultado
print(soupA.prettify())

<a class="autor" href="http://www.exemplo.com/alice" id="link1">
 Alice
</a>
<a class="autor" href="http://www.exemplo.com/bruno" id="link2">
 Bruno
</a>
<a class="autor" href="http://www.exemplo.com/clara" id="link3">
 Clara
</a>


In [9]:
# O objeto soupA tem atributo classe?
print(soupA.a.has_attr('class'))
# O objeto soupA tem atributo href?
print(soupA.a.has_attr('href'))

True
True


In [10]:
# O objeto soupA tem atributo name?
print(soupA.a.has_attr('name'))

False


### 2 - Como Organizar e Analisar Dados Extraídos da Web

In [11]:
print(soupA.find("a"))

<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>


In [12]:
# Pegando todas as tags
find_all_a = soupA.find_all("a")

print(find_all_a)

print('\n Limitando a quantidade de retorno: \n')

print(soupA.find_all("a", limit = 2))

print('\n Abaixo apenas um elemento: \n')

print(find_all_a[0].prettify())

[<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>, <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>, <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>]

 Limitando a quantidade de retorno: 

[<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>, <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>]

 Abaixo apenas um elemento: 

<a class="autor" href="http://www.exemplo.com/alice" id="link1">
 Alice
</a>



In [13]:
# pega o primeiro elemento da tag que corresponde ao atributo selecionado
print(soupA.find("a", attrs = {'id':'link1'}))

<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>


In [14]:
# pega o primeiro elemento da tag que corresponde ao texto selecionado
print(soupA.find("a", attrs = {'class':'autor'}, text = "Alice"))

<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>


In [15]:
# uma outra variação de filtro de atributos
print(soupA.find('a', id = "link2"))

<a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>


In [16]:
# Para usar expressão regular nos filtros
import re

In [17]:
print(soupA.find("a", text = re.compile(r'ice')))

<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>


In [18]:
print(soupA.find_all("a", attrs = {'id':re.compile(r'3')}))

[<a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>]


In [19]:
# Aqui vai retornar uma lista e você terá que tratar os casos separadamente, caso necessário
print(soupA.find_all(re.compile(r'a')))

[<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>, <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>, <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>]


In [20]:
## relembrando o arquivo inicial
print(html_doc)


<html>
<head>
    <title>Os Mestres da Literatura</title>
</head>
<body>
    <p class="title"><b>História dos Mestres da Literatura</b></p>
    <p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a href="http://www.exemplo.com/alice" class="autor" id="link1">Alice</a>,
    <a href="http://www.exemplo.com/bruno" class="autor" id="link2">Bruno</a> e
    <a href="http://www.exemplo.com/clara" class="autor" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>
    <p class="historia">...</p>
    <h1>Mestres da Literatura</h1>
    <ul>
        <li data-id="23456">Alice Martins, autora de romances históricos.</li>
        <li data-id="34567">Bruno Lima, autor de ficção científica.</li>
        <li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
    </ul>
</body>
</html>



In [4]:
soup = BeautifulSoup(html_doc)

In [24]:
print(soup.find_all("p", "historia"))

[<p class="historia">...</p>]


In [25]:
print(soup.find_all("p", "title"))

[<p class="title"><b>História dos Mestres da Literatura</b></p>]


In [26]:
print(soup.find_all("p", attrs = {'class':['title','historia']}))

[<p class="title"><b>História dos Mestres da Literatura</b></p>, <p class="historia">...</p>]


In [28]:
print(soup.find_all(["li", "p"]))

[<p class="title"><b>História dos Mestres da Literatura</b></p>, <p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>, <p class="historia">...</p>, <li data-id="23456">Alice Martins, autora de romances históricos.</li>, <li data-id="34567">Bruno Lima, autor de ficção científica.</li>, <li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>]


In [29]:
print(soup.find_all(string = 'Alice'))

['Alice']


In [30]:
print(soup.find_all(text = re.compile(r'ce')))

['Alice', 'Alice Martins, autora de romances históricos.']


In [33]:
print(soup.ul.find('li', attrs = {'data-id':'34567'}))

<li data-id="34567">Bruno Lima, autor de ficção científica.</li>


In [35]:
print(soup.ul.find('li', attrs = {'data-id':'34567'}).text)

Bruno Lima, autor de ficção científica.


In [36]:
print(soup.p.b)

<b>História dos Mestres da Literatura</b>


In [37]:
print(soup.p.text)

História dos Mestres da Literatura


### 3 - Busca e Extração de Hierarquia da Página Web

In [40]:
print(list(soup.find('p', 'historia').children))

['...']


In [48]:
print(list(soup.find('ul').children))

['\n', <li data-id="23456">Alice Martins, autora de romances históricos.</li>, '\n', <li data-id="34567">Bruno Lima, autor de ficção científica.</li>, '\n', <li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>, '\n']


In [43]:
print(list(soup.find('p').contents))

[<b>História dos Mestres da Literatura</b>]


In [44]:
print(list(soup.find('p').descendants))

[<b>História dos Mestres da Literatura</b>, 'História dos Mestres da Literatura']


> Usando List Comprehension 

In [52]:
print([a.text for a in soup.find('ul').children])

['\n', 'Alice Martins, autora de romances históricos.', '\n', 'Bruno Lima, autor de ficção científica.', '\n', 'Clara Rocha, autora de poesia contemporânea.', '\n']


In [73]:
print([{'text':a.text,'id':a.get('data-id')} for a in soup.find('ul').children if a.name!=None])


[{'text': 'Alice Martins, autora de romances históricos.', 'id': '23456'}, {'text': 'Bruno Lima, autor de ficção científica.', 'id': '34567'}, {'text': 'Clara Rocha, autora de poesia contemporânea.', 'id': '45678'}]


In [80]:
print([a.text for a in soup.find('ul').descendants])

['\n', 'Alice Martins, autora de romances históricos.', 'Alice Martins, autora de romances históricos.', '\n', 'Bruno Lima, autor de ficção científica.', 'Bruno Lima, autor de ficção científica.', '\n', 'Clara Rocha, autora de poesia contemporânea.', 'Clara Rocha, autora de poesia contemporânea.', '\n']


In [79]:
print(list(filter(None, [a.text for a in soup.find('ul').descendants])))

['\n', 'Alice Martins, autora de romances históricos.', 'Alice Martins, autora de romances históricos.', '\n', 'Bruno Lima, autor de ficção científica.', 'Bruno Lima, autor de ficção científica.', '\n', 'Clara Rocha, autora de poesia contemporânea.', 'Clara Rocha, autora de poesia contemporânea.', '\n']


In [81]:
# Retorna lista com todos
print(soup.find('p').findChildren())

[<b>História dos Mestres da Literatura</b>]


In [82]:
#retorna o primeiro
print(soup.find('p').findChild())

<b>História dos Mestres da Literatura</b>


In [83]:
print(soup.find('a', 'autor').parent)

<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>


In [84]:
print(soup.find('a', 'autor').parent.name)

p


In [85]:
print(soup.find('a', 'autor').parent.text)

Era uma vez três autores renomados; e seus nomes eram
    Alice,
    Bruno e
    Clara;
    e eles viviam em Paris, na França.


In [86]:
# pega a tag dos parents  
for elemento in soup.find('a', 'autor').parents:
    print(elemento.name)

p
body
html
[document]


In [47]:
# Encontra o nível anterior
print(soup.find('a','agente').findParent())

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


### 4- Navegando Pelas Tags

In [5]:
print(soup)

<html>
<head>
<title>Os Mestres da Literatura</title>
</head>
<body>
<p class="title"><b>História dos Mestres da Literatura</b></p>
<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>
<p class="historia">...</p>
<h1>Mestres da Literatura</h1>
<ul>
<li data-id="23456">Alice Martins, autora de romances históricos.</li>
<li data-id="34567">Bruno Lima, autor de ficção científica.</li>
<li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
</ul>
</body>
</html>



In [9]:
print(soup.find('p').next)

<b>História dos Mestres da Literatura</b>


In [12]:
print(soup.find('a').next.next.next)

<a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>


In [13]:
print(soup.find('a','autor').next_element)

Alice


In [15]:
print(soup.find('a','autor').next_element.next_element.next_element)

<a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>


In [21]:
print(soup.find('a','autor').previous) 

Era uma vez três autores renomados; e seus nomes eram
    


In [22]:
print(soup.find('a','autor').previous.previous)

<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>


In [23]:
print(soup.find('a','autor').previous_element)

Era uma vez três autores renomados; e seus nomes eram
    


In [24]:
print(soup.find('a','autor').previous_element.previous_element)

<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>


In [27]:
for element in soup.find('ul').next_elements:
    print(element)



<li data-id="23456">Alice Martins, autora de romances históricos.</li>
Alice Martins, autora de romances históricos.


<li data-id="34567">Bruno Lima, autor de ficção científica.</li>
Bruno Lima, autor de ficção científica.


<li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
Clara Rocha, autora de poesia contemporânea.










In [28]:
print(soup.find('a','autor').find_next()) 

<a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>


In [29]:
print(soup.find('a','autor').find_next('h1'))

<h1>Mestres da Literatura</h1>


In [30]:
print(soup.find('a','autor').find_all_next())

[<a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>, <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>, <p class="historia">...</p>, <h1>Mestres da Literatura</h1>, <ul>
<li data-id="23456">Alice Martins, autora de romances históricos.</li>
<li data-id="34567">Bruno Lima, autor de ficção científica.</li>
<li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
</ul>, <li data-id="23456">Alice Martins, autora de romances históricos.</li>, <li data-id="34567">Bruno Lima, autor de ficção científica.</li>, <li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>]


In [33]:
print(soup.find('a','autor').find_all_next('li', limit = 2))

[<li data-id="23456">Alice Martins, autora de romances históricos.</li>, <li data-id="34567">Bruno Lima, autor de ficção científica.</li>]


In [36]:
print(soup.find('ul').find_all_previous('p'))

[<p class="historia">...</p>, <p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>, <p class="title"><b>História dos Mestres da Literatura</b></p>]


In [35]:
print(soup.find('ul').find_previous('p','title'))

<p class="title"><b>História dos Mestres da Literatura</b></p>


In [46]:
print(soup.find('p','title').next_sibling.next_sibling)
print('\n next elements \n')
print(soup.find('p','title').next_element.next_element)
print(soup.find('p','title').next.next)

<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>

 next elements 

História dos Mestres da Literatura
História dos Mestres da Literatura


In [50]:
print(soup.find('ul').previous_sibling.previous_sibling)

<h1>Mestres da Literatura</h1>


In [53]:
title = [ele.name for ele in soup.find('p','title').next_siblings]
print(list(filter(None,title)))

['p', 'p', 'h1', 'ul']


In [57]:
print(soup.find('p','title').find_next_siblings('p'))

[<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>, <p class="historia">...</p>]


In [62]:
print(soup.find('h1'))

print('\n next \n')

print(soup.find('h1').find_next_sibling())

<h1>Mestres da Literatura</h1>

 next 

<ul>
<li data-id="23456">Alice Martins, autora de romances históricos.</li>
<li data-id="34567">Bruno Lima, autor de ficção científica.</li>
<li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
</ul>


### 5 - Usando Seletor CSS e Combinando Elementos

In [63]:
print(soup)

<html>
<head>
<title>Os Mestres da Literatura</title>
</head>
<body>
<p class="title"><b>História dos Mestres da Literatura</b></p>
<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>
<p class="historia">...</p>
<h1>Mestres da Literatura</h1>
<ul>
<li data-id="23456">Alice Martins, autora de romances históricos.</li>
<li data-id="34567">Bruno Lima, autor de ficção científica.</li>
<li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>
</ul>
</body>
</html>



In [64]:
print(soup.select('li[data-id]'))

[<li data-id="23456">Alice Martins, autora de romances históricos.</li>, <li data-id="34567">Bruno Lima, autor de ficção científica.</li>, <li data-id="45678">Clara Rocha, autora de poesia contemporânea.</li>]


In [65]:
print(soup.select('ul li[data-id]')[1]) 

<li data-id="34567">Bruno Lima, autor de ficção científica.</li>


In [66]:
print(soup.select_one('li[data-id]'))

<li data-id="23456">Alice Martins, autora de romances históricos.</li>


In [68]:
print(soup.select('p.story > a.autor'))

[<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>, <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>, <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>]


In [69]:
# Acessa o b dentro de p
print(soup.select('p b'))

[<b>História dos Mestres da Literatura</b>]


In [80]:
# Acessando elementos
print(soup.select('p'))
print(soup.select('p + p'))
print(soup.select('h1'))
print(soup.select('p + h1'))
print(soup.select('p.historia + h1'))

[<p class="title"><b>História dos Mestres da Literatura</b></p>, <p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>, <p class="historia">...</p>]
[<p class="story">Era uma vez três autores renomados; e seus nomes eram
    <a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>,
    <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a> e
    <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>;
    e eles viviam em Paris, na França.</p>, <p class="historia">...</p>]
[<h1>Mestres da Literatura</h1>]
[<h1>Mestres da Literatura</h1>]
[<h1>Mestres da Literatura</h1>]


In [81]:
print(soup.select('a[href*="exemplo.com"]'))

[<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>, <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>, <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>]


In [82]:
print(soup.select('a[id*="link"]'))

[<a class="autor" href="http://www.exemplo.com/alice" id="link1">Alice</a>, <a class="autor" href="http://www.exemplo.com/bruno" id="link2">Bruno</a>, <a class="autor" href="http://www.exemplo.com/clara" id="link3">Clara</a>]
