# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Análise de Dados com Linguagem Python</font>

## Lab - Web Scraping

Para dúvidas sobre tags HTML e CSS consulte o material de referência na seção Bibliografia, Referências e Links Úteis ao final do capítulo.

### 1 - Extraindo Dados de Páginas Web

In [1]:
# Imports
# https://pypi.org/project/beautifulsoup4/
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

In [2]:
html_doc = """<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a href="http://www.exemplo.com/james" class="agente" id="link1">James</a>,
<a href="http://www.exemplo.com/julio" class="agente" id="link2">Julio</a> e
<a href="http://www.exemplo.com/jucimar" class="agente" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
 <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
 <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
 <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>"""

In [3]:
# Extraindo a tag a
tagsA = SoupStrainer("a")

In [4]:
# Convertendo o resultado anterioe em doc html do tipo lxml
soupA = BeautifulSoup(html_doc, 'lxml', parse_only = tagsA)

In [5]:
print(type(soupA))

<class 'bs4.BeautifulSoup'>


In [6]:
print(soupA)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a><a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a><a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [7]:
# Formatando o resultado
print(soupA.prettify())

<a class="agente" href="http://www.exemplo.com/james" id="link1">
 James
</a>
<a class="agente" href="http://www.exemplo.com/julio" id="link2">
 Julio
</a>
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">
 Jucimar
</a>


In [8]:
# O objeto soupA tem atributo classe?
print(soupA.a.has_attr('class'))

True


In [9]:
# O objeto soupA tem atributo name?
print(soupA.a.has_attr('name'))

False


### 2 - Como Organizar e Analisar Dados Extraídos da Web

In [10]:
print(soupA.find("a"))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [11]:
print(soupA.find_all("a")) 

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [12]:
print(soupA.find("a", attrs = {'class':'agente'}))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [13]:
print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [14]:
print(soupA.find("a", attrs = {'id':'link3'}))

<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [15]:
print(soupA.find('a', id = "link2"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [16]:
print(soupA.find_all("a", limit = 2))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>]


### 3 - Usando Expressão Regular Para Filtrar os Resultados

In [17]:
import re

In [18]:
print(soupA.find("a", text = re.compile(r'lio')))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [19]:
print(soupA.find_all("a", attrs = {'id':re.compile(r'3')}))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [20]:
print(soupA.find_all(re.compile(r'a')))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [21]:
soup = BeautifulSoup(html_doc, 'lxml')

In [22]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [23]:
print(soup.find_all("p", "historia"))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [24]:
print(soup.find_all("p", "title"))

[<p class="title"><b>História dos Agentes Especiais</b></p>]


In [25]:
print(soup.find_all("p", attrs = {'class':['title','historia']}))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [26]:
print(soup.find_all(["p", "li"]))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [27]:
print(soup.find_all(string = 'James'))

['James']


In [28]:
print(soup.find_all(text = re.compile(r'Ja')))

['James', 'James Bond, 007: Agente especial para atividades internacionais.']


In [29]:
print(soup.find_all("a", string = "Jucimar"))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [30]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}))

<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>


In [31]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}).text)

Jucimar Moraes, 005: Agente especial para proteger a rainha.


In [32]:
print(soup.p.b)

<b>História dos Agentes Especiais</b>


In [33]:
print(soup.p.text)

História dos Agentes Especiais


### 4 - Busca e Extração de Hierarquia da Página Web

In [34]:
print(list(soup.find('p', 'historia').children))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [35]:
print(list(soup.find('p', 'historia').contents))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [36]:
print(list(soup.find('p', 'historia').descendants))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, 'James', ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, 'Julio', ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


> Usando List Comprehension 

In [37]:
print([a.name for a in soup.find('p','historia').children])

[None, 'a', None, 'a', None, 'a', None]


In [38]:
print([{'tag':a.name,'text':a.text,'class':a.get('class')} for a in soup.find('p','historia').children if a.name!=None])


[{'tag': 'a', 'text': 'James', 'class': ['agente']}, {'tag': 'a', 'text': 'Julio', 'class': ['agente']}, {'tag': 'a', 'text': 'Jucimar', 'class': ['agente']}]


In [39]:
print([a.name for a in soup.find('p', 'historia').descendants])

[None, 'a', None, None, 'a', None, None, 'a', None, None]


In [40]:
print(list(filter(None, [a.text for a in soup.find('p', 'historia').descendants])))

['Era uma vez três agentes especiais; e seus nomes eram\n', 'James', 'James', ',\n', 'Julio', 'Julio', ' e\n', 'Jucimar', 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


In [41]:
print(soup.find('p', 'historia').findChildren())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [42]:
print(soup.find('p', 'historia').findChild())

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [43]:
print(soup.find('a', 'agente').parent)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


In [44]:
print(soup.find('a', 'agente').parent.name)

p


In [45]:
print(soup.find('a', 'agente').parent.text)

Era uma vez três agentes especiais; e seus nomes eram
James,
Julio e
Jucimar;
e eles viviam em Londres, na Inglaterra.


In [46]:
for elemento in soup.find('a', 'agente').parents:
    print(elemento.name)

p
body
html
[document]


In [47]:
# Encontra o nível anterior
print(soup.find('a','agente').findParent())

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


### 5- Navegando Pelas Tags

In [48]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [49]:
print(soup.find('p','historia').next)

Era uma vez três agentes especiais; e seus nomes eram



In [50]:
print(soup.find('p','historia').next.next)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [51]:
print(soup.find('p','historia').next_element)

Era uma vez três agentes especiais; e seus nomes eram



In [52]:
print(soup.find('p','historia').next_element.next_element)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [53]:
print(soup.find('p','historia').next_element.next_element.next_element)

James


In [54]:
print(soup.find('p','title').next.next.next) 





In [55]:
print(soup.find('p','historia').previous) 





In [56]:
print(soup.find('p','historia').previous.previous)

História dos Agentes Especiais


In [57]:
print(soup.find('p','historia').previous_element)





In [58]:
print(soup.find('p','historia').previous_element.previous_element)

História dos Agentes Especiais


In [59]:
print(soup.find('p','historia').previous_element.previous_element.previous_element)

<b>História dos Agentes Especiais</b>


In [60]:
print(soup.find('p','title').next.next.previous.previous)

<p class="title"><b>História dos Agentes Especiais</b></p>


In [61]:
for element in soup.find('ul').next_elements:
    print(element)



<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
James Bond, 007: Agente especial para atividades internacionais.


<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
Julio Verner, 006: Agente especial contra o. terrorismo.


<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
Jucimar Moraes, 005: Agente especial para proteger a rainha.








In [62]:
print(soup.find('p','historia').next)

Era uma vez três agentes especiais; e seus nomes eram



In [63]:
print(soup.find('p','historia').next_element)

Era uma vez três agentes especiais; e seus nomes eram



In [64]:
print(soup.find('p','historia').find_next()) 

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [65]:
print(soup.find('p','historia').find_next('h1'))

<h1>Agentes Especiais</h1>


In [66]:
print(soup.find('p','historia').find_all_next())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, <p class="historia">...</p>, <h1>Agentes Especiais</h1>, <ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [67]:
print(soup.find('p','historia').find_all_next('li', limit = 2))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>]


In [68]:
print(soup.find('ul').previous.previous.previous)

<h1>Agentes Especiais</h1>


In [69]:
print(soup.find('ul').find_previous())

<h1>Agentes Especiais</h1>


In [70]:
print(soup.find('ul').find_previous('p','title'))

<p class="title"><b>História dos Agentes Especiais</b></p>


In [71]:
print(soup.find('ul').find_all_previous('p'))

[<p class="historia">...</p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="title"><b>História dos Agentes Especiais</b></p>]


In [72]:
print(soup.find('p','title').next_sibling)





In [73]:
print(soup.find('p','title').next_sibling.next_sibling)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


In [74]:
print(soup.find('ul').previous_sibling) 





In [75]:
print(soup.find('ul').previous_sibling.previous_sibling)

<h1>Agentes Especiais</h1>


In [76]:
title = [ele.name for ele in soup.find('p','title').next_siblings]
print(list(filter(None,title)))

['p', 'p', 'h1', 'ul']


In [77]:
ul = [ele.name for ele in soup.find('ul').previous_siblings]
print(list(filter(None,ul)))

['h1', 'p', 'p', 'p']


In [78]:
print(soup.find('p','title').find_next_siblings('p'))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [79]:
print(soup.find('h1').find_next_sibling())

<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>


In [80]:
print(soup.find('h1').find_next_sibling('li'))

None


In [81]:
print(soup.find('ul').find_previous_sibling())

<h1>Agentes Especiais</h1>


In [82]:
print(soup.find('ul').find_previous_siblings())

[<h1>Agentes Especiais</h1>, <p class="historia">...</p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="title"><b>História dos Agentes Especiais</b></p>]


### 6 - Usando Seletor CSS e Combinando Elementos

In [83]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [84]:
print(soup.select('li[data-id]'))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [85]:
print(soup.select('ul li[data-id]')[1]) 

<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>


In [86]:
print(soup.select_one('li[data-id]'))

<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>


In [87]:
print(soup.select('p.historia > a.agente'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [88]:
print(soup.select('p b'))

[<b>História dos Agentes Especiais</b>]


In [89]:
print(soup.select('p + h1'))

[<h1>Agentes Especiais</h1>]


In [90]:
print(soup.select('p.historia + h1'))

[<h1>Agentes Especiais</h1>]


In [91]:
print(soup.select('a[href*="exemplo.com"]'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [92]:
print(soup.select('a[id*="link"]'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


# Fim