# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Análise de Dados com Linguagem Python</font>

## Lab - Web Scraping

Para dúvidas sobre tags HTML e CSS consulte o material de referência na seção Bibliografia, Referências e Links Úteis ao final do capítulo.

### 1 - Extraindo Dados de Páginas Web

In [57]:
# Imports
# https://pypi.org/project/beautifulsoup4/
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

In [58]:
html_doc = """<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a href="http://www.exemplo.com/james" class="agente" id="link1">James</a>,
<a href="http://www.exemplo.com/julio" class="agente" id="link2">Julio</a> e
<a href="http://www.exemplo.com/jucimar" class="agente" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
 <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
 <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
 <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>"""

In [59]:
# Extraindo a tag a 
tagsA = SoupStrainer("a")

In [60]:
# Convertendo o resultado anterioe em doc html do tipo lxml
soupA = BeautifulSoup(html_doc, 'html.parser', parse_only=tagsA)


In [61]:
print(type(soupA))

<class 'bs4.BeautifulSoup'>


In [62]:
print(soupA)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a><a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a><a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [63]:
# Formatando o resultado
print(soupA.prettify())

<a class="agente" href="http://www.exemplo.com/james" id="link1">
 James
</a>
<a class="agente" href="http://www.exemplo.com/julio" id="link2">
 Julio
</a>
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">
 Jucimar
</a>



In [64]:
# O objeto soupA tem atributo classe?
print(soupA.a.has_attr('class'))

True


In [65]:
# O objeto soupA tem atributo name?
print(soupA.a.has_attr('name'))

False


### 2 - Como Organizar e Analisar Dados Extraídos da Web

In [66]:
print(soupA.find("a"))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [67]:
print(soupA.find_all("a")) 

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [68]:
print(soupA.find("a", attrs = {'class':'agente'}))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [69]:
print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


  print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))


In [70]:
print(soupA.find("a", attrs = {'id':'link3'}))

<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [71]:
print(soupA.find('a', id = "link2"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [72]:
print(soupA.find_all("a", limit = 2))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>]


### 3 - Usando Expressão Regular Para Filtrar os Resultados

In [73]:
import re

In [74]:
print(soupA.find("a", text = re.compile(r'lio')))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


  print(soupA.find("a", text = re.compile(r'lio')))


In [75]:
print(soupA.find_all("a", attrs = {'id':re.compile(r'3')}))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [76]:
print(soupA.find_all(re.compile(r'a')))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [77]:
soup = BeautifulSoup(html_doc, 'lxml')

In [78]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [79]:
print(soup.find_all("p", "historia"))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [80]:
print(soup.find_all("p", "title"))

[<p class="title"><b>História dos Agentes Especiais</b></p>]


In [81]:
print(soup.find_all("p", attrs = {'class':['title','historia']}))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [82]:
print(soup.find_all(["p", "li"]))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [83]:
print(soup.find_all(string = 'James'))

['James']


In [84]:
print(soup.find_all(text = re.compile(r'Ja')))

['James', 'James Bond, 007: Agente especial para atividades internacionais.']


  print(soup.find_all(text = re.compile(r'Ja')))


In [85]:
print(soup.find_all("a", string = "Jucimar"))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [86]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}))

<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>


In [87]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}).text)

Jucimar Moraes, 005: Agente especial para proteger a rainha.


In [88]:
print(soup.p.b)

<b>História dos Agentes Especiais</b>


In [89]:
print(soup.p.text)

História dos Agentes Especiais


### 4 - Busca e Extração de Hierarquia da Página Web

In [90]:
print(list(soup.find('p', 'historia').children))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [91]:
print(list(soup.find('p', 'historia').contents))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [92]:
print(list(soup.find('p', 'historia').descendants))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, 'James', ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, 'Julio', ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


> Usando List Comprehension 

In [93]:
print([a.name for a in soup.find('p','historia').children])

[None, 'a', None, 'a', None, 'a', None]


In [94]:
print([{'tag':a.name,'text':a.text,'class':a.get('class')} for a in soup.find('p','historia').children if a.name!=None])


[{'tag': 'a', 'text': 'James', 'class': ['agente']}, {'tag': 'a', 'text': 'Julio', 'class': ['agente']}, {'tag': 'a', 'text': 'Jucimar', 'class': ['agente']}]


In [95]:
print([a.name for a in soup.find('p', 'historia').descendants])

[None, 'a', None, None, 'a', None, None, 'a', None, None]


In [96]:
print(list(filter(None, [a.text for a in soup.find('p', 'historia').descendants])))

['Era uma vez três agentes especiais; e seus nomes eram\n', 'James', 'James', ',\n', 'Julio', 'Julio', ' e\n', 'Jucimar', 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


In [97]:
print(soup.find('p', 'historia').findChildren())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


  print(soup.find('p', 'historia').findChildren())


In [98]:
print(soup.find('p', 'historia').findChild())

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


  print(soup.find('p', 'historia').findChild())


In [99]:
print(soup.find('a', 'agente').parent)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


In [100]:
print(soup.find('a', 'agente').parent.name)

p


In [101]:
print(soup.find('a', 'agente').parent.text)

Era uma vez três agentes especiais; e seus nomes eram
James,
Julio e
Jucimar;
e eles viviam em Londres, na Inglaterra.


In [102]:
for elemento in soup.find('a', 'agente').parents:
    print(elemento.name)

p
body
html
[document]


In [103]:
# Encontra o nível anterior
print(soup.find('a','agente').findParent())

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


  print(soup.find('a','agente').findParent())


### 5- Navegando Pelas Tags

In [104]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [105]:
print(soup.find('p','historia').next)

Era uma vez três agentes especiais; e seus nomes eram



In [106]:
print(soup.find('p','historia').next.next)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [107]:
print(soup.find('p','historia').next_element)

Era uma vez três agentes especiais; e seus nomes eram



In [108]:
print(soup.find('p','historia').next_element.next_element)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [109]:
print(soup.find('p','historia').next_element.next_element.next_element)

James


In [110]:
print(soup.find('p','title').next.next.next) 





In [111]:
print(soup.find('p','historia').previous) 





In [112]:
print(soup.find('p','historia').previous.previous)

História dos Agentes Especiais


In [113]:
print(soup.find('p','historia').previous_element)





In [114]:
print(soup.find('p','historia').previous_element.previous_element)

História dos Agentes Especiais


In [115]:
print(soup.find('p','historia').previous_element.previous_element.previous_element)

<b>História dos Agentes Especiais</b>


In [116]:
print(soup.find('p','title').next.next.previous.previous)

<p class="title"><b>História dos Agentes Especiais</b></p>


In [117]:
for element in soup.find('ul').next_elements:
    print(element)



<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
James Bond, 007: Agente especial para atividades internacionais.


<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
Julio Verner, 006: Agente especial contra o. terrorismo.


<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
Jucimar Moraes, 005: Agente especial para proteger a rainha.








In [118]:
print(soup.find('p','historia').next)

Era uma vez três agentes especiais; e seus nomes eram



In [119]:
print(soup.find('p','historia').next_element)

Era uma vez três agentes especiais; e seus nomes eram



In [120]:
print(soup.find('p','historia').find_next()) 

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [121]:
print(soup.find('p','historia').find_next('h1'))

<h1>Agentes Especiais</h1>


In [122]:
print(soup.find('p','historia').find_all_next())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, <p class="historia">...</p>, <h1>Agentes Especiais</h1>, <ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [123]:
print(soup.find('p','historia').find_all_next('li', limit = 2))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>]


In [124]:
print(soup.find('ul').previous.previous.previous)

<h1>Agentes Especiais</h1>


In [125]:
print(soup.find('ul').find_previous())

<h1>Agentes Especiais</h1>


In [126]:
print(soup.find('ul').find_previous('p','title'))

<p class="title"><b>História dos Agentes Especiais</b></p>


In [127]:
print(soup.find('ul').find_all_previous('p'))

[<p class="historia">...</p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="title"><b>História dos Agentes Especiais</b></p>]


In [128]:
print(soup.find('p','title').next_sibling)





In [129]:
print(soup.find('p','title').next_sibling.next_sibling)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


In [130]:
print(soup.find('ul').previous_sibling) 





In [131]:
print(soup.find('ul').previous_sibling.previous_sibling)

<h1>Agentes Especiais</h1>


In [132]:
title = [ele.name for ele in soup.find('p','title').next_siblings]
print(list(filter(None,title)))

['p', 'p', 'h1', 'ul']


In [133]:
ul = [ele.name for ele in soup.find('ul').previous_siblings]
print(list(filter(None,ul)))

['h1', 'p', 'p', 'p']


In [134]:
print(soup.find('p','title').find_next_siblings('p'))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [135]:
print(soup.find('h1').find_next_sibling())

<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>


In [136]:
print(soup.find('h1').find_next_sibling('li'))

None


In [137]:
print(soup.find('ul').find_previous_sibling())

<h1>Agentes Especiais</h1>


In [138]:
print(soup.find('ul').find_previous_siblings())

[<h1>Agentes Especiais</h1>, <p class="historia">...</p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="title"><b>História dos Agentes Especiais</b></p>]


### 6 - Usando Seletor CSS e Combinando Elementos

In [139]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [140]:
print(soup.select('li[data-id]'))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [141]:
print(soup.select('ul li[data-id]')[1]) 

<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>


In [142]:
print(soup.select_one('li[data-id]'))

<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>


In [143]:
print(soup.select('p.historia > a.agente'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [144]:
print(soup.select('p b'))

[<b>História dos Agentes Especiais</b>]


In [145]:
print(soup.select('p + h1'))

[<h1>Agentes Especiais</h1>]


In [146]:
print(soup.select('p.historia + h1'))

[<h1>Agentes Especiais</h1>]


In [147]:
print(soup.select('a[href*="exemplo.com"]'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [148]:
print(soup.select('a[id*="link"]'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


# Fim