# <font color='blue'>Data Science Academy</font>
# <font color='blue'>Análise de Dados com Linguagem Python</font>

## Lab - Web Scraping

Para dúvidas sobre tags HTML e CSS consulte o material de referência na seção Bibliografia, Referências e Links Úteis ao final do capítulo.

### 1 - Extraindo Dados de Páginas Web

In [3]:
# Imports
# https://pypi.org/project/beautifulsoup4/
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

In [4]:
html_doc = """<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a href="http://www.exemplo.com/james" class="agente" id="link1">James</a>,
<a href="http://www.exemplo.com/julio" class="agente" id="link2">Julio</a> e
<a href="http://www.exemplo.com/jucimar" class="agente" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
 <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
 <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
 <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>"""

In [5]:
# Extraindo a tag a 
tagsA = SoupStrainer("a")

In [6]:
# Convertendo o resultado anterioe em doc html do tipo lxml
soupA = BeautifulSoup(html_doc, 'html.parser', parse_only=tagsA)


In [7]:
print(type(soupA))

<class 'bs4.BeautifulSoup'>


In [8]:
print(soupA)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a><a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a><a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [9]:
# Formatando o resultado
print(soupA.prettify())

<a class="agente" href="http://www.exemplo.com/james" id="link1">
 James
</a>
<a class="agente" href="http://www.exemplo.com/julio" id="link2">
 Julio
</a>
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">
 Jucimar
</a>



In [10]:
# O objeto soupA tem atributo classe?
print(soupA.a.has_attr('class'))

True


In [11]:
# O objeto soupA tem atributo name?
print(soupA.a.has_attr('name'))

False


### 2 - Como Organizar e Analisar Dados Extraídos da Web

In [12]:
print(soupA.find("a"))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [13]:
print(soupA.find_all("a")) 

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [14]:
print(soupA.find("a", attrs = {'class':'agente'}))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [15]:
print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


  print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))


In [16]:
print(soupA.find("a", attrs = {'id':'link3'}))

<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [17]:
print(soupA.find('a', id = "link2"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [18]:
print(soupA.find_all("a", limit = 2))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>]


### 3 - Usando Expressão Regular Para Filtrar os Resultados

In [19]:
import re

In [20]:
print(soupA.find("a", text = re.compile(r'lio')))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


  print(soupA.find("a", text = re.compile(r'lio')))


In [21]:
print(soupA.find_all("a", attrs = {'id':re.compile(r'3')}))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [22]:
print(soupA.find_all(re.compile(r'a')))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [23]:
soup = BeautifulSoup(html_doc, 'lxml')

In [24]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [25]:
print(soup.find_all("p", "historia"))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [26]:
print(soup.find_all("p", "title"))

[<p class="title"><b>História dos Agentes Especiais</b></p>]


In [27]:
print(soup.find_all("p", attrs = {'class':['title','historia']}))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [28]:
print(soup.find_all(["p", "li"]))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [29]:
print(soup.find_all(string = 'James'))

['James']


In [30]:
print(soup.find_all(text = re.compile(r'Ja')))

['James', 'James Bond, 007: Agente especial para atividades internacionais.']


  print(soup.find_all(text = re.compile(r'Ja')))


In [31]:
print(soup.find_all("a", string = "Jucimar"))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [32]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}))

<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>


In [33]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}).text)

Jucimar Moraes, 005: Agente especial para proteger a rainha.


In [34]:
print(soup.p.b)

<b>História dos Agentes Especiais</b>


In [35]:
print(soup.p.text)

História dos Agentes Especiais


### 4 - Busca e Extração de Hierarquia da Página Web