## Web Scraping

##### 1 - Extraindo Dados de Páginas Web

In [1]:
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

In [2]:
html_doc = """<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a href="http://www.exemplo.com/james" class="agente" id="link1">James</a>,
<a href="http://www.exemplo.com/julio" class="agente" id="link2">Julio</a> e
<a href="http://www.exemplo.com/jucimar" class="agente" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
 <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
 <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
 <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>"""

In [3]:
tagsA = SoupStrainer("a")

In [4]:
soupA = BeautifulSoup(html_doc, 'lxml', parse_only = tagsA)

In [5]:
print(type(soupA))

<class 'bs4.BeautifulSoup'>


In [6]:
print(soupA)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a><a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a><a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [7]:
print(soupA.prettify())

<a class="agente" href="http://www.exemplo.com/james" id="link1">
 James
</a>
<a class="agente" href="http://www.exemplo.com/julio" id="link2">
 Julio
</a>
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">
 Jucimar
</a>


In [8]:
print(soupA.a.has_attr('class'))

True


In [9]:
print(soupA.a.has_attr('name'))

False


##### 2 - Como Organizar e Analisar Dados Extraídos da Web 

In [10]:
print(soupA.find('a'))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [11]:
print(soupA.find_all('a'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [12]:
print(soupA.find('a', attrs = {'class': 'agente'})) 

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [13]:
print(soupA.find('a', attrs = {'class': 'agente'}, text = 'Julio')) 

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [14]:
print(soupA.find('a', attrs = {'id': 'link3'})) 

<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [15]:
print(soupA.find_all('a', limit = 2))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>]


##### 3 - Usando Expressão Regular Para Filtrar os Resultados

In [16]:
import re

In [17]:
print(soupA.find('a', text = re.compile(r'lio')))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [18]:
print(soupA.find_all('a', attrs = {'id': re.compile(r'3')}))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [19]:
print(soupA.find_all(re.compile(r'a')))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [20]:
soup = BeautifulSoup(html_doc, 'lxml')

In [21]:
print(soup.find_all('p', 'historia'))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [22]:
print(soup.find_all('p', 'title'))

[<p class="title"><b>História dos Agentes Especiais</b></p>]


In [23]:
print(soup.find_all(text = re.compile(r'Ja')))

['James', 'James Bond, 007: Agente especial para atividades internacionais.']


In [24]:
print(soup.p.b)

<b>História dos Agentes Especiais</b>


##### 4 - Busca e Extração de Hierarquia da Página Web

In [25]:
print(list(soup.find('p', 'historia').children))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [26]:
print(list(soup.find('p', 'historia').contents))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [27]:
print(list(soup.find('p', 'historia').descendants))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, 'James', ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, 'Julio', ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


In [29]:
print([a.name for a in soup.find('p', 'historia').children])

[None, 'a', None, 'a', None, 'a', None]


In [32]:
print([a.name for a in soup.find('p', 'historia').descendants])

[None, 'a', None, None, 'a', None, None, 'a', None, None]


In [33]:
print([{'tag': a.name, 'text': a.text, 'class': a.get('class')} 
       for a in soup.find('p','historia').children if a.name != None])

[{'tag': 'a', 'text': 'James', 'class': ['agente']}, {'tag': 'a', 'text': 'Julio', 'class': ['agente']}, {'tag': 'a', 'text': 'Jucimar', 'class': ['agente']}]


In [35]:
print(soup.find('p', 'historia').findChild())

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [36]:
print(soup.find('p', 'historia').findChildren())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [40]:
print(soup.find('a', 'agente').parent)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


##### 5 - Navegando Pelas Tags

In [42]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [45]:
print(soup.find('p','historia').next)

Era uma vez três agentes especiais; e seus nomes eram



In [43]:
print(soup.find('p','historia').next.next)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [44]:
print(soup.find('p','historia').next_elements)

<generator object PageElement.next_elements at 0x0000016B0B197C10>


In [47]:
print(soup.find('p','historia').previous.previous)

História dos Agentes Especiais


In [49]:
print(soup.find('p','historia').find_next('h1'))

<h1>Agentes Especiais</h1>


In [51]:
print(soup.find('p','historia').find_all_next('li', limit = 2))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>]


In [52]:
title = [ele.name for ele in soup.find('p', 'title').next_siblings]
print(list(filter(None, title)))

['p', 'p', 'h1', 'ul']


In [53]:
title

[None, 'p', None, 'p', None, 'h1', None, 'ul', None]

##### 6 - Usando Seletor CSS e Cominando Elementos

In [54]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [55]:
print(soup.select('li[data-id]'))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [56]:
print(soup.select('li[data-id]')[1])

<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>


In [57]:
print(soup.select('p.historia > a.agente'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [58]:
print(soup.select('p.historia + h1'))

[<h1>Agentes Especiais</h1>]
