In [None]:
# Imports
# https://pypi.org/project/beautifulsoup4/
from bs4 import BeautifulSoup
from bs4 import SoupStrainer

In [None]:
html_doc = """<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a href="http://www.exemplo.com/james" class="agente" id="link1">James</a>,
<a href="http://www.exemplo.com/julio" class="agente" id="link2">Julio</a> e
<a href="http://www.exemplo.com/jucimar" class="agente" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
 <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
 <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
 <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>"""

In [None]:
# Extraindo a tag A
tagsA = SoupStrainer('a')

In [None]:
soupA = BeautifulSoup(html_doc, 'lxml', parse_only = tagsA)

In [None]:
print(type(soupA))

<class 'bs4.BeautifulSoup'>


In [None]:
print(soupA)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a><a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a><a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [None]:
print(soupA.prettify())

<a class="agente" href="http://www.exemplo.com/james" id="link1">
 James
</a>
<a class="agente" href="http://www.exemplo.com/julio" id="link2">
 Julio
</a>
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">
 Jucimar
</a>


In [None]:
# O objeto soupA tem o atributo classe?
print(soupA.a.has_attr('class'))

True


In [None]:
# O objeto soupA tem o atributo name?
print(soupA.a.has_attr('name'))

False


# Organizando e análisando os dados extraidos

In [None]:
# Retornando a primeira tag a
print(soupA.find('a'))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [None]:
# Retornando todas as tags a
print(soupA.find_all('a'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [None]:
# Retornando os textos das tags a
for i in soupA.find_all('a'):
  print(i.text)

James
Julio
Jucimar


In [None]:
# Retornando a primeira tag a, com a classe 'agente'
print(soupA.find("a", attrs = {'class':'agente'}))

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [None]:
print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


  print(soupA.find("a", attrs = {'class':'agente'}, text = "Julio"))


In [None]:
print(soupA.find("a", attrs = {'id':'link3'}))

<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>


In [None]:
print(soupA.find('a', id = "link2"))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


In [None]:
# Usando find_all com limitação
print(soupA.find_all("a", limit = 2))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>]


# Usando Expressão Regular Para Filtrar os Resultados

In [None]:
import re

In [None]:
# Existe alguma coisa na tag a, cujo o texto contenha 'lio' no meio?
print(soupA.find("a", text = re.compile(r'lio')))

<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>


  print(soupA.find("a", text = re.compile(r'lio')))


In [None]:
print(soupA.find_all("a", attrs = {'id':re.compile(r'3')}))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [None]:
print(soupA.find_all(re.compile(r'a')))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [None]:
soup = BeautifulSoup(html_doc, 'lxml')

In [None]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [None]:
print(soup.find_all('p', 'historia'))

[<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [None]:
print(soup.find_all('p', 'title'))

[<p class="title"><b>História dos Agentes Especiais</b></p>]


In [None]:
print(soup.find_all('p', attrs = {'class':['title','historia']}))

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>]


In [None]:
print(soup.find_all(['p','li']))
# Sempre que for procurar mais de um elemento, passar uma lista

[<p class="title"><b>História dos Agentes Especiais</b></p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="historia">...</p>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [None]:
print(soup.find_all(string = "James"))

['James']


In [None]:
# Encontrando todos os textos onde tenham contido as letras 'Ja'
print(soup.find_all(text = re.compile(r'Ja')))

['James', 'James Bond, 007: Agente especial para atividades internacionais.']


  print(soup.find_all(text = re.compile(r'Ja')))


In [None]:
# Retornando toda tag a que conter no texto a palavra "Jucimar"
print(soup.find_all("a", string = "Jucimar"))

[<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [None]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}))

<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>


In [None]:
print(soup.ul.find('li', attrs = {'data-id':'45732'}).text)

Jucimar Moraes, 005: Agente especial para proteger a rainha.


In [None]:
print(soup.p.b)

<b>História dos Agentes Especiais</b>


In [None]:
print(soup.p.text)

História dos Agentes Especiais


# Busca e Extração de Hierarquia da Página Web

In [None]:
# Retornando tudo que esta contido dentro da tag p
print(list(soup.find('p', 'historia').children))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [None]:
print(list(soup.find('p', 'historia').contents))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, ';\ne eles viviam em Londres, na Inglaterra.']


In [None]:
print(list(soup.find('p', 'historia').descendants))

['Era uma vez três agentes especiais; e seus nomes eram\n', <a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, 'James', ',\n', <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, 'Julio', ' e\n', <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


> Usando list comprehension

In [None]:
# ele econtra o atributo a dentro da tag p, mascomo não contem o atributo name, ele retorna 'None'
print([a.name for a in soup.find('p','historia').children])

[None, 'a', None, 'a', None, 'a', None]


In [None]:
print([{'tag':a.name,'text':a.text,'class':a.get('class')} for a in soup.find('p','historia').children if a.name!=None])


[{'tag': 'a', 'text': 'James', 'class': ['agente']}, {'tag': 'a', 'text': 'Julio', 'class': ['agente']}, {'tag': 'a', 'text': 'Jucimar', 'class': ['agente']}]


In [None]:
print([a.name for a in soup.find('p', 'historia').descendants])

[None, 'a', None, None, 'a', None, None, 'a', None, None]


In [None]:
print(list(filter(None, [a.text for a in soup.find('p', 'historia').descendants])))

['Era uma vez três agentes especiais; e seus nomes eram\n', 'James', 'James', ',\n', 'Julio', 'Julio', ' e\n', 'Jucimar', 'Jucimar', ';\ne eles viviam em Londres, na Inglaterra.']


In [None]:
print(soup.find('p', 'historia').findChildren())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [None]:
print(soup.find('p', 'historia').findChild())

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [None]:
print(soup.find('a', 'agente').parent)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


In [None]:
print(soup.find('a', 'agente').parent.name)

p


In [None]:
print(soup.find('a', 'agente').parent.text)

Era uma vez três agentes especiais; e seus nomes eram
James,
Julio e
Jucimar;
e eles viviam em Londres, na Inglaterra.


In [None]:
for elemento in soup.find('a', 'agente').parents:
    print(elemento.name)

p
body
html
[document]


In [None]:
# Encontra o nível anterior
print(soup.find('a','agente').findParent())

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


# Navegando pelas tags


In [77]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [78]:
print(soup.find('p','historia').next)

Era uma vez três agentes especiais; e seus nomes eram



In [79]:
print(soup.find('p','historia').next.next)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [80]:
print(soup.find('p','historia').next.next.next)

James


In [82]:
print(soup.find('p','historia').next_element)

Era uma vez três agentes especiais; e seus nomes eram



In [83]:
print(soup.find('p','historia').next_element.next_element)

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [84]:
print(soup.find('p','historia').previous)





In [85]:
print(soup.find('p','historia').previous.previous)

História dos Agentes Especiais


In [86]:
print(soup.find('p','historia').previous_element.previous_element)

História dos Agentes Especiais


In [87]:
print(soup.find('p','historia').previous_element.previous_element.previous_element)

<b>História dos Agentes Especiais</b>


In [88]:
for element in soup.find('ul').next_elements:
    print(element)



<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
James Bond, 007: Agente especial para atividades internacionais.


<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
Julio Verner, 006: Agente especial contra o. terrorismo.


<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
Jucimar Moraes, 005: Agente especial para proteger a rainha.








In [89]:
print(soup.find('p','historia').find_next())

<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>


In [90]:
print(soup.find('p','historia').find_next('h1'))

<h1>Agentes Especiais</h1>


In [91]:
print(soup.find('p','historia').find_all_next())

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>, <p class="historia">...</p>, <h1>Agentes Especiais</h1>, <ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>, <li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [92]:
print(soup.find('p','historia').find_all_next('li', limit = 2))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>]


In [93]:
print(soup.find('ul').previous.previous.previous)

<h1>Agentes Especiais</h1>


In [94]:
print(soup.find('p','title').next_sibling.next_sibling)

<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>


In [95]:
print(soup.find('ul').previous_sibling.previous_sibling)

<h1>Agentes Especiais</h1>


In [96]:
title = [ele.name for ele in soup.find('p','title').next_siblings]
print(list(filter(None,title)))

['p', 'p', 'h1', 'ul']


In [97]:
ul = [ele.name for ele in soup.find('ul').previous_siblings]
print(list(filter(None,ul)))

['h1', 'p', 'p', 'p']


In [98]:
print(soup.find('h1').find_next_sibling())


<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>


In [99]:
print(soup.find('ul').find_previous_siblings())

[<h1>Agentes Especiais</h1>, <p class="historia">...</p>, <p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>, <p class="title"><b>História dos Agentes Especiais</b></p>]


# Usando Seletor CSS e Combinando Elementos

In [100]:
print(soup)

<html><head><title>Os Agentes Especiais</title></head>
<body>
<p class="title"><b>História dos Agentes Especiais</b></p>
<p class="historia">Era uma vez três agentes especiais; e seus nomes eram
<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>,
<a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a> e
<a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>;
e eles viviam em Londres, na Inglaterra.</p>
<p class="historia">...</p>
<h1>Agentes Especiais</h1>
<ul>
<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>
<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>
<li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>
</ul>
</body>
</html>


In [101]:
print(soup.select('li[data-id]'))

[<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>, <li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>, <li data-id="45732">Jucimar Moraes, 005: Agente especial para proteger a rainha.</li>]


In [102]:
print(soup.select('ul li[data-id]')[1])

<li data-id="97865">Julio Verner, 006: Agente especial contra o. terrorismo.</li>


In [103]:
print(soup.select_one('li[data-id]'))

<li data-id="10784">James Bond, 007: Agente especial para atividades internacionais.</li>


In [104]:
print(soup.select('p.historia > a.agente'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [105]:
print(soup.select('p b'))

[<b>História dos Agentes Especiais</b>]


In [106]:
print(soup.select('p + h1'))

[<h1>Agentes Especiais</h1>]


In [107]:
print(soup.select('p.historia + h1'))

[<h1>Agentes Especiais</h1>]


In [108]:
print(soup.select('a[href*="exemplo.com"]'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]


In [109]:
print(soup.select('a[id*="link"]'))

[<a class="agente" href="http://www.exemplo.com/james" id="link1">James</a>, <a class="agente" href="http://www.exemplo.com/julio" id="link2">Julio</a>, <a class="agente" href="http://www.exemplo.com/jucimar" id="link3">Jucimar</a>]
