# Web-Scraping com Beautiful Soup (BS4)

O Beautiful Soup é um pacote Python que simplifica a extração de dados de páginas HTML. Ele é inferior ao Selenium por N motivos, como por exemplo, só trabalhar com páginas estáticas entre outros fatores, só que ele é mais rápido, e excelente para poder pegar dados do HTML de forma mais direta, o que pode ser extremamente útil para gerar ferramentas para Pentest.

Ele permite acessar e extrair dados do HTML de maneira mais fácil. Podemos por exemplo, extrair links, imagens, textos, etc... acessando direto pelas tags HTML. Como no exemplo abaixo, vamos extrair o título da página simplesmente após iniciar e abrir o arquivo HTML, atribuir a variável titulo o valor `site.title`, ou podemos usar `site.find('title')`.

In [3]:
from bs4 import BeautifulSoup

with open('Pagina Hashtag.html', 'r', encoding='utf-8') as file:
    site = BeautifulSoup(file, 'html.parser')
    
# print(site.prettify())
titulo = site.title
print(f'Título da Página: {titulo.text}')

Título da Página:  Todos os Cursos Hashtag Treinamentos


In [4]:
h1 = site.find('h1')
print(f'Título do H1: {h1.text}')
print(h1)

Título do H1: Conheça todos os Cursos da Hashtag Treinamentos
<h1 id="conheca-todos-os-cursos-da-hashtag-treinamentos"><span style="color: #ff6600;"><span class="has-inline-color" style="color:#112e61">Conheça todos os Cursos da Hashtag Treinamentos</span></span></h1>


In [5]:
barra_navegacao = site.find('nav')
print(f'Barra de Navegação: {barra_navegacao.prettify()}')

Barra de Navegação: <nav class="navbar navbar-expand-md py-0">
 <button aria-controls="navbarsExampleDefault" aria-expanded="false" aria-label="Toggle navigation" class="navbar-toggler" data-target="#navbarsExampleDefault" data-toggle="collapse" type="button">
  <span class="navbar-toggler-icon">
  </span>
 </button>
 <div class="collapse navbar-collapse" id="navbarsExampleDefault">
  <div class="collapse navbar-collapse" id="navbarSupportedContent">
   <ul class="navbar-nav ml-auto" id="menu-principal">
    <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-2191 nav-item" id="menu-item-2191" itemscope="itemscope" itemtype="https://www.schema.org/SiteNavigationElement">
     <a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-de-excel-online" title="Curso Excel Online">
      Curso Excel Online
     </a>
    </li>
    <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-6293 nav-item" id="menu-item-6293" itemscope="ite

In [6]:
links_barra_navegacao = barra_navegacao.find_all('a')
print(f'Links da Barra de Navegação: {links_barra_navegacao}') # retonrar os links em formato de lista
print('Espaço')
print(f'{links_barra_navegacao[0]}')
print(f'{links_barra_navegacao[0].attrs}') # Mostra os atributos do primeiro link em formato de dicionário
print(f'{links_barra_navegacao[0]['href']}') # Mostra o link do primeiro link

for links in links_barra_navegacao:
    print(f'Link: {links.text}, URL: {links["href"]}')

Links da Barra de Navegação: [<a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-de-excel-online" title="Curso Excel Online">Curso Excel Online</a>, <a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-power-bi" title="Curso Power BI Online">Curso Power BI Online</a>, <a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-python" title="Curso de Python Online">Curso de Python Online</a>, <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle nav-link disabled" href="https://www.hashtagtreinamentos.com/todos-os-cursos#" id="menu-item-dropdown-16313" title="Outros Cursos">Outros Cursos</a>, <a class="dropdown-item" href="https://www.hashtagtreinamentos.com/curso-sql" title="Curso de SQL">Curso de SQL</a>, <a class="dropdown-item" href="https://www.hashtagtreinamentos.com/curso-vba-excel" title="Curso de VBA Excel">Curso de VBA Excel</a>, <a class="dropdown-item" href="https://www.hashtagtreinamentos.com/curso-powerpoint" title="C

### Encontrando elementos com várias regras específicas

In [7]:
elementos_navegacao = barra_navegacao.find_all(['a', 'button'])
print(elementos_navegacao)

[<button aria-controls="navbarsExampleDefault" aria-expanded="false" aria-label="Toggle navigation" class="navbar-toggler" data-target="#navbarsExampleDefault" data-toggle="collapse" type="button"> <span class="navbar-toggler-icon"></span> </button>, <a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-de-excel-online" title="Curso Excel Online">Curso Excel Online</a>, <a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-power-bi" title="Curso Power BI Online">Curso Power BI Online</a>, <a class="nav-link" href="https://www.hashtagtreinamentos.com/curso-python" title="Curso de Python Online">Curso de Python Online</a>, <a aria-expanded="false" aria-haspopup="true" class="dropdown-toggle nav-link disabled" href="https://www.hashtagtreinamentos.com/todos-os-cursos#" id="menu-item-dropdown-16313" title="Outros Cursos">Outros Cursos</a>, <a class="dropdown-item" href="https://www.hashtagtreinamentos.com/curso-sql" title="Curso de SQL">Curso de SQL</a>, <a clas

### Outras regras para encontrar elementos
* Por classe
* Por id
* Por atributos
* Por texto
* Por pedaços de texto

In [10]:
# Por classe
subtitulo = site.find(class_='tit')
print(f'Subtítulo: {subtitulo}')

Subtítulo: <h2 class="h1 tit centro">Todos os Cursos da Hashtag Treinamentos</h2>


In [11]:
# Por id
cabecalho = site.find(id='header')
print(f'Cabeçalho: {cabecalho}')

Cabeçalho: <header class="" id="header" role="banner"><div class="container-fluid"><div class="row"><div class="logo col-md-2 col-6 align-self-center"> <a class="custom-logo-link" href="https://www.hashtagtreinamentos.com/" rel="home"><img alt="Hashtag Treinamentos" class="custom-logo lazyloaded" data-ll-status="loaded" height="73" sizes="(max-width: 153px) 100vw, 153px" src="./Pagina Hashtag_files/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150x73.png.webp 150w" width="153"/><noscript><img alt="Hashtag Treinamentos" class="custom-logo" height="73" sizes="(max-width: 153px) 100vw, 153px" src="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150x7

In [12]:
# Por atributos
cabecalho_2 = site.find(role='banner')
print(f'Cabeçalho 2: {cabecalho_2}')

Cabeçalho 2: <header class="" id="header" role="banner"><div class="container-fluid"><div class="row"><div class="logo col-md-2 col-6 align-self-center"> <a class="custom-logo-link" href="https://www.hashtagtreinamentos.com/" rel="home"><img alt="Hashtag Treinamentos" class="custom-logo lazyloaded" data-ll-status="loaded" height="73" sizes="(max-width: 153px) 100vw, 153px" src="./Pagina Hashtag_files/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150x73.png.webp 150w" width="153"/><noscript><img alt="Hashtag Treinamentos" class="custom-logo" height="73" sizes="(max-width: 153px) 100vw, 153px" src="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150

In [13]:
# Usando mais de um atributo e parâmetro
cabecalho_3 = site.find(id='header', role='banner')
print(f'Cabeçalho 3: {cabecalho_3}')

Cabeçalho 3: <header class="" id="header" role="banner"><div class="container-fluid"><div class="row"><div class="logo col-md-2 col-6 align-self-center"> <a class="custom-logo-link" href="https://www.hashtagtreinamentos.com/" rel="home"><img alt="Hashtag Treinamentos" class="custom-logo lazyloaded" data-ll-status="loaded" height="73" sizes="(max-width: 153px) 100vw, 153px" src="./Pagina Hashtag_files/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150x73.png.webp 150w" width="153"/><noscript><img alt="Hashtag Treinamentos" class="custom-logo" height="73" sizes="(max-width: 153px) 100vw, 153px" src="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150

In [16]:
# Caso um parâmetro de pesquisa tenha hifen, necessítasse passar ele como um dicionário
logo = site.find("img", {"data-ll-status":"loaded", "class":'custom-logo'})
print(f'Logo: {logo}')


Logo: <img alt="Hashtag Treinamentos" class="custom-logo lazyloaded" data-ll-status="loaded" height="73" sizes="(max-width: 153px) 100vw, 153px" src="./Pagina Hashtag_files/logo_nova.png.webp" srcset="https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova.png.webp 153w,https://www.hashtagtreinamentos.com/wp-content/uploads/2019/04/logo_nova-150x73.png.webp 150w" width="153"/>


#### Busca por texto:
* Texto exato

In [21]:
foco_mercado = site.find(string='Foco no Mercado')
print(f'Texto: {foco_mercado}')

Texto: Foco no Mercado


* Texto contendo
  Para usarmos a filtragem com trechos do tendo contendo determinado detalhe, precisaremos usar regex

In [20]:
import re

textos = site.find_all(string=re.compile('alunos'))

print(f'Textos contendo "alunos": {textos}')



Textos contendo "alunos": ['Mais de 50.000 de alunos formados por Todos os Cursos da Hashtag', 'Nos últimos anos, a Hashtag Treinamentos transformou a vida de milhares de alunos no Brasil e no Mundo com seus cursos!']


## Navegação por Parent e Contents

Para podermos navegar no DOM da página utilizando BS4, usaremos o método `.parent` para identificar o elemento imediatamente "acima" do nosso elemento e o método `.contents` para ver os filhos desse elemento.

* Parent: Mostra o elemento imediatamente acima do nosso elemento

In [30]:
parent = textos[0].parent
print(f'Parent: {parent.prettify()}')

parent_2 = textos[0].parent.parent
print(f'Parent 2: {parent_2.prettify()}')


Parent: <mark class="has-inline-color" style="background-color:rgba(0, 0, 0, 0);color:#112e61">
 Mais de 50.000 de alunos formados por Todos os Cursos da Hashtag
</mark>

Parent 2: <h2 id="mais-de-50-000-de-alunos-formados-por-todos-os-cursos-da-hashtag">
 <mark class="has-inline-color" style="background-color:rgba(0, 0, 0, 0);color:#112e61">
  Mais de 50.000 de alunos formados por Todos os Cursos da Hashtag
 </mark>
</h2>



* Contents: Mostra todos os filhos desse elemento

In [36]:
barra_navegacao = site.find('nav')
# print(f'Barra de Navegação: {barra_navegacao.contents}')

botao = barra_navegacao.contents[1]
print(f'Botão: {botao.prettify()}')
print(f'Botão Contents: {botao.contents}')


Botão: <button aria-controls="navbarsExampleDefault" aria-expanded="false" aria-label="Toggle navigation" class="navbar-toggler" data-target="#navbarsExampleDefault" data-toggle="collapse" type="button">
 <span class="navbar-toggler-icon">
 </span>
</button>

Botão Contents: [' ', <span class="navbar-toggler-icon"></span>, ' ']


In [40]:
titulo_alunos = site.find(id='mais-de-50-000-de-alunos-formados-por-todos-os-cursos-da-hashtag')
print(titulo_alunos.contents)
print()
print(titulo_alunos.contents[0].contents)

[<mark class="has-inline-color" style="background-color:rgba(0, 0, 0, 0);color:#112e61">Mais de 50.000 de alunos formados por Todos os Cursos da Hashtag</mark>]

['Mais de 50.000 de alunos formados por Todos os Cursos da Hashtag']


## Beautiful Soup em sites extenos (online)


In [62]:
from bs4 import BeautifulSoup
import requests
import re

url = 'https://coinmarketcap.com/pt-br/'
requisicao = requests.get(url)
site = BeautifulSoup(requisicao.text, 'html.parser')

In [66]:
tbody = site.find('tbody')
linhas = tbody.find_all('tr')
for linha in linhas:
    print(f"• {linha.find(class_='ehyBa-d').text} : {linha.find(string=re.compile("\$"))}")

• Bitcoin : R$325,023.86
• Ethereum : R$14,152.55
• Tether : R$5.48
• BNB : R$3,043.96
• Solana : R$774.69
• USDC : R$5.48
• XRP : R$3.27
• Toncoin : R$36.44
• Dogecoin : R$0.5695
• TRON : R$0.9015


  print(f"• {linha.find(class_='ehyBa-d').text} : {linha.find(string=re.compile("\$"))}")
  print(f"• {linha.find(class_='ehyBa-d').text} : {linha.find(string=re.compile("\$"))}")


AttributeError: 'NoneType' object has no attribute 'text'

---

In [None]:
from bs4 import BeautifulSoup
import requests
import re

url = 'https://coinmarketcap.com/pt-br/'
requisicao = requests.get(url)
site = BeautifulSoup(requisicao.text, 'html.parser')

In [73]:
tbody = site.find('tbody')
linhas = tbody.find_all('tr')

for linha in linhas:
    try:
        print(f"• {linha.find(class_='ehyBa-d').text} : {linha.find(string=re.compile("\\$"))}")
    except AttributeError or SyntaxWarning:
        break

• Bitcoin : R$325,023.86
• Ethereum : R$14,152.55
• Tether : R$5.48
• BNB : R$3,043.96
• Solana : R$774.69
• USDC : R$5.48
• XRP : R$3.27
• Toncoin : R$36.44
• Dogecoin : R$0.5695
• TRON : R$0.9015


## Filtrar textos mais diretamente
Como podemos pegar todo o texto de um elemento da página, como no exemplo acima, podemos pegar todo o texto da linha e filtrar a string com as regras de pesquisa para encontrar o texto desejado.

In [83]:
tbody = site.find('tbody')
linhas = tbody.find_all('tr')

for linha in linhas:
    texto_linha = linha.get_text(separator=';')
    lista_textos = texto_linha.split(';')
    # print(lista_textos)
    nome = lista_textos[1]
    preco = lista_textos[3]
    print(f"• {nome} : {preco}")

• Bitcoin : R$325,023.86
• Ethereum : R$14,152.55
• Tether : R$5.48
• BNB : R$3,043.96
• Solana : R$774.69
• USDC : R$5.48
• XRP : R$3.27
• Toncoin : R$36.44
• Dogecoin : R$0.5695
• TRON : R$0.9015
• ADA : 0.35
• AVAX : 22.98
• SHIB : 0.00
• DOT : 4.55
• BCH : 336.41
• LINK : 10.34
• LEO : 5.88
• DAI : 1.00
• LTC : 62.97
• MATIC : 0.47
• NEAR : 4.03
• KAS : 0.16
• UNI : 6.39
• ICP : 7.41
• PEPE : 0.00
• APT : 6.18
• XMR : 158.34
• XLM : 0.10
• ETC : 19.01
• FDUSD : 1.00
• CRO : 0.09
• FET : 0.90
• OKB : 37.22
• SUI : 0.85
• STX : 1.47
• FIL : 3.65
• TAO : 290.75
• AAVE : 135.60
• MNT : 0.59
• HBAR : 0.05
• VET : 0.02
• ARB : 0.54
• ATOM : 4.72
• IMX : 1.16
• INJ : 18.59
• MKR : 1936.69
• RENDER : 4.51
• OP : 1.37
• AR : 23.35
• WIF : 1.53
• GRT : 0.14
• BGB : 0.94
• RUNE : 3.86
• BONK : 0.00
• FLOKI : 0.00
• THETA : 1.17
• HNT : 7.22
• FTM : 0.40
• NOT : 0.01
• ALGO : 0.13
• JUP : 0.78
• TIA : 5.04
• PYTH : 0.28
• JASMY : 0.02
• LDO : 1.08
• KCS : 8.05
• ONDO : 0.67
• CORE : 1.02
• BTT