## Web-Scraping utilizando BeautifulSoup

In [None]:
import re
from bs4 import BeautifulSoup

# 'abrindo' a página HTML salva no diretório
with open("Pagina Hashtag.html", "r", encoding="utf-8") as arquivo:
    # o html.parser ira ler o arquivo html
    # 'trazer' para o BS, traduzindo o HTML para o mesmo
    site = BeautifulSoup(arquivo, "html.parser")

# prettify -> organiza e deixa o html puro mais 'bonito'
# print(site.prettify())

titulo_site = site.title
# extraindo titulo com html puro
print(f'O título do site com formatação HTML: {titulo_site}')

# extraindo somente o texto do título
print(f'O título do site sem formatação HTML: {titulo_site.text}')

# buscando por um elemento HTML
titulo_site_2 = site.find('title')
print(f'O título do site encontrado via find: {titulo_site_2.text}')


## Localizando elemento H1 dentro do HTML

In [None]:
h1_element = site.find('h1')
print(h1_element.prettify())

## Localizando a barra de navegação dentro do HTML

In [None]:
barra_navegacao = site.find('nav')
print(barra_navegacao.prettify())

## Encontrando os links (anchors) dentro do HTML

In [None]:
# encontrando um único (o primeiro) link presente dentro do nav
link = barra_navegacao.find("a")
print(link.prettify())

In [None]:
# encontrando todos os links presentes no nav
lista_links_nav = barra_navegacao.find_all("a")

for link in lista_links_nav:
    print(f'{link.prettify()}')

In [None]:
for i, link in enumerate(lista_links_nav):
    # através do attrs (attributes), é retornado um dicionário com todas as infos do link
    print(f'{i+1} -> {link['title']} | {link['href']}')

## Encontrando elementos com várias regras

In [None]:
elementos_barra_navegacao = barra_navegacao.find_all(["a", "button"])

for elemento in elementos_barra_navegacao:
    print(elemento.prettify())

## Outras regras de find
* por classe
* por id
* por atributos
* por texto
* por pedaços de texto


## Class

In [None]:
# o class_ foi utilizado pois, como class é uma palavra reservada do Python, foi adicionado o _ no final
subtitulo = site.find(class_="tit")
print(subtitulo)

## ID

In [None]:
header_page = site.find(id="header")
print(header_page.prettify())

## Atributos

In [None]:
header_page2 = site.find(role="banner")
print(header_page2.prettify())

## Tag

In [None]:
logo_hashtag = site.find("img", {"data-ll-status": "loaded", "class": "custom-logo"})
print(logo_hashtag)

## Busca por Texto

In [None]:
# texto é igual

foco_mercado = site.find(string="Foco no Mercado")
print(foco_mercado)


In [58]:
# contém texto

texto_alunos = site.find_all(string=re.compile("alunos"))
for i, texto in enumerate(texto_alunos):
    print(f'{i+1} -> {texto}')

1 -> Mais de 50.000 de alunos formados por Todos os Cursos da Hashtag
2 -> Nos últimos anos, a Hashtag Treinamentos transformou a vida de milhares de alunos no Brasil e no Mundo com seus cursos!
