# Biblioteca

## Beautiful Soap

Beautifulsoup4 é uma biblioteca do Python usada para extrair e manipular dados de arquivos HTML e XML, facilitando a navegação pela estrutura do documento, a busca por tags específicas e a coleta de informações de forma eficiente, especialmente em tarefas de web scraping. Ela funciona em conjunto com bibliotecas como requests, que fazem o download do conteúdo da página.


## Requests

A biblioteca requests é uma ferramenta poderosa e fácil de usar no Python para enviar requisições HTTP, permitindo que seu programa interaja com sites e APIs de forma automatizada. Com ela, é possível acessar o conteúdo de páginas da web, enviar dados por formulários, fazer login automático, baixar arquivos e consumir dados em formato JSON, tudo isso com poucas linhas de código. Sua importância na automatização de processos está em permitir que scripts interajam diretamente com a internet, seja para coletar informações, enviar atualizações ou integrar sistemas, substituindo tarefas manuais de navegação e preenchimento de dados.


## Selenium

A biblioteca Selenium é uma ferramenta do Python que permite controlar um navegador da web de forma automatizada, como se fosse um usuário real, sendo especialmente útil para interagir com páginas que carregam conteúdo dinamicamente por JavaScript. Com ela, é possível abrir sites, clicar em botões, preencher formulários, rolar páginas e capturar dados que só aparecem após a renderização completa do navegador. Sua importância para a automatização de processos está no fato de que muitos sites modernos não disponibilizam seu conteúdo diretamente no HTML bruto, exigindo que o navegador seja manipulado para que as informações fiquem visíveis e acessíveis ao scraper ou robô.









## Exemplo

Abaixo está um exemplo simples de como usar a biblioteca beautifulsoup4 (importada como bs4) junto com requests para automatizar o processo de coleta de manchetes de uma página de notícias (exemplo: G1, BBC, etc). 

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time

# Configurações do navegador (modo invisível)
options = Options()
options.add_argument("--headless")

# Caminho para o seu ChromeDriver
driver = webdriver.Chrome(options=options)

# Abre o site
driver.get("https://g1.globo.com/")

# Espera o conteúdo carregar
time.sleep(5)

# Coleta o HTML da página renderizada
html = driver.page_source
driver.quit()

# Faz o parse com BeautifulSoup
soup = BeautifulSoup(html, "html.parser")

# Aqui testamos uma das classes comuns das manchetes do G1
manchetes = soup.find_all("a", class_="feed-post-link")

# Exibe as manchetes
for i, m in enumerate(manchetes[:10], 1):
    print(f"{i}. {m.text.strip()}")



1. Zambelli chegou hoje à Itália, antes de ser incluída na lista da Interpol
2. Quem são as brasileiras procuradas pela Interpol, além de Zambelli
3. Musk está irritado porque 'mandato do carro elétrico' acabou, diz Trump
4. Nem Lula, nem Bolsonaro: Quaest mostra alta rejeição a candidaturas
5. OCTAVIO GUEDES: antipetismo já é maior que o bolsonarismo
6. Com forte escolta, Marcola é levado para fazer exames em hospital no DF
7. Ladrões invadem casa com controle de portão clonado e matam empresário
8. Prova de matemática tira do sério alunos de escola pública; tente resolver


## O que está acontecendo nesse código ?

O Selenium está nos permitindo controlar um navegador automaticamente e o codigo Webdriver permite que o Selenium abra o navegador, neste caso o Chrome. O Options() nos estamos usando para definir componentes especiais como: "Definir um idioma", "Bloquear Notificações" e "Mudar o tamanho da Janela". 

Vemos isso em -> options.add_argument("--headless"), quero que rode em segundo plano sem abrir a janela. 

Usamos o Service para configurar caminhos, logs, tempo de espera, etc., mas no meu código atual ele não está sendo usado diretamente (ou seja, a importação está sobrando por enquanto).

O ponto principal é este aqui -> soup = BeautifulSoup(html, "html.parser"). O "html.parser" é o argumento que indica qual interpretador (parser) será usado para entender o HTML.


## Importante Lembrete

O caso exemplificado acima foi feito apenas para explicar umas das bibliotecas mais importantes para se fazer Automatização de Processos todavia, o exemplo é um caso clássico de Web Scraping, que é apenas um SUBTIPO de uma categoria mais ampla. 