<a href="https://colab.research.google.com/github/bishoppython/Algoritmo-e-Complexidade---2025.2/blob/main/Aula_03_WebScraping_Selenium.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## ***WebScraping - Algoritmos e Complexidades***
### **Selenium - Aula 03**

### **O que é Selenium?**
O Selenium é um projeto de código aberto (open-source) que consiste em um conjunto de ferramentas e bibliotecas que permitem a automatização de navegadores web.

Em termos mais simples, o Selenium é um "robô" que você programa para controlar um navegador (como Chrome, Firefox, Edge, etc.) exatamente como um ser humano faria, mas de forma automatizada, rápida e repetitiva.

**O projeto Selenium é composto por vários componentes, mas os principais são:**

**Selenium WebDriver:** É o coração do Selenium moderno. Ele é uma API que permite que você escreva comandos em uma linguagem de programação (Java, Python, C#, JavaScript, Ruby, etc.) para interagir com elementos em uma página web (clicar em botões, preencher formulários, extrair textos, etc.). O WebDriver comunica-se diretamente com o navegador, sem necessidade de um servidor intermediário.

**Selenium IDE (Integrated Development Environment):** É uma extensão para navegadores que permite gravar e reproduzir interações com o site. É ótimo para criar scripts simples de automação sem precisar escrever código, ideal para iniciantes ou para testes rápidos.

**Selenium Grid:** Permite executar seus testes em várias máquinas e navegadores diferentes ao mesmo tempo. É usado para testes em paralelo, acelerando a execução e permitindo verificar a compatibilidade do seu site com diferentes versões de navegadores e sistemas operacionais.

### ***Para que utilizar o Selenium?***
O Selenium é primariamente utilizado para Automação de Testes de aplicações web, mas sua utilidade vai além. Aqui estão os principais usos:

***1. Automação de Testes (Principal uso)***
Testes de Regressão: Verificar se novas funcionalidades ou correções não quebraram funcionalidades existentes no sistema.

Testes Funcionais: Validar se as funcionalidades do site (como login, cadastro, compra) estão funcionando conforme o esperado.

Testes de Aceitação: Simular a jornada de um usuário real para validar se o sistema atende aos requisitos de negócio.

Testes Cross-Browser e Cross-Platform: Garantir que o site funcione corretamente em diferentes combinações de navegadores (Chrome, Firefox, Safari) e sistemas operacionais (Windows, macOS, Linux).

***2. Web Scraping / Extração de Dados***
Como o Selenium pode renderizar páginas web completas (incluindo conteúdo carregado dinamicamente com JavaScript), ele é uma ferramenta poderosa para extrair dados de sites complexos que não podem ser acessados por métodos mais simples (como bibliotecas requests e BeautifulSoup sozinhas no Python).

***3. Automação de Tarefas Repetitivas***
Você pode usar o Selenium para automatizar qualquer tarefa tediosa que faria manualmente em um navegador, como:

Preencher automaticamente vários formulários online.

Realizar monitoramento de preços em sites de e-commerce.

Fazer upload ou download massivo de arquivos em um sistema web.

Publicar conteúdo em redes sociais ou plataformas de forma automatizada.

#### **Vantagens do Selenium**

**Gratuito e Open-Source: **Não há custos de licença.

**Multi-linguagem:** Suporte a Java, Python, C#, Ruby, JavaScript, etc.

**Multi-navegador:** Funciona com Chrome, Firefox, Edge, Safari, Opera, entre outros.

**Grande Comunidade:** Muitos tutoriais, fóruns e recursos online disponíveis.

**Flexibilidade:** Pode ser integrado com frameworks de teste (como JUnit, TestNG, pytest) e ferramentas de CI/CD (como Jenkins, GitLab CI).

#### **Limitações do Selenium**

**Apenas para Aplicações Web:** Não automatiza aplicações desktop ou mobile (para mobile, existe o Appium, que é inspirado no Selenium).

**Não automatiza CAPTCHAs ou autenticações de dois fatores (2FA):** Esses mecanismos são projetados justamente para impedir bots.

**Pode ser "frágil":** Se a estrutura HTML da página mudar (ex: a id de um botão é alterada), seu script de automação pode quebrar e precisará ser ajustado.

**Consome Recursos:** Abrir múltiplos navegadores consome memória RAM e CPU.

## **1. Scraping estático com Requests + BeautifulSoup (rápido)**

Usaremos http://books.toscrape.com/ — seguro para testes.

In [1]:
import requests
from bs4 import BeautifulSoup
import csv

BASE = "http://books.toscrape.com/"

resp = requests.get(BASE)
resp.raise_for_status()  # lança erro se status != 200

soup = BeautifulSoup(resp.text, "lxml")

# cada livro está na classe 'product_pod'
books = soup.select(".product_pod")

rows = []
for b in books:
    title = b.h3.a["title"]
    price = b.select_one(".price_color").text.strip()
    link = BASE + b.h3.a["href"]
    rows.append({"title": title, "price": price, "link": link})

# salvar em CSV
import pandas as pd
df = pd.DataFrame(rows)
df.to_csv("books.csv", index=False, encoding="utf-8-sig")
print("salvo em books.csv")

salvo em books.csv


**Desafio de Tópicos extra:** paginação (seguir | next), tratar links relativos, retries.

## **2. Selenium: configuração básica com webdriver-manager e abertura do Chrome**

In [3]:
!pip install requests beautifulsoup4 lxml selenium webdriver-manager pandas

Collecting selenium
  Downloading selenium-4.35.0-py3-none-any.whl.metadata (7.4 kB)
Collecting webdriver-manager
  Downloading webdriver_manager-4.0.2-py2.py3-none-any.whl.metadata (12 kB)
Collecting trio~=0.30.0 (from selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting typing-extensions>=4.0.0 (from beautifulsoup4)
  Downloading typing_extensions-4.14.1-py3-none-any.whl.metadata (3.0 kB)
Collecting outcome (from trio~=0.30.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.12.2->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.35.0-py3-none-any.whl (9.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.6/9.6 MB[0m [31m68.0 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading webdriver_manager

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options

options = Options()
# options.add_argument("--headless=new")  # descomente para modo headless
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
driver.get("https://books.toscrape.com/")

print(driver.title)
driver.quit()

## **3. Selenium + BeautifulSoup para extrair dados de páginas que dependem de JS**
Use Selenium para carregar a página, depois passe o HTML para BeautifulSoup (mais flexível para parsing):

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = Options()
options.add_argument("--headless=new")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

driver.get("https://example.com/pagina-dinamica")

# exemplo de explicit wait: espera até que um elemento esteja presente
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".classe-conteudo")))

html = driver.page_source
soup = BeautifulSoup(html, "lxml")

# parse normalmente
items = soup.select(".classe-conteudo .item")
for it in items:
    print(it.get_text(strip=True))

driver.quit()

#### **Prática 1 — Extração de dados (Projeto: Extração de manchetes)**
Objetivo: Extrair título, link e resumo (quando disponível) das notícias principais de um site de notícias.
Recomendação inicial: usar http://books.toscrape.com/ para entender pipeline; depois replicar em https://g1.globo.com/ com cuidado e respeitando TOS.

***Código com Selenium + BeautifulSoup (robusto):***

In [None]:
import csv
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

options = Options()
options.add_argument("--headless=new")
options.add_argument("--no-sandbox")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

try:
    url = "https://g1.globo.com/"  # ou use books.toscrape.com para testes
    driver.get(url)
    wait = WebDriverWait(driver, 10)
    # ajustar o seletor conforme o site real
    wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "a.feed-post-link")))

    soup = BeautifulSoup(driver.page_source, "lxml")
    manchetes = soup.select("a.feed-post-link")

    with open("manchetes.csv", "w", newline="", encoding="utf-8") as f:
        writer = csv.writer(f)
        writer.writerow(["titulo", "link"])
        for a in manchetes[:30]:
            titulo = a.get_text(strip=True)
            link = a.get("href")
            if link:
                writer.writerow([titulo, link])

    print("OK: manchetes.csv criado")
finally:
    driver.quit()

**Atividades:**

Adapte o seletor para pegar sumário, imagem e tempo de publicação.

Implemente paginação (se houver botão “carregar mais” — use Selenium para clicar e esperar).

Trate links relativos.

### ***Prática 2 — Bot de Login e Interação (site de teste seguro)***

Objetivo: Criar um bot que faz login, navega em área autenticada e extrai/inserta informação.
Site de teste recomendado: https://the-internet.herokuapp.com/login

Usuário: tomsmith

Senha: SuperSecretPassword!

Código de exemplo:

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

options = Options()
# options.add_argument("--headless=new")
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)

try:
    driver.get("https://the-internet.herokuapp.com/login")
    wait = WebDriverWait(driver, 10)

    # localizar campos
    user_input = wait.until(EC.presence_of_element_located((By.ID, "username")))
    pass_input = driver.find_element(By.ID, "password")

    user_input.send_keys("tomsmith")
    pass_input.send_keys("SuperSecretPassword!")

    # clicar no botão de login
    btn = driver.find_element(By.CSS_SELECTOR, "button.radius")
    btn.click()

    # esperar pela área autenticada
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, ".flash.success")))
    success_text = driver.find_element(By.CSS_SELECTOR, ".flash.success").text
    print("Login efetuado:", success_text)

    # exemplo: navegar para logout
    driver.find_element(By.CSS_SELECTOR, "a.button.secondary.radius").click()
    wait.until(EC.presence_of_element_located((By.ID, "username")))
    print("Logout efetuado com sucesso.")

finally:
    driver.quit()

**Extensões de exercício:**

Capturar e salvar cookies (para persistir sessão entre execuções).

Preencher um formulário após login e submeter.

Implementar tratamento de erros (login inválido, elementos não encontrados).

Implementar screenshot em caso de erro (driver.save_screenshot()).

Atenção ética/legal: NÃO use automação para acessar contas de terceiros sem autorização. Use apenas contas de teste ou as suas.

### **Conclusão**

O Selenium é a ferramenta mais popular e poderosa para automação de navegadores. Se você precisa testar uma aplicação web, extrair dados de um site complexo ou automatizar um fluxo de trabalho baseado na web, o Selenium é provavelmente a solução ideal.