## 🖥️ Módulo 6 – Web Scraping com Selenium

**Web Scraping** é o processo de extrair dados de websites. Enquanto bibliotecas como `BeautifulSoup` e `Requests` são ótimas para sites estáticos, o Selenium é essencial quando os dados são carregados dinamicamente via JavaScript, exigindo interação humana simulada (como rolar a página, clicar em botões "Carregar mais", etc.).

### **Objetivos**

- Extrair dados (texto, links, atributos) de sites dinâmicos.
- Navegar por múltiplas páginas (paginação).
- Estruturar e armazenar os dados coletados (ex: em listas de dicionários).

### **Sintaxe Básica para Extração**
```python
# Encontrar múltiplos elementos
elementos = driver.find_elements(By.CSS_SELECTOR, '.minha-classe')

for elemento in elementos:
    # Extrair o texto visível
    texto = elemento.text

    # Extrair um atributo (ex: o link de uma tag 'a')
    link = elemento.get_attribute('href')

### Projeto Prático: Extrair citações e autores do site “quotes.toscrape.com”
O site quotes.toscrape.com/js/ é um excelente playground. Ele usa JavaScript para carregar as citações, tornando-o um caso de uso perfeito para o Selenium. Nosso objetivo é:

- Acessar a página.

- Para cada página, extrair todas as citações e seus respectivos autores.

- Clicar no botão "Next" para ir para a próxima página.

- Repetir o processo até não haver mais um botão "Next".

In [10]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
from time import sleep
import json

driver = webdriver.Chrome()
# Para uma execução mais rápida, o modo headless é ideal para scraping
# from selenium.webdriver.chrome.options import Options
# chrome_options = Options()
# chrome_options.add_argument('--headless')
# driver = webdriver.Chrome(options=chrome_options)

driver.get('http://quotes.toscrape.com/js/')
sleep(2) # Espera inicial para a página carregar

lista_citacoes = []

while True:
    # 2. Encontra todos os contêineres de citação na página atual
    citacoes = driver.find_elements(By.CLASS_NAME, 'quote')

    for citacao in citacoes:
        # Extrai o texto da citação e o nome do autor
        texto = citacao.find_element(By.CLASS_NAME, 'text').text
        autor = citacao.find_element(By.CLASS_NAME, 'author').text
        
        # Armazena em um dicionário e adiciona à lista
        dicionario_citacao = {
            'texto': texto,
            'autor': autor
        }
        lista_citacoes.append(dicionario_citacao)
        print(f'Coletado: {autor}')

    # 3. Procura pelo botão 'Next' para fazer a paginação
    try:
        # A classe 'next' na tag <li> só existe se houver uma próxima página
        botao_next = driver.find_element(By.CSS_SELECTOR, 'li.next a')
        botao_next.click()
        print('Navegando para a próxima página...')
        sleep(2) # Espera a nova página carregar
    except NoSuchElementException:
        # 4. Se o botão não for encontrado, encerra o loop
        print('Não há mais páginas. Extração concluída.')
        break

driver.quit()

# Exibe e salva os dados coletados em um arquivo JSON
print(f'\nTotal de citações extraídas: {len(lista_citacoes)}')

# Salva a lista de dicionários em um arquivo JSON para uso posterior
with open('citacoes.json', 'w', encoding='utf-8') as f:
    json.dump(lista_citacoes, f, ensure_ascii=False, indent=2)

print('Dados salvos em citacoes.json')

Coletado: Albert Einstein
Coletado: J.K. Rowling
Coletado: Albert Einstein
Coletado: Jane Austen
Coletado: Marilyn Monroe
Coletado: Albert Einstein
Coletado: André Gide
Coletado: Thomas A. Edison
Coletado: Eleanor Roosevelt
Coletado: Steve Martin
Navegando para a próxima página...
Coletado: Marilyn Monroe
Coletado: J.K. Rowling
Coletado: Albert Einstein
Coletado: Bob Marley
Coletado: Dr. Seuss
Coletado: Douglas Adams
Coletado: Elie Wiesel
Coletado: Friedrich Nietzsche
Coletado: Mark Twain
Coletado: Allen Saunders
Navegando para a próxima página...
Coletado: Pablo Neruda
Coletado: Ralph Waldo Emerson
Coletado: Mother Teresa
Coletado: Garrison Keillor
Coletado: Jim Henson
Coletado: Dr. Seuss
Coletado: Albert Einstein
Coletado: J.K. Rowling
Coletado: Albert Einstein
Coletado: Bob Marley
Navegando para a próxima página...
Coletado: Dr. Seuss
Coletado: J.K. Rowling
Coletado: Bob Marley
Coletado: Mother Teresa
Coletado: J.K. Rowling
Coletado: Charles M. Schulz
Coletado: William Nicholson
Col