## üñ•Ô∏è M√≥dulo 6 ‚Äì Web Scraping com Selenium

**Web Scraping** √© o processo de extrair dados de websites. Enquanto bibliotecas como `BeautifulSoup` e `Requests` s√£o √≥timas para sites est√°ticos, o Selenium √© essencial quando os dados s√£o carregados dinamicamente via JavaScript, exigindo intera√ß√£o humana simulada (como rolar a p√°gina, clicar em bot√µes "Carregar mais", etc.).

### **Objetivos**

- Extrair dados (texto, links, atributos) de sites din√¢micos.
- Navegar por m√∫ltiplas p√°ginas (pagina√ß√£o).
- Estruturar e armazenar os dados coletados (ex: em listas de dicion√°rios).

### **Sintaxe B√°sica para Extra√ß√£o**
```python
# Encontrar m√∫ltiplos elementos
elementos = driver.find_elements(By.CSS_SELECTOR, '.minha-classe')

for elemento in elementos:
    # Extrair o texto vis√≠vel
    texto = elemento.text

    # Extrair um atributo (ex: o link de uma tag 'a')
    link = elemento.get_attribute('href')

### Projeto Pr√°tico: Extrair cita√ß√µes e autores do site ‚Äúquotes.toscrape.com‚Äù
O site quotes.toscrape.com/js/ √© um excelente playground. Ele usa JavaScript para carregar as cita√ß√µes, tornando-o um caso de uso perfeito para o Selenium. Nosso objetivo √©:

- Acessar a p√°gina.

- Para cada p√°gina, extrair todas as cita√ß√µes e seus respectivos autores.

- Clicar no bot√£o "Next" para ir para a pr√≥xima p√°gina.

- Repetir o processo at√© n√£o haver mais um bot√£o "Next".

In [10]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.common.exceptions import NoSuchElementException
from time import sleep
import json

driver = webdriver.Chrome()
# Para uma execu√ß√£o mais r√°pida, o modo headless √© ideal para scraping
# from selenium.webdriver.chrome.options import Options
# chrome_options = Options()
# chrome_options.add_argument('--headless')
# driver = webdriver.Chrome(options=chrome_options)

driver.get('http://quotes.toscrape.com/js/')
sleep(2) # Espera inicial para a p√°gina carregar

lista_citacoes = []

while True:
    # 2. Encontra todos os cont√™ineres de cita√ß√£o na p√°gina atual
    citacoes = driver.find_elements(By.CLASS_NAME, 'quote')

    for citacao in citacoes:
        # Extrai o texto da cita√ß√£o e o nome do autor
        texto = citacao.find_element(By.CLASS_NAME, 'text').text
        autor = citacao.find_element(By.CLASS_NAME, 'author').text
        
        # Armazena em um dicion√°rio e adiciona √† lista
        dicionario_citacao = {
            'texto': texto,
            'autor': autor
        }
        lista_citacoes.append(dicionario_citacao)
        print(f'Coletado: {autor}')

    # 3. Procura pelo bot√£o 'Next' para fazer a pagina√ß√£o
    try:
        # A classe 'next' na tag <li> s√≥ existe se houver uma pr√≥xima p√°gina
        botao_next = driver.find_element(By.CSS_SELECTOR, 'li.next a')
        botao_next.click()
        print('Navegando para a pr√≥xima p√°gina...')
        sleep(2) # Espera a nova p√°gina carregar
    except NoSuchElementException:
        # 4. Se o bot√£o n√£o for encontrado, encerra o loop
        print('N√£o h√° mais p√°ginas. Extra√ß√£o conclu√≠da.')
        break

driver.quit()

# Exibe e salva os dados coletados em um arquivo JSON
print(f'\nTotal de cita√ß√µes extra√≠das: {len(lista_citacoes)}')

# Salva a lista de dicion√°rios em um arquivo JSON para uso posterior
with open('citacoes.json', 'w', encoding='utf-8') as f:
    json.dump(lista_citacoes, f, ensure_ascii=False, indent=2)

print('Dados salvos em citacoes.json')

Coletado: Albert Einstein
Coletado: J.K. Rowling
Coletado: Albert Einstein
Coletado: Jane Austen
Coletado: Marilyn Monroe
Coletado: Albert Einstein
Coletado: Andr√© Gide
Coletado: Thomas A. Edison
Coletado: Eleanor Roosevelt
Coletado: Steve Martin
Navegando para a pr√≥xima p√°gina...
Coletado: Marilyn Monroe
Coletado: J.K. Rowling
Coletado: Albert Einstein
Coletado: Bob Marley
Coletado: Dr. Seuss
Coletado: Douglas Adams
Coletado: Elie Wiesel
Coletado: Friedrich Nietzsche
Coletado: Mark Twain
Coletado: Allen Saunders
Navegando para a pr√≥xima p√°gina...
Coletado: Pablo Neruda
Coletado: Ralph Waldo Emerson
Coletado: Mother Teresa
Coletado: Garrison Keillor
Coletado: Jim Henson
Coletado: Dr. Seuss
Coletado: Albert Einstein
Coletado: J.K. Rowling
Coletado: Albert Einstein
Coletado: Bob Marley
Navegando para a pr√≥xima p√°gina...
Coletado: Dr. Seuss
Coletado: J.K. Rowling
Coletado: Bob Marley
Coletado: Mother Teresa
Coletado: J.K. Rowling
Coletado: Charles M. Schulz
Coletado: William Nichol