# Web Scraping con Selenium in Python
Questo notebook mostra come utilizzare **Selenium**, una libreria Python per l'automazione del browser, per effettuare scraping di dati da siti web dinamici.

## Obiettivi:
- Installare e configurare Selenium
- Eseguire il browser in modo automatico
- Navigare su una pagina web
- Estrarre informazioni da elementi HTML
- Eseguire scraping da siti con contenuto dinamico (JavaScript)

**Nota:** Usare Selenium con moderazione e nel rispetto dei termini di servizio dei siti web.

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from webdriver_manager.chrome import ChromeDriverManager

options = webdriver.ChromeOptions()
options.add_argument("--headless")
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")

driver = webdriver.Chrome(
    service=Service(ChromeDriverManager().install()), options=options
)

## Caricare una pagina web

In questo esempio caricheremo la homepage di un sito di esempio per test di scraping: [https://quotes.toscrape.com](https://quotes.toscrape.com)

In [None]:
url = "https://quotes.toscrape.com"
driver.get(url)
print(driver.title)

## Selezionare elementi HTML

Useremo `driver.find_elements()` per selezionare tutte le citazioni presenti nella pagina.

In [None]:
quotes = driver.find_elements(By.CLASS_NAME, "quote")
len(quotes)

## Estrazione del contenuto

Ogni elemento `quote` contiene una citazione, un autore e una lista di tag. Estrarremo queste informazioni.

In [None]:
for quote in quotes:
    text = quote.find_element(By.CLASS_NAME, "text").text
    author = quote.find_element(By.CLASS_NAME, "author").text
    tags = [tag.text for tag in quote.find_elements(By.CLASS_NAME, "tag")]
    print(f"Citazione: {text}\nAutore: {author}\nTag: {tags}\n")

## Navigare tra più pagine

Molti siti hanno contenuti paginati. Mostriamo come fare scraping su più pagine cliccando su "Next".

In [None]:
all_quotes = []

while True:
    quotes = driver.find_elements(By.CLASS_NAME, "quote")
    for quote in quotes:
        text = quote.find_element(By.CLASS_NAME, "text").text
        author = quote.find_element(By.CLASS_NAME, "author").text
        tags = [tag.text for tag in quote.find_elements(By.CLASS_NAME, "tag")]
        all_quotes.append({"text": text, "author": author, "tags": tags})

    try:
        next_button = driver.find_element(By.CLASS_NAME, "next")
        next_button.find_element(By.TAG_NAME, "a").click()
    except Exception:
        break

## Analisi dei dati

Ora possiamo caricare le citazioni raccolte in un DataFrame per un'analisi o esportazione.

In [None]:
import pandas as pd

df = pd.DataFrame(all_quotes)
df.head()

## Chiudere il browser

È buona norma chiudere il WebDriver al termine dello scraping.

In [None]:
driver.quit()

# Conclusioni

In questo notebook abbiamo imparato a:
- Usare Selenium per aprire e controllare un browser
- Navigare un sito e identificare elementi HTML
- Estrarre contenuti e salvarli in un formato strutturato
- Gestire più pagine dinamicamente

🚀 Estensioni possibili:
- Gestione di CAPTCHA o login
- Utilizzo di Selenium con altri strumenti (BeautifulSoup, pandas)
- Screenshot e test automatici di UI

📌 Ricorda: **scraping responsabile sempre.**