## Riassunto sul *web scraping* con `lxml` e `BeautifulSoup`

Il web scraping è una tecnica per estrarre dati da siti web. Due delle librerie Python più comuni per fare web scraping sono **lxml** e **BeautifulSoup**. Entrambe offrono modi diversi per navigare la struttura dei documenti HTML e estrarre dati da essi. Possiamo usare direttamente **XPath** (con `lxml`) o i **selettori CSS** (con `BeautifulSoup`).

Di seguito, un breve riassunto su come usare queste librerie e quando preferire una modalità rispetto all'altra.

### `lxml`
**lxml** è una libreria Python per la lavorazione di documenti XML e HTML. Una delle sue caratteristiche principali è il supporto per XPath, un potente linguaggio per la navigazione e selezione di nodi in documenti XML/HTML.

#### Utilizzo di lxml con XPath
```python
from lxml import html
import requests

# Effettua la richiesta HTTP
page = requests.get('http://esempio.com')

# Parse del contenuto HTML
tree = html.fromstring(page.content)

# Utilizzo di XPath per trovare elementi
titoli = tree.xpath('//h2/text()')

# Stampa i risultati
for titolo in titoli:
    print(titolo)
```
In questo esempio, `//h2/text()` è una query XPath che seleziona il testo di tutti gli elementi `<h2>`.

### `BeautifulSoup`
**BeautifulSoup** è una libreria Python per l'analisi di documenti HTML e XML. È particolarmente utile per la sua semplicità e flessibilità nell'utilizzo dei selettori CSS.

#### Utilizzo di BeautifulSoup con selettori CSS
```python
from bs4 import BeautifulSoup
import requests

# Effettua la richiesta HTTP
page = requests.get('http://esempio.com')

# Parse del contenuto HTML
soup = BeautifulSoup(page.content, 'html.parser')

# Utilizzo dei selettori CSS per trovare elementi
titoli = soup.select('h2')

# Stampa i risultati
for titolo in titoli:
    print(titolo.get_text())
```
In questo esempio, `h2` è un selettore CSS che seleziona tutti gli elementi `<h2>`.

### Confronto tra XPath e selettori CSS

- **XPath (con `lxml` o `BeautifulSoup`)**:
  - **Pro**: Molto potente e flessibile, permette di navigare nel documento in modo complesso. Vantaggioso per l'alta velocità di parsing dei documenti.
  - **Contro**: Più complesso da imparare rispetto ai selettori CSS.
  - **Quando usarlo**: Quando hai bisogno di selezionare elementi basandoti su relazioni complesse (es. parent-child, sibling) e/o quando vi sono molte condizioni da rispettare per selezionare l'elemento desiderato.

- **Selettori CSS (con `BeautifulSoup`)**:
  - **Pro**: Più semplice e intuitivo per chi ha familiarità con CSS.
  - **Contro**: Meno potente di XPath per selezioni molto complesse.
  - **Quando usarlo**: Quando hai bisogno di selezionare elementi basandoti su classi, ID, tag o altre semplici regole CSS oppure quando hai bisogno di gestire bene anche un HTML malformato.

### Riassumendo
Sia lxml che BeautifulSoup sono potenti strumenti per il web scraping. La scelta tra XPath e selettori CSS dipende dalle tue necessità specifiche: usa XPath con lxml o BeautifulSoup per selezioni complesse e usa i selettori CSS con BeautifulSoup per selezioni più semplici e intuitive.