## Uso di XPath con il modulo `lxml`

L'uso di XPath con il modulo `lxml` in Python è molto utile per navigare e manipolare documenti XML e HTML. 

### Documenti XML

Prima di poter utilizzare XPath, devi caricare il documento XML. Ecco un esempio di parsing di un documento XML da una stringa:

In [2]:
from lxml import etree

xml_string = '''
<library>
    <book>
        <title lang="en">Python Programming</title>
        <author>John Doe</author>
        <year>2020</year>
    </book>
    <book>
        <title lang="fr">Programmation Python</title>
        <author>Jean Dupont</author>
        <year>2019</year>
    </book>
</library>
'''

root = etree.fromstring(xml_string)



Ora che hai caricato il documento XML, puoi utilizzare XPath per navigare e selezionare parti del documento.


#### Esempio 1: Selezionare tutti i titoli dei libri

Per selezionare tutti i titoli dei libri:

In [6]:
titles = root.xpath('//book/title/text()')
print(titles)

['Python Programming', 'Programmation Python']


#### Esempio 2: Selezionare Titoli con Attributo Specifico

Per selezionare tutti i titoli dei libri con un attributo `lang` specifico:

In [3]:
english_titles = root.xpath('//book/title[@lang="en"]/text()')
print(english_titles)

['Python Programming']


#### Esempio 3: Selezionare Autori di Libri Pubblicati in un Anno Specifico

Per selezionare tutti gli autori dei libri pubblicati in un anno specifico:

In [4]:
authors_2020 = root.xpath('//book[year="2020"]/author/text()')
print(authors_2020)

['John Doe']


#### Esempio 4: Selezionare Libri con un Certo Autore

Per selezionare tutti i libri di un certo autore:

In [5]:
john_books = root.xpath('//book[author="John Doe"]/title/text()')
print(john_books)

['Python Programming']


### Documenti HTML

L'uso di `lxml` e XPath non è limitato solo ai documenti XML. Puoi anche analizzare e navigare documenti HTML. Ecco un esempio di come fare:

In [7]:
from lxml import etree

html_string = '''
<html>
  <body>
    <div class="content">
      <h1>Welcome to the Website</h1>
      <p>This is a paragraph.</p>
    </div>
    <div class="content">
      <h1>Another Section</h1>
      <p>Another paragraph.</p>
    </div>
  </body>
</html>
'''

html_root = etree.HTML(html_string)

#### Esempio 5: Selezionare tutti i titoli H1

Per selezionare tutti i titoli `<h1>`:

In [8]:
headers = html_root.xpath('//h1/text()')
print(headers)

['Welcome to the Website', 'Another Section']


#### Esempio 6: Selezionare paragrafi in un `<div>` con classe specifica

Per selezionare tutti i paragrafi (`<p>`) all'interno di una `div` con classe `content`:

In [9]:
paragraphs = html_root.xpath('//div[@class="content"]/p/text()')
print(paragraphs)

['This is a paragraph.', 'Another paragraph.']


### Significato di `.`, `/` e `//` nei pattern Xpath

In XPath, i simboli `.`, `/` e `//` sono utilizzati per navigare e selezionare nodi all'interno di un documento XML. Ecco una breve spiegazione del loro significato:

1. **`.` (punto)**
   - Rappresenta il contesto corrente, ossia il nodo attuale.
   - Ad esempio, `./child` seleziona i figli diretti del nodo corrente.

2. **`/` (singolo slash)**
   - Rappresenta il livello gerarchico immediato successivo, selezionando i figli diretti di un nodo.
   - Ad esempio, `/root/element` seleziona l'elemento `element` che è un figlio diretto del nodo `root`.

3. **`//` (doppio slash)**
   - Seleziona nodi a qualsiasi livello di profondità nell'albero XML, a partire dal contesto corrente.
   - Ad esempio, `//element` seleziona tutti gli elementi `element` presenti nel documento XML, indipendentemente dalla loro posizione.

Questi simboli sono fondamentali per costruire espressioni XPath che permettono di navigare in modo preciso e flessibile attraverso la struttura di un documento XML.

### Xpath cheatsheet

- https://devhints.io/xpath
- https://quickref.me/xpath.html

## Xpath con BeautifulSoup

- https://www.geeksforgeeks.org/how-to-use-xpath-with-beautifulsoup/