# Esercitazione: Modulo `lxml` con file XML e HTML

Utilizza il modulo Python `lxml` per leggere ed estrarre dati da file XML e HTML.

L'obiettivo è estrarre informazioni dai tag, dagli attributi e dai testi all'interno dei tag.

## File da analizzare

#### File XML: [`libri.xml`](../../../files_esercizi/libri.xml)

```xml
<library>
    <book id="1">
        <title>Python Programming</title>
        <author>John Doe</author>
        <year>2020</year>
    </book>
    <book id="2">
        <title>Learning XML</title>
        <author>Jane Smith</author>
        <year>2018</year>
    </book>
</library>
```

#### File HTML: [`libri.html`](../../../files_esercizi/libri.html)

```html
<!DOCTYPE html>
<html>
<head>
    <title>Library</title>
</head>
<body>
    <div class="book" id="1">
        <h2>Python Programming</h2>
        <p>Author: John Doe</p>
        <p>Year: 2020</p>
    </div>
    <div class="book" id="2">
        <h2>Learning XML</h2>
        <p>Author: Jane Smith</p>
        <p>Year: 2018</p>
    </div>
</body>
</html>
```

### Prerequisiti

**Installazione del modulo `lxml`**:
   - Utilizza `pip` per installare il modulo `lxml` se non è già presente nell'ambiente.

### Consegna - Parte 1: XML

Scrivi un programma Python che utilizza `lxml` per leggere il file [`libri.xml`](../files_esercizi/libri.xml) contenuto nella cartella `files_esercizi/`.

**Accesso ai tag e agli attributi nel file XML**:
   1. Trova tutti gli elementi `<book>` all'interno del file XML.
   2. Per ogni elemento `<book>`, estrai:
      - l'attributo `id`;
      - il contenuto (testo) dei tag `<title>`, `<author>` e `<year>`.
   3. Stampa le informazioni estratte in un formato leggibile.

In [5]:
# Scrivi qua il tuo codice

# Importo il modulo lxml
from lxml import etree

# Faccio il parsing del file e ottengo l'Element (root)
xml_file = '../../../files_esercizi/libri.xml'
root = etree.parse(xml_file).getroot()


# Ciclo ciascun elemento della root
# Per ciascun elemento della root
for book in root:
    # Leggo l'id
    book_id = book.get('id', default="N/A")
    # Leggo il titolo, autore e anno
    title = book.find('title')
    author = book.find('author')
    year = book.find('year')

    # Stampo i risultati
    print('Book ID:', book_id)
    if title is not None:
        print('Title:', title.text)
    if author is not None:
        print('Author:', author.text)
    if year is not None:
        print('Year:', year.text)
    print('-' * 10)

Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
----------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
----------
Book ID: N/A
Title: Pippo in vacanza
Year: 2012
----------


### Consegna - Parte 2: HTML

Scrivi un programma Python che utilizza `lxml` per caricare il file [`libri.html`](../../../files_esercizi/libri.html) contenuto nella cartella `files_esercizi/`.

**Accesso ai tag e agli attributi nel file HTML**:
   1. Trova tutti i tag `<div>` con classe `book` all'interno del file HTML.
   2. Per ogni tag `<div>`, estrai:
      - l'attributo `id`;
      - il contenuto dei tag `<h2>`;
      - `<p>` che contengono "Author";
      - `<p>` che contengono "Year".
   3. Stampa le informazioni estratte in un formato leggibile.

In [18]:
from lxml import html

tree = html.parse('../../../files_esercizi/libri.html')
root = tree.getroot()

books = root.findall('.//div[@class="book"]')

for book in books:
    book_id = book.get('id', default='N/A')

    title = book.find('h2').text

    author_elem = book.xpath('.//p[contains(text(), "Author")]')[0]
    year_elem = book.xpath('.//p[contains(text(), "Year")]')[0]

    author = author_elem.text
    year = year_elem.text

    print('Book ID:', book_id)
    print('Title:', title)
    print('Author:', author.split(': ')[1])
    print('Year:', year.split(': ')[1])
    print('-' * 10)


Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
----------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
----------


Per dividere l'etichetta dal dato, possiamo procedere in questo modo:

In [19]:
dati = 'Author: John Doe'.split(':')

print(dati)

dati[1].strip()

['Author', ' John Doe']


'John Doe'

In [17]:
dati = 'Author: John Doe'.split(': ')

dati[1]

'John Doe'

Se non vigliamo usare XPath:

In [None]:
from lxml import html

tree = html.parse('../../../files_esercizi/libri.html')
root = tree.getroot()

books = root.findall('.//div[@class="book"]')

for book in books:
    book_id = book.get('id')

    title = book.find('h2').text

    paragraphs = book.findall('p')

    for p in paragraphs:
        if p.text.startswith('Author'):
            author = p.text.split(': ')[1]
        elif p.text.startswith('Year'):
            year = p.text.split(': ')[1]

    print(f"Book ID: {book_id}")
    print(f"Title: {title}")
    print(f"Author: {author}")
    print(f"Year: {year}")
    print("-------------------")