# Esercitazione: Modulo `lxml` con file XML e HTML

Utilizza il modulo Python `lxml` per leggere ed estrarre dati da file XML e HTML.

L'obiettivo è estrarre informazioni dai tag, dagli attributi e dai testi all'interno dei tag.

## File da analizzare

#### File XML: `libri.xml`

```xml
<library>
    <book id="1">
        <title>Python Programming</title>
        <author>John Doe</author>
        <year>2020</year>
    </book>
    <book id="2">
        <title>Learning XML</title>
        <author>Jane Smith</author>
        <year>2018</year>
    </book>
</library>
```

#### File HTML: `libri.html`

```html
<!DOCTYPE html>
<html>
<head>
    <title>Library</title>
</head>
<body>
    <div class="book" id="1">
        <h2>Python Programming</h2>
        <p>Author: John Doe</p>
        <p>Year: 2020</p>
    </div>
    <div class="book" id="2">
        <h2>Learning XML</h2>
        <p>Author: Jane Smith</p>
        <p>Year: 2018</p>
    </div>
</body>
</html>
```

### Prerequisiti

**Installazione del modulo `lxml`**:
   - Utilizza `pip` per installare il modulo `lxml` se non è già presente nell'ambiente.

### Consegna - Parte 1: XML

Scrivi un programma Python che utilizza `lxml` per leggere il file `libri.xml`.

**Accesso ai tag e agli attributi nel file XML**:
   1. Trova tutti gli elementi `<book>` all'interno del file XML.
   2. Per ogni elemento `<book>`, estrai:
      - l'attributo `id`;
      - il contenuto (testo) dei tag `<title>`, `<author>` e `<year>`.
   3. Stampa le informazioni estratte in un formato leggibile.

#### Con `.find()`

In [13]:
from lxml import etree

# Caricamento del file XML
tree = etree.parse('../../files_esercizi/libri.xml')
root = tree.getroot()

for book in root:
    book_id = book.get('id')

    title = book.find('title').text
    author = book.find('author').text
    year = book.find('year').text

    print(f"Book ID: {book_id}")
    print(f"Title: {title}")
    print(f"Author: {author}")
    print(f"Year: {year}")
    print("-------------------")

Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
-------------------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
-------------------


#### Con `.xpath()`

In [8]:
from lxml import etree

# Caricamento del file XML
tree = etree.parse('../../files_esercizi/libri.xml')
root = tree.getroot()

# Ottenimento di tutti i tag book
books = root.findall('book')

for book in books:
    book_id = book.get('id')

    title = book.xpath('title/text()')[0]
    author = book.xpath('author/text()')[0]
    year = book.xpath('year/text()')[0]
    
    print(f"Book ID: {book_id}")
    print(f"Title: {title}")
    print(f"Author: {author}")
    print(f"Year: {year}")
    print("-------------------")

Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
-------------------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
-------------------


#### Con controllo del nome del tag

In [15]:
from lxml import etree

# Caricamento del file XML
tree = etree.parse('../../files_esercizi/libri.xml')
root = tree.getroot()

for book in root:
    book_id = book.get('id')

    title = None
    author = None
    year = None
    
    # Iterazione sui figli del tag <book>
    for element in book:
        if element.tag == 'title':
            title = element.text
        elif element.tag == 'author':
            author = element.text
        elif element.tag == 'year':
            year = element.text
    
    print(f"Book ID: {book_id}")
    print(f"Title: {title}")
    print(f"Author: {author}")
    print(f"Year: {year}")
    print("-------------------")

Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
-------------------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
-------------------


Dato che in questo caso l'etichetta stampata è uguale al nome del tag, possiamo anche scrivere in questo modo più compatto:

In [17]:
from lxml import etree

# Caricamento del file XML
tree = etree.parse('../../files_esercizi/libri.xml')
root = tree.getroot()

for book in root:
    book_id = book.get('id')
    print(f"Book ID: {book_id}")

    title = None
    author = None
    year = None
    
    # Iterazione sui figli del tag <book>
    for element in book:    
        print(f"{element.tag.title()}: {element.text}")
    print("-------------------")

Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
-------------------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
-------------------


### Consegna - Parte 2: HTML

Scrivi un programma Python che utilizza `lxml` per caricare il file `libri.html`.

**Accesso ai tag e agli attributi nel file HTML**:
   1. Trova tutti i tag `<div>` con classe `book` all'interno del file HTML.
   2. Per ogni tag `<div>`, estrai:
      - l'attributo `id`;
      - il contenuto dei tag `<h2>`;
      - `<p>` che contengono "Author";
      - `<p>` che contengono "Year".
   3. Stampa le informazioni estratte in un formato leggibile.

In [1]:
from lxml import html

# Caricamento del file HTML
tree = html.parse('../../files_esercizi/libri.html')
root = tree.getroot()

# Accesso ai div con classe "book"
books = root.findall('.//div[@class="book"]')

for book in books:
    book_id = book.get('id')
    title = book.find('h2').text
    
    author_elem = book.xpath('.//p[contains(text(), "Author")]')[0]
    year_elem = book.xpath('.//p[contains(text(), "Year")]')[0]
    
    author = author_elem.text.split(': ')[1]
    year = year_elem.text.split(': ')[1]
    
    print(f"Book ID: {book_id}")
    print(f"Title: {title}")
    print(f"Author: {author}")
    print(f"Year: {year}")
    print("-------------------")

Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
-------------------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
-------------------


In [23]:
from lxml import html

# Caricamento del file HTML
tree = html.parse('../../files_esercizi/libri.html')
root = tree.getroot()

# Accesso ai div con classe "book"
books = root.findall('.//div[@class="book"]')

for book in books:
    book_id = book.get('id')
    title = book.find('h2').text
    
    # Trova tutti i tag <p> nel div corrente
    paragraphs = book.findall('p')
    
    # Inizializza le variabili per autore e anno
    author = ''
    year = ''
    
    # Cerca il paragrafo contenente "Author" e "Year"
    for p in paragraphs:
        if p.text.startswith('Author'):
            author = p.text.split(': ')[1]
        elif p.text.startswith('Year'):
            year = p.text.split(': ')[1]
    
    print(f"Book ID: {book_id}")
    print(f"Title: {title}")
    print(f"Author: {author}")
    print(f"Year: {year}")
    print("-------------------")


Book ID: 1
Title: Python Programming
Author: John Doe
Year: 2020
-------------------
Book ID: 2
Title: Learning XML
Author: Jane Smith
Year: 2018
-------------------
