# Esercitazione: Modulo `lxml` con file XML e HTML

Utilizza il modulo Python `lxml` per leggere ed estrarre dati da file XML e HTML.

L'obiettivo è estrarre informazioni dai tag, dagli attributi e dai testi all'interno dei tag.

## File da analizzare

#### File XML: [`libri.xml`](../files_esercizi/libri.xml)

```xml
<library>
    <book id="1">
        <title>Python Programming</title>
        <author>John Doe</author>
        <year>2020</year>
    </book>
    <book id="2">
        <title>Learning XML</title>
        <author>Jane Smith</author>
        <year>2018</year>
    </book>
</library>
```

#### File HTML: [`libri.html`](../files_esercizi/libri.html)

```html
<!DOCTYPE html>
<html>
<head>
    <title>Library</title>
</head>
<body>
    <div class="book" id="1">
        <h2>Python Programming</h2>
        <p>Author: John Doe</p>
        <p>Year: 2020</p>
    </div>
    <div class="book" id="2">
        <h2>Learning XML</h2>
        <p>Author: Jane Smith</p>
        <p>Year: 2018</p>
    </div>
</body>
</html>
```

### Prerequisiti

**Installazione del modulo `lxml`**:
   - Utilizza `pip` per installare il modulo `lxml` se non è già presente nell'ambiente.

### Consegna - Parte 1: XML

Scrivi un programma Python che utilizza `lxml` per leggere il file [`libri.xml`](../files_esercizi/libri.xml) contenuto nella cartella `files_esercizi/`.

**Accesso ai tag e agli attributi nel file XML**:
   1. Trova tutti gli elementi `<book>` all'interno del file XML.
   2. Per ogni elemento `<book>`, estrai:
      - l'attributo `id`;
      - il contenuto (testo) dei tag `<title>`, `<author>` e `<year>`.
   3. Stampa le informazioni estratte in un formato leggibile.

In [13]:
# Scrivi qua il tuo codice
from lxml import etree

xml_file = "../../files_esercizi/libri.xml"

tree = etree.parse(xml_file)
print(type(tree))

root = tree.getroot()

for b in root:
    print(b.get('id'))
    print(b.find('title').text)
    print(b.find('author').text)
    print(b.find('year').text)
    print('-'*10)

<class 'lxml.etree._ElementTree'>
1
Python Programming
John Doe
2020
----------
2
Learning XML
Jane Smith
2018
----------


### Consegna - Parte 2: HTML

Scrivi un programma Python che utilizza `lxml` per caricare il file [`libri.html`](../files_esercizi/libri.html) contenuto nella cartella `files_esercizi/`.

**Accesso ai tag e agli attributi nel file HTML**:
   1. Trova tutti i tag `<div>` con classe `book` all'interno del file HTML.
   2. Per ogni tag `<div>`, estrai:
      - l'attributo `id`;
      - il contenuto dei tag `<h2>`;
      - `<p>` che contengono "Author";
      - `<p>` che contengono "Year".
   3. Stampa le informazioni estratte in un formato leggibile.

In [24]:
# Scrivi qua il tuo codice
from lxml import etree

xml_file = "../../files_esercizi/libri.html"

tree = etree.parse(xml_file)
root = tree.getroot()
etree.dump(root)

for b in root[1]:
   if b.get('class')=='book':
        print(b.get('id'))
        print(b.find('h2').text)
        if b.find('p').text.startswith('Author'):
            print(b.find('p').text.split(':'))
        if b.find('p').text.startswith('Year'):
            print(b.find('p').text.split(':'))
        print('-'*10)

<html>
<head>
    <title>Library</title>
</head>
<body>
    <div class="book" id="1">
        <h2>Python Programming</h2>
        <p>Author: John Doe</p>
        <p>Year: 2020</p>
    </div>
    <div class="book" id="2">
        <h2>Learning XML</h2>
        <p>Author: Jane Smith</p>
        <p>Year: 2018</p>
    </div>
</body>
</html>
1
Python Programming
['Author', ' John Doe']
----------
2
Learning XML
['Author', ' Jane Smith']
----------
