# Tipi di tag XML

<book title="I tre moschettieri"/>

## Elementi

I tag (elementi) possono essere scritti usando:

- una coppia di *Start-tag / End-tag* (`<tag> </tag>`) 

- un singolo *Empty-element-tag* (`<tag/>`)

## Valori

I dati possono essere inseriti...

- come testo tra una coppia di tag<br>
  `<state>California</state>`

- come valore di un attributo<br>
  `<state name="California"/>`

- combinando le due possibilità precedenti:
  - come testo tra una coppia di tag,
  - come valore di un attributo<br>
  `<state abbreviation="CA">California</state>`
  `<state timezone="UTC">24/4/2024</state>`

Esempio di struttura con valori codificati come testo tra una coppia di *start-tag/end-tag*:

```xml
<country>
  <name>United Stated of America</name>
  <capital>Washington</capital>
  <states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>
</country>
```

Esempio di struttura con valori codificati negli attributi di *empty-element-tag*:

```xml
<country name="United Stated of America" capital="Washington">
  <states>
    <state name="Hawaii"/>
    <state name="Florida"/>
    <state name="Texas"/>
    <state name="California"/>
  </states>
</country>
```

## `ElementTree` e `Element`

- `ElementTree` : `etree.parse(xml_file)`
- `Element` : `etree.parse(xml_file).getroot()`

Noi dobbiamo sempre lavorare sugli `Element`.

# XML con `lxml`

[`country_data.xml`](../../../files_esercizi/country_data.xml):
```xml
<country>
  <name>United Stated of America</name>
  <capital>Washington</capital>
  <states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>
</country>
```

## Accedere agli elementi figli di una "root"

`root[index]`

In [3]:
from lxml import etree

xml_file = "../../../files_esercizi/country_data.xml"
root = etree.parse(xml_file).getroot()

for elem in root:  # root : <country>
    etree.dump(elem)

<name>United Stated of America</name>
  
<capital>Washington</capital>
  
<states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>



In [6]:
for state in root[2]:  # root[2] : <states>
    etree.dump(state)

<state>California</state>
    
<state>Texas</state>
    
<state>Florida</state>
    
<state>Hawaii</state>
  


## Accedere al testo di un elemento con `.text`

`Element.text`

In [7]:
from lxml import etree

xml_file = "../../../files_esercizi/country_data.xml"
root = etree.parse(xml_file).getroot()

for state in root[2]:  # root[2] = <states>
    print(state.text)

California
Texas
Florida
Hawaii


## Accedere agli attributi di un elemento con `.get()`

`Element.get(attribute_name)`

Come il `dict.get()`, anche questo metodo `.get()` consente di specificare un valore di default:

`Element.get(attribute_name, default='Attributo non trovato!')`

Ora usiamo un'altro file.

[`country_data_attrs.xml`](../../../files_esercizi/country_data_attrs.xml):
```xml
<country name="United Stated of America" capital="Washington">
  <states>
    <state name="Hawaii"/>
    <state name="Florida"/>
    <state name="Texas"/>
    <state name="California"/>
  </states>
</country>
```

In [9]:
from lxml import etree

xml_file = "../../../files_esercizi/country_data_attrs.xml"
root = etree.parse(xml_file).getroot()

states = root[0]
for state in states:
    print(state.get('name'))

Hawaii
Florida
Texas
California


# XML Prolog

Lo standard XML prevede la presenza del cosiddetto _**prolog**_ (prologo) nella prima riga di un file XML:

```xml
<?xml version="1.0" encoding="UTF-8"?>
```
Specifica la versione dello standard XML (di solito 1.0) e definisce la codifica (qui è UTF-8).

Il prologo è facoltativo, ma se c'è, deve essere il primo elemento del documento.

> NOTE: Un prologo non ha un tag di chiusura e ha una notazione speciale `<? ?>`.

# Funzioni ricorsive

Per avere un'idea di come funziona un'algoritmo ricorsivo, immaginiamo questo problema:

Abbiamo una serie di scatole cinesi una dentro l'altra e vogliamo aprirle tutte per trovare un premio nascosto dentro l'ultima. Purtroppo non sappiamo in anticipo quante scatole dovremo aprire, quindi decidiamo di scrivere un algoritmo che apra una scatola alla volta e continui finché non ci sono più scatole.

In [4]:
def apri_scatole(scatola):
    # Stampa quale scatola stiamo aprendo
    print(f'Apertura scatola contenente: {scatola}')
    
    # Controlla se l'elemento corrente non è più una lista (premio trovato)
    if type(scatola) is not list:
        print(f'Hai trovato il premio: {scatola}!')
    else:
        # Continua, aprendo la prossima scatola
        apri_scatole(scatola[0])

# Esempio di scatole annidate con un premio nella scatola più interna
scatole = [
    [
        [
            [
                "orologio d'oro"
            ]
        ]
    ]
]

apri_scatole(scatole)


Apertura scatola contenente: [[[["orologio d'oro"]]]]
Apertura scatola contenente: [[["orologio d'oro"]]]
Apertura scatola contenente: [["orologio d'oro"]]
Apertura scatola contenente: ["orologio d'oro"]
Apertura scatola contenente: orologio d'oro
Hai trovato il premio: orologio d'oro!
