**Sommario**

  - [Percorsi assoluti e relativi](#percorsi-assoluti-e-relativi)
    - [Raggiungere un file relativamente a dove si trova lo script](#raggiungere-un-file-relativamente-a-dove-si-trova-lo-script)
  - [Confronto tra una "tabella" in CSV, JSON e XML](#confronto-tra-una-tabella-in-csv-json-e-xml)
      - [CSV](#csv)
      - [JSON](#json)
      - [XML](#xml)
  - [XML](#xml)
  - [Installazione di `lxml`](#installazione-di-lxml)
  - [Da testo a oggetto XML](#da-testo-a-oggetto-xml)
      - [Da stringa: `etree.fromstring(text, parser=None, base_url=None)`](#da-stringa-etreefromstringtext-parsernone-base_urlnone)
      - [Da file: `etree.parse(source, parser=None, base_url=None)`](#da-file-etreeparsesource-parsernone-base_urlnone)
      - [Print: `etree.dump(elem, pretty_print=True, with_tail=True)`](#print-etreedumpelem-pretty_printtrue-with_tailtrue)
    - [Accedere agli elementi figli di una root](#accedere-agli-elementi-figli-di-una-root)
    - [Accedere al testo di un elemento](#accedere-al-testo-di-un-elemento)
  - [Esercizi da provare a fare a casa:](#esercizi-da-provare-a-fare-a-casa)

## Percorsi assoluti e relativi

- Notebook [02.02_python_intro_shell.ipynb](../../../02.02_python_intro_shell.ipynb) alla sezione "Operare con percorsi, file e cartelle"

- Notebook [07_python_files.ipynb](../../../07_python_files.ipynb) alla sezione "Interagire con il file system"

- Notebook [L_files.ipynb](../../../L_files.ipynb) alla sezione "Percorsi relativi e Current Working Directory"





> **NOTA:** Anche in Markdown i path relativi funzionano nello stesso modo.

Ad esempio, dato che questo notebook, relativamente alla root del repository, si trova in `_lezioni/PPAC01/2024-05-02/appunti.ipynb`, per raggiungere la cartella `imgs/` che si trova nella root del repository, devo scriviere questo:

`![immagine](../../../imgs/python_logo.png)`

che viene renderizzato così:

![immagine](../../../imgs/python_logo.png)

### Raggiungere un file relativamente a dove si trova lo script

In breve:

```python
import csv
import os

# Ottiene il percorso assoluto dello script corrente
script_path = os.path.abspath(__file__)

# Ottiene la directory in cui risiede lo script
script_dir = os.path.dirname(script_path)

# Costruisce un percorso assoluto al file che voglio raggiungere, combinando
# la directory dello script con il percorso relativo al file.
file_absolute_path = os.path.join(script_dir, 'botteghe-storiche.csv')

with open(file_absolute_path, 'r', encoding='utf-8') as file_in:
    ...
    ...
```

## Confronto tra una "tabella" in CSV, JSON e XML

In questo esempio, abbiamo una tabella con due record, ovvero le "entità" che vogliamo rappresentare. I record sono le righe. Ciascuna colonna invece rappresenta una proprietà o attributo del record.

La prima riga contiene le intestazioni di colonna, che sono fondamentali per capire cosa i dati rappresentano.

| `blog title`       | `date`       | `author`               | `file size` |
|--------------------|--------------|------------------------|-------------|
| `Data Formats 101` | `08-01-2017` | `Ben`                  | `17kb`      |
| `Hello, Python!`   | `23-04-2015` | `John "Big Boy" McCoy` | `49kb`      |

#### CSV
```csv
blog title,date,author,file size
Data Formats 101,08-01-2017,Ben,17kb
"Hello, Python!",23-04-2015,John ""Big Boy"" McCoy,49kb
```

#### JSON
```json
[
    {
        "blog title": "Data Formats 101",
        "date": "08-01-2017",
        "author": "ben",
        "file size": "17kb",
    },
    {
        "blog title": "Hello, Python!",
        "date": "23-04-2015",
        "author": "John \"Big Boy\" McCoy",
        "file size": "49kb",
    }
]
```

#### XML
```xml
<data>
    <entry>
        <blog_title>Data Formats 101</blog_title>
        <date>08-01-2017</date>
        <author>Ben</author>
        <file_size>17kb</file_size>
    </entry>
    <entry>
        <blog_title>Hello, Python!</blog_title>
        <date>23-04-2015</date>
        <author>John "Big Boy" McCoy</author>
        <file_size>49kb</file_size>
    </entry>
</data>
```

## XML

XML è un formato che memorizza i dati in una struttura gerarchica.

Un _**elemento**_ è un "mattone" di base di XML e (solitamente) consiste in:

- un _**tag di apertura**_;
- un _**tag di chiusura**_ corrispondente;
- un _**contenuto**_;
- uno o più _**attributi**_ facoltativi contenuti nel tag di apertura.

Esiste un sottomodulo integrato in Python chiamato `xml.etree` che può analizzare gli XML.

Tuttavia, useremo una libreria di terze parti, `lxml`, e il suo sottomodulo omonimo `etree`. Il motivo è che quest'ultimo elabora i documenti XML in modo più veloce e il core di questa libreria è scritto in linguaggio C.

- [Sito ufficiale](https://lxml.de/) e documentazione.
- [Pagina su PyPi](https://pypi.org/project/lxml/) (Python Package Index).
- [Repo su GitHub](https://github.com/lxml/lxml).

## Installazione di `lxml`

Poiché si tratta di una libreria esterna, bisogna per prima cosa installarla (meglio in un virtual enviroment):

```bash
# MAC/LINUX:
(my_venv) $ pip install lxml

# WINDOWS:
(my_venv) C:\my_proj> pip install lxml
```

Se siete su Windows, non avete creato un virtual environment e dovete usare il `py` launcher:

```powershell
C:\my_proj> py -m pip install lxml
```

Quindi, importate il modulo `etree` nel vostro codice. 

```python
from lxml import etree
```

Lavoreremo con due classi di questo modulo: `Element` ed `ElementTree`.

Un'istanza della classe `Element` può rappresentare un qualunque elemento del documento XML. Memorizza informazioni sul nome del tag, sugli attributi del tag e sui riferimenti agli elementi figli. È noto anche come *node*.

`ElementTree` rappresenta l'intero documento XML. Contiene alcune informazioni generali sul documento XML, come la sua codifica e la versione di XML, oltre a un riferimento all'`Element` _**root**_ principale del documento.

> NOTA: 
> - chiamiamo *tree* l'`ElementTree` perché la struttura di un intero file XML è effettivamente una "struttura ad albero" organizzata in modo gerarchico.
>
> - chiamiamo *root* (in gergo HTML *node*) un qualunque `Element` perché è effettivamente la root per tutti i suoi elementi figli. Anche esso ha "struttura ad albero" organizzata in modo gerarchico.

## Da testo a oggetto XML

L'azione di leggere, processare e analizzare uno stream di dati (un file) viene detta [*parsing*](https://it.wikipedia.org/wiki/Parsing).

Possiamo eseguire parsing di documenti XML a partire da una stringa o da un file.

- **STRINGHE XML**: Per fare il parsing di stringa, basta richiamare la funzione `etree.fromstring()` che restituisce l'`Element`, ovvero la root (radice) del documento.

- **FILE XML**: Per fare il parsing di un file, si usa la funzione `etree.parse()`. Essa restituisce un'istanza della classe `ElementTree`, quindi si deve usare il metodo `ElementTree.getroot()` per ottenere la root del documento.

#### Da stringa: `etree.fromstring(text, parser=None, base_url=None)`

- [Tutorial](https://lxml.de/tutorial.html#the-fromstring-function)
- [Documentazione API](https://lxml.de/apidoc/lxml.etree.html#lxml.etree.fromstring)

In [None]:
from lxml import etree

xml_string = '''
<country>
  <name>United Stated of America</name>
  <capital>Washington</capital>
  <states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>
</country>
'''
root = etree.fromstring(xml_string)

etree.dump(root)

<country>
  <name>United Stated of America</name>
  <capital>Washington</capital>
  <states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>
</country>


#### Da file: `etree.parse(source, parser=None, base_url=None)`

- [Tutorial](https://lxml.de/tutorial.html#the-parse-function)
- [Documentazione API](https://lxml.de/apidoc/lxml.etree.html#lxml.etree.parse)

In [None]:
from lxml import etree

xml_file = "../../../files_esercizi/country_data.xml"
root = etree.parse(xml_file).getroot()

etree.dump(root)

<country>
  <name>United Stated of America</name>
  <capital>Washington</capital>
  <states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>
</country>


#### Print: `etree.dump(elem, pretty_print=True, with_tail=True)`

Durante la scrittura e il debug dei vostri algoritmi potrebbe essere utile stampare a monitor i contenuti XML. Per non dover sempre ricorrere a `print()` e preoccuparsi che le strutture XML siano mostrate con la giusta indentazione, esiste la funzione `etree.dump()`. Accetta un `Element` del documento XML e lo mostra a monitor con tutto il suo contenuto in modo "prettified".

### Accedere agli elementi figli di una root

Si può accedere a un elemento figlio specificando il suo indice con la classica notazione a subscription (parentesi quadre).

Il nostro elemento radice, `<country>`, ha tre elementi figli che in ordine sono rispettivamente: `<name>`, `<capital>` e `<states>`.

Il tag che `<name>` ha quindi l'indice `0`, mentre `<capital>` l'indice `1` (ricordiamo che gli indici partono da `0`), quindi è possibile accedervi in questo modo:

In [17]:
from lxml import etree

xml_file = "../../../files_esercizi/country_data.xml"
root = etree.parse(xml_file).getroot()

etree.dump(root[0])
etree.dump(root[1])
etree.dump(root[2])
etree.dump(root[2][0])

<name>United Stated of America</name>
  
<capital>Washington</capital>
  
<states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>

<state>California</state>
    


### Accedere al testo di un elemento

Quando un elemento contiene del testo, questo viene memorizzato nel suo attributo `.text`.

In [16]:
print(root[2][0].text)

California


In [18]:
from lxml import etree

xml_file = "../../../files_esercizi/country_data.xml"
root = etree.parse(xml_file).getroot()

states = root[2]
for state in states:
    print(state.text)

California
Texas
Florida
Hawaii


## Esercizi da provare a fare a casa:

Esercizio su lettura file generico e scrittura manuale di file CSV:
- [esercizio_15_file.ipynb](../../../esercizi/esercizio_15_file.ipynb)

Esercizio su lettura testo contenuto in tag XML (da stringa):
> Da fare usando un ciclo!
- [esercizio_19_xml.ipynb](../../../esercizi/esercizio_19_xml.ipynb)