# CSV, JSON e XML

Nel notebook precedente sui file abbiamo accennato ai tre formati pricipali per la serializzazione dei dati: CSV, JSON e XML.

Prendiamo prima in dettaglio brevemente le loro caratteristiche principali e poi proviamo a vedere come leggerli e generarli in modo efficace.

- [CSV](https://it.wikipedia.org/wiki/Comma-separated_values): Comma Separated Values (standard [RFC 4180)](https://www.rfc-editor.org/rfc/rfc4180)). 
- [JSON](https://it.wikipedia.org/wiki/JavaScript_Object_Notation): JavaScript Object Notation (standard [RFC 8259](https://www.rfc-editor.org/rfc/rfc8259)).
- [XML](https://it.wikipedia.org/wiki/XML): eXtensible Markup Language (standard [by W3C](https://www.w3.org/TR/xml/) o SGML [ISO 8879](https://www.iso.org/standard/16387.html)).

## CSV

`.csv` è uno dei formati più vecchi e diffusi.

CSV sta per *Comma-Separated Values*, ovvero "valori separati da virgola". Un file CSV consente di memorizzare i dati in un formato tabellare.

Si tratta in realtà di un semplice file in cui ogni riga rappresenta solitamente una serie di dati che possiamo considerare come un insieme di *entry* o meglio, utilizzando un temine tipico dei database, un *record*.

Ogni riga contiene poi più elementi separati da virgole, ovvero gli *attributi* del record.

I dati in formato CSV possono essere facilmente importati in un foglio di calcolo (es. LibreOffice Calc o Excel) o in un database.

I file CSV sono spesso utilizzati per lo scambio di dati tra software con formati interni diversi. Sono particolarmente utili nelle attività commerciali. In particolare, è possibile spostare i dati tra le implementazioni di diversi fornitori di fogli di calcolo, database e servizi web in generale.

### Sintassi e struttura di base

Un file CSV è composto dai seguenti elementi:

- Riga di intestazione: una riga contenente i nomi delle colonne. È facoltativa, ma caldamente consigliata perché ci dice cosa sono i dati contenuti nel file.
- Una o più righe contenenti i dati: ogni riga rappresenta una entità o "record" le cui proprietà sono elencate in serie, sulla riga stessa.
- Un carattere separatore: usato per separare i dati su ciascuna riga. Di standard è il carattere virgola `,` (in inglese si dice _**comma**_).
- Un carattere delimitatore di testo: usato per racchiudere valori ambigui (facoltativo). Di standard sono le virgolette `"`.

Vediamo un esempio di CSV:

```csv
blog title, date, author, file size
Data Formats 101, 08-01-2017, Ben, 17kb
```

Questa scrittura deve essere interpretata così:

| `blog title`       | `date`       | `author`    | `file size` |
|--------------------|--------------|-------------|-------------|
| `Data Formats 101` | `08-01-2017` | `Ben`       | `17kb`      |

In realtà ne esistono molte varianti, in base al delimitatore che si vuole usare.

Esiste l'espressione ombrello [_**Delimiter-Separated Values**_](https://en.wikipedia.org/wiki/Delimiter-separated_values) o DSV, che indica genericamente dei dati separati da un delimitatore. Ad esempio:
- Tab (carattere di tabulazione) &rarr; TSV
- Pipe (carattere `|`) &rarr; PSV

Tuttavia i file vengono solitamente nominati con estensione `.csv` indipendentemente dal separatore usato!

#### In Italia - punto e virgola `;`

In Italia e nei paesi di lingua romanza si tende ad usare il punto e virgola `;` anziché la virgola come separatore.

> NOTA: Se il sistema operativo (Windows o macOS) sono impostati con la localizzazione italiana se si prova ad aprire un CSV con valori separati da virgole `,` anziché da punto e virgola `;` con Excel non si otterà il risultato sperato. È necessario andare su `Dati > Importa dati esterni > Importa da file di testo` e poi seguire la procedura guidata (wizard) per l'importazione e selezionare la virgola come separatore.

### Inserimento di caratteri "speciali" nel testo dei dati

In caso all'interno di un valore dovesse essere usato il carattere separatore è necessario ricorrere all'uso di un delimitatore di testo.

E se il delimitatore di testo viene usato all'interno del testo, questo va raddoppiato.

Per esempio:

```csv
blog title, date, author, file size
Data Formats 101, 08-01-2017, Ben, 17kb
"Hello, Python!", 23-04-2015, John ""Big Boy"" McCoy, 49kb
```

| `blog title`       | `date`       | `author`               | `file size` |
|--------------------|--------------|------------------------|-------------|
| `Data Formats 101` | `08-01-2017` | `Ben`                  | `17kb`      |
| `Hello, Python!`   | `23-04-2015` | `John "Big Boy" McCoy` | `49kb`      |

Fin qua sembra abbastanza semplice...

#### Ma se...

Ma se bisogna scrivere sia il separatore che il delimitatore?

| Valore effettivo      | Valore in CSV             |
|:---------------------:|:-------------------------:|
| `regular_value` | `regular_value` |
| `Fresh, brown "eggs"` | `"Fresh, brown ""eggs"""` |
| `"` | `""""` |
| `","` | `""","""` |
| `,,,"` | `",,,"""` |
| `,"",` | `","""","` |
| `"""` | `""""""""` |

Altri esempi [su Wikipedia](https://en.wikipedia.org/wiki/Comma-separated_values#Example).

Per fortuna Python ha degli strumenti che si occupano loro di gestire gran parte delle casistiche sia in lettura che in scrittura, quindi questi esempi ci servono solo a capire che, se apriamo manualmente e leggiamo un file CSV, a volte potremmo trovarci di fronte a sintassi un po' strane, ma queste servono solo a gestire questi casi speciali.

### Pro e contro del CSV

Pro:

- Sono facilmente importabili su un foglio di calcolo standard (Excel, LibreOffice Calc ecc.)
- Forniscono uno schema di informazioni semplice da creare e analizzare.
- Sono molto compatti.

Contro:

- Quando i dati in ciascuna colonna hanno dimensioni molto diverse, si perde l'allineamento delle colonne e diventa difficile leggere i file CSV come testo semplice.
- Un file CSV può contenere una sola "tabella".
- Non c'è distinzione tra testo e valori numerici. Bisogna inoltre prestare particolare attenzione ai valori float e al loro separatore dei decimali (`.` contro `,`) quando leggiamo i dati perché questo dipende da quale separatore dei dati è stato usato usato (e viceversa). Insomma, è facile sbagliare!
- Non esiste un modo standard per rappresentare i dati binari.
- Problemi con la distinzione tra valori nulli e stringhe vuote.
- Le sequenze di escape non sono proprio intuitive.

## JSON

JSON sta per "JavaScript Object Notation". Deriva dal linguaggio [JavaScript](https://it.wikipedia.org/wiki/JavaScript), ma è considerato indipendente dal linguaggio: funziona con quasi tutti i linguaggi di programmazione.

`.json` è un formato che utilizza una struttura dati molto simile a un dizionario Python, ma con alcune differenze, che vedremo più avanti.

```json
{ "blog title": "Data Formats 101", "date": "08-01-2017", "author": "ben", "file size": "17kb" }
```
Con il formato JSON possimo creare anche annidare i dati, crando così anche strutture più complesse:

```json
{ "blog title": "Data Formats 101", "date": "08-01-2017", "author": "ben", "file size": "17kb", "sections": { "Section_1": "JSON", "Section_2": "XML", "Section_3": "CSV", "Section_4": "TSV" }, "publication_channels" : ["medium", "twitter", "facebook", "linkedin"] }
```

[Link alla versione "beautified/prettyfied"](https://prettier.io/playground/#N4Igxg9gdgLgprEAuEwAEAdEAjANhAczRgEsZc4slMQARAQxnrQDEIAnAW0YGc0BGAAz8sAGhoATRpWQ1BADgC0wxQCZhAdjE16AVxgALDlRrYE2rADMSFNDxIAvGdSz8NAa2wWQPOGFLQPCboWADKfgFQAPoislgAUqEA8gBy3uH+JNBRqiZYABoAsgAy6RFZ0QDMeSAAwqEAamWZ2QAsNQAqjVhoAL7iWAAOungkYIwVUWAG9FBQcLhBIGjUANpYnHASJLqc3jAA7mTw7N6W9GBw2BAQ7t64JFDuW49YALp9IKIgEIORPMhQPR2OwIAcAArAhAAlD0XAHegATwB32w7AuzxgoXom2KjzgyHOizgqPRYExoUGF0eBGQMHYuhJIDgnDMEgkW2KswIunoBDgbC4jFIUFpsP0EC+IAMME4uAA6gYyHAeFTLuEoPZSAA3MiI5DgHgokCPXzsGDg9EEbiEuG+b4AKx4AA9QjSKABFXQQeC24nfKnsM0Gp3QKWDdiPGDykgSQzIeSCAOg3zy9GDA0RlVwdjagnfACO3vglt+MJA9B4inmWy2UvYcCLJAblr5NqQRPtPhZJDpDKZ9lFFAAgjB6SRsPo4OCc3j5n6u4OCJ7iwSO3amUxsDG4wZkK1vvT6DYabUIJx28yeABWKW6XwdejYGGdpnaxkASSgHNgoTAkb+Ydv1CGBEQoBc4F6XogA).

Grazie alla sintassi leggera di JSON, è possibile memorizzare e inviare facilmente ad altre applicazioni qualsiasi cosa, da numeri e stringhe ad array e oggetti. È anche possibile creare strutture di dati più complesse collegando nidificando oggetti e array.

### Sintassi e struttura di base

Il testo JSON sopporta due strutture di base:

- oggetto `{ }`: un insieme di coppie `chiave:valore` separate da virgola (anche detto "array associativo" o "dizionario");
- array `[ ]`: un insieme ordinato di valori separati da virgola (anche detto "lista").

> NOTA: JSON non supporta i commenti.

#### Oggetti

Gli oggetti JSON sono scritti tra parentesi graffe `{}` e le loro coppie `chiave:valore` sono separate da una virgola `,`. La chiave e il valore della coppia sono separati da due punti `:`. Ecco un esempio:

```json
{
    "first_name": "Sophie",
    "last_name": "Goodwin",
    "age": 34
}
```

Qui si possono vedere i dati di alcuni utenti in formato JSON.

Le chiavi di un oggetto sono sempre stringhe, mentre i valori possono essere di sette tipi diversi, compresi altri oggetti o array.

Si noti che non è necessario mettere una virgola (`,`) dopo l'ultima coppia `chiave:valore`.

#### Array

Gli array sono scritti tra parentesi quadre `[]` e i loro valori sono separati da una virgola `,`. Il valore dell'array, ancora una volta, può essere di qualsiasi tipo, compreso un altro array o un oggetto. Ecco un esempio di array:

```json
["night", "street", false, [ 345, 23, 8, "juice"], "fruit", {"name": "Pippo", "age": 65}]
```

Il più delle volte, un array include elementi simili, ma non è obbligatorio, come vediamo nell'esepio.


### Oggetti annidati

JSON è un formato molto flessibile. È possibile annidare oggetti e array all'interno di altri oggetti e array creando strutture ad albero:

```json
{
  "persons": [
    {
      "firstName": "Whitney",
      "lastName": "Byrd",
      "age": 20
    },
    {
      "firstName": "Eugene",
      "lastName": "Lang",
      "age": 26
    },
    {
      "firstName": "Sophie",
      "lastName": "Goodwin",
      "age": 34,
      "book_ids": [456, 567, 34, 64, 98]
    }
  ]
}
```

Gli oggetti annidati sono completamente indipendenti e possono avere proprietà diverse (vedi `book_ids` nell'esempio). In pratica però, questi oggetti si assomigliano spesso perché di solito gli "oggetti fratelli" dovrebbero avere le stesse caratteristiche.

### camelCase VS snake_case

Se avete letto con attenzione gli esempi di oggetti JSON, potresti esserti posto questa domanda: quale stile di scrittura delle parole composte si dovrebbe usare per JSON?

- _**CamelCase**_ è uno stile in cui le parole composte sono scritte insieme e senza spazi, ma ogni parola all'interno della frase inizia con una lettera maiuscola. Lo stile si chiama "camelCase" perché le lettere maiuscole all'interno della parola assomigliano alle gobbe di un cammello.
- _**snake_case**_ è uno stile dove le parole sono unite tra loro con l'underscore `_`.

In realtà, la scelta della giusta convenzione di denominazione JSON dipende direttamente dal linguaggio di programmazione e dalle librerie che utilizzate. È possibile utilizzare sia *camelCase* che *snake_case*, qualsiasi scelta sarà valida, ma è sconsigliato mischiare gli stili all'interno dello stesso file o base di dati.



### Inserimento di caratteri "speciali" nel testo dei dati

Se dobbiamo inserire delle virgolette `"` o un backslash `\` all'interno dei dati dobbiamo prima inserire il carattere di escape `\`:

| Valore effettivo | Valore in JSON |
|:----------------:|:--------------:|
| `"`              | `\"`           |
| `\`              | `\\`           |
| `\"`             | `\\\"`         |

### Pro e contro dell'XML

Pro:

- Data la sua ompattezza e leggerezza rispetto all'XML, JSON è il formato di interscambio più usato sul Web per le comunicazioni client-server.
- Maggiore flessibilità nella descrizione di strutture dati complesse (nidificazione e coppie chiave-valore) rispetto al semplice CSV.
- Alta leggibilità, anche per non è programmatore. Il formato JSON è anche sovente usato nei file di configurazione dei programmi. Per esempio VS Code salva le tue configurazioni in file JSON.
- La maggior parte dei linguaggi di programmazione dispone di funzioni e librerie per leggere e creare strutture JSON.

Contro:

- Non esiste ancora un unico standard internazionale che descrive il linguaggio univocamente.
- L'alta flessibilità rende però le strutture di dati JSON meno robuste rispetto all'XML.
- Non è prevista la possibilità di definire una grammatica formale come invece si può fare con l'XML.
- Non è possibile inserire commenti esplicitamente (ovvero parti di testo che devono essere ignorate e non considerate dati). Eventuali commenti vanno inseriti come dati e marcati secondo una convenzione prestabilita, in modo da ignorarli quando andiamo a leggere i dati.


## XML

XML sta per "eXtensible Markup Language".

`.xml` è un formato appartenenete alla macro-famiglia detta [SGML](https://it.wikipedia.org/wiki/Standard_Generalized_Markup_Language) (*Standard Generalized Markup Language*), da cui deriva anche il più famoso [HTML](https://it.wikipedia.org/wiki/HTML).

In pratica XML e HTML sono strettemente imparentati. Infatti se hai già visto del codice HTML, questa sintassi dovrebbe esserti familiare:

```xml
<entry> <blog_title>Data Formats 101</blog_title> <date>08-01-2017</date> <author>Ben</author> <file_size>17kb</file_size> </entry>
```

Anche l'XML permette l'annidamento dei dati:

```xml
<entry> <blog_title>Data Formats 101</blog_title> <date>08-01-2017</date> <author>Ben</author> <file_size>17kb</file_size> <sections type=”object”> <section_1>JSON</section_1> <section_2>XML</section_2> <section_3>CSV</section_3> <section_4>TSV</section_4> </sections>@t <publication_channels type=”array”> <value>medium</value> <value>twitter</value> <value>facebook</value> <value>linkedin</value> </publication_channels> </entry>
```

[Link alla versione "beautified/prettyfied"](https://prettier.io/playground/#N4Igxg9gdgLgprEAuEAeBMBOBPAfAAlQCMAbCAcwH0YBLGEuXAEQEMYX8AxCTAWzYDO+AIwAGYagD0pCtToMCqACZtGogBwBacZoBM4gOxSV8RSwCuMABY9cAIQRSL124QBmNBpQE0AXo2EDAGsiKQ8vH39FATgwWmghGGwABzgAXkBcAggiACtYmAzo-JpoSmFcACkAZQB5ADkpGLiSqDKi5tLdXAANAFkAGUbizvb41oBmXABhKoA1IY6J0ZbKABZcABU5hbG1xUkmsYFcAAEYQmTzUhowNhWwKxYoKDgSRJT0jJZMTBZsQsIADcWCRzIxeHAlDRzLwpMDQYwgSCwbgYAB3OjwTBw5GI1DwlFuFhgOBECAQII4hGKAmMEg0KBBSEMqkowiSS7XW67B5PF5vfYYHC4EAAGhAEGSR2QoG+mAgaIACt8EAJkCAQWi-mrxURfmAmTAqiwIf0GXBkES3nBdfrDVVksSGeRkFgweK4LwiJClJD+k9yOYWOQ4Nw+GxaFAXShnBAxSArDBeCQAOpWOhwASOklVVV0GiAujYdU0chQHgW8UMmKYGCK37kfiWkExcU5AQADyqzoYAEVzBB4M3reLHZga+rE8n48lMAyYCmaEprMh1KJR-KYinfsl1bPM3BMIDKyAAI4D+D1yVqmMCTQvSGQ+OYODnmgv+vBptIK2tkAxXgaFdTB3X-Hs4AAQRgLAaCISw4EVQ8zReYc-x8KM+wvC0fxbG0QHYIhF2XKxkFWcUsBYTxnSmCBeG-EBMwAVnjcwYg2FgiBvX88MBMEAEkoF9WAqjAOcpQgwSqiSBhULgABfOSgA).

La differenza più rilevante tra JSON e XML è che l'XML consente di memorizzare anche i cosiddetti "[metadati](https://it.wikipedia.org/wiki/Metadato)" in un modo inequivocabile.

```xml
<date timezone="UTC">08-01-2017</date>
```

se avessimo voluto fare la stessa cosa con JSON, avremmo dovuto creare un "campo" apposito:

```json
{ "timezone": "UTC", "date": "08-01-2017" }
```

### Sintassi e struttura di base

In XML abbiamo due contenitori per i nosti dati: i _**tag**_ e gli _**attributi**_ dei tag.

- I tag definiscono gli elementi che possono contenere dati.
- Gli attributi definiscono le proprità degli elementi che possono contenere dati. 
- I tag possono contenere altri tag, per creare strutture nidificate.

### Tag ed elementi

Ogni documento XML è da _**elementi**_ descritti e delimitati da _**tag**_.

Un tag è una stringa con un significato assegnato, che di solito rappresenta un'entità come un libro, una persona ecc.

La stringa è racchiusa tra parentesi uncinate (o angolari) `< >`.

È interessante notare che lo standard XML non fornisca affatto i tag, ma offre agli sviluppatori l'opportunità di "inventarli" autonomamente.

Un elemento è un blocco/frammento di una struttura XML: è definito con i tag e può contenere testo, altri tag (e dunque altri elementi) e _**attributi**_.

Ecco un esempio di documento XML che descrive un libro con un titolo e un autore:

```xml
<?xml version="1.0" encoding="UTF-8"?>
<libro>
    <titolo>Think Python</titolo>
    <autore>Downey, Allen B.</autore>
</libro>
```

Questo documento ha tre tag: `<libro>`, `<titolo>` e `<autore>`.

I tag (elementi) possono essere scritti usando:

- una coppia di *Start-tag/End-tag* (`<tag> </tag>`) 
- un singolo *Empty-element-tag* (`<tag/>`)

In pratica tutti gli elementi devono avere un tag di chiusura (un tag simile, ma con una barra `/` davanti) o terminare semplicemente con una barra (`/>`):

```xml
<elemento-tag>dato1</elemento-tag>

<elemento-tag testo="dato1"/>
```

### Elementi figli

Ogni documento XML ha sempre un singolo elemento chiamato "root" (radice) principale.

Questo elemento può contenere altri elementi, chiamati "elementi figli" (*child elements*), che a loro volta possono avere dei figli.

Il seguente documento XML rappresenta i libri contenuti in una biblioteca:

```xml
<biblioteca>
    <libro>
        <titolo>Il Principe</titolo>
        <autore>Macchivelli, Niccolò</autore>
    </libro>
    <libro>
        <titolo>Liber abbaci</titolo>
        <autore>Fibonacci, Leonardo</autore>
    </libro>
</biblioteca>
```

In questo esempio, l'elemento radice <biblioteca> ha due elementi figli taggati <libro> e l'elemento <libro> ha a sua volta due elementi figli: <titolo> e <autore>. 

### Prolog

Lo standard XML prevede la presenza del cosiddetto _**prolog**_ (prologo) nella prima riga di un file XML:

```xml
<?xml version="1.0" encoding="UTF-8"?>
```
Specifica la versione dello standard XML (di solito 1.0) e definisce la codifica (qui è UTF-8).

Il prologo è facoltativo, ma se c'è, deve essere il elemento del documento.

> NOTE: Un prologo non ha un tag di chiusura e ha una notazione speciale `<? ?>`.

### Attributi

Gli elementi XML possono possedere _**attributi**_ che forniscono dei "campi" aggiuntivi per immagazzinare informazioni relative sull'elemento.

Il valore dell'attributo è sempre inserito tra virgolette doppie o singole:

```xml
<libro titolo="Il quadrato rosso"/>
<libro titolo='Il quadrato rosso'/>
```

Un elemento può contenere più di un attributo:

```xml
<libro titolo="Il Principe" autore="Macchivelli, Niccolò" pagine="256">
```

La nostra libreria, avremmo potuto scriverla anche così:

```xml
<biblioteca>
    <libro titolo="Il Principe" autore="Macchivelli, Niccolò">
    <libro titolo="Liber abbaci" autore="Fibonacci, Leonardo">
    <libro titolo="Il deserto dei Tartari" autore="Buzzati, Dino">
</biblioteca>
```

### Attributi e/o elementi figli?

Come si può vedere, in alcuni casi gli attributi potrebbero sostituire gli elementi figli.

Non esiste un consenso su cosa sia meglio usare e in quale circosatanza. Di solito dipende dai dati che si sta cercando di serializzare, dagli strumenti per l'elaborazione di XML e, naturalmente, dalle persone con cui si lavora.

Come abbiamo visto, sono un ottimo posto dove mettere dei _**metadati**_, ovvero informazioni aggiuntive sul nostro "dato reale" (chi l'ha creato o modificato, come decofificarlo correttamente ecc.).

Si noti che un elemento può avere sia attributi che elementi figli insieme.

```xml
<libro data-inserimento="2023-03-14" utente="Pippo Disney">
    <titolo>Il Principe</titolo>
    <autore>Macchivelli, Niccolò</autore>
</libro>
```

### Inserimento di caratteri "speciali" nel testo dei dati

Come in Python, se il valore dell'attributo contiene virgolette doppie, è possibile utilizzare virgolette singole e viceversa. Ad esempio:

```xml
<libro titolo="Let's python!"/>
<libro titolo='Il "Tramonto in mare" di Ivan Aivazovsky'/>
```

Nel testo di un elemento e nel valore di un attributo non possiamo usare questi caratteri: `<`, `>` e `&`. 
Inoltre, nel valore di un attributo potremmo volere usasre direttamente `'` o `"` indipendentemente dalle virgolette esterne.

In XML non esistono caratteri di escape veri e prorpri, ma possiamo esprimere qualsiasi carattere tramite i cosiddetti [*special entity symbols*](https://en.wikipedia.org/wiki/List_of_XML_and_HTML_character_entity_references), che seguono una sintassi simile a questa: `&codice;`.

| Simbolo | Entity name | Decimal form |
|:-------:|:------------|--------------|
| `&`     | `&amp;`     | `&#38;`      |
| `<`     | `&lt;`      | `&#60;`      |
| `>`     | `&gt;`      | `&#62;`      |
| `"`     | `&quot;`    | `&#34;`      |
| `'`     | `&apos;`    | `&#39;`      |

Ecco degli esempi di applicazione:

```xml
<libro titolo="Il &quot;De sterrennacht&quot; di Vincent van Gogh"/>

<film titolo="Batman &amp; Robin" regista="Joel Schumacher"/>

<quiz>
    <domanda>A cosa serve il tag &lt;style&gt; in HTML?</domanda>
    <risposta>Serve per inserire delle regole di stile CSS.</risposta>
</quiz>
```

> SUGGERIMENTO: Il sito [amp-what.com](https://www.amp-what.com/) ti consente di trovare facilmente il codice di qualunque simbolo!


### Commenti

È possibile inserire commenti in file XML attraverso la l'uso di tag speciali `<!--` e `-->` che racchiudono il testo del commento.

```xml
<!-- Questo è un commento e non sarà considerato parte dei dati -->
<libro>
    <titolo>Il Principe</titolo>
    <autore>Macchivelli, Niccolò</autore>
    <!-- QUESTO E' UN ALTRO COMMENTO! -->
</libro>
```

### Pro e contro dell'XML

Pro:

- Il formato è basato su standard internazionali.
- Ha una struttura ben definita che facilita la ricerca e l'estrazione di informazioni.
- I moderni linguaggi di programmazione dispongono di librerie per l'elaborazione automatica dei documenti XML.
- Consente di scrivere commenti.

Contro:

- L'uso dei tag e degli attributi non rende facile una sua lettura/scrittura "a mano".
- La sua sintassi ridondante richiede una maggiore quantità di memoria per immagazzinare i dati rispetto a CSV e JSON. Questo causa un aumento dei costi di archiviazione e di trasferimento dei dati. Questo aspetto è particolarmente importante quando è necessario memorizzare o trasferire una grande quantità di dati.

# Apertura di file CSV

In Python possiamo leggere un file CSV come qualsiasi altro file di testo.

Stiamo per aprire il file [`./files_esercizi/botteghe-storiche.csv`](./files_esercizi/botteghe-storiche.csv).

Dato che è un file con oltre 700 righe, potremmo voler prima lavorare per esempio sulle prime 10, per poi applicare l'algorirmo all'intero file.

In [1]:
with open('./files_esercizi/botteghe-storiche.csv', 'r') as file_in:
    for _ in range(10):  # solo le pime 10 righe
        linea = next(file_in)
        print(linea, end='')

ID,Ragione sociale,Indirizzo,Civico,Comune,Cap,Frazione/Località,Note
1,BAZZANELLA RENATA,Via del Lagorai,30,Sover,38068,Piscine di Sover,"generi misti, bar - ristorante"
2,CONFEZIONI MONTIBELLER S.R.L.,Corso Ausugum,48,Borgo Valsugana,38051,,esercizio commerciale
3,FOTOGRAFICA TRINTINAGLIA UMBERTO S.N.C.,Largo Dordi,8,Borgo Valsugana,38051,,"esercizio commerciale, attività artigianale"
4,BAR SERAFINI DI MINATI RENZO,Frazione Serafini,24,Grigno,38055,,esercizio commerciale
5,COLTELLERIA S. CROCE,Via S. Croce,61,Trento,38122,,
6,SEMBENINI GINO & FIGLI S.R.L.,Via S. Francesco,35,Riva del Garda,38066,,
7,HOTEL RISTORANTE PIZZERIA “ALLA NAVE”,Via Nazionale,29,Lavis,38015,Nave San Felice,
8,OBRELLI GIOIELLERIA DAL 1929 S.R.L.,Via Roma,33,Lavis,38015,,
9,MACELLERIE TROIER S.A.S. DI TROIER DARIO E C.,Via Roma,13,Lavis,38015,,


Come abbiamo visto, un CSV deve essere interpretato come una tabella. Dunque possiamo immaginare questo:

| ID     | Ragione sociale                               | Indirizzo         | Civico | Comune          | Cap   | Frazione/Località | Note                                        |
|--------|-----------------------------------------------|-------------------|--------|-----------------|-------|-------------------|---------------------------------------------|
| 1      | BAZZANELLA RENATA                             | Via del Lagorai   | 30     | Sover           | 38068 | Piscine di Sover  | generi misti, bar - ristorante              |
| 2      | CONFEZIONI MONTIBELLER S.R.L.                 | Corso Ausugum     | 48     | Borgo Valsugana | 38051 |                   | esercizio commerciale                       |
| 3      | FOTOGRAFICA TRINTINAGLIA UMBERTO S.N.C.       | Largo Dordi       | 8      | Borgo Valsugana | 38051 |                   | esercizio commerciale, attività artigianale |
| 4      | BAR SERAFINI DI MINATI RENZO                  | Frazione Serafini | 24     | Grigno          | 38055 |                   | esercizio commerciale                       |
| 5      | COLTELLERIA S. CROCE                          | Via S. Croce      | 61     | Trento          | 38122 |                   |                                             |
| 6      | SEMBENINI GINO & FIGLI S.R.L.                 | Via S. Francesco  | 35     | Riva del Garda  | 38066 |                   |                                             |
| 7      | HOTEL RISTORANTE PIZZERIA “ALLA NAVE”         | Via Nazionale     | 29     | Lavis           | 38015 | Nave San Felice   |                                             |
| 8      | OBRELLI GIOIELLERIA DAL 1929 S.R.L.           | Via Roma          | 33     | Lavis           | 38015 |                   |                                             |
| 9      | MACELLERIE TROIER S.A.S. DI TROIER DARIO E C. | Via Roma          | 13     | Lavis           | 38015 |                   |                                             |


## Leggere "manualmente" da CSV

Non c'è nulla di particolare nella lettura delle righe di un file CSV, ma potrebbe non essere così semplice ottenere informazioni particolari dalle righe scritte in quel modo. Se noti, nella colonna "Note" abbiamo dei valori a loro volta separati da virgola, e dunque l'intero valore deve essere delimitato con i caratteri `"`.

Potremmo provare ad usare `linea.split()` e passare una virgola come separatore.

In [2]:
with open('./files_esercizi/botteghe-storiche.csv', 'r') as file_in:
    for _ in range(10):  # solo le pime 10 righe
        linea = next(file_in)
        linea_list = linea.split(',')
        print(linea_list)

['ID', 'Ragione sociale', 'Indirizzo', 'Civico', 'Comune', 'Cap', 'Frazione/Località', 'Note\n']
['1', 'BAZZANELLA RENATA', 'Via del Lagorai', '30', 'Sover', '38068', 'Piscine di Sover', '"generi misti', ' bar - ristorante"\n']
['2', 'CONFEZIONI MONTIBELLER S.R.L.', 'Corso Ausugum', '48', 'Borgo Valsugana', '38051', '', 'esercizio commerciale\n']
['3', 'FOTOGRAFICA TRINTINAGLIA UMBERTO S.N.C.', 'Largo Dordi', '8', 'Borgo Valsugana', '38051', '', '"esercizio commerciale', ' attività artigianale"\n']
['4', 'BAR SERAFINI DI MINATI RENZO', 'Frazione Serafini', '24', 'Grigno', '38055', '', 'esercizio commerciale\n']
['5', 'COLTELLERIA S. CROCE', 'Via S. Croce', '61', 'Trento', '38122', '', '\n']
['6', 'SEMBENINI GINO & FIGLI S.R.L.', 'Via S. Francesco', '35', 'Riva del Garda', '38066', '', '\n']
['7', 'HOTEL RISTORANTE PIZZERIA “ALLA NAVE”', 'Via Nazionale', '29', 'Lavis', '38015', 'Nave San Felice', '\n']
['8', 'OBRELLI GIOIELLERIA DAL 1929 S.R.L.', 'Via Roma', '33', 'Lavis', '38015', '', 

Abbiamo così ottenuto una lista per ciascuna riga. Ogni lista contiene gli elementi della riga, divisi utilizzando il carattere "virgola".

Anche se a prima vista potrebbe sembrare tutto ok, guardando meglio ci dovremmo accorgere che ci sono un po' di problemi.

In [3]:
row = ['1', 'BAZZANELLA RENATA', 'Via del Lagorai', '30', 'Sover', '38068', 'Piscine di Sover', '"generi misti', ' bar - ristorante"\n']
print(repr(row[7]))
print(repr(row[8]))

'"generi misti'
' bar - ristorante"\n'


Potremmo anche decidere di "pulire" manualmente i dati, ma il problema più grande è che in realtà stringhe come `"generi misti, bar - ristorante"` non dovevano essere divise perché dovrebbero essere considerate come un unico valore appartenenete alla colonna "Note".

Prima di passare a vedere come risolvere questi problemi, ragioniamo anche sulla scrittura.

## Scrivere "manualmente" in CSV

Come per la lettura, l'idea di scrivere su un file CSV non è diversa da quella di scrivere qualcosa su un qualsiasi file di testo.

Immaginate che un vostro collega vi porti un nuovo rapporto in cui è presente una "bottega storica" che non è presente nel tuo file CSV. Decidi quindi di aggiungerla alla fine del file.

Che cosa fate? Si potrebbe creare una lista con tutti i dati delle varie colonne del nuovo record e poi unirli con `str.join(list)` usando una virgola e infine scrivere i dati nel file.

```python
with open('./files_esercizi/botteghe-storiche.csv', 'a') as file_in:
    nuovo_record = ['737', 'MARCHETTI', 'Piazza Catena', '21', 'Riva del Garda', '38066', '', 'esercizio commerciale']
    file_in.write(','.join(nuovo_record) + '\n')
```

> ATTENZIONE: Se notate il file `botteghe-storiche.csv` termina con una riga vuota. Se provate a rimuovere l'ultima riga vuota, la nuova riga scritta apparirà sulla stessa riga dell'ultima. Quindi i file CSV gestiti in questo modo "manuale" devono tenere conto anche di questo fatto. In realtà, secondo lo standard, un file CSV non deve necessariamente contenere una riga vuota al fondo!

> NOTA: In teoria, dato che abbiamo una colonna `ID`, possiamo intuire che il numero dell'`ID` del record deve essere univoco. In altre parole non dovrebbero esserci due "botteghe storiche" con il medesimo `ID`. Un programma reale dovrebbe per esempio tenere conto anche di aspetti di questo tipo e quindi potremmo leggere prima gli ID di tutte le righe e poi decidere se dobbiamo aggiornare un record già esistente oppure crearne uno nuovo su una riga al fondo.

Tutti i modi di lavorare con un file CSV descritti sopra vi dovrebbero a questo punto essere familiari. Abbiamo effettuato le operazioni e usato strutture di dati built-in e algoritmi che abbiamo visto nella prima parte del corso.

In pratica per lavorare con un file CSV ci bastano: `str`, `list` e i relativi metodi, cicli `for` e `while` e la funzione `open()` e i metodi degli oggetti *file_like*.

Tuttavia il modulo `csv` della Libreria Standard ci può facilitare parecchio il lavoro.

# Modulo CSV

La libreria `csv` è lo strumento principale per lavorare con i file CSV. È built-in, quindi è sufficiente importarla.


```python
import csv
```

## Lettura con `csv`

Per leggere i dati da un file, occorre creare un oggetto `reader`.

Nell'esempio seguente, la funzione `csv.reader()` restituisce un oggetto `reader` che itera sulle righe del file CSV dato.

In [4]:
import csv

with open('./files_esercizi/botteghe-storiche.csv', 'r', newline='') as file_in:
    file_reader = csv.reader(file_in, delimiter=",")  # crea un reader object

    for _ in range(10):  # solo le pime 10 righe
        print(next(file_reader))

['ID', 'Ragione sociale', 'Indirizzo', 'Civico', 'Comune', 'Cap', 'Frazione/Località', 'Note']
['1', 'BAZZANELLA RENATA', 'Via del Lagorai', '30', 'Sover', '38068', 'Piscine di Sover', 'generi misti, bar - ristorante']
['2', 'CONFEZIONI MONTIBELLER S.R.L.', 'Corso Ausugum', '48', 'Borgo Valsugana', '38051', '', 'esercizio commerciale']
['3', 'FOTOGRAFICA TRINTINAGLIA UMBERTO S.N.C.', 'Largo Dordi', '8', 'Borgo Valsugana', '38051', '', 'esercizio commerciale, attività artigianale']
['4', 'BAR SERAFINI DI MINATI RENZO', 'Frazione Serafini', '24', 'Grigno', '38055', '', 'esercizio commerciale']
['5', 'COLTELLERIA S. CROCE', 'Via S. Croce', '61', 'Trento', '38122', '', '']
['6', 'SEMBENINI GINO & FIGLI S.R.L.', 'Via S. Francesco', '35', 'Riva del Garda', '38066', '', '']
['7', 'HOTEL RISTORANTE PIZZERIA “ALLA NAVE”', 'Via Nazionale', '29', 'Lavis', '38015', 'Nave San Felice', '']
['8', 'OBRELLI GIOIELLERIA DAL 1929 S.R.L.', 'Via Roma', '33', 'Lavis', '38015', '', '']
['9', 'MACELLERIE TROI

Come si può vedere, il risultato è molto simile a quello di prima. Ogni riga restituita dal lettore è un elenco di elementi stringa con i dati.

> NOTA: Dato che non siamo sempre sicuri che il nostro codice sarà eseguito su una versione recente di Python, quando apriamo un file CSV, è considerata una buona prativa specificare l'argomento `newline=''` quando apriamo i file con il modulo `csv`; questo perché se il newline non viene menzionato, le vecchie versioni di Python aggiungono l'interruzione di riga dopo l'ultimo elemento. Il modulo `csv` gestisce comunque questo aspetto automaticamente.

Proseguendo con il nostro esempio, supponiamo che ci venga chiesto di stampare alcuni risultati e di renderli più leggibili per altre persone. In particolare:

- i record con `'ID'` `45`, `64`, `176` e `204`;
- di questi record, stampare `'ID'`, `'Ragione sociale'` e `'Cap'`.


In questo caso dobbiamo leggere l'intero file e non solo più le prime 10 righe!

In [5]:
import csv

with open('./files_esercizi/botteghe-storiche.csv', 'r', encoding='utf-8') as file_in:
    reader_obj = csv.reader(file_in, delimiter=",")
    count = 0
    for line in reader_obj:
        if line[0] in ['45', '64', '176', '204']:
            print('ID:', line[0])
            print('Ragione sociale:', line[1])
            print('Cap:', line[5])
            print('----------------------------')
        else:
            pass
        count += 1


ID: 45
Ragione sociale: FARMACIA S. MARCO
Cap: 38068
----------------------------
ID: 64
Ragione sociale: OTTICI DEFLORIAN MARANGONI DI MARANGONI DONATELLA
Cap: 38042
----------------------------
ID: 176
Ragione sociale: LA BOTTEGA DELL’ARTIGIANO
Cap: 38067
----------------------------
ID: 204
Ragione sociale: FABBRO GENTILINI MAURIZIO
Cap: 38028
----------------------------


E se domani vi chiedessero di estrarre altre informazioni?

Meglio preparare subito il codice in modo da renderlo più "universale"!

In [6]:
import csv

identifier = 0                            # identificatore dei record
col_numbers = [0, 1, 4, 5]                # colonne da estrarre
record_ids = [45, 64, 176, 204]           # record da estrarre
sep_rec = '----------------------------'  # separatore visivo da usare

with open('./files_esercizi/botteghe-storiche.csv', 'r', encoding='utf-8') as file_in:
    reader_obj = csv.reader(file_in, delimiter=',')
    linea_num = 0
    for linea in reader_obj:
        if linea_num == 0:          # se è la prima riga (che contiene i nomi delle colonne)
            colonne_labels = linea  # leggo i nomi delle intestazioni di colonna
        if linea[0] in [str(idn) for idn in record_ids]:  # filtro
            for col_num in col_numbers:
                print(colonne_labels[col_num]+':', linea[col_num])
            print(sep_rec)
        else:
            pass
        linea_num += 1

ID: 45
Ragione sociale: FARMACIA S. MARCO
Comune: Rovereto
Cap: 38068
----------------------------
ID: 64
Ragione sociale: OTTICI DEFLORIAN MARANGONI DI MARANGONI DONATELLA
Comune: Baselga di Piné
Cap: 38042
----------------------------
ID: 176
Ragione sociale: LA BOTTEGA DELL’ARTIGIANO
Comune: Ledro
Cap: 38067
----------------------------
ID: 204
Ragione sociale: FABBRO GENTILINI MAURIZIO
Comune: Revò
Cap: 38028
----------------------------


## Scrittura con `csv`

Un altro oggetto molto utilizzato nella libreria CSV è l'oggetto `csv.writer` che, come suggerisce il nome, aiuta a scrivere informazioni su un file.

Supponiamo che in ufficio vogliate fare uno studio di Business Intelligence sulle "botteghe storiche" e i loro "titolari" per trovare delle possibili correlazioni. Vi vengono forniti quindi alcuni dati utili sui titolari delle botteghe.

Se dovessimo costruire la il file CSV a mano, inserendo i dati uno a uno, potremmo farlo direttamente con un editor di testo, ma potremmo compiere degli errori, e in quel caso potrebbero essere difficili da individuare. Se invece li scriviamo in una struttura dati come una lista di liste, possiamo facilmente processarli riducendo la possibilità di compiere errori dato che il modulo `csv` sovente ci avvisa se c'è qualcosa di anomalo nei dati.

In [7]:
import csv

intestazione = ['ID', 'Nome', 'Età', 'Altezza', 'Bottega ID']
nuovi_dati = [
    ['1', 'Alessio', '23', '184', '23'],
    ['2', 'Carla', '35', '170', '46'],
    ['3', 'Marco', '21', '178', '103'],
    ['4', 'Paola', '55', '164', '254'],
]

with open('./files_esercizi/botteghe-storiche-titolari.csv', 'w', encoding='utf-8') as file_out:
    writer_obj = csv.writer(file_out, delimiter=',', lineterminator='\n')
    writer_obj.writerow(intestazione)
    for riga in nuovi_dati:
        writer_obj.writerow(riga)

In questo esempio, abbiamo creato un nuovo file e poi abbiamo usato il metodo `writer_obj.writerow()` per scrivere nuove informazioni. Il parametro `lineterminator` è il separatore tra le voci di dati.

Il primo dato contiene i nomi delle colonne, tutti gli altri contengono gli autori. 

Come sempre, per essere sicuri che tutto è andato a buon fine, controlliamo l'output: [`botteghe-storiche-titolari.csv`](./files_esercizi/botteghe-storiche-titolari.csv)

## `DictReader` e `DictWriter`

Il modulo `csv` ha anche due classi magiche: `csv.DictReader()` e `csv.DictWriter()`. Esse rappresentano ogni voce di dati come un dizionario. Le chiavi del dizionario sono le intestazioni di colonna e i valori sono i dati corrispondenti.

Trattandosi di un dizionario, è possibile accededre ai dati utilizzando la notazione a subscription utilizzando le i nomi delle colonne come chiavi. 

In [8]:
import csv

with open('./files_esercizi/botteghe-storiche.csv', 'r', encoding='utf-8') as file_in:
    file_reader = csv.DictReader(file_in, delimiter=",")
    for linea in file_reader:
        if linea['ID'] in ['45', '64', '176', '204']:  # filtro
            print('ID:', linea['ID'])
            print('Ragione sociale:', linea['Ragione sociale'])
            print('Cap:', linea['Cap'])
            print('----------------------------')

ID: 45
Ragione sociale: FARMACIA S. MARCO
Cap: 38068
----------------------------
ID: 64
Ragione sociale: OTTICI DEFLORIAN MARANGONI DI MARANGONI DONATELLA
Cap: 38042
----------------------------
ID: 176
Ragione sociale: LA BOTTEGA DELL’ARTIGIANO
Cap: 38067
----------------------------
ID: 204
Ragione sociale: FABBRO GENTILINI MAURIZIO
Cap: 38028
----------------------------


Come fatto precedentemente, cerchiamo di rendere più "universale" il codice:

In [9]:
import csv

identifier = 'ID'                                       # identificatore dei record
col_names = ['ID', 'Ragione sociale', 'Comune', 'Cap']  # colonne da estrarre
record_ids = [45, 64, 176, 204]                         # record da estrarre
sep_rec = '----------------------------'                # separatore visivo da usare

with open('./files_esercizi/botteghe-storiche.csv', 'r', encoding='utf-8') as file_in:
    file_reader = csv.DictReader(file_in, delimiter=",")
    for linea in file_reader:
        if linea[identifier] in [str(idn) for idn in record_ids]:  # filtro
            for col_name in col_names:
                print(col_name+':', linea[col_name])
            print(sep_rec)
        else:
            pass

ID: 45
Ragione sociale: FARMACIA S. MARCO
Comune: Rovereto
Cap: 38068
----------------------------
ID: 64
Ragione sociale: OTTICI DEFLORIAN MARANGONI DI MARANGONI DONATELLA
Comune: Baselga di Piné
Cap: 38042
----------------------------
ID: 176
Ragione sociale: LA BOTTEGA DELL’ARTIGIANO
Comune: Ledro
Cap: 38067
----------------------------
ID: 204
Ragione sociale: FABBRO GENTILINI MAURIZIO
Comune: Revò
Cap: 38028
----------------------------


L'analogo strumento per scrivere è invece `csv.DictWriter()`. Utilizziamo il nostro file `botteghe-storiche-titolari.csv` e proviamo ad aggiungere nuovi record in quel file.

In [10]:
import csv

intestazioni = ['ID', 'Nome', 'Età', 'Altezza', 'Bottega ID']
nuovi_dati = [
    {'ID': '5', 'Nome': 'Tito', 'Età': '47', 'Altezza': '175', 'Bottega ID': '45'},
    {'ID': '6', 'Nome': 'Giorgia', 'Età': '38', 'Altezza': '169', 'Bottega ID': '73'},
    {'ID': '7', 'Nome': 'Eva', 'Età': '69', 'Altezza': '185', 'Bottega ID': '146'},
    {'ID': '8', 'Nome': 'Mimmo', 'Età': '20', 'Altezza': '178', 'Bottega ID': '195'},
]

with open('./files_esercizi/botteghe-storiche-titolari.csv', 'a', encoding='utf-8') as file_out:
    file_writer = csv.DictWriter(file_out, delimiter=',', lineterminator='\n', fieldnames=intestazioni)
    if file_out.tell() == 0:       # se il file è vuoto
        file_writer.writeheader()  # scrive la riga di intestazione
    file_writer.writerows(nuovi_dati)

Per prima cosa, creiamo un elenco di titoli di colonne che passeremo come argomento al parametro `fieldnames`. Questa lista è una sequenza di chiavi di dizionario che identifica l'ordine in cui i valori saranno scritti nel file `botteghe-storiche-titolari.csv`.

Quindi, se il file è vuoto aggiungiamo subito le intestazioni di colonna usando la funzione `writeheader()` e infine i dati usando la funzione `writerows()`.

Ora controlliamo l'output: [`botteghe-storiche-titolari.csv`](./files_esercizi/botteghe-storiche-titolari.csv)

## Riassumendo

In questa sezione abbiamo imparato:

- CSV è l'acronimo di *comma-separated value* (valore separato da virgole); questo formato di file viene utilizzato per memorizzare dati tabellari;
- come leggere manualmente i dati dal file e scrivere informazioni su di esso;
- Python dispone di una libreria CSV built-in con gli utili metodi `csv.reader()` e `csv.writer()`;
- `csv.DictReader()` e `csv.DictWriter()` aiutano a rappresentare i dati come dizionari.

Naturalmente, non possiamo trattare tutti gli aspetti. Se volete saperne di più, leggete [la documentazione ufficiale](https://docs.python.org/3/library/csv.html) e il [PEP 305](https://peps.python.org/pep-0305/)

Se avete particolari necessità o problemi con il modo in cui vengono gestiti i separarori e i delimitatori, dovreste approfondire i cosiddetti "[dialetti](https://docs.python.org/3/library/csv.html#dialects-and-formatting-parameters)".

# Modulo JSON

La libreria `json` è lo strumento principale per lavorare con i file JSON. È built-in, quindi è sufficiente importarla.

Come abbiamo visto all'inizio di questo notebook, JSON è un formato molto comune per la memorizzazione e la trasmissione dei dati. Anche se originariamente deriva da JavaScript, oggi questo formato è indipendente dal linguaggio e viene utilizzato in ogni tipo di situazione. 

Le due procedure principali sono la conversione dei dati Python in JSON e viceversa. Per capire meglio la logica che sta dietro alla conversione, diamo un'occhiata a un _**oggetto**_ JSON:

```json
{
  "movies": [
    {
      "title": "Inception",
      "director": "Christopher Nolan",
      "year": 2010
    },
    {
      "title": "The Lord of the Rings: The Fellowship of the Ring",
      "director": "Peter Jackson",
      "year": 2001
    },
    {
      "title": "Parasite",
      "director": "Bong Joon Ho",
      "year": 2019
    }
  ]
}
```

Si può notare che ci sono molte somiglianze tra la notazione JSON e i tipi di dati Python: abbiamo stringhe e numeri, un _**oggetto**_ JSON è simile a un dizionario Python, un _**array**_ a una lista. Questo rende le conversioni tra JSON e Python abbastanza facili e intuitive.

Ecco una tabella di conversione completa per la codifica dei dati tra Python in JSON:

| Python          | JSON                |
|-----------------|---------------------|
| `dict`          | `object` &rarr; `{}`|
| `list`, `tuple` | `array`  &rarr; `[]`|
| `str`           | `string` &rarr; `""`|
| `int`, `float`  | `number`            |
| `True`          | `true`              |
| `False`         | `false`             |
| `None`          | `null`              |

> ATTENZIONE: I tipi di dati non elencati nella tabella, come le classi personalizzate o, ad esempio, gli oggetti datetime, non possono essere convertiti in JSON così facilmente.
Diamo ora un'occhiata ai metodi specifici disponibili nel modulo json e vediamo come avviene la conversione.

## Codifica in JSON

In generale, la codifica in formato JSON è chiamata serializzazione. Il modulo `json` ha due metodi per la serializzazione: `json.dump()` e `json.dumps()`. La differenza fondamentale tra questi due metodi è il tipo di serializzazione: `json.dump()` scrive su un oggetto simile a un file, mentre `json.dumps()` crea una stringa.

Supponiamo di avere un dizionario equivalente al JSON che abbiamo visto prima. Ecco come salvarlo nel file JSON `movies.json` nella nostra cartella `files_esercizi`:

In [14]:
import json

movie_dict = {
  'movies': [
    {
      'title': 'Inception',
      'director': 'Christopher Nolan',
      'year': 2010
    },
    {
      'title': 'The Lord of the Rings: The Fellowship of the Ring',
      'director': 'Peter Jackson',
      'year': 2001
    },
    {
      'title': 'Parasite',
      'director': 'Bong Joon Ho',
      'year': 2019
    }
  ]
}

with open('./files_esercizi/movies.json', 'w') as json_file:
    json.dump(movie_dict, json_file)

Come si può vedere, questo metodo ha due argomenti necessari: i dati e l'oggetto di tipo file su cui scrivere. Se si esegue questo codice, si creerà un file JSON con i dati sui film.

Un'altra opzione è la serializzazione dei dati in una stringa, utilizzando `json.dumps()`. In questo caso, l'unico argomento richiesto è il dato che si vuole serializzare:

In [15]:
json_str = json.dumps(movie_dict)

print(json_str)

{"movies": [{"title": "Inception", "director": "Christopher Nolan", "year": 2010}, {"title": "The Lord of the Rings: The Fellowship of the Ring", "director": "Peter Jackson", "year": 2001}, {"title": "Parasite", "director": "Bong Joon Ho", "year": 2019}]}


Attenzione ai tipi di dati! JSON supporta solo le stringhe come chiavi. I tipi Python di base, come gli interi, vengono convertiti automaticamente in stringhe, ma per altri tipi di chiavi, come le tuple, si otterrà un `TypeError` perché le funzioni `.dump()` e `.dumps()` non possono convertirle in stringhe.

Oltre ai parametri obbligatori, entrambi i metodi hanno diversi parametri opzionali. È possibile controllarli tutti nella documentazione ufficiale, qui ci occuperemo solo del parametro `indent`. Si può notare che la stringa ottenuta nell'esempio precedente è piuttosto difficile da leggere, rispetto al dizionario originale. Se specifichiamo l'indentazione (un intero o una stringa), possiamo stampare il JSON risultante:

In [16]:
json_str = json.dumps(movie_dict, indent=4)
print(json_str)

{
    "movies": [
        {
            "title": "Inception",
            "director": "Christopher Nolan",
            "year": 2010
        },
        {
            "title": "The Lord of the Rings: The Fellowship of the Ring",
            "director": "Peter Jackson",
            "year": 2001
        },
        {
            "title": "Parasite",
            "director": "Bong Joon Ho",
            "year": 2019
        }
    ]
}


## Decodifica da JSON

La procedura opposta è la deserializzazione. Analogamente alla serializzazione, il modulo json ha due metodi: `json.load()` e `json.loads()`. Qui la differenza sta nei JSON in ingresso: oggetti simili a file o stringhe.

Convertiamo i JSON appena creati in tipi di dati Python.

In [17]:
# from a file
with open('./files_esercizi/movies.json', 'r') as json_file:
    movie_dict_from_json = json.load(json_file)

print(movie_dict_from_json == movie_dict)

True


Si può notare che il dizionario ottenuto come risultato di `json.load()` è uguale al nostro dizionario originale. Lo stesso vale per `json.loads()`:

In [18]:
# from string
print(movie_dict == json.loads(json_str))

True


> ATTENZIONE: Ricordate il problema delle chiavi non a stringa? Ebbene, se convertiamo un dizionario Python con chiavi non a stringa in JSON e poi di nuovo in un oggetto Python, non otterremo lo stesso dizionario.

## Riassumendo

In questa sezione abbiamo visto come lavorare con JSON utilizzando il modulo `json` di Python. Possiamo:

- convertire oggetti Python in JSON usando `json.dump()` o `json.dumps()`;
- convertire JSON in oggetti Python usando `json.load()` o `json.loads()`.

Le conversioni vengono effettuate in base alla tabella di conversione e non tutti gli oggetti Python possono essere convertiti in JSON.

Considerando che JSON è un formato di dati molto utilizzato, è importante essere in grado di lavorare con esso!

# XML e libreria `lxml`

Come abbiamo visto all'inizio di questo notebook, XML è un formato che memorizza i dati in una struttura gerarchica.

Un _**elemento**_ è un "mattone" di base di XML e (solitamente) consiste in:

- un _**tag di apertura**_;
- un _**tag di chiusura**_ corrispondente;
- un _**contenuto**_;
- uno o più _**attributi**_ facoltativi contenuti nel tag di apertura.

Esiste un sottomodulo integrato in Python chiamato `xml.etree` che può analizzare gli XML.

Tuttavia, useremo una libreria di terze parti, `lxml`, e il suo sottomodulo omonimo `etree`. Il motivo è che quest'ultimo elabora i documenti XML in modo più veloce e il core di questa libreria è scritto in linguaggio C.

- [Sito ufficiale](https://lxml.de/) e documentazione.
- [Pagina su PyPi](https://pypi.org/project/lxml/) (Python Package Index).
- [Repo su GitHub](https://github.com/lxml/lxml).

## Installazione di `lxml`

Poiché si tratta di una libreria esterna, bisogna per prima cosa installarla (meglio in un virtual enviromento):

```bash
(my_venv) $ pip install lxml
```

Se siete su Windows, non avete creato un virtual environment e dovete usare il `py` launcher:

```powershell
C:\my_proj> py -m pip install lxml
```

Quindi, importate il modulo `etree` nel vostro codice. 

```python
from lxml import etree
```

Lavoreremo con due classi di questo modulo: `Element` ed `ElementTree`.

Un'istanza della classe `Element` può rappresentare un qualunque elemento del documento XML. Memorizza informazioni sul nome del tag, sugli attributi del tag e sui riferimenti agli elementi figli. È noto anche come *node*.

`ElementTree` rappresenta l'intero documento XML. Contiene alcune informazioni generali sul documento XML, come la sua codifica e la versione di XML, oltre a un riferimento all'`Element` _**root**_ principale del documento.

> NOTA: 
> - chiamiamo *tree* l'`ElementTree` perché la struttura di un intero file XML è effettivamente una "struttura ad albero" organizzata in modo gerarchico.
> - chiamiamo *root* (in gergo HTML *node*) un qualunque `Element` perché è effettivamente la root per tutti i suoi elementi figli. Anche esso ha "struttura ad albero" organizzata in modo gerarchico.

## Da testo a oggetto XML

L'azione di leggere, processare e analizzare uno stream di dati (un file) viene detta [*parsing*](https://it.wikipedia.org/wiki/Parsing).

Possiamo eseguire parsing di documenti XML a partire da una stringa o da un file.

- Per fare il parsing di stringa, basta richiamare la funzione `etree.fromstring()` che restituisce l'`Element`, ovvero la root (radice) del documento.
- Per fare il parsing di un file, si usa la funzione `etree.parse()`. Essa restituisce un'istanza della classe `ElementTree`, quindi si deve usare il metodo `ElementTree.getroot()` per ottenere la root del documento.

#### Da stringa: `etree.fromstring(text, parser=None, base_url=None)`

- [Tutorial](https://lxml.de/tutorial.html#the-fromstring-function)
- [Documentazione API](https://lxml.de/apidoc/lxml.etree.html#lxml.etree.fromstring)
- [Codice sorgente](https://github.com/lxml/lxml/blob/11b33a83ad689bd16bd0a98c14cda51a90572b73/src/lxml/etree.pyx#L3242)

INPUT: Il parametro `text` può essere:

- una stringa contenente un documento XML (o un frammento XML).

OUTPUT: Un'oggetto di tipo `Element` (*root node*).



In [19]:
from lxml import etree

xml_string = '<a><b>hello</b></a>'

root = etree.fromstring(xml_string)

print(type(root))

<class 'lxml.etree._Element'>


#### Da file: `etree.parse(source, parser=None, base_url=None)`

- [Tutorial](https://lxml.de/tutorial.html#the-parse-function)
- [Documentazione API](https://lxml.de/apidoc/lxml.etree.html#lxml.etree.parse)
- [Codice sorgente](https://github.com/lxml/lxml/blob/11b33a83ad689bd16bd0a98c14cda51a90572b73/src/lxml/etree.pyx#L3515)

INPUT: Il parametro `source` può essere:

- un oggetto file aperto in modalità binaria con `open()`
- un oggetto di tipo file-like (che ha un metodo `.read()`) 
- una stringa contenente il *pathname* di un file XML
- una stringa contenente un URL con protocollo HTTP o FTP

OUTPUT: Un'oggetto di tipo `ElementTree` (*xml document-object*).

In [20]:
from lxml import etree

xml_file = "./files_esercizi/country_data.xml"

tree = etree.parse(xml_file)
print(type(tree))

root = tree.getroot()
print(type(root))

<class 'lxml.etree._ElementTree'>
<class 'lxml.etree._Element'>


#### Print: `etree.dump(elem, pretty_print=True, with_tail=True)`

Durante la scrittura e il debug dei vostri algoritmi potrebbe essere utile stampare a monitor (`sys.stdout`) i contenuti XML. Per non dover sempre ricorrere a `print()` e preoccuparsi che le strutture XML siano mostrate con la giusta indentazione, esiste la funzione `etree.dump()`. Accetta un `Element` del documento XML e lo stampa (print) a monitor con tutto il suo contenuto in modo "prettified".

In [21]:
from lxml import etree

xml_string = "<a><b>hello</b></a>"
root = etree.fromstring(xml_string)

etree.dump(root)

<a>
  <b>hello</b>
</a>


Vediamo ora come navigare attraverso (*to traverse*) un documento XML e accedere alle informazioni in esso contenute.

### Spostarsi attraverso l'albero XML

Non possiamo navigare direttamente in un `ElementTree`, ma possiamo navigare attraverso uno specifico `Element`, che sarà considerata la nostra _**root**_.

Poiché spesso le informazioni importanti non sono memorizzate nell'elemento root, è necessario poter accedere agli elementi figli.

Fare questo con la libreria `lxml` è molto comodo, perché la classe `Element` imita le liste di Python. Vediamo un esempio.

Per prima cosa, facciao il parsing di un file XML e stampiamolo con `etree.dump()` per comprenderne la struttura.

In [22]:
xml_file = "./files_esercizi/country_data.xml"
root = etree.parse(xml_file).getroot()
etree.dump(root)

<country>
  <name>United Stated of America</name>
  <capital>Washington</capital>
  <states>
    <state>California</state>
    <state>Texas</state>
    <state>Florida</state>
    <state>Hawaii</state>
  </states>
</country>


Si può accedere a un elemento figlio specificando il suo indice con la classica notazione a subscription (parentesi quadre).

Il nostro elemento radice, `<country>`, ha tre elementi figli che in ordine sono rispettivamente: `<name>`, `<capital>` e `<states>`. Il tag che `<capital>` ha quindi l'indice `1` (ricordiamo che gli indici partono da `0`), quindi è possibile accedervi in questo modo:

In [23]:
etree.dump(root[1])

<capital>Washington</capital>
  


La struttura dell'intero documento XML si comporta come un insieme di liste in cui ogni lista, tranne quello principale, è annidata in un altra lista. Quindi, per stampare tutti gli stati degli USA menzionati nel nostro documento, dobbiamo prima ottenere l'elemento `<states>` e poi iterare su tutti i suoi sottoelementi. Questo può essere fatto nello stesso modo in cui si lavora con gli elenchi:

In [24]:
states = root[2]
for state in states:
    print(state.text)

California
Texas
Florida
Hawaii


> NOTA: Quando un elemento contiene del testo, questo viene memorizzato nel suo attributo `.text`.

### Accesso agli attributi

I dati non sono necessariamente memorizzati come testo grezzo all'interno dei tag; anche gli _**attributi**_ possono memorizzare alcune informazioni all'interno dei tag di apertura.

Carichiamo un nuovo documento XML con le informazioni contenute negli attributi. E visualizziamolo a monitor per comodità:

In [25]:
xml_file = "./files_esercizi/country_data_attrs.xml"
root = etree.parse(xml_file).getroot()
etree.dump(root)

<country name="United Stated of America" capital="Washington">
  <states>
    <state name="Hawaii"/>
    <state name="Florida"/>
    <state name="Texas"/>
    <state name="California"/>
  </states>
</country>


NOTA: Le forme *Start-tag/End-tag* (`<tag></tag>`) e *Empty-element-tag* (`<tag/>`) sono semanticamente equivalenti. Il parser XML non li tratterà in modo diverso.

L'elemento si comporta come una lista quando si cerca di accedere ai suoi sottoelementi. Ma quando vogliamo ottenere gli attributi di un tag, l'elemento funziona come un dizionario. 

Il metodo `.get()` viene utilizzato per accedere all'attributo specificato. Se non esiste un attributo, restituisce `None`. Si noti che, a differenza di un dizionario, non è possibile specificare l'attributo tra parentesi quadre.

In [26]:
states = root[0]
for state in states:
    print(state.get('name'))

Hawaii
Florida
Texas
California


I metodi `keys()` e `items()` possono essere usati per ottenere tutti gli attributi di un tag:

In [27]:
print(root.keys())
print(root.items())

['name', 'capital']
[('name', 'United Stated of America'), ('capital', 'Washington')]


## Da oggetto XML a testo

Infine, dopo aver ottenuto tutte le informazioni necessarie ed eventualmente fatto delle modifiche, possiamo salvare il nostro oggetto Python su un file XML.

La funzione `etree.tostring()` prende un elemento e restituisce un oggetto `bytes` che può essere successivamente salvato in un file.

In [28]:
# Creiamo un oggetto XML (a partire da una stringa)
xml_string = "<a><b>hello</b></a>"
root = etree.fromstring(xml_string)

# E poi lo riconvertiamo in stinga con tostring()
print(etree.tostring(root))

b'<a><b>hello</b></a>'


Il metodo `ElementTree.write()` salva un'istanza di `ElementTree` direttamente su un file.

ATTENZIONE: Se abbiamo lavorato con un `Element` XML, dobbiamo prima convertirlo in `ElementTree`.

In [30]:
# Creiamo un oggetto XML (a partire da una stringa)
xml_string = "<a><b>hello</b></a>"
root = etree.fromstring(xml_string)

# Modifichiamo il testo del primo elemento figlio
root[0].text += ', Pippo!'
# Modifichiamo l'attributo dell'elemento root
root.set('href', 'https://pippo.disney')

# Convertiamo l'oggetto Element ottenuto in un ElementTree
tree = etree.ElementTree(root)

# Salviamo l'oggetto ElementTree su file
tree.write('./files_esercizi/hello.xml')

Naturalmente se non volgiamo usare la funzione `ElementTree.write()` puoi sempre usare la classica funzione `open()`. Ricorda però che il file va aperto in modalità binaria, perché le rappresentazioni in stringa di un XML con `etree` sono sempre di tipo `bytes`.

In [31]:
import io
from lxml import etree

# Creiamo un oggetto XML (a partire da una stringa)
xml_string_in = "<a><b>hello</b></a>"
root = etree.fromstring(xml_string_in)

# Modifichiamo il testo del primo elemento figlio
root[0].text += ', Pluto!'
# Modifichiamo l'attributo dell'elemento root
root.set('href', 'https://pluto.disney')

# Convertiamo l'oggetto Element ottenuto in un ElementTree
tree = etree.ElementTree(root)
# Riconvertiamo l'ElementTree in stringa
xml_string_out = etree.tostring(tree)

# Salviamo il file su disco con open() e mode 'wb'
with open('./files_esercizi/hello.xml', 'wb') as file_out:
    file_out.write(xml_string_out)


## Riassumendo

Un elemento di un documento XML nel modulo `xml.etree` è rappresentato da un'istanza della classe `Element`. Lo chiamiamo "root" perché è la root di tutti gli elementi che contiene al suo interno.

Si lavora con `Element` come con un elenco se si vuole accedere ai suoi sottoelementi o come con un dizionario (`.get()`) per accedere agli attributi.

- I metodi `etree.fromstring()` e `etree.parse()` sono usati per creare oggetti XML Python da una stringa o da un file
- I mmetodi `etree.tostring()` e `ElementTree.write()` ci permettono di salvare gli oggetti XML Python su una stringa o su un file.

Per riferirci all'intero documento XML, abbiamo la classe `ElementTree`.