# Principi di statistica e tools digitali

## 2b: Formati file

### GG Analisi dei dati @ Fidia

**Speaker**: David Leoni info@davidleoni.it

Repository github per questi tutorial: https://github.com/DavidLeoni/ggad

Materiale tratto dal libro [SoftPython](https://it.softpython.org)

(Per navigare nelle slide premi Esc)

## Scaletta

2b - formati file

- binari
- a linee
- CSV
- JSON
- XML

## File 

**binari:** Sequenze di 0 e 1

- Excel (`.xls`, `.xlsx`)
- LibreOffice Calc (`.ods`)
- Adobe PDF (`.pdf`)
- Immagini (`.jpg`, `.jpeg`, `.png`, `.gif`, `.webp`)
- ...

per essere aperti richiedono librerie specializzate 

**di testo:**

- `.txt`
- `.csv`, `.tsv`
- `.json`
- `.xml`, `.html`
- ...

Apribili anche con Blocco note!

## File a linee

- file di testo
- informazioni raggruppate per linee

**Riferimenti**: [SoftPython Formati 1 - File a linee](https://it.softpython.org/formats/formats1-lines-sol.html)

[people-simple.txt](people-simple.txt):

```text
Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli
```

## Serve leggere 'per linea'?

Quando capitano file:

* in formati strani

* enormi

* corrotti

## Esempio lettura

In [17]:
with open('people-simple.txt', encoding='utf-8') as f:
    linea=f.readline()
    print(linea)

Leonardo




### La codifica `encoding`

dipende da sistema operativo, editor 

se non specifichi la codifica, Python prova a indovinare...

...se sbaglia -> vedrai caratteri strani (es. quadratini) 

Meglio specificare!

- il più comune: `utf-8` 
- altrimenti, qui in Italia: `encoding='latin-1'` 
- Per fare la detection: Charset Normalizer [tool online](https://charsetnormalizerweb-ousret.vercel.app/) | [libreria](https://github.com/Ousret/charset_normalizer)

- Approfondimenti: [SoftPython - capitolo Stringhe - encodings](https://it.softpython.org/strings/strings1-sol.html#Encodings)


##  Aprire e chiudere un file 1/3

```python
with open('people-simple.txt', encoding='utf-8') as f:
    linea=f.readline()
    print(linea)
```

Se non si chiude propriamente un file, si rischiano:

- spreco di risorse
- errori strani

`with` _CONTESTO_ 

- definisce un blocco di codice con degli automatismi

`with open` 

- **anche se accadono errori** nel corpo del `with`...
- ... alla fine Python chiuderà automaticamente il file

##  Aprire e chiudere un file 2/3

```python
with open('people-simple.txt', encoding='utf-8') as f:
    linea=f.readline()
    print(linea)
```

Nella parte `as f:` 

- abbiamo assegnato il file ad una variabile chiamata qui `f`
- ma potevamo usare un qualunque altro nome


<div class="alert alert-warning">

**ATTENZIONE**:  ricordati di mettere sempre il carattere dei doppi punti `:` alla fine della linea del `with` !
</div>

##  Aprire e chiudere un file 3/3

In [18]:
with open('people-simple.txt', encoding='utf-8') as f:
    nome=f.readline()      # sposta in avanti il cursore di lettura
    cognome=f.readline()   # legge dalla *nuova* posizione del cursore!
    print(nome + ' ' + cognome)


Leonardo
 da Vinci



`nome=f.readline()` mette in `nome` l'intera linea: **vedi problemi?** 

<div class="alert alert-warning">

**ATTENZIONE**: `f.readline()` metterà alla fine il carattere di ritorno a capo `\n`
</div>

In [19]:
with open('people-simple.txt', encoding='utf-8') as f:
    nome=f.readline().rstrip()    # meglio...
    cognome=f.readline().rstrip()
    print(nome + ' ' + cognome)

Leonardo da Vinci


## Leggere tutto il file con `while`

In [20]:
with open('people-simple.txt', encoding='utf-8') as f:
    linea=f.readline()
    while linea != "":                
        nome = linea.rstrip()
        cognome=f.readline().rstrip()
        print(nome + ' ' + cognome)
        linea=f.readline()

Leonardo da Vinci
Sandro Botticelli
Niccolò Macchiavelli


Se siamo alla fine del file (o il file è vuoto):

-  la chiamata a  `f.readline()` ritorna una stringa vuota

## Leggere con un `for`

In [21]:
with open('people-simple.txt', encoding='utf-8') as f:    
    for linea in f:
        print(linea)

Leonardo

da Vinci

Sandro

Botticelli

Niccolò 

Macchiavelli


non abbiamo più chiamate a `f.readline()`

Quando incontra il ciclo, Python automagicamente fa un sacco di cose!

- solo per i file di testo!

## `for` vs `while`

`for`: tipicamente  per iterare _tutto_ il file

`while`: per maggior controllo
    
- es stai cercando qualcosa in un file enorme e vuoi fermarti appena lo trovi

Per esempi di ricerca: [Cicli while - ricercare in una sequenza](https://it.softpython.org/while/while1-sol.html#Ricercare-in-una-sequenza) 

- su liste invece che file, ma stesso concetto

### Cos'è esattamente `f` ?

In [22]:
import csv
with open('people-simple.txt', encoding='utf-8', newline='') as f:        
    print(f)

<_io.TextIOWrapper name='people-simple.txt' mode='r' encoding='utf-8'>


Come materializzare?

In [23]:

with open('people-simple.txt', encoding='utf-8', newline='') as f:    
    print(list(f))

['Leonardo\n', 'da Vinci\n', 'Sandro\n', 'Botticelli\n', 'Niccolò \n', 'Macchiavelli']


## NON consumare due volte nel `with`


```python
with open('people-simple.txt', encoding='utf-8', newline='') as f:            
    print(list(f))
    print(list(f)) 
```

```text
['Leonardo\n', 'da Vinci\n', 'Sandro\n', 'Botticelli\n', 'Niccolò \n', 'Macchiavelli']
[]
```

<div class="alert alert-warning">

**ATTENZIONE:** qualunque lettura muove in avanti il cursore di lettura!

</div>

Alla seconda chiamata il file è ormai 'consumato' e stampa `[]`

## NON consumare `f` fuori dal `with`

```python
with open('people-simple.txt', encoding='utf-8') as f:        
    print("Occhio all'indentazione..")

print(list(f))   
```

```python
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[16], line 6
      4 with open('people-simple.txt', encoding='utf-8', newline='') as f:        
      5     print("Occhio all'indentazione..")
      6
----> 7 print(list(f))   # BOOM!

ValueError: I/O operation on closed file.
```

## Se proprio vuoi consumare due volte...

In [24]:
with open('people-simple.txt', encoding='utf-8', newline='') as f:            
    print(list(f))
    
with open('people-simple.txt', encoding='utf-8', newline='') as f:      
    print(list(f)) 

['Leonardo\n', 'da Vinci\n', 'Sandro\n', 'Botticelli\n', 'Niccolò \n', 'Macchiavelli']
['Leonardo\n', 'da Vinci\n', 'Sandro\n', 'Botticelli\n', 'Niccolò \n', 'Macchiavelli']


## CSV

**Riferimenti**

* [SoftPython Formati 2 - CSV](https://it.softpython.org/formats/formats2-csv-sol.html)

[esempio-1.csv](esempio-1.csv) 

```text
animale,anni
cane,12
gatto,14
pellicano,30
scoiattolo,6
aquila,25
```

file di testo

dati tabulari

'Comma Separated Value'

- anche altri separatori (`;`, `tab`, `|`, ...)

## Perchè usare CSV?

[esempio-1.csv](esempio-1.csv) 

```text
animale,anni
cane,12
gatto,14
pellicano,30
scoiattolo,6
aquila,25
```

formato molto semplice

maggiore controllo in lettura

- es. non scambiano giorni con mesi nelle date..

## Come leggere un CSV?

a) una riga alla volta

- utile per CSV enormi


b) caricare tutto in RAM (es. con Pandas)

**DOMANDA**: se vogliamo sapere se un certo file da 100 terabyte contiene almeno 3 milioni di righe in cui è presente la parola 'pippo'...

Dobbiamo mettere in RAM contemporaneamente tutte le righe?

**DOMANDA**: E se volessimo partendo da un file da 100 terabyte crearne un'altro con gli stessi contenuti del primo file a cui a tutte le righe è aggiunta la parola 'pippo' alla fine...

Dovremmo mettere in RAM contemporaneamente tutte le righe del primo file? 

E quelle del secondo ?

## Come è fatto un CSV?

File [esempio-1.csv](esempio-1.csv) 

```text
animale,anni
cane,12
gatto,14
pellicano,30
scoiattolo,6
aquila,25
```

prima linea:  nomi delle colonne, separati da virgole es. `animale, anni`

corpo: campi separati da virgole `,` es. `cane, 12`

non ci sono spazi dopo le virgole

<table>
<tr>
<td colspan="2">

```python
import csv

with open('esempio-1.csv', encoding='utf-8', newline='') as f:
    
    lettore = csv.reader(f, delimiter=',') 
    
    for riga in lettore:     
        print(riga) 
```
</td>
</tr>
<tr>
<td width="40%">

**Output**

```text
['animale', 'anni']
['cane', '12']
['gatto', '14']
['pellicano', '30']
['scoiattolo', '6']
['aquila', '25']        
```       
</td>
<td>

Modulo `csv` nativo

apertura file testuale,  con parametro `newline=''` 

creazione oggetto `lettore`

iterazione `for` su oggetto `lettore`

`riga` è una lista

</td>
</tr>
</table>

## Cos'è esattamente `lettore` ?

In [25]:
import csv
with open('esempio-1.csv', encoding='utf-8', newline='') as f:    
    lettore = csv.reader(f, delimiter=',')     
    print(lettore)

<_csv.reader object at 0x0000022A748A8F40>


`lettore` è una specie di macchinetta ferma

conosce solo la posizione in cui sta guardando all'interno del file

Come attivarla?

### Come materializzare una sequenza?

In [26]:

import csv
with open('esempio-1.csv', encoding='utf-8', newline='') as f:    
    lettore = csv.reader(f, delimiter=',')     
    print(list(lettore))

[['animale', 'anni'], ['cane', '12'], ['gatto', '14'], ['pellicano', '30'], ['scoiattolo', '6'], ['aquila', '25']]


### Consumerai due volte nel `with`?

```python
import csv
with open('esempio-1.csv', encoding='utf-8', newline='') as f:    
    lettore = csv.reader(f, delimiter=',')     
    print(list(lettore))
    print(list(lettore))
```


```python
[['animale', 'anni'], ['cane', '12'], ['gatto', '14'], ['pellicano', '30'], ['scoiattolo', '6'], ['aquila', '25']]
[]
```

### Consumerai fuori dal `with` ?

```python
import csv
with open('esempio-1.csv', encoding='utf-8', newline='') as f:    
    lettore = csv.reader(f, delimiter=',')      
       
print(list(lettore))   
```

```python
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
Cell In[30], line 6
      4 with open('esempio-1.csv', encoding='utf-8', newline='') as f:    
      5     lettore = csv.reader(f, delimiter=',')       
      6  
----> 7 print(list(lettore))

ValueError: I/O operation on closed file.
```

## Leggere come dizionari

Tramite l'oggetto [csv.DictReader](https://docs.python.org/3/library/csv.html#csv.DictReader) sarai in grado di recuperare dizionari

le chiavi saranno i nomi dei campi presi dall'intestazione 

In [27]:
import csv
with open('esempio-1.csv', encoding='utf-8', newline='') as f:    
    lettore = csv.DictReader(f, delimiter=',')   # Notice we now used DictReader
    for diz in lettore:
        print(diz)

{'animale': 'cane', 'anni': '12'}
{'animale': 'gatto', 'anni': '14'}
{'animale': 'pellicano', 'anni': '30'}
{'animale': 'scoiattolo', 'anni': '6'}
{'animale': 'aquila', 'anni': '25'}


**NOTA**: diverse versioni di Python producono diversi dizionari:

* $<$ 3.6: `dict`
* 3.6, 3.7: `OrderedDict`
* $\geq$ 3.8: `dict`

## Scrivere un CSV

Puoi facilmente creare un CSV instanziando un oggetto `writer`:

In [28]:
import csv

with open('file-scritto.csv', 'w', newline='') as csv_da_scrivere: 
    
    scrittore = csv.writer(csv_da_scrivere, delimiter=',')    
    
    scrittore.writerow(['This', 'is', 'a header'])
    scrittore.writerow(['some', 'example', 'data'])
    scrittore.writerow(['some', 'other', 'example data'])

Per scrivere, RICORDATI di specificare l'opzione `'w'`

<div class="alert alert-warning">

**ATTENZIONE:** `'w'` *rimpiazza completamente* eventuali file  esistenti!

</div>

<div class="alert alert-warning">

**ATTENZIONE: ASSICURATI DI SCRIVERE NEL FILE GIUSTO!**

Se non stai più che attento ai nomi dei file, **rischi di cancellare dati** !!!
</div>

## Leggere e scrivere un CSV 1/2

Per scrivere un nuovo CSV prendendo dati da un CSV esistente: 

- annidare un `with` per la lettura dentro uno per la scrittura

In [29]:
import csv
    
# Per scrivere, RICORDATI di specificare l'opzione 'w'
# ATTENZIONE: 'w' rimpiazza *completamente* eventuali file  esistenti!
# ATTENZIONE: l'handle *esterno* l'abbiamo chiamato  csv_da_scrivere
with open('esempio-1-arricchito.csv', 'w', encoding='utf-8', newline='') as csv_da_scrivere: 
    scrittore = csv.writer(csv_da_scrivere, delimiter=',')

    # Nota come questo 'with' sia dentro quello esterno    
    # ATTENZIONE: l'handle *interno* l'abbiamo chiamato csv_da_leggere
    with open('esempio-1.csv', encoding='utf-8', newline='') as csv_da_leggere:    
        lettore = csv.reader(csv_da_leggere, delimiter=',')      
        
        for riga in lettore:
            riga.append("qualcos'altro")
            scrittore.writerow(riga)
            scrittore.writerow(riga)
            scrittore.writerow(riga)    
            
        print("Finito di scrivere", csv_da_scrivere.name)

Finito di scrivere esempio-1-arricchito.csv


## Leggere e scrivere un CSV 2/2

<div class="alert alert-warning">

**ATTENZIONE A SCAMBIARE I NOMI DEI FILE!**

Quando leggiamo e scriviamo è facile commettere un errore e sovrascrivere accidentalmente i nostri preziosi dati 
</div>

**Per evitare problemi:**

* usa nomi espliciti sia per i file di output (es: `esempio-1-arricchito.csv')` che per gli handle (es: `csv_da_scrivere`)
* fai una copia di backup dei dati da leggere
* controlla sempre prima di eseguire il codice !


<table><tr>
<td width="50%">

## JSON

file di testo

formato più elaborato _ad albero_

profondità arbitraria

schema non necessario

molto diffuso in applicazioni web 

**Riferimenti:**

[SoftPython Formati 3 - JSON](https://it.softpython.org/formats/formats3-json-sol.html)

</td>
<td>



```json
[
  {
    "name": "Grazioli",
    "address": "Piazza Grazioli - Lavis",
    "slots": 7,
    "position": [
      46.139732902099794,
      11.111516155225331
    ]
  },
  {
    "name": "Pressano",
    "address": "Piazza della Croce - Pressano",
    "slots": 5,
    "position": [
      46.15368174037716,
      11.106601229430453
    ]
  }
]
```
</td>
</tr>
</table>

<table><tr>
<td>

```python
import json

with open('bike-sharing-lavis.json',  encoding='utf-8') as f:
    contenuto_python = json.load(f)
```

```python
contenuto_python
```

```python
[{'address': 'Piazza Grazioli',
  'bikes': 3,
  'name': 'Grazioli',
  'position': [46.139, 11.111],
  'slots': 7},
 {'address': 'Piazza della Croce',
  'bikes': 2,
  'name': 'Pressano',
  'position': [46.153, 11.106],
  'slots': 5},
 .
 .
]
```
</td>
<td>

## JSON E Python 1/2

- molto simile a strutture dati in Python
- numeri interi, float, stringhe, liste e dizionari
- unica differenza: campi `null` del JSON che diventano `None` in Python

- Per caricare: modulo già pronto `json`, con la funzione `json.load`
</td>
</tr>
</table>

## JSON E Python 2/2

```python
contenuto_python[0]

{'address': 'Piazza Grazioli',
  'bikes': 3,
  'name': 'Grazioli',
  'position': [46.139, 11.111],
  'slots': 7}
```

```python
contenuto_python[0]['address']
```

```python
'Piazza Grazioli'
```

```python
contenuto_python[0]['position']
```

```python
[46.139732902099794, 11.111516155225331]
```

## JSONL

Particolare [tipo di file](http://jsonlines.org/) 
 JSON

- Nota `L` alla fine

File di testo contenente una sequenza di linee

- ciascuna rappresenta un oggetto valido json

Si può trovare per file grossi o _in streaming_

[impiegati.jsonl](impiegati.jsonl) :

```json
{"nome": "Mario", "cognome":"Rossi"}
{"nome": "Paolo", "cognome":"Bianchi"}
{"nome": "Luca", "cognome":"Verdi"}
```

[impiegati.jsonl](impiegati.jsonl) :

```json
{"nome": "Mario", "cognome":"Rossi"}
{"nome": "Paolo", "cognome":"Bianchi"}
{"nome": "Luca", "cognome":"Verdi"}
```

In [30]:
import json

with open('./impiegati.jsonl', encoding='utf-8',) as f:

    i = 0
    for linea_testo in f:  # interpreta come file di testo
        contenuto_python = json.loads(linea_testo)   # converte linea di testo in vero oggetto python
        print('Oggetto ', i)
        print(contenuto_python)
        i = i + 1
        

Oggetto  0
{'nome': 'Mario', 'cognome': 'Rossi'}
Oggetto  1
{'nome': 'Paolo', 'cognome': 'Bianchi'}
Oggetto  2
{'nome': 'Luca', 'cognome': 'Verdi'}


## XML
<table> <tr>

<td>

file di testo `.xml`

ad albero, più complesso dei json

nodi `<TAG> CONTENUTO </TAG>`
    
supporta attributi anche per i nodi (metadati)

`<TAG ATTRIBUTO1="bla" ATTRIBUTO2="bla">`

tipicamente fornito di schema

il linguaggio HTML per le pagine web segue lo standard XML

Per scansionare XML e HTML in Python:

- [Libreria beautiful soup](https://beautiful-soup-4.readthedocs.io/en/latest/)
- [Tutorial estrazione](https://it.softpython.org/extraction/extraction-sol.html) da SoftPython

</td>

<td>

```html
<div class="moodbo text-white">
    <div>
        <h4 class="headline">
            Coppa del Mondo di Snowboard
        </h4>
        <span class="abc">14/12/2017</span>
        <span class="moodboard">
            <span class="icon fz20"></span> 
            Passo Costalunga
        </span>
    </div>
    <div class="text-right">
        <a href="../visit">
            <span class="icon fz30">
            </span>
        </a>
    </div>
</div>
```

</td>
</tr>
</table>

## CHALLENGE 1 - Cure termali

✪✪ Un centro benessere accoglie clienti che possono decidere di usufruire tra uno o più servizi. Il centro segna queste informazioni in un file [centro-benessere1.csv](centro-benessere1.csv) mettendo `1` se il servizio viene erogato, altrimenti `0`: 

![formats4-chal1-tabella.png](img/formats4-chal1-tabella.png)

Ogni servizio ha lo stesso `costo_unitario=100` euro, e il centro vuole conoscere la spesa totale per ciascun cliente.

Scrivi una funzione `terme` che dato il nome di un file, lo legge e RITORNA un dizionario che associa a ciascuna persona il conto da saldare.

* **USA** il `csv.reader`, con encoding `utf-8`
* **NON** scrivere la costante `100` nel codice

**Esempio**:

```python
>>> terme('centro-benessere.csv')

{'Marco':400, 'Andrea':300, 'Sara':600, 'Rosa':200, 'Cristina':300, 'Roberto':100}
```    

```python
import csv

costo_unitario = 100  # euro

def terme(nome_file):
    pass # IMPLEMENTAMI
    
res1 = terme('centro-benessere1.csv')
print(res1)
assert res1 == { 'Marco':    400,
                 'Andrea':   300,
                 'Sara':     600,
                 'Rosa':     200,
                 'Cristina': 300,
                 'Roberto':  100}

res2 = terme('centro-benessere2.csv')
#print(res2)
assert res2 == { 'Giulio': 300,
                 'Sabina': 100 }
```

## CHALLENGE 2. Personaggi storici del Trentino 

✪✪✪ Requisiti: Formato file CSV, matrici di liste, dizionari

Oggi faremo un salto nella storia analizzando il dataset [personaggi-storici-trentino.csv](personaggi-storici-trentino.csv)

Sorgente dati: Provincia Autonoma di Trento, [dati.trentino.it](https://dati.trentino.it/dataset/personaggi-storici-trentini)

Dal dataset estrarremo 3 colonne: `Nome`, `Luogo di Nascita` e `Data di nascita`

## 2.1 Il primo parsing

a) Leggi una riga alla volta dall'originale come lista, costruisci una NUOVA riga di 3 colonne e sistema gli eventuali problemi riscontrati, facendo infine una STAMPA della riga sistemata:

- per leggere, usa l'encoding `'latin-1'`, altrimenti il file potrebbe non aprirsi proprio o potresti vedere strani caratteri invece delle accentate (verifica sia in Python, che aprendo in LibreOffice/Excel)

b) Converti 'sconosciuto' nella stringa vuota

<div class="alert alert-warning">
    
**ATTENZIONE alle stringhe** `'sconosciuto '` **con uno spazio alla fine !!!**
</div>

      
c) Converti le sigle di città in nomi estesi. A tal fine, usa il dizionario `province` definito più sotto
    
d) Se un nome o sigla di città NON è tra parentesi, metti il risultato tra parentesi, togliendo la virgola 

### ESEMPI conversione luogo di nascita:

```text
sconosciuto        -> ''
Affori, MI         -> Affori (Milano)
Barcellona, ME     -> Barcellona (Messina)
Castel Noarna (TN) -> Castel Noarna (Trento)
Mocenigo di Rumo (Valle di Non - TN) -> Mocenigo di Rumo (Valle di Non - Trento)
Montecosaro,MC     -> Montecosaro (Macerata)
Pieve Tesino (TN)  -> Pieve Tesino (Trento)
Pomarolo (TN)      -> Pomarolo (Trento)
Sacco di Rovereto, Trento -> Sacco di Rovereto (Trento)
San Lorenzo Bellizzi, CO  -> San Lorenzo Bellizzi (Como)
Sesto San Giovanni, MI    -> Sesto San Giovanni (Milano)
Taio (TN)          -> Taio (Trento)
Volterra, PI       -> Volterra (Pisa)
```

<div class="alert alert-warning">
 
**SCRIVI DEL CODICE GENERICO !**
    
**NON** METTERE QUESTI VALORI PARTICOLARI IN UN DIZIONARIO !

</div>    

In [31]:

# Servono solo queste, non dovrebbero esserci casi diversi da questi
# Al massimo, pensa ad un meccanismo per gestire le eccezioni

province = {
    'TN': 'Trento',
    'PI': 'Pisa',
    'MC': 'Macerata',
    'CO': 'Como',
    'ME': 'Messina',
    'MI': 'Milano'
}


import csv

# scrivi dopo qui
        


## 2.2 Scrittura output

Dopo aver risolto il punto precedente, scrivi un CSV `output-personaggi.csv` contenente le righe come appena sistemate:

- l'header del csv di output deve essere tutto minuscolo: 
  
```
nome, luogo di nascita, data di nascita
```
    
- invece di `latin-1`, solo per scrivere usa la codifica `'utf-8'`

## 2.3 Il secolo

Prova ad aggiungere una colonna `'secolo'`, che contenga solo il secolo, nel formato a 3 o 4 cifre e sempre con 2 zeri:

- Se il tuo codice fallisce su alcune date tirando eccezioni, prova ad usare un `try except` per gestire eventuali problemi

- **SUGGERIMENTO**: Per capire se un carattere è una cifra, usa il    metodo  `.isdigit()`:

```python
'4'.isdigit()    # True
'423'.isdigit()  # True
'3k2'.isdigit()  # False
```

Mettiamo qualche esempio di trasformazione:

```text
1672 -> 1600
13/05/1702 -> 1700
4 febbraio 1875 -> 1800
Fine del 300 -> 300
Prima meta del 900 -> 900
```

## Problemi secolari - intervalli

Alcuni casi sono piuttosto particolari, e per semplicità consideriamo solo l'ultima data:

```text
A cavallo fra il 600 e il 700 -> 700
```

## Problemi secolari - numeri romani

<table> <tr>
<td width="60%">

I casi più difficili sono con i numeri romani, ci sono vari modi per risolverlo, per semplicità puoi usare il dizionario `secoli` che ti forniamo noi che mappa per es. i primi venti numeri romani al relativo anno, e poi scansionando le date se trovi una corrispondenza applichi la sostituzione.

<br>

```text
IV secolo -> 300
prima meta dell'XI secolo -> 1000
A cavallo tra l'XI e il XII secolo -> 1100
```

</td>

<td>

```python
secoli = {
     'I': 0,
     'II':100,
     'III':200,
     'IV':300,
     'V':400,
     'VI':500,
     'VII':600,
     'VIII':700,
     'IX':800,
     'X':900,
     'XI':1000,
     'XII':1100,
     'XIII':1200,
     'XIV': 1300,
     'XV':1400,
     'XVI':1500,
     'XVII':1600,
     'XVIII':1700,
     'XIX':1800,
     'XIX':1900,
     'XX':2000,
}
```
</td>
</tr>
</table>

## 2.4 Controlla

Se hai processato correttamente il dataset, dovresti aver ottenuto un output come questo: [output-atteso-personaggi.csv](https://github.com/DavidLeoni/softpython-it/blob/master/formats/output-atteso-personaggi.csv)

Per controllare, prova ad aggiungere questo codice in fondo al tuo, se non mostra messaggi d'errore dovresti avere un file corretto

```python
with open('output-atteso-personaggi.csv', encoding='utf8', newline='') as f_atteso:
    with open('output-personaggi.csv', encoding='utf8', newline='') as f_output:

        lettore_atteso = csv.reader(f_atteso, delimiter=',')
        lettore_output = csv.reader(f_output, delimiter=',')

        linee_attese = list(lettore_atteso)
        linee_output = list(lettore_output)
        
        if len(linee_attese) != len(linee_output):
            print('ERRORE: dimensioni file diverse!!')
            print('   Attese: ', len(linee_attese), 'righe')
            print('   Trovate: ', len(linee_output), 'righe')
        else:    
            for i in range(len(linee_attese)):
                if linee_attese[i] != linee_output[i]:
                    print("ERRORE riga", i+1)
                    print("   Atteso:", linee_attese[i])
                    print("  Trovato:", linee_output[i])
```