# Interagire con i file

Spesso i dati per il vostro programma arrivano dall'esterno sotto forma di file. Tutti sappiamo cosa sono i file, li usiamo nella vita di tutti i giorni e quindi ha senso incorporarli in un progetto. In questo argomento imparerete a lavorare con i file esterni.

Lo schema generale del lavoro con i file è il seguente: aprire il file, fare ciò che serve, quindi chiuderlo. Esaminiamo questi passaggi in modo più dettagliato.

## Che cos'è un *file-like object* o *stream* ?

È un oggetto che espone un'API orientata ai file (con metodi come `read()` o `write()`) a una risorsa sottostante. A seconda del modo in cui è stato creato, un oggetto file può mediare l'accesso a un file reale su disco o a un altro tipo di dispositivo di memorizzazione o di comunicazione (ad esempio *standard input/output*, *in-memory buffer*, *socket*, *pipe* ecc.).

Gli oggetti file sono chiamati anche *file-like objects* o *streams* (perché è sono un "flusso di dati [serializzato](#serializzazione-alcune-riflessioni)").

Esistono tre categorie di oggetti file:

- file binari grezzi (*raw binary*),
- file binari bufferizzati (*buffered binary*)
- file di testo (*text*).

Le loro interfacce sono definite nel modulo `io`.

In questo corso tratteremo escusivamente i file di testo e li salveremo sul nostro disco fisso-

Il modo canonico per creare un oggetto file è la funzione built-in `open()`.

## Aprire un file, la funzione `open()`

Prima di poter provare a fare qualcosa con un file, è necessario aprirlo. Python ha molte funzioni integrate per lavorare con i file, quindi non è necessario installare o importare alcun modulo. Per aprire un file, possiamo usare la funzione integrata `open()`.

```python
# Esempio di apertura di un file
mio_file = open('mio_file.txt')
```

La funzione `open()` ha un parametro richiesto, `file`, che è un oggetto di tipo _**path-like**_. L'oggetto path-like è una `str` o un `byte` che rappresenta un percorso nella directory del file. Nel nostro esempio, il parametro `file` ha il valore `"mio_file.txt"`, che significa che il file "my_file.txt" si trova nella directory di lavoro corrente.

In questo argomento non entreremo nel dettaglio dei percorsi e delle directory, quindi assumeremo che tutti i nostri file di esempio si trovino nella directory di lavoro corrente.

> ATTENZIONE: Il discorso dei *path* su Python è un po' più complicato. Per ora, con la funzione `open()` limitiamoci a scrivere i percorsi direttamente come stringhe, usando lo slash normale `/` anziché il backslash `//` (doppio perché è con *escape* annesso). Nella [sezione sui *path*](#i-path--o) approfondiremo l'argomento.

L'oggetto `my_file` che abbiamo appena creato è un file o un oggetto simile a un file. Significa solo che possiamo usare diversi tipi di metodi per i file su questo oggetto.

La funzione `open()` ha una serie di parametri opzionali. Se date un'occhiata alla documentazione ufficiale di Python, potrete saperne di più. In questo argomento, esamineremo due parametri: `mode` e `encoding`.



## Il parametro `mode`

Uno dei parametri opzionali più importanti della funzione open() è mode. Questo parametro regola il modo in cui vogliamo aprire il nostro file e per quale scopo. Sono disponibili le seguenti opzioni:

| `mode`              | Significato                                                                        |
|---------------------|------------------------------------------------------------------------------------|
| `'r'`               | Apre per la lettura. Se il file non esiste, si verifica un errore.                 |
| `'w'`               | Apre per la scrittura. Se il file esiste già, verrà sovrascritto.                  |
| `'a'`               | Apre per la scrittura. Se il file esiste già, viene aggiunto alla fine del file.   |
| `'+'`               | Apre per l'aggiornamento (lettura e scrittura).                                    |
| `'b'`               | Apre in modalità binaria (binary mode).                                            |
| `'t'`               | Apre come testo.                                                                   |

Vediamo l'esempio seguente.

```python
mio_file = open('mio_file.txt', 'w')
```

Come si può notare, abbiamo specificato il parametro `mode` subito dopo il nome del file. Ora il file è aperto per la scrittura.

È necessario fare un paio di precisazioni sulle modalità.

Innanzitutto, per impostazione predefinita, i file vengono aperti per la lettura come testo, quindi il valore predefinito di `mode` è `'r'` o, più precisamente, `'rt'`.

In secondo luogo, è possibile combinare le modalità per ottenere ciò che ci serve. Ad esempio, se vogliamo aprire un file esistente e poterlo leggere e aggiornare, dobbiamo impostare la modalità `'r+'`.

In terzo luogo, è possibile scegliere il formato in cui aprire i file. Le opzioni principali sono testo o binario, rispettivamente `'t'` e `'b'`. Ciò corrisponde alla differenza tra gli oggetti `str` e `byte`. Quindi, se si vuole aprire un file per la scrittura in formato binario, la modalità deve essere `'wb'`.

Si noti che, poiché il formato testo è quello predefinito, nella maggior parte dei casi `'t'` viene omesso.

> ATTENZIONE: Alcune modalità non possono essere combinate tra loro: ad esempio, deve essere specificata solo una delle opzioni `'w'`, `'r'` e `'a'`, non si può aprire un file con la modalità `'ar'`. Allo stesso modo, si deve scegliere una delle due opzioni `'b'` o `'t'`, il file non può essere aperto sia in modalità testo che in modalità binaria.

Infine, va segnalata un'importante differenza tra le opzioni `'w'` e `'a'`. Entrambe le modalità sono utilizzate per scrivere su un file. L'unica differenza è che `'w'` tronca il file prima di scriverlo. In altre parole, se il file esiste già, il suo contenuto viene cancellato. `'a'` si comporta diversamente: se il file esiste, qualsiasi cosa vi si scriva verrà semplicemente aggiunta alla fine del file. È possibile distinguerli con una semplice associazione di parole: `'w'` sta per *write* e `'a'` sta per *append*.

File di testo

| `mode` | Effetto (sottinteso `t`)                                                                                                                                                                                                                                                                                               |
|--------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| `r`    | Apre un file di testo per la lettura (il file deve esistere). Lo stream è posizionato all'inizio del file.                                                                                                                                                                                                             |
| `w`    | Apre un file di testo per la scrittura. Se il file esiste già, il suo contenuto viene distrutto (tronca a lunghezza zero), altrimenti lo crea. Lo stream è posizionato all'inizio del file.                                                                                                                            |
| `a`    | Apre un file di testo in modalità append per scrivere alla fine del file. Crea il file se non esiste. Le scritture successive sul file termineranno sempre alla fine del file, indipendentemente da eventuali interventi di `seek()` o simili.                                                                         |
| `r+`   | Apre un file di testo sia in lettura che in scrittura (il file deve esistere). Lo stream è posizionato all'inizio del file.                                                                                                                                                                                            |
| `w+`   | Apre un file di testo sia in lettura che in scrittura. Il file viene creato se non esiste, altrimenti viene distrutto. Lo stream viene posizionato all'inizio del file.                                                                                                                                                |
| `a+`   | Apre un file di testo in modalità append per la lettura o per l'aggiornamento alla fine del file. Crea il file se non esiste. Lo stream viene posizionato alla fine del file. Le scritture successive sul file termineranno sempre alla fine del file, indipendentemente da eventuali interventi di `seek()` o simili. |



File binary

| `mode`         | Effetto (sottinteso che `b` sostituisce `t`) |
|----------------|----------------------------------------------|
| `rb`           | Apre un file binario in modalità `r`         |   
| `wb`           | Apre un file binario in modalità `w`         |
| `ab`           | Apre un file binario in modalità `a`         |
| `r+b` or `rb+` | Apre un file binario in modalità `r+`        |
| `w+b` or `wb+` | Apre un file binario in modalità `w+`        |
| `a+b` or `ab+` | Apre un file binario in modalità `a+`        |

### Riassumendo i `mode`

| `mode` | R/W | Posizione iniziale lettura | Punto di inserimento | Se file non esiste | Se file esiste           |
|:------:|:---:|:--------------------------:|:--------------------:|:------------------:|--------------------------|
| `r`    | R   | inizio                     | -                    | errore             | legge                    |
| `r+`   | RW  | inizio                     | inizio e `seek()`    | errore             | modifica                 |
| `w`    | W   | -                          | (inizio e) `seek()`  | crea               | sovrascrive (*truncate*) |
| `w+`   | RW  | (inizio)                   | (inizio e) `seek()`  | crea               | sovrascrive (*truncate*) |
| `a`    | W   | -                          | fine                 | crea               | appende al fondo         |
| `a+`   | RW  | fine                       | fine                 | crea               | appende al fondo         |


> ATTENZIONE: con queste modalità non è possibile inserire nuovo testo all'inizio o in mezzo a un file. Il nuovo testo viene sempre inserito al fondo oppure sovrascrive il testo esistente.
> Per poter inserire nuovo testo nel mezzo di altro testo, senza sovrascriverlo, dobbiamo ricostruire il file inserendo il nuovo testo al momento opportuno (vedi più avanti).

## Codifica

Il parametro `encoding` specifica la codifica da utilizzare per decodificare o codificare il file di testo.

La codifica dipende dal sistema operativo e dell'editor con cui è stato scritto il file. Quando apriamo un file, Python non può indovinare la codifica, e se non gliela specifichiamo potrebbe aprirlo usando una codifica diversa da quella prevista.

> NOTA: nello slang informatico, questo fenomeno di errata decodifica è stato battezzato "[Mojibake](https://it.wikipedia.org/wiki/Mojibake)".

Se non stai usando la codifica giusta per il tuo file, le informazioni visualizzate potrebbero sembrare non avere senso. Quindi, se il file che si sta tentando di aprire appare strano o "sbagliato", potrebbe essere necessario modificare questo parametro e provare altre codifiche.

È dunque sempre consigliabile specificare l'encoding quando si apre il file come testo dato che il valore predefinito dipende dalla piattaforma con cui è stato creato il file (solitamente `'utf-8'`).

Di seguito sono riportati alcuni esempi di apertura di file tramite diverse codifiche:

```python
# UTF-8
file_utf8 = open('mio_file.txt', encoding='utf-8')

# LATIN-1
file_utf16 = open('mio_file.txt', encoding='latin-1')

# CP1252
file_cp1252 = open('mio_file.txt', encoding='cp1252')
```

In genere, quando apri un file, prova prima a specificare la codifica `utf-8` che è la più comune scrivendo `encoding='utf-8'`, e se per caso  non va bene prova invece `encoding='latin-1'` (solitamente utile se il file è stato scritto su sistemi Windows). Se apri file scritti in posti più esotici, tipo in Cina, potresti dover usare un'altro encoding. Per approfondire queste questioni, puoi cominciare da questa pagina sulla [codifica dei caratteri](https://it.wikipedia.org/wiki/Codifica_di_caratteri).



> ATTENZIONE: Se aprite il file in modalità binary l'argomento `encoding` DEVE essere omesso, altrimenti sarà sollevato un `ValueError: binary mode doesn't take an encoding argument`.

## Chiusura del file

Dopo aver lavorato con un file, è necessario chiuderlo. La chiusura dei file è estremamente importante!

Nella maggior parte dei casi, un file viene chiuso quando il programma finisce di lavorare. Tuttavia, questo non è garantito. Per garantire la sicurezza dei dati, dobbiamo assicurarci che il file venga chiuso alla fine.

Uno dei modi per farlo è utilizzare il metodo `close()` sul file:

```python
# chiude il file
mio_file.close()
```

Questo non è l'unico modo, né il più efficiente. Ma per il momento è sufficiente, vedremo più avanti l'istruzione `with` che semplifica l'apertura/chiusura dei file.


## Riassumendo

In questo argomento abbiamo appreso le basi del lavoro con i file in Python: come aprirli e chiuderli.

- Quando si aprono i file, è necessario specificare per cosa li si sta aprendo, ad esempio per la lettura o la scrittura.
- Per impostazione predefinita, i file vengono aperti per la lettura come testo.
- A volte è necessario specificare la codifica del file, in modo che i dati vengano codificati/decodificati correttamente.

## Lettura di un file

Se avete un file, potreste voler visualizzare il suo contenuto. Vediamo diversi modi per leggere i file in Python.

Per leggere un file, è sufficiente aprirlo in modalità di lettura.

Immaginiamo di avere un file chiamato `personaggi.txt` che ha questo aspetto:

```
Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli
```

Ora, per leggere il file, è possibile:

- utilizzare il metodo `read(size)`;
- utilizzare il metodo `readline(size)`;
- utilizzare il metodo `readlines()`;
- iterare sulle righe con un ciclo `for`.

I primi tre modi sono metodi speciali per gli oggetti file, mentre l'ultimo è un ciclo Python generico. Esaminiamoli uno per uno.

### `read()`

`read(size)` legge la dimensione (`size`) specificate in byte di un file. Se il parametro non viene specificato, l'intero file viene letto e assegnato a una singola variabile. Ecco cosa otterremo applicandola al nostro file:

In [1]:
file = open('./files_esercizi/personaggi.txt', 'r')
print(file.read())
file.close()

Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli


### `readline()`

`readline(size)` è simile a `read(size)`, ma legge la dimenzione (`size`) specificata in byte da una singola riga e non dall'intero file.

Le righe dei file sono separate da sequenze di escape che genericamente chiamiamo "[newline](https://en.wikipedia.org/wiki/Newline)": `'\n'`  (newline), `'\r'` (carriage return) o `'\r\n'` (newline + carriage return).

In questo argomento useremo lo standard Unix `'\n'`. Tenete però presente che questa sequenza di escape dipende dal vostro sistema operativo.

Procediamo con il nostro esempio. Il file `personaggi.txt` contiene 6 righe. Ecco cosa otterremo se proviamo a leggere 3 byte da ogni riga:

In [2]:
file = open('./files_esercizi/personaggi.txt', 'r')
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
file.close()

Leo
nar
do

da 
Vin
ci



Come si può notare, l'output non contiene i primi tre caratteri di tutte e 6 le righe. Questo perché quando si specifica il parametro `size`, viene estratto dalla riga un numero di byte della dimensione specificata fino alla sua fine e solo allora si passa a un'altra riga.

Il carattere "newline" viene considerato come parte della riga. Quindi, nel nostro esempio, abbiamo bisogno di tre passaggi di `readline(3)` per leggere la prima riga che ha 8 caratteri e un carattere di newline (9 byte in totale). È da qui che provengono tutte le righe vuote nell'output.

### `readlines()`

`readlines()` ci permette di leggere l'intero file come una lista di righe. Ecco come si presenta:

In [3]:
file = open('./files_esercizi/personaggi.txt', 'r')
print(file.readlines())
file.close()

['Leonardo\n', 'da Vinci\n', 'Sandro\n', 'Botticelli\n', 'Niccolò \n', 'Macchiavelli']


Qui si può vedere che il carattere *newline* fa effettivamente parte della riga.

Questo metodo funziona bene quando i file sono piccoli, ma per i file di grandi dimensioni potrebbe essere inefficiente in quanto l'intero contenuto del file deve essere caricato in memoria per creare l'oggetto `list`.

### Ciclo `for`

Il modo più efficiente per leggere il contenuto di un file è quello di iterare sulle sue righe con un ciclo `for`.

In [4]:
file = open('./files_esercizi/personaggi.txt', 'r')
for line in file:
    print(line)
file.close() 

Leonardo

da Vinci

Sandro

Botticelli

Niccolò 

Macchiavelli


Questo è il modo migliore per leggere file di grandi dimensioni, perché possiamo lavorare con una riga alla volta o con righe specifiche, ignorando quelle che non ci servono.

Inoltre, se vogliamo estrarre solo una porzione di riga, lo possiamo fare facilmente. Per esempio possiamo stampare solo il primo carattere di ogni stringa:

### Riassumendo

In questa sezione abbiamo visto come leggere il contenuto di un file.

Questa è un'abilità è molto utile perché in certi casi è più facile o più conveniente leggere un file usando Python piuttosto che aprirlo direttamente.

Per fare ciò, abbiamo a disposizione:

- Il metodo `read()` legge il file nella sua interezza.
- Il metodo `readline()` legge il file una riga alla volta.
- Il metodo `readlines()` legge il file come una `list` di righe.
- Il ciclo `for` per iterare sulle righe del file, che è il modo migliore.

## Scrittura su file

Una competenza molto importante per i programmatori è sapere come creare nuovi file o aggiungere informazioni a quelli esistenti. In questa sezione vedremo come scrivere dati sui file con Python.

Il primo passo per scrivere su un file in Python è, ovviamente, aprire il file per la scrittura. La modalità di base per la scrittura è 'w', che ci permette di scrivere del testo su un file.

Ci sono però alcune cose a cui dobbiamo prestare attenzione. Innanzitutto, questa modalità ci permette di creare nuovi file. Questo accade quando il file che stiamo cercando di aprire non esiste ancora. In secondo luogo, se il file esiste già, il suo contenuto verrà sovrascritto quando lo apriremo per la scrittura.

Ora che il file è aperto, possiamo usare il metodo ´file.write()´, che ci permette di scrivere.

In [5]:
file = open('./files_esercizi/test_write_1line.txt', 'w', encoding='utf-8')
file.write('Questa è una riga in un file di prova!')
file.close()

Se andiamo guardare il file generato si vedrà che contiene una singola riga: `Questa è una riga in un file di prova!`

Si noti che le stringhe vengono scritte nel file esattamente come sono. Quando chiamiamo il metodo `write()` più volte, le stringhe passate vengono scritte senza alcun separatore: niente spazi, niente newline, solo stringhe combinate insieme in una sola.

### Scrittura di più righe

Se vogliamo che il nostro file abbia più righe, dobbiamo specificare dove devono essere le estremità delle righe.

Ricorda che le righe nei file sono separate da sequenze di escape newline: `'\n'`, `'\r'` o `'\r\n'` a [seconda del sistema operativo](https://en.wikipedia.org/wiki/Newline#Representation). In questo argomento ci useremo lo standard Unix su `'\n'`.

Supponiamo di avere un elenco di nomi e di volerli scrivere in un file, ognuno su una nuova riga. Ecco come si può fare:

In [6]:
file = open('./files_esercizi/test_write_2line.txt', 'w', encoding='utf-8')
file.write("Questa è una riga in un file di prova!\nE questa è un'altra riga.")
file.close()

Un altro metodo per scrivere i file è `file.writelines()`, che prende una sequenza iterabile di stringhe e le scrive sul file. Come per `write()`, dobbiamo specificare noi i separatori di riga:

In [7]:
names = ['Pippo\n', 'Pluto\n', 'Paperino\n', 'Topolino\n']

name_file = open('./files_esercizi/test_write_nomi.txt', 'w', encoding='utf-8')

name_file.writelines(names)

name_file.close()

Alla fine si ottiene lo stesso file di prima, con l'unica differenza che le stringhe originali devono essere accompagnate dal separatore.

Aggiunta al file

La modalità `'w'` funziona perfettamente se non ci interessa che qualcosa venga cancellato dal file esistente. Tuttavia, in molti casi, vogliamo aggiungere alcune righe al file e non sovrascriverlo completamente. Come si può fare?

Possiamo usare la modalità `'a'`, che sta per append. Come avrete capito, questa modalità ci permette di scrivere nuove stringhe nel file mantenendo quelle esistenti.

Supponiamo di voler aggiungere il nome Rachel a `names.txt`.

Ecco come fare:

In [8]:
name_file = open('./files_esercizi/test_write_nomi.txt', 'a', encoding='utf-8')

name_file.write('Minni\n')

name_file.close()

### Riassumendo

In questa sezione abbiamo visto un'operazione di base sui file: la scrittura sui file.

A seconda che si voglia mantenere o meno il contenuto originale del file, si può usare la modalità `'a'` o `'w'` rispettivamente. La scrittura vera e propria può essere effettuata con i metodi `write()` o `writelines()`.

## Context manager: `with ... as`

Viviamo in un mondo di risorse limitate, quindi una delle abilità più importanti nella vita (e nella programmazione) è saperle gestire. Non possiamo insegnarvi come gestire le risorse nella vita reale, ma possiamo aiutarvi a gestire efficacemente le risorse in Python con l'aiuto dei gestori di contesto.

### Quando usare un context manager

Lo scopo principale di un *context manager* è la gestione delle risorse. Cosa significa in pratica? L'esempio più comune è l'apertura dei file.

L'apertura di un file consuma una risorsa limitata chiamata *file descriptor*. Se si cerca di aprire troppi file contemporaneamente, a seconda del sistema operativo, si può ottenere un errore o bloccare completamente il programma.

```python
# non fatelo a casa! ;)
n_files = 1000000
files = []

for i in range(n_files):
    files.append(open('test.txt'))

# OSError: [Errno 24] Too many open files
```

Per evitare il consumo dei *file descriptor*, è necessario chiudere i file dopo averli utilizzati. La chiusura dei file avviene, come abbiamo già visto, con il metodo `close()`.

```python
n_files = 1000000
files = []

for i in range(n_files):
    f = open('test.txt')
    files.append(f)
    f.close()

# nessun errore, tutto ok!
```

Questo funziona perfettamente se i programmi sono relativamente semplici. Tuttavia, quando i nostri programmi o le nostre manipolazioni di file diventano più complicati, determinare quando e come chiudere i file può diventare complicato.

NOTA: In altri linguaggi di programmazione, un modo comune per affrontare questo problema è un blocco `try ... except ... finally`.

In Python, possiamo usare un *context manager*, il quale garantisce che tutte le operazioni necessarie avvengano al momento giusto.

Nell'esempio dell'apertura dei file, il *context manager* chiuderà il file e rilascerà il *file descriptor* quando avremo finito di lavorare con il file, (anche se si è verificato un errore).

### `with ... as`

Ora che sappiamo perché dobbiamo usare i context manager, impariamo come farlo. Un context manager viene introdotto dalla parola chiave `with`, seguita dal manager stesso e dal nome della variabile. La sintassi di base è la seguente:

```python
# invoca un gestore di contesto
with context_manager as nome_variabile:
    ...
```

`context_manager` è qualsiasi cosa che si comporti come un context manager (cioè che supporti metodi specifici dei context manager). Può essere un context_manager personalizzato o uno built-in di Python.

Di seguito sono riportati alcuni esempi di context manager che si possono incontrare in Python. Non è necessario sapere cosa sono. Si tratta solo di informazioni aggiuntive che potrebbero essere interessanti:

- Oggetti di tipo file (e altri *stream* come `io.StringIO` o `io.BytesIO`).
- Sockets (networking).
- Locks e semaphores del modulo `threading`.
- Connessioni a un database.
- Oggetti di tipo mock (unit test).

È anche possibile annidare il costrutto `with`:

```python
# context manager annidato
with context_manager1 as var1:
    with context_manager2 as var2:
        # e così via
        ...
```

Più comunemente, l'istruzione `with ... as` viene utilizzata quando si lavora con i file. Vediamo come si fa.

L'oggetto file che otteniamo quando usiamo la funzione `open()` funge da context manager, quindi possiamo usarlo dopo l'istruzione `with`. Ecco come si può fare:

```python
with open('test.txt') as f:
    # qua possiamo lavorare con il file
    ...
```
Come si può vedere, è molto semplice! Ci permette anche di accorciare un po' il codice, poiché non è necessario chiudere esplicitamente il file alla fine.

> NOTA: In realtà è possibile chiudere esplicitamente il file all'interno del costrutto `with ... as`, non ci sarà alcun errore. Semplicemente non è necessario!

Tornando alla situazione da un milione di file, ecco come apparirebbe se usassimo il costrutto `with`:

```python
n_files = 1000000
files = []

for i in range(n_files):
    with open('test.txt') as f:
        files.append(f)

# nessun errore, tutto ok!
```

Vediamo ora un esempio più realistico. Supponiamo di avere un file con un elenco di film diretti da Quentin Tarantino, chiamato `tarantino.txt`. Vogliamo leggere questo file e stamparne i titoli:

In [9]:
with open('./files_esercizi/tarantino.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # usiamo strip() per sbarazzarci dei simboli di newline
        print(line.strip())

Reservoir Dogs
Pulp Fiction
Jackie Brown
Kill Bill: Volume 1
Kill Bill: Volume 2
Grindhouse: Death Proof
Inglorious Basterds
Django Unchained
The Hateful Eight
Once Upon a Time in Hollywood


Ora immaginiamo di voler elaborare questi titoli, ad esempio renderli tutti minuscoli, e di salvarli in un nuovo file. Se si aprono più file contemporaneamente usando il costrutto `with ... as`: è sufficiente scrivere `with` una volta e scrivere `as` tante volte quanti sono i file da aprire.

Ecco come si può fare:

In [10]:
with open('./files_esercizi/tarantino.txt', 'r', encoding='utf-8') as in_file, \
     open('./files_esercizi/tarantino_lowercase.txt', 'w', encoding='utf-8') as out_file:
    for line in in_file:
        out_file.write(line.lower())

Un file `tarantino_lowercase.txt` sarà creato nel processo e conterrà i titoli dei film di Tarantino scritti in minuscolo.

> NOTA: Il backslash (`\`) nel frammento di codice precedente è un carattere di continuazione di riga. Viene utilizzato per collocare una singola istruzione lunga su più righe di codice.

### Riassumendo

In questa sezione abbiamo imparato a conoscere i *context manager*, strutture speciali utilizzate per la gestione efficace delle risorse.

Fondamentalmente, un context manager aiuta ad assicurarsi che tutte le operazioni necessarie siano state eseguite e rilascia le risorse occupate quando queste non sono più utilizzate.

I context manager sono solitamente introdotti da un'istruzione `with ... as`.

In pratica, si incontrano più comunemente nell'apertura/scrittura dei file. Tuttavia, è possibile creare gestori di contesto personalizzati per i propri scopi, ma questi sono utilizzi per settori più specifici.

# Formato dei dati (*data format*)

Uno dei problemi più antichi dell'informatica è: come registriamo i nostri dati?

A prima vista può sembrare una domanda banale, ma in realtà dietro si cela un problema complesso: come distinguiamo i nostri dati l'uno dall'altro?

## Serializzazione: alcune riflessioni

In informatica, la [serializzazione](https://it.wikipedia.org/wiki/Serializzazione) è il processo di traduzione di una struttura di dati (o dello stato di un oggetto) in un formato che può essere memorizzato o trasmesso e ricostruito in un secondo momento, anche in un ambiente informatico diverso.

Se il nostro file `personaggi.txt` fosse scritto così:

<pre>
Leonardo da Vinci Sandro Botticelli Niccolò Macchiavelli
</pre>

come potremmo fare a capire quando finisce un dato e quando ne inizia uno nuovo? Per quanto ne sappiamo, anzi, per quanto ne sa Python, `Leonardo da Vinci Sandro Botticelli Niccolò Macchiavelli` potremme essere il nome di una sola persona.

Quindi dobbiamo trovare il modo di "dividere" i nostri dati utilizzando una "regola", perché, come ben sappiamo, il nostro computer deve essere istruito tramite regole precise, descritte da una sequenza di istruzioni.

In altre parole dobbiamo:

- Trovare un modo/convenzione per registrare i dati.
- Istruire il computer su come leggere i dati.

Potremmo per esempio decidere di separare i nostri dati usando la virgola:

<pre>
Leonardo da Vinci,Sandro Botticelli,Niccolò Macchiavelli
</pre>

In questo caso, se dovessimo memorizzare solo nomi e cognomi, la virgola è una buona soluzione perché sappiamo che i nomi e cogomi non contengono virgole.

Tuttavia se dovessimo memorizzare delle stringhe di testo arbitrarie:

<pre>
Giovanni,Marco,casa,3,487,Hello, World!,"AEIOU"
|-------|-----|----|-----|-------------|-------|
    0      1    2     3         4          5
</pre>

è chiaro che avremmo qualche problema! `3,487` e `Hello, World!` verrebbero divisi:

<pre>
Giovanni,Marco,casa,3,487,Hello, World!,"AEIOU"
|-------|-----|----|-|---|-----|-------|-------|
    0      1    2   3  4    5      6       7
</pre>

In questo modo avremo 7 valori anziché i 5 che dovrebbero essere!

Potremmo quindi pensare a delle soluzioni:

<pre>
Giovanni,Marco,casa,3\,487,Hello\, World!,"AEIOU"

Giovanni,Marco,casa,3,,487,Hello,, World!,"AEIOU"

Giovanni,Marco,casa,"3,487","Hello, World!",""AEIOU""
</pre>

Nel primo e nel secondo caso usiamo un carattere di escape, mentre nel terzo usiamo un delimitatore facoltativo.

Naturalmente [esistono già tantissime soluzioni](https://en.wikipedia.org/wiki/Comparison_of_data_serialization_formats) a questo problema, dato che è un problema antico. Quindi non ci metteremo noi a inventare un formato di dati, ma ne useremo alcuni tra quelli già disponibili.

Inoltre, il vantaggio di usare un formato già disponibile è che possiamo inviare ad altre persone il nostro file e queste potranno leggerlo in modo corretto dato che stiamo seguendo una "convenzione".

I formati (o le "convenzioni") più diffusi sono:

- [CSV](https://it.wikipedia.org/wiki/Comma-separated_values): Comma Separated Values (standard [RFC 4180)](https://www.rfc-editor.org/rfc/rfc4180)). 
- [JSON](https://it.wikipedia.org/wiki/JavaScript_Object_Notation): JavaScript Object Notation (standard [RFC 8259](https://www.rfc-editor.org/rfc/rfc8259)).
- [XML](https://it.wikipedia.org/wiki/XML): eXtensible Markup Language (standard [by W3C](https://www.w3.org/TR/xml/) o SGML [ISO 8879](https://www.iso.org/standard/16387.html)).



## Un semplice elenco di dati

I formati CSV, JSON e XML consentono di serializzare strutture dati anche molto complesse, tuttavia se avessimo necessita di registrare una serie di valori tutti dello stesso tipo, come per esempio un elenco di nomi, potremmo anche non scomodare questi formati e cercare una soluzione più semplice.

Un modo rapido e molto usato per registrare dei dati in un file di testo è quello di posizionare ciascun dato (*entry*) su una nuova riga.

In pratica il più semplice file contenente dati che possiamo immaginare, potrebbe essere elenco di valori, ciascuno sulla propria riga.

Ritornando al nostro esempio, il file `personaggi.txt` fa proprio questo e infatti troviamo ciascun nome su una riga diversa.

> NOTA: Peccato che abbiamo nome e cognome alternati... in effettu è un po' scomodo.

Se ci pensiamo bene, in questo modo stiamo utilizzando il carattere `\n` come **delimitatore** dei nostri dati. Ogni volta che incontro un `\n`, so che finisce un dato e ne inizia uno nuovo.

Come abbiamo già visto, potremmo utilizzare un qualsasi altro carattere, a patto che questo non venga confuso con i caratteri contenuti nei dati veri e propri.

> RIBADISCO: Se decidessimo di usare un altro carattere, ad esempio la virgola, dovremmo assicurarci di non utilizzare la virgola all'interno dei dati, oppure trovare il modo i distinguere la virgola di separazione, il delimitatore, da quella che eventualmente potremmo trovare nei dati.

La questione è lo stessa delle stringhe di Python, dove abbiamo il problema di gestire le virgolette interne se queste sono uguali a quelle esterne:

```python
'"Voglio leggere "Guerra e pace"'   # tutto ok
"Voglio leggere \"Guerra e pace\""  # usiamo \ come simbolo di escape,
                                    # in modo da distinguere i dati dai delimitatori
```

Nel caso delle stringhe, Python implementa due possibili soluzioni:

- Usare un delimitatore diverso, che non si confonda con il contenuto dei dati.
- Usare un simbolo di escape, il quale indica che il carattere seguente fa parte dei dati e non si tratta del delimitatore.

Le strategie per risolvere questo problema sono molteplici e ciascun **formato** di file, ovvero ciascun **tipo** di file, può implementare le proprie soluzioni. Sta a noi informarci di queste "convenzioni" prima di accedere al file per elaborarlo.

Come abbiamo visto negli esempi, i file `.csv`, `.json` o `.xml` utilizzano ciascuno un diverso metodo per delimitare e addirittura strutturare i dati.

Per ora però cominciamo a lavorare su un semplice elenco di valori.

## Esercizio: unire le righe due a due

Il nostro file `personaggi.txt` ha una caratteristica che potremmo trovare anche altrove: le informazioni sono raggruppate per righe e ogni tot righe abbiamo un cosiddetto nuovo "record". 

```
Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli
```

In questo file notiamo subito la regolarità: le prime due linee contengono i dati di Leonardo da Vinci, prima il nome e poi il cognome. Le successive due linee hanno invece i dati di Sandro Botticelli, di nuovo prima il nome e poi il cognome, e così via.

Un programma che potremo voler fare potrebbe essere leggere le linee e stampare a video nomi e cognomi così:

```
Leonardo da Vinci 
Sandro Botticelli
Niccolò Macchiavelli
```

Per iniziare ad avere un'approssimazione del risultato finale, possiamo aprire il file, leggere solo la prima linea e stamparla:

In [11]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    linea = file_personaggi.readline()
    print(linea)

Leonardo



> SUGGERIMENTO: all'inizio, man mano che aggiungi del codice per implementare la tua soluzione, controlla con `print()` il contenuto e con `type()` il tipo dei dati/oggetti che crei. Ad esempio:

In [12]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    linea=file_personaggi.readline()
    print(linea)
    print('type(f):', type(file_personaggi))
    print()
    help(file_personaggi.readline)    
    # help(f)  # lunga ...


Leonardo

type(f): <class '_io.TextIOWrapper'>

Help on built-in function readline:

readline(size=-1, /) method of _io.TextIOWrapper instance
    Read until newline or EOF.
    
    Returns an empty string if EOF is hit immediately.



Prima abbiamo messo il contenuto della prima linea nella variabile `line`, ora potremmo metterlo in una variabile dal nome più significativo, come `nome`. Non solo, possiamo anche direttamente leggere la linea successiva nella variabile `cognome` e poi stampare la concatenazione delle due:

In [13]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    nome = file_personaggi.readline()
    cognome = file_personaggi.readline()
    print(nome + ' ' + cognome)


Leonardo
 da Vinci



PROBLEMA: Il `print` mette comunque uno strano ritorno a capo. Come mai? Se ti ricordi, prima abbiamo detto che `readline` legge il contenuto della linea in una stringa aggiungendo alla fine anche il carattere speciale di newline. Per eliminarlo, puoi usare il metodo `str.rstrip()`:

In [14]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    nome = file_personaggi.readline().rstrip()
    cognome = file_personaggi.readline().rstrip()
    print(nome + ' ' + cognome)

Leonardo da Vinci


ESPERIMENTA: Riscrivi il blocco qua sopra nella cella sotto, ed esegui la cella con Control+Invio. Domanda: che succede se usi `str.strip()` invece di `str.rstrip()`? Ed `str.lstrip()`? Riesci a dedurre il significato di `r` e `l` ? Se non ci riesci, prova ad usare il comando python `help` chiamando `help(str.rstrip)` 

In [15]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    nome = file_personaggi.readline().lstrip() # prova lstrip() e strip()
    cognome = file_personaggi.readline().lstrip() # prova lstrip() e strip()
    print(nome + ' ' + cognome)

Leonardo
 da Vinci



Benissimo, abbiamo la prima linea! Adesso possiamo leggere tutte le linee in sequenza. A tal fine possiamo usare un ciclo `while`:



In [16]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    linea = file_personaggi.readline()
    while linea != '':                
        nome = linea.rstrip()
        cognome = file_personaggi.readline().rstrip()
        print(nome + ' ' + cognome)
        linea = file_personaggi.readline()

Leonardo da Vinci
Sandro Botticelli
Niccolò Macchiavelli


> NOTA: In Python ci sono metodi più concisi per leggere un file di testo linea per linea che vedremo in seguito, intanto abbiamo questo approccio per esplicitare tutti i passaggi.

> NOTA: In generale, un ciclo `while` funziona così:

In [17]:
i = 1
while i < 6:  # fintanto che questa condizione è True,
    print(i)      # esegui questo blocco di codice...
    i += 1        # ...e quando arrivi alla fine ritorni al while.

1
2
3
4
5


Cosa abbiamo fatto? Per prima cosa, abbiamo aggiunto un ciclo `while` in un nuovo blocco

**ATTENZIONE**: nel nuovo blocco while, dato che è già all'interno del blocco esterno `with`, le istruzioni sono indentate di 8 spazi e non più 4! Se per caso sbagli gli spazi, possono succedere brutti guai!

Prima leggiamo una linea, e due casi sono possibili:

- A: siamo alla fine del file (o il file è vuoto): in questo caso la chiamata a  `readline()` ritorna una stringa vuota

- B: non siamo alla fine del file: la prima linea è messa come una stringa dentro la variabile `linea`. Dato che Python internamente usa un puntatore per tenere traccia della posizione a cui si è durante la lettura del file, dopo una lettura questo puntatore è mosso all'inizio della riga successiva. In questo modo una chiamata successiva a `readline()` leggerà la linea dalla nuova posizione.

L'algoritmo è il seguente:

1. Nel blocco `while` diciamo a Python di continuare il ciclo fintanto che `linea` _non_ è vuota, ovvero finché il file non è finito.
2. In questo caso, dentro il blocco `while` estraiamo il nome dalla linea e lo mettiamo nella variabile `nome` (rimuovendo il carattere extra di ritorno a capo con la `rstrip()` come fatto in precedenza), e poi procediamo leggendo la nuova riga ed estraendo il risultato dentro la variabile `cognome`.
3. Infine, leggiamo di nuovo la linea dentro la variabile `linea` così sarà pronta per la prossima iterazione di estrazione nome.
4. Se la `linea` è vuota il ciclo terminerà.

```python
while linea != '':                                 # entra nel ciclo se la linea contiene caratteri
    nome = linea.rstrip()                          # estrae il nome
    cognome = file_personaggi.readline().rstrip()  # legge la riga seguente ed estrae il cognome
    print(nome + ' ' + cognome)     
    linea = file_personaggi.readline()             # legge la prossima linea
```


### Esercizio - riscrivi

Di nuovo come prima, riscrivi nella cella qua sotto il codice col `while` appena spiegato, facendo MOLTA attenzione all'indentazione (per la linea del with esterno fai pure copia e incolla):

In [39]:
# riscrivi qua il codice col while interno


## Contare le righe totali

In [18]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    tot_linee = sum(1 for _ in file_personaggi)
    print(tot_linee)

6


E se volessimo non contare le righe vuote?

```python
tot_linee = sum(1 for _ in file_personaggi if line.rstrip())
```

## In che riga siamo?

Il modo più efficiente per tenere traccia della riga dove ci troviamo con lo "steram" è il vecchio e comodo contatore:

In [19]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    linea_num = 1
    for linea in file_personaggi:
        print(linea_num, linea, end='')
        linea_num += 1

1 Leonardo
2 da Vinci
3 Sandro
4 Botticelli
5 Niccolò 
6 Macchiavelli

La funzione built-in `enumerate()` è un ottimo strumento perché gestisce lui il contatore.

In [20]:
with open('./files_esercizi/personaggi.txt', 'r', encoding='utf-8') as original:
    for linea_num, linea_txt in enumerate(original, start=1):
        print(linea_num, linea_txt, end='')


1 Leonardo
2 da Vinci
3 Sandro
4 Botticelli
5 Niccolò 
6 Macchiavelli

> NOTA: Nota: `enumerate(file_pointer)` non carica l'intero file in memoria, quindi questa è una soluzione efficiente.

## Leggere righe specifiche

In [21]:
import linecache

linea = linecache.getline(r'./files_esercizi/personaggi.txt', 5)
print(linea)

Niccolò 



> NOTA: `linache` legge l'intero file in memoria. Quindi non è molto efficiente con file molto grossi.

Dato che readlines ci restituisce le tutte le righe dentro una lista, possiamo accedere alle righe che vogliamo tramite la subscription notation o lo slice.

Per esempio, se volessimo estrarre le righe dalla 3 alla 5:

In [22]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    # ricorda che si parte a contare da 0 e la fine dell'intervallo è esclusa
    intervallo_linee = file_personaggi.readlines()[2:5]
    print(*intervallo_linee, sep='')

Sandro
Botticelli
Niccolò 



> NOTA: Anche `readlines()` non è efficiente con grossi file, perché carica tutto il file in memoria.

Per non cariare l'intero file in memoria possiamo di nuovo utilizzare un contatore:

In [23]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    linea_num = 1
    for linea in file_personaggi:
        if linea_num in [2,3,4]:
            print(linea, end='')
        linea_num += 1

da Vinci
Sandro
Botticelli


La funzione built-in `enumerate()` ci torna utile di nuovo per evitare di creare da noi il contatore. Anche qui, in base al valore del contatore decidiamo se imagazzinare la riga in memoria o passare a quella successiva.

In [24]:
with open('./files_esercizi/personaggi.txt', encoding='utf-8') as file_personaggi:
    linee_estratte = (linea for linea_num, linea in enumerate(file_personaggi, start=1) if linea_num in [2,3,4])
    print(list(linee_estratte))

['da Vinci\n', 'Sandro\n', 'Botticelli\n']


## Leggere le prime *n* righe

Se volessimo leggere le prime 3 righe, potremmo fare così:

In [25]:
with open('./files_esercizi/personaggi.txt', 'r') as file_in:
    for _ in range(3):
        print(next(file_in), end='')

Leonardo
da Vinci
Sandro


## Prepend: inserire righe all'inizio

Il le varie opzioni del parametro `mode` della funzione `open()`, ci consentono di inserire il nuovo contenuto solamente al fondo del file.

Ma se volessimo aggiungere del nuovo testo all'inizio?

Potremmo fare così, ma tutto il contenuto del file originale deve essere trasferito in memoria (nel caso seguente, dentro la variabile `data`):

In [31]:
with open('./files_esercizi/personaggi.txt', 'r', encoding='utf-8') as original:
    data = original.read()
with open('./files_esercizi/personaggi_prepended.txt', 'w', encoding='utf-8') as modified:
    modified.write("Galileo Galilei\n" + data)

Questo metodo non è dunque efficiente. Potremmo invece creare un nuovo file, aggiungere subito il nuovo contenuto e poi copiare riga per riga il contenuto del file originale dentro il nuovo file:

In [32]:
with (open('./files_esercizi/personaggi.txt', 'r', encoding='utf-8') as read_obj,
      open('./files_esercizi/personaggi_prepended.txt', 'w', encoding='utf-8') as write_obj):
    write_obj.write('Galileo\nGalilei\n')
    # Legge una per una le righe del file originale e aggiungerle al file write_obj.
    for line in read_obj:
        write_obj.write(line)

In questo modo stiamo creando un nuovo file, ma se volessimo modificare il file originale, usando questo ultimo metodo possiamo solo simularne la modifica. I realtà andremo a eliminare il file originale e rinomineremo il file creato (che ha il nuovo contenuto all'inizio) con lo stesso nome di quello originale:

```python
import os 

# Rimuove il file originale
os.remove('./files_esercizi/personaggi.txt')
# Rinomina il nuovo file come quello originale
os.rename('./files_esercizi/personaggi_prepended.txt', './files_esercizi/personaggi.txt')
```

Con il primo metodo, quello meno efficiente, non è necessario fare ciò, basta che nel secondo `with` apriamo un file con lo stesso nome di quello originale:

```python
with open('./files_esercizi/personaggi.txt', 'r', encoding='utf-8') as original:
    data = original.read()
with open('./files_esercizi/personaggi.txt', 'w', encoding='utf-8') as modified:
    modified.write("Galileo Galilei\n" + data)
```

## Inserire righe in posizione arbitraria

Ora, con queste conoscenze, puoi sbizzarrirti a fare qualunque operazione sui file, combinando vari metodi e tencniche.

Per esempio se volessimo inserire nuove righe in una posizione precisa, potremmo fare così:

In [34]:
insert_point = 3
insert_content = ['Galileo', 'Galilei']
with (open('./files_esercizi/personaggi.txt', 'r', encoding='utf-8') as read_obj,
      open('./files_esercizi/personaggi_inserted.txt', 'w', encoding='utf-8') as write_obj):
    for idx, line in enumerate(read_obj, start=1):
        if idx == insert_point:
            for newline in insert_content:
                write_obj.write(newline + '\n')
        write_obj.write(line)

Ti viene in mente un modo più efficiente per farlo?

Potrebbero esserci modi più o meno efficienti per eseguire lo stesso compito. In generale, se pensi che i file da processare saranno di grandi dimensioni, cerca di evitare di caricare tutto il loro contenuto in memoria, ma piuttosto leggi una riga alla volta e decidi cosa fare in base al punto in cui ti trovi.

Un buon modo per tenere traccia del punto (riga) in cui ti trovi, un buon modo è  

## Gestire lo "stream" con `IOBase.seek()`

Quando ci troviamo al fondo di un file prché lo abbiamo appena letto tutto oppure perché siamo in modalità `a+`, se vogliamo tornare l'inizio del file possiamo usare il metodo `seek(0)`.

Per approfondire, leggi il [metodo `seek()`](https://docs.python.org/3/library/io.html#io.IOBase.seek) sulla documentazione ufficiale.

In [35]:
with open('./files_esercizi/personaggi.txt', 'r', encoding='utf-8') as file_personaggi:
    print('A:', file_personaggi.read(), sep='\n')  # Legge dall'inizio alla fine.
    print('B:', file_personaggi.read(), sep='\n')  # Lo stream è alla fine, quindi non stampa nulla.
    file_personaggi.seek(0)                        # Riportiamo lo stream all'inizio.
    print('C:', file_personaggi.read(), sep='\n')  # Ora possiamo rileggere il file partendo dall'inizio.


A:
Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli
B:

C:
Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli


## Salvare i dati prima della chiusura `IOBase.flush()`

Per salvare i dati prima del `close()` o dell'uscita dal `with ... as`, possiamo salvare i file su disco in modo abitrario utilizzando il [metodo `flush()`](https://docs.python.org/3/library/io.html#io.IOBase.flush).

Lascio a voi il compito di approfondire il metodo e fare esperimenti con file reali.

## `print()` su file

Forse ti sarai già accorto che la funzione `print()`, la primissima funzione che abbiamo usato, oltre agli argomenti `sep` e `end` ha anche `file` e `flush`.


Leggendo la [documentazione di `print`](https://docs.python.org/3/library/functions.html#print) impariamo che:

L'argomento `file` deve essere un oggetto con un metodo `write(str)`; se non è presente o è `None`, verrà utilizzato `sys.stdout`. Poiché gli argomenti stampati vengono convertiti in stringhe di testo, `print()` non può essere utilizzato con gli oggetti file in modalità binary. Per questi ultimi, utilizzare direttamente `file.write(...)`.

Il buffering dell'output è solitamente determinato dal file. Tuttavia, se il parametro `flush` è true, lo stream di dati viene salvato forzatamente sul file prima della sua chiusura vera e propria.

In [37]:
from time import sleep

with open('./files_esercizi/print_log.log', 'w', encoding='utf-8') as file_out:
    print('Questo testo è stato scritto con la funzione "print()".', file=file_out)
    for second in range(10, 0, -1):
        print(second, file=file_out, flush=True)
        sleep(1)
    print("Go!", file=file_out)

Se apri il file con un classico visualizzatore di "log" in tempo reale, vedrai che se l'opzione `flush` è attiva, i numeri compariranno nel file una volta al secondo.

# Interagire col file system

Fino ad ora abbiamo lavorato su singoli file, ma come leggiamo tutti i file di una cartella? E se volessimo cercare tutti i file con una certa estensione all'interno di una serie di cartelle e sotto-cartelle?

## I *path*: `/` o `\\` ?

Una delle piccole seccature della programmazione è che Windows usa un carattere backslash `\` tra i nomi delle cartelle, mentre quasi tutti gli altri sistemi operativi usano lo slash normale `/`:

<pre>
Windows:
C:\some_folder\some_file.txt

Linux e macOS:
/some_folder/some_file.txt
</pre>

Questa discrepanza è dovuta a ragioni storiche e commerciali.

La prima versione di MS-DOS utilizzava il carattere `/` per specificare le opzioni della riga di comando. Quando Microsoft aggiunse il supporto per le cartelle in MS-DOS 2.0, il carattere slash `/` era già stato utilizzato e quindi si usò il backslash `\`. Trentacinque anni dopo, siamo ancora bloccati con questa incompatibilità.

Di sicuro la situazione è ancora così dopo 40 anni non perché non si potesse e non si possa risolvere questo problema alla radice, ma le grandi aziende spesso tendono a sfruttare le loro "caratteristiche uniche" per abituare gli utenti al "proprio standard" (che qundi non è uno standard) e scoraggiare così il passaggio alla concorrenza. In pratica: ti rendo la vita difficile quando vuoi interagire con i prodotti della concorrenza, così resti con noi.

Quindi mettiamoci l'anima in pace e prepariamoci a dover faticare un po' per aiutare Microsoft con i suoi bilanci trimestrali.

Eh sì, perché anche se lavorate su Linux o macOS dovete comunque considerare l'eventualità che il vostro codice possa essere eseguito su sistemi Windows.

Poremmo cercare di convincere noi stessi, amici, parenti e datori di lavoro a non usare più Windows, ma fortunatamente, da Python 3.4 in avanti abbiamo un nuovo modulo chiamato `pathlib` che ci facilita il lavoro con file e cartelle!

## Oggetti *path-like*

Dal [glossario ufficiale](https://docs.python.org/3/glossary.html#term-path-like-object) di Python:

Un oggetto *path-like* è un oggetto che rappresenta un path del file system. Un oggetto path-like può essere un oggetto `str` o `bytes` che rappresenta un path, oppure un oggetto che implementa il *protocollo `os.PathLike`*. Un oggetto che supporta il protocollo `os.PathLike` può essere convertito in un path del file system di tipo `str` o `bytes` chiamando la funzione `os.fspath()`. `os.fsdecode()` e `os.fsencode()` possono essere usate per garantire un risultato di tipo `str` o `bytes`, rispettivamente. Questo concetto è stato introdotto dalla [PEP 519](https://peps.python.org/pep-0519/) (Python 3.6 - 2016).

## Modi per scrivere i *path*

Prendiamo la seguente struttura di una directory e proviamo a ottenere un percorso relativo fino al file `data1.txt` utilizzando vari metodi.

<pre>
my_script.py           <-- il tuo codice è qua
files_esercizi/
    esempi/
        data1.txt  <-- file target
        data2.txt
        ...
</pre>


### Harcoded string path e `open()`

Anche se fino ad ora abbiamo fatto così per scrivere i percorsi (*path*), sappiate che questo è un modo sbagliato, in quanto funziona solo in certi casi:

In [38]:
data_path = 'files_esercizi/esempi/'
file_to_open = 'data1.txt'
full_path = data_path + file_to_open

with open(full_path) as file_obj:
    print(file_obj.read())

Questo è il file "data1.txt" ed è stato aperto correttamente!
Quello che leggete è il testo al suo interno.


Tecnicamente, anche se stiamo usando lo slash normale `/`, questo codice funzionerà anche su Windows perché Python ha un hack che riconosce entrambi i tipi di slash quando si invoca `open()` su Windows.

Tuttavia, non si dovrebbe fare affidamento a questa *feature*: non tutte le librerie Python funzionano se si usa un tipo di slash sbagliato sul sistema operativo sbagliato, soprattutto se ci interfacciamo con programmi o librerie esterne.

Nota che nell'esempio ho codificato il percorso (*path*) usando degli slash `/` in stile Unix, perché il supporto di Python per i differenti tipi di slash è un hack esclusivo di Windows che non funziona al contrario. L'uso del backslash `\` (o meglio `\\`) in un percorso non funzionerà mai su un macOS o Linux:

In [39]:
data_path = 'files_esercizi\\esempi\\'
file_to_open = data_path + "data1.txt"
full_path = data_path + file_to_open

with open(full_path) as file_obj:
    print(file_obj.read())

# Su un macOS e Linux, questo codice solleverà un'eccezione:
# FileNotFoundError: [Errno 2] No such file or directory: 'files_esercizi\\esempi\\files_esercizi\\esempi\\data1.txt'

FileNotFoundError: [Errno 2] No such file or directory: 'files_esercizi\\esempi\\files_esercizi\\esempi\\data1.txt'

> QUINDI: Con `open()`, se usi sempre lo slash normale `/` non dovresti avere mai problemi.

`open()` però non è l'unico strumento a cui possiamo passare dei path.

Per tutti questi motivi e per altri ancora, definire i path come delle stringhe *[hardcoded](https://it.wikipedia.org/wiki/Codifica_fissa)* è il tipo di cosa che farà sì che altri programmatori guardino al tuo codice con grande sospetto. In generale, dovresti cercare di evitarlo.

### `os.path.join()`

Il modulo [`os.path`](https://docs.python.org/3/library/os.path.html) ha molti strumenti per risolvere i classici problemi di compatibilità tra i file system di sistemi operativi differenti.

Si può usare `os.path.join()` per "costruire" una stringa contente un percorso ed essere sicuri che verrà usato il giusto tipo di slash per il sistema operativo corrente:

In [40]:
import os.path

data_folder = os.path.join('files_esercizi', 'esempi')
file_to_open = 'data1.txt'
full_path = os.path.join(data_folder, 'data1.txt')

with open(full_path) as file_obj:
    print(file_obj.read())

Questo è il file "data1.txt" ed è stato aperto correttamente!
Quello che leggete è il testo al suo interno.



Questo codice funziona perfettamente sia su Windows sia su sistemi Unix-like.

Il problema è che è una `os.path` non è un modulo intuitivo da usare. Scrivere `os.path.join()` e passare ogni parte del percorso come una stringa separata è poco intuitivo e costringe molti passaggi... quindi il rischio di commettere errori è dietro l'angolo. 

Ci sono molti altri stumenti utili modulo `os.path` che ci aiutano a non commettere errori, ma sono altrettanto scomodi da usare e quindi la gente semplicemente non li usa. In questo modo è facile imbattersi in bug multipiattaforma, che possono provocare mal di testa a noi e ai nostri utenti.

### `pathlib.Path()`

Con Python 3.4 (2014) è stata introdotta una nuova libreria standard per gestire i file e i percorsi, chiamata [`pathlib`](https://docs.python.org/3/library/pathlib.html), e funziona benissimo!

Per usarla, basta passare un percorso o un nome di file in un nuovo oggetto `Path()` usando i normali slash `/` e la libreria si occuperà del resto:

In [41]:
from pathlib import Path

data_folder = Path('files_esercizi/esempi/')
file_to_open = 'data1.txt'
full_path = data_folder / file_to_open

with open(full_path) as file_obj:
    print(file_obj.read())

Questo è il file "data1.txt" ed è stato aperto correttamente!
Quello che leggete è il testo al suo interno.


Si notino due cose:

- Con le funzioni di `pathlib` si devono usare gli slash `'/'` nelle stringhe dichiarate. L'oggetto `Path()` convertirà gli `/` nel tipo di slash corretto per il sistema operativo corrente (`/` o `\\`).
- Se si vuole aggiungere qualcosa al percorso, si può usare l'operatore `/` direttamente nel codice. Non c'è più bisogno di fare `os.path.join(a, b)` in continuazione.

> NOTA: In pratica, tra due oggetti di tipo `Path`, l'operatore `/` non significa "divisione" ma "concatenamento" di due path.

### Atri tool di `pathlib.Path`

Se pathlib facesse solo questo, sarebbe una bella aggiunta a Python, ma fa molto di più!

Ad esempio, possiamo **leggere** il contenuto e le classiche informazioni utili di un file di testo senza dover aprire e chiudere il file (o senza un context manager esplicito):

In [42]:
from pathlib import Path

data_folder = Path('files_esercizi/esempi/')
file_to_open = 'data1.txt'
full_path = data_folder / file_to_open
# print(type(full_path))

print('Contenuto del file:', full_path.read_text(), sep='\n')
print('Nome completo del file:', full_path.name)
print('Estensione del file:', full_path.suffix)
print('Nome del file:', full_path.stem)

if full_path.exists():
    print(f'Il file "{full_path}" esiste!')
else:
    print(f'Il file "{full_path}" non esiste!')

Contenuto del file:
Questo è il file "data1.txt" ed è stato aperto correttamente!
Quello che leggete è il testo al suo interno.
Nome completo del file: data1.txt
Estensione del file: .txt
Nome del file: data1
Il file "files_esercizi/esempi/data1.txt" esiste!


Per approfondire i metodi `.read_text`, `.name`, `.suffix`, `.stem` e altri ancora potete leggere sulla [documentazione ufficiale](https://docs.python.org/3/library/pathlib.html#methods-and-properties).

> NOTA: Se dovete accedere e convertire i path in modo letterale, oppure volete forzare la scrittura dei path secondo lo standard Windows, date un'occhiata alla classe [`pathlib.PurePath`](https://docs.python.org/3/library/pathlib.html#pure-paths) e in paricolare a `pathlib.PureWindowsPath`.

Questo era solo un piccolo assaggio di `pathlib`. In pratica è un ottimo sostituto per molte funzionalità legate ai file che prima erano sparse in diversi moduli Python. Dategli un'occhiata!

Nel nostro corso tuttavia useremo `pathlib.Path` solo per generare path universalmente validi quando necessario e apriremo i file quasi sempre con la funzione `open()`.

## Modulo `glob`

Il modulo `glob` ha molti strumenti utili per interagire con il file system. È in grado di trovare file e directory sul computer i cui nomi corrispondono a uno schema specifico. È un modulo semplice ma efficace se si lavora molto tempo con i file.

Questo argomento tratta due funzionalità di `glob`: creare i pattern di ricerca e cercare i file.

Questo modulo fa parte della libreria standard di Python, quindi non è necessario installarlo da una fonte esterna.

### I pattern (modelli)

Il modulo `glob` consente di utilizzare dei caratteri jolly (*wildcard*) per cercare file e directory i cui nomi seguono particolari *pattern* (schemi ricorrenti). Le regole per questi pattern sono quelle utilizzate dalla shell dei sistemu Unix. Assomigliano alle espressioni regolari, ma sono molto più semplici:

| Wildcard | Significato
|----------|-------------|
| `*`      | 0 o più caratteri qualunque|
| `?`      | un singolo carattere qualunque|
| `[0-9]`  | specifica un intervallo di caratteri alfanumerici (da `0` a `9` in questo caso) |
| `[abc]`  | un solo carattere della sequenza (`a`, `b` o `c` in questo caso) |
| `[!abc]` | un qualsiasi carattere non presente nella sequenza (qualsiasi carattere che non sia `a`, `b` o `c`) |

Il modulo `glob` è abbastanza semplice. Ha solo tre metodi: `glob`, `iglob` ed `escape`.

Cominciamo con il primo, perché è il più utilizzato.

### Ricerca di un file

Prima di iniziare, non dimenticate di importare il modulo `glob` nel vostro programma.

La sintassi del metodo `glob()` è `glob.glob(pathname, *, recursive=False)`.

Restituisce una lista di nomi di file che corrispondono al nome del `pathname` (un pattern in cui è possibile utilizzare i caratteri jolly).

Il flag `recursive` è `False` di default, il che significa significa che la ricerca verrà eseguita solo nella directory fornita. Se lo si imposta su `True`, il pattern `**` corrisponderà a qualsiasi file e sottodirectory non solo nella directory fornita, ma anche all'interno di tutte le sottodirectory.

L'asterisco `*` tra il `pathname` e il flag `recursive` passa questo flag come argomento di una parola chiave.

In altre parole, si può scrivere `glob('mia_directory/**', recursive=True)` anziché `glob('mia_directory/**', True)`.

Il nome del percorso può essere un percorso di un file esistente sul computer (assoluto o relativo) o un pattern.

- Un percorso assoluto parte dalla radice del file system, come ad esempio:
    - `/users/User/mia_directory/image.gif` (Linux e macOS)
    - `C:\\Users\\User\\my_dir\\image.gif` (Windows)
- Un percorso relativo parte invece dalla directory corrente. Ad esempio, se la directory corrente è `User`, il percorso sarà:
    - `mia_directory/image.gif` (Linux e macOS)
    - `mia_directory\\image.gif` (Windows)

Entrambi i modi possono aiutare a trovare un file sul computer.

## Ricerca di più file

Di routine, può capitare di voler trovare più file che corrispondono a un determinato schema. Vediamo alcuni esempi. Ad esempio, si desidera trovare tutti i file `jpg` in una directory. Per prima cosa, è necessario scrivere un pattern. Potrebbe essere così: `mia_directory/*.jpg`. Ricordate che `*` corrisponde a qualsiasi numero di caratteri. Dopodiché, lo si inserisce nel metodo `glob.glob()` e il gioco è fatto:

In [43]:
import glob, os

pattern = '*.json'
pattern_path = os.path.join('files_esercizi', 'esempi', pattern)
glob.glob(pattern_path)

['files_esercizi/esempi/factions.json',
 'files_esercizi/esempi/packs.json',
 'files_esercizi/esempi/sides.json',
 'files_esercizi/esempi/00b.json']

Ora cerchiamo di trovare tutti i file il cui nome contiene un solo carattere. Non conosciamo le possibili estensioni di questi file. Ecco come possiamo fare il trucco:

In [44]:
import glob, os

pattern = '?.*'
pattern_path = os.path.join('files_esercizi', 'esempi', pattern)
glob.glob(pattern_path)


['files_esercizi/esempi/1.csv',
 'files_esercizi/esempi/a.svg',
 'files_esercizi/esempi/b.svg']

- ? corrisponde a un carattere;
- . corrisponde a un punto vero e proprio;
- * indica un numero qualsiasi di simboli.

Poiché viene dopo il punto, indica anche l'estensione dei nostri file.

Cosa fare se abbiamo bisogno di tutti i nomi dei file in una directory? C'è una soluzione semplice: usare l'asterisco!

In [45]:
import glob, os

pattern = '*'
pattern_path = os.path.join('files_esercizi', 'esempi', pattern)
glob.glob(pattern_path)

['files_esercizi/esempi/002.png',
 'files_esercizi/esempi/001.png',
 'files_esercizi/esempi/sub_dir1 ',
 'files_esercizi/esempi/1.csv',
 'files_esercizi/esempi/000.jpeg',
 'files_esercizi/esempi/factions.json',
 'files_esercizi/esempi/packs.json',
 'files_esercizi/esempi/[dir]',
 'files_esercizi/esempi/a.svg',
 'files_esercizi/esempi/b.svg',
 'files_esercizi/esempi/data1.txt',
 'files_esercizi/esempi/sub_dir2',
 'files_esercizi/esempi/sides.json',
 'files_esercizi/esempi/23a.xml',
 'files_esercizi/esempi/data2.txt',
 'files_esercizi/esempi/00b.json']

Restituisce un elenco di tutti i file e le sottodirectory della directory `files_esercizi/esempi/'`.

> NOTA: Se nessun file o directory corrisponde alla ricerca, restituisce un elenco vuoto `[]`.

## Glob iterabile

`glob.iglob()` restituisce un generatore (un tipo speciale di iteratore) che produce gli stessi valori di `glob()`; l'unica differenza è che non li memorizza, ma li restituisce, uno per uno.

Come ogni iteratore, può essere utile se si dispone di una quantità limitata di memoria e un lungo elenco di file.

Ecco come si presenta la chiamata: `glob.iglob(pathname, *, recursive=False)`

Il `pathname` viene scritto nello stesso modo del metodo `glob()` e anche il flag `recursive` funziona allo stesso modo.

Supponiamo di voler trovare tutti i file con le seguenti caratteristiche:

- il nome deve avere tre caratteri;
- i primi caratteri devono essere numerici (un numero qualsiasi);
- il terzo carattere può essere un carattere qualsiasi, tranne lo `0`.

Per farlo, abbiamo bisogno di parentesi quadre e di un punto esclamativo:

In [46]:
import glob, os

pattern = '[0-9][0-9][!0].*'
pattern_path = os.path.join('files_esercizi', 'esempi', pattern)
generator = glob.iglob(pattern_path)

for item in generator:
    print(item)

files_esercizi/esempi/002.png
files_esercizi/esempi/001.png
files_esercizi/esempi/23a.xml
files_esercizi/esempi/00b.json


- `[0-9]` rappresenta un intervallo. È un numero qualsiasi da `0` a `9`.
- `[!0]` indica qualsiasi carattere diverso da `0`;
- `.` è letteralmente un punto;
- `*` è qualsiasi numero di caratteri dopo il punto (`.`), in altre parole l'estensione.

> NOTA: Non dimenticate che gli intervalli possono includere anche le lettere. Per esempio, `[p-s]` indica qualsiasi lettera dell'intervallo `p,q,r,s`.

Questa ricerca può restituire file come `002.png`, `345.jpg`, `00j.csv` ma non, per esempio, `120.txt`.

## Path escaping

L'ultimo metodo `glob.escape()` permette di effettuare l'escape dei caratteri speciali `*`, `?`, `[ - ]` e `[ ]` se questi sono contenuti nei nomi dei file e directory che si desidera trovare.

In altre parole usiamo `glob.escape()` in tutti quei casi in cui `*` non deve più significare "qualsiasi carattere", ma solo un asterisco; il punto interrogativo deve essere un punto interrogativo letterale e le parentesi devono essere semplici parentesi.

La sintassi è ancora più semplice di quella dei metodi precedenti: `glob.escape(pathname)`. Si noti che non esiste un flag `recursive`. Questo si spiega con il fatto che `glob.escape()` non cerca nulla. Restituisce solo una stringa, un nome di percorso con caratteri di escape inseriti automaticamente, che può essere passata a `glob.glob()`.

Asterisco e punto interrogatovo sono rari e dovrebbero essere evitati nei nomi dei file, ma supponiamo di dover trovare una sottodirectory con il nome `[dir]`.

`glob.glob('mia_directory/[dir]')` non funzionerà in questo caso. Ricordate che `[]` è un simbolo speciale e, in questo caso, la query restituirà una sottodirectory chiamata `d`, `i` oppure `r`, se esiste. Quindi, come trovare la nostra `[dir]`? È qui che usiamo il metodo `escape()`:

In [47]:
import glob, os

pattern = '[dir]'

pattern_path = os.path.join('files_esercizi', 'esempi', pattern)
print('Pre-escaping path:', pattern_path)

safe_pattern_path = glob.escape(pattern_path)
print('Post-escaping path:', safe_pattern_path)

glob.glob(safe_pattern_path)


Pre-escaping path: files_esercizi/esempi/[dir]
Post-escaping path: files_esercizi/esempi/[[]dir]


['files_esercizi/esempi/[dir]']

1. Per prima cosa, otteniamo una stringa con i caratteri di escape necessari per la ricerca.
    - La stringa "escapizzata" `[[]dir]` contiene un `[ ]` che a sua volta contiene la parentesi sinistra `[` in modo che non venga più identificata come simbolo speciale.
    - Quindi scriviamo il resto della stringa così com'è: `dir]`. Questo perché la parentesi destra è cosiderata un simbolo speciale solo quando segue una parentesi sinistra.
2. Poi si esegue la ricerca vera e propria e si ottiene l'elenco dei risultati.

## Riassumendo

In questa sezione abbiamo imparato a:

- scrivere pattern di ricerca per file e directory con l'aiuto di caratteri speciali: `*`, `?`, `[` `]`, `[!]`;
- cercare file e directory utilizzando i pattern e il metodo `glob.glob()`;
- creare un iteratore per ottenere nomi di file uno alla volta con `glob.iglob()`;
- eseguire l'escape di caratteri speciali con `glob.escape()`.

## Glob con Pathlib? `pathlib.Path.glob()` !

Dato che prima avevamo parlato del modulo `pathlib`, perché non usarlo per comporre il path senza usare `os.path.join()`?

Si può fare! In due modi.

Se abbiamo bisogno del modulo `glob` perché ci servono i metod `.glob()` `.iglob()` e `.escape()`, possiamo passare un oggetto `Path` a `glob.glob()`, però prima dobbiamo convertirlo in stringa tramite `str()`.

In [48]:
import glob
from pathlib import Path

data_folder = Path('files_esercizi/esempi/')
pattern = '[0-9][0-9][!0].*'
pattern_path = data_folder / pattern

glob.glob(str(pattern_path))

['files_esercizi/esempi/002.png',
 'files_esercizi/esempi/001.png',
 'files_esercizi/esempi/23a.xml',
 'files_esercizi/esempi/00b.json']

`pathlib.Path` ha però il suo proprio metodo `pathlib.Path.glob()`!

Essa però funziona come `iglob`, ovvero restituisce un oggetto generatore.

Se volgiamo una lista, possiamo "renderizzare" il generatore usando `list()`.

In [49]:
from pathlib import Path

pattern = '[0-9][0-9][!0].*'
data_folder = Path('files_esercizi/esempi/')

generator = data_folder.glob(pattern)

# for item in generator:
#     print(item)

list(generator)

[PosixPath('files_esercizi/esempi/002.png'),
 PosixPath('files_esercizi/esempi/001.png'),
 PosixPath('files_esercizi/esempi/23a.xml'),
 PosixPath('files_esercizi/esempi/00b.json')]