# Interagire con i file

Spesso i dati per il vostro programma arrivano dall'esterno sotto forma di file. Tutti sappiamo cosa sono i file, li usiamo nella vita di tutti i giorni e quindi ha senso incorporarli in un progetto. In questo argomento imparerete a lavorare con i file esterni.

Lo schema generale del lavoro con i file è il seguente: aprire il file, fare ciò che serve, quindi chiuderlo. Esaminiamo questi passaggi in modo più dettagliato.

## Aprire un file, la funzione `open()`

Prima di poter provare a fare qualcosa con un file, è necessario aprirlo. Python ha molte funzioni integrate per lavorare con i file, quindi non è necessario installare o importare alcun modulo. Per aprire un file, possiamo usare la funzione integrata `open()`.

```python
# Esempio di apertura di un file
mio_file = open('mio_file.txt')
```

La funzione `open()` ha un parametro richiesto, `file`, che è un oggetto di tipo _**path-like**_. L'oggetto path-like è una `str` o un `byte` che rappresenta un percorso nella directory del file. Nel nostro esempio, il parametro `file` ha il valore `"mio_file.txt"`, che significa che il file "my_file.txt" si trova nella directory di lavoro corrente.

In questo argomento non entreremo nel dettaglio dei percorsi e delle directory, quindi assumeremo che tutti i nostri file di esempio si trovino nella directory di lavoro corrente.

L'oggetto `my_file` che abbiamo appena creato è un file o un oggetto simile a un file. Significa solo che possiamo usare diversi tipi di metodi per i file su questo oggetto.

La funzione `open()` ha una serie di parametri opzionali. Se date un'occhiata alla documentazione ufficiale di Python, potrete saperne di più. In questo argomento, esamineremo due parametri: `mode` e `encoding`.



## Il parametro `mode`

Uno dei parametri opzionali più importanti della funzione open() è mode. Questo parametro regola il modo in cui vogliamo aprire il nostro file e per quale scopo. Sono disponibili le seguenti opzioni:

| `mode`              | Significato                                                                        |
|---------------------|------------------------------------------------------------------------------------|
| `'r'`               | Apre per la lettura. Se il file non esiste, si verifica un errore.                 |
| `'w'`               | Apre per la scrittura. Se il file esiste già, verrà sovrascritto.                  |
| `'a'`               | Apre per la scrittura. Se il file esiste già, viene aggiunto alla fine del file.   |
| `'+'`               | Apre per l'aggiornamento (lettura e scrittura).                                    |
| `'b'`               | Apre in modalità binaria (binary mode).                                            |
| `'t'`               | Apre come testo.                                                                   |

Vediamo l'esempio seguente.

```python
mio_file = open('mio_file.txt', 'w')
```

Come si può notare, abbiamo specificato il parametro `mode` subito dopo il nome del file. Ora il file è aperto per la scrittura.

È necessario fare un paio di precisazioni sulle modalità.

Innanzitutto, per impostazione predefinita, i file vengono aperti per la lettura come testo, quindi il valore predefinito di `mode` è `'r'` o, più precisamente, `'rt'`.

In secondo luogo, è possibile combinare le modalità per ottenere ciò che ci serve. Ad esempio, se vogliamo aprire un file esistente e poterlo leggere e aggiornare, dobbiamo impostare la modalità `'r+'`.

In terzo luogo, è possibile scegliere il formato in cui aprire i file. Le opzioni principali sono testo o binario, rispettivamente `'t'` e `'b'`. Ciò corrisponde alla differenza tra gli oggetti `str` e `byte`. Quindi, se si vuole aprire un file per la scrittura in formato binario, la modalità deve essere `'wb'`.

Si noti che, poiché il formato testo è quello predefinito, nella maggior parte dei casi `'t'` viene omesso.

> ATTENZIONE: Alcune modalità non possono essere combinate tra loro: ad esempio, deve essere specificata solo una delle opzioni `'w'`, `'r'` e `'a'`, non si può aprire un file con la modalità `'ar'`. Allo stesso modo, si deve scegliere una delle due opzioni `'b'` o `'t'`, il file non può essere aperto sia in modalità testo che in modalità binaria.

Infine, va segnalata un'importante differenza tra le opzioni `'w'` e `'a'`. Entrambe le modalità sono utilizzate per scrivere su un file. L'unica differenza è che `'w'` tronca il file prima di scriverlo. In altre parole, se il file esiste già, il suo contenuto viene cancellato. `'a'` si comporta diversamente: se il file esiste, qualsiasi cosa vi si scriva verrà semplicemente aggiunta alla fine del file. È possibile distinguerli con una semplice associazione di parole: `'w'` sta per *write* e `'a'` sta per *append*.

## Codifica

Il parametro `encoding` specifica la codifica da utilizzare per decodificare o codificare il file di testo.

La codifica dipende dal sistema operativo e dell'editor con cui è stato scritto il file. Quando apriamo un file, Python non può indovinare la codifica, e se non gliela specifichiamo potrebbe aprirlo usando una codifica diversa da quella prevista.

Se non stai usando la codifica giusta per il tuo file, le informazioni visualizzate potrebbero sembrare non avere senso. Quindi, se il file che si sta tentando di aprire appare strano o "sbagliato", potrebbe essere necessario modificare questo parametro e provare altre codifiche.

È dunque sempre consigliabile specificare l'encoding quando si apre il file come testo dato che il valore predefinito dipende dalla piattaforma con cui è stato creato il file (solitamente `'utf-8'`).

Di seguito sono riportati alcuni esempi di apertura di file tramite diverse codifiche:

```python
# UTF-8
file_utf8 = open('mio_file.txt', encoding='utf-8')

# LATIN-1
file_utf16 = open('mio_file.txt', encoding='latin-1')

# CP1252
file_cp1252 = open('mio_file.txt', encoding='cp1252')
```

In genere, quando apri un file, prova prima a specificare la codifica `utf-8` che è la più comune scrivendo `encoding='utf-8'`, e se per caso  non va bene prova invece `encoding='latin-1'` (solitamente utile se il file è stato scritto su sistemi Windows). Se apri file scritti in posti più esotici, tipo in Cina, potresti dover usare un'altro encoding. Per approfondire queste questioni, puoi cominciare da questa pagina sulla [codifica dei caratteri](https://it.wikipedia.org/wiki/Codifica_di_caratteri).



## Chiusura del file

Dopo aver lavorato con un file, è necessario chiuderlo. La chiusura dei file è estremamente importante!

Nella maggior parte dei casi, un file viene chiuso quando il programma finisce di lavorare. Tuttavia, questo non è garantito. Per garantire la sicurezza dei dati, dobbiamo assicurarci che il file venga chiuso alla fine.

Uno dei modi per farlo è utilizzare il metodo `close()` sul file:

```python
# chiude il file
mio_file.close()
```

Questo non è l'unico modo, né il più efficiente. Ma per il momento è sufficiente, vedremo più avanti l'istruzione `with` che semplifica l'apertura/chiusura dei file.


## Riassumendo

In questo argomento abbiamo appreso le basi del lavoro con i file in Python: come aprirli e chiuderli.

- Quando si aprono i file, è necessario specificare per cosa li si sta aprendo, ad esempio per la lettura o la scrittura.
- Per impostazione predefinita, i file vengono aperti per la lettura come testo.
- A volte è necessario specificare la codifica del file, in modo che i dati vengano codificati/decodificati correttamente.

## Lettura di un file

Se avete un file, potreste voler visualizzare il suo contenuto. Vediamo diversi modi per leggere i file in Python.

Per leggere un file, è sufficiente aprirlo in modalità di lettura.

Immaginiamo di avere un file chiamato `personaggi.txt` che ha questo aspetto:

```
Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli
```

Ora, per leggere il file, è possibile:

- utilizzare il metodo `read(size)`;
- utilizzare il metodo `readline(size)`;
- utilizzare il metodo `readlines()`;
- iterare sulle righe con un ciclo `for`.

I primi tre modi sono metodi speciali per gli oggetti file, mentre l'ultimo è un ciclo Python generico. Esaminiamoli uno per uno.

### `read()`

`read(size)` legge la dimensione (`size`) specificate in byte di un file. Se il parametro non viene specificato, l'intero file viene letto e assegnato a una singola variabile. Ecco cosa otterremo applicandola al nostro file:

In [3]:
file = open('./files_esercizi/personaggi.txt', 'r')
print(file.read())
file.close()

Leonardo
da Vinci
Sandro
Botticelli
Niccolò 
Macchiavelli


### `readline()`

`readline(size)` è simile a `read(size)`, ma legge la dimenzione (`size`) specificata in byte da una singola riga e non dall'intero file.

Le righe dei file sono separate da sequenze di escape "newline": `'\n'`, `'\r'` o `'\r\n'`. In questo argomento sceglieremo `'\n'`. Tenete però presente che questa sequenza di escape dipende dal vostro sistema operativo.

Procediamo con il nostro esempio. Il file `personaggi.txt` contiene 6 righe. Ecco cosa otterremo se proviamo a leggere 3 byte da ogni riga:

In [12]:
file = open('./files_esercizi/personaggi.txt', 'r')
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
print(file.readline(3))
file.close()

Bea
uti
ful
 is
 be
tte


Come si può notare, l'output non contiene i primi tre caratteri di tutte e 6 le righe. Questo perché quando si specifica il parametro `size`, viene estratto dalla riga un numero di byte della dimensione specificata fino alla sua fine e solo allora si passa a un'altra riga.

Il carattere "newline" viene considerato come parte della riga. Quindi, nel nostro esempio, abbiamo bisogno di tre passaggi di `readline(3)` per leggere la prima riga che ha 8 caratteri e un carattere di newline (9 byte in totale). È da qui che provengono tutte le righe vuote nell'output.

### `readlines()`

`readlines()` ci permette di leggere l'intero file come una lista di righe. Ecco come si presenta:

In [11]:
file = open('./files_esercizi/personaggi.txt', 'r')
print(file.readlines())
file.close()

['Leonardo\n', 'da Vinci\n', 'Sandro\n', 'Botticelli\n', 'Niccolò \n', 'Macchiavelli']


Qui si può vedere che il carattere *newline* fa effettivamente parte della riga.

Questo metodo funziona bene quando i file sono piccoli, ma per i file di grandi dimensioni potrebbe essere inefficiente in quanto l'intero contenuto del file deve essere caricato in memoria per creare l'oggetto `list`.

### Ciclo `for`

Il modo più efficiente per leggere il contenuto di un file è quello di iterare sulle sue righe con un ciclo `for`.

In [13]:
file = open('./files_esercizi/personaggi.txt', 'r')
for line in file:
    print(line)
file.close() 

Leonardo

da Vinci

Sandro

Botticelli

Niccolò 

Macchiavelli


Questo è il modo migliore per leggere file di grandi dimensioni, perché possiamo lavorare con una riga alla volta o con righe specifiche, ignorando quelle che non ci servono.

### Riassumendo

In questa sezione abbiamo visto come leggere il contenuto di un file.

Questa è un'abilità è molto utile perché in certi casi è più facile o più conveniente leggere un file usando Python piuttosto che aprirlo direttamente.

Per fare ciò, abbiamo a disposizione:

- Il metodo `read()` legge il file nella sua interezza.
- Il metodo `readline()` legge il file una riga alla volta.
- Il metodo `readlines()` legge il file come una `list` di righe.
- Il ciclo `for` per iterare sulle righe del file, che è il modo migliore.

## Context manager: `with ... as`

Viviamo in un mondo di risorse limitate, quindi una delle abilità più importanti nella vita (e nella programmazione) è saperle gestire. Non possiamo insegnarvi come gestire le risorse nella vita reale, ma possiamo aiutarvi a gestire efficacemente le risorse in Python con l'aiuto dei gestori di contesto.

### Quando usare un context manager

Lo scopo principale di un *context manager* è la gestione delle risorse. Cosa significa in pratica? L'esempio più comune è l'apertura dei file.

L'apertura di un file consuma una risorsa limitata chiamata *file descriptor*. Se si cerca di aprire troppi file contemporaneamente, a seconda del sistema operativo, si può ottenere un errore o bloccare completamente il programma.

```python
# non fatelo a casa! ;)
n_files = 1000000
files = []

for i in range(n_files):
    files.append(open('test.txt'))

# OSError: [Errno 24] Too many open files
```

Per evitare il consumo dei *file descriptor*, è necessario chiudere i file dopo averli utilizzati. La chiusura dei file avviene, come abbiamo già visto, con il metodo `close()`.

```python
n_files = 1000000
files = []

for i in range(n_files):
    f = open('test.txt')
    files.append(f)
    f.close()

# nessun errore, tutto ok!
```

Questo funziona perfettamente se i programmi sono relativamente semplici. Tuttavia, quando i nostri programmi o le nostre manipolazioni di file diventano più complicati, determinare quando e come chiudere i file può diventare complicato.

NOTA: In altri linguaggi di programmazione, un modo comune per affrontare questo problema è un blocco `try ... except ... finally`.

In Python, possiamo usare un *context manager*, il quale garantisce che tutte le operazioni necessarie avvengano al momento giusto.

Nell'esempio dell'apertura dei file, il *context manager* chiuderà il file e rilascerà il *file descriptor* quando avremo finito di lavorare con il file.

### `with ... as`

Ora che sappiamo perché dobbiamo usare i context manager, impariamo come farlo. Un context manager viene introdotto dalla parola chiave `with`, seguita dal manager stesso e dal nome della variabile. La sintassi di base è la seguente:

```python
# invoca un gestore di contesto
with context_manager as nome_variabile:
    ...
```

`context_manager` è qualsiasi cosa che si comporti come un context manager (cioè che supporti metodi specifici dei context manager). Può essere un context_manager personalizzato o uno built-in di Python.

Di seguito sono riportati alcuni esempi di context manager che si possono incontrare in Python. Non è necessario sapere cosa sono. Si tratta solo di informazioni aggiuntive che potrebbero essere interessanti:

- Oggetti di tipo file (e altri *stream* come `io.StringIO` o `io.BytesIO`).
- Sockets (networking).
- Locks e semaphores del modulo `threading`.
- Connessioni a un database.
- Oggetti di tipo mock (unit test).

È anche possibile annidare il costrutto `with`:

```python
# context manager annidato
with context_manager1 as var1:
    with context_manager2 as var2:
        # e così via
        ...
```

Più comunemente, l'istruzione `with ... as` viene utilizzata quando si lavora con i file. Vediamo come si fa.

L'oggetto file che otteniamo quando usiamo la funzione `open()` funge da context manager, quindi possiamo usarlo dopo l'istruzione `with`. Ecco come si può fare:

```python
with open('test.txt') as f:
    # qua possiamo lavorare con il file
    ...
```
Come si può vedere, è molto semplice! Ci permette anche di accorciare un po' il codice, poiché non è necessario chiudere esplicitamente il file alla fine.

> NOTA: In realtà è possibile chiudere esplicitamente il file all'interno del costrutto `with ... as`, non ci sarà alcun errore. Semplicemente non è necessario!

Tornando alla situazione da un milione di file, ecco come apparirebbe se usassimo il costrutto `with`:

```python
n_files = 1000000
files = []

for i in range(n_files):
    with open('test.txt') as f:
        files.append(f)

# nessun errore, tutto ok!
```

Vediamo ora un esempio più realistico. Supponiamo di avere un file con un elenco di film diretti da Quentin Tarantino, chiamato `tarantino.txt`. Vogliamo leggere questo file e stamparne i titoli:

In [15]:
with open('./files_esercizi/tarantino.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # usiamo strip() per sbarazzarci dei simboli di newline
        print(line.strip())

Reservoir Dogs
Pulp Fiction
Jackie Brown
Kill Bill: Volume 1
Kill Bill: Volume 2
Grindhouse: Death Proof
Inglorious Basterds
Django Unchained
The Hateful Eight
Once Upon a Time in Hollywood


Ora immaginiamo di voler elaborare questi titoli, ad esempio renderli tutti minuscoli, e di salvarli in un nuovo file. Se si aprono più file contemporaneamente usando il costrutto `with ... as`: è sufficiente scrivere `with` una volta e scrivere `as` tante volte quanti sono i file da aprire.

Ecco come si può fare:

In [17]:
with open('./files_esercizi/tarantino.txt', 'r', encoding='utf-8') as in_file, \
     open('./files_esercizi/tarantino_lowercase.txt', 'w', encoding='utf-8') as out_file:
    for line in in_file:
        out_file.write(line.lower())

Un file `tarantino_lowercase.txt` sarà creato nel processo e conterrà i titoli dei film di Tarantino scritti in minuscolo.

> NOTA: Il backslash (`\`) nel frammento di codice precedente è un carattere di continuazione di riga. Viene utilizzato per collocare una singola istruzione lunga su più righe di codice.

### Riassumendo

In questa sezione abbiamo imparato a conoscere i *context manager*, strutture speciali utilizzate per la gestione efficace delle risorse.

Fondamentalmente, un context manager aiuta ad assicurarsi che tutte le operazioni necessarie siano state eseguite e rilascia le risorse occupate quando queste non sono più utilizzate.

I context manager sono solitamente introdotti da un'istruzione `with ... as`.

In pratica, si incontrano più comunemente nell'apertura/scrittura dei file. Tuttavia, è possibile creare gestori di contesto personalizzati per i propri scopi, ma questi sono utilizzi per settori più specifici.