**Sommario**
- [Archiviazione: File ZIP](#archiviazione-file-zip)
  - [Estrarre i file](#estrarre-i-file)
  - [Leggere il contenuto dei file](#leggere-il-contenuto-dei-file)
  - [Creare archivi](#creare-archivi)
    - [Creare un file "al volo" e archiviarlo direttamente](#creare-un-file-al-volo-e-archiviarlo-direttamente)
  - [Riassumendo](#riassumendo)
  - [Approfondimento: Creazione di archivi ZIP *in-memory*](#approfondimento-creazione-di-archivi-zip-*in-memory*)

# Archiviazione: File ZIP

Gli archivi sono molto utili nella vita quotidiana. Possono conservare oggetti con una compressione significativa. Anche se non hai ancora molta esperienza nella gestione delle informazioni e non ti imbatti spesso negli archivi, sappi che sono comunque facili da usare.

Comprimere dati, in pratica permette di:

- Risparmiare spazio di archiviazione su disco e banda nei trasferimenti sulla rete.
- Distribuire più facilmente un insieme di file.

Esistono diversi formati di archivio, ma il più diffuso è `.zip`.

In programmazione, spesso dobbiamo automatizzare attività di routine e per fare questo i nostri programmi arriveranno a trattare spesso con molti. Fortunatamente, se si tratta di archivi, la libreria standard di Python ha il modulo giusto: `zipfile`. In questa sezione impareremo a usarlo.



## Estrarre i file

L'operazione più popolare sugli archivi è senza dubbio l'estrazione.

Il primo problema che riscontriamo è il fatto che sovente non conosciamo che cosa è contenuto in un'archivio. Quindi, prima di estrarre dei file da un archivio, è probabile che si voglia sapere qualcosa in più sul contenuto dell'archivio stesso.

Supponiamo di avere un archivio `files.zip` che vogliamo decomprimere.

In pratica gli step che dobbiamo fare sono:

1. importare il modulo,
2. aprire il file `.zip` dell'archivio
3. ottenere informazioni generali
4. decidere se e cosa estrarre
5. effettuare l'estrazione

La classe principale per lavorare con gli oggetti archivio si chiama `ZipFile`. La useremo per manipolare i nostri oggetti:

In [1]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/esempi/files.zip', 'r') as zip_archive:
    # stampa direttamente a monitor il contenuto dell'archivio, il print() è "integrato"
    zip_archive.printdir()

File Name                                             Modified             Size
000.jpeg                                       2023-04-24 18:09:32         7335
001.png                                        2023-04-15 01:08:12        35617
23a.xml                                        2023-04-24 18:15:44         4866
[dir]/                                         2023-04-24 18:38:40            0
[dir]/ricetta.txt                              2023-04-24 18:40:36          928
data2.txt                                      2023-04-24 17:40:20          110
packs.json                                     2023-03-12 20:11:22        12417
prova_pwd_facile.xml                           2023-04-27 17:13:46          100
sub_dir1/                                      2023-04-24 17:42:34            0
sub_dir1/cycles.json                           2023-03-12 20:11:22         3077
sub_dir2/                                      2023-04-24 17:40:38            0
sub_dir2/mo.json                        

Nella prima riga di codice, abbiamo fornito il percorso del file e la modalità di lettura. Ci sono diverse modalità di lettura che si possono utilizzare; si veda la tabella seguente per le opzioni e la descrizione:

| Mode  | Descrizione                                                         |
|:-----:|---------------------------------------------------------------------|
| `'r'` | Legge un file esistente                                             |
| `'a'` | Aggiunge a un file esistente                                        |
| `'w'` | Crea e scrive un nuovo file (se il file esiste già, lo sovrascrive) |
| `'x'` | Crea e scrive un nuovo file (se il file esiste già, dà errore)      |

Se si ha bisogno solo di una lista con i nomi dei file contenuti nell'archivio, utilizzare il metodo `ZipFile.namelist()`:

In [2]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/esempi/files.zip', 'r') as zip_archive:
    # crea una lista con tutti i nomi dei file contenuti nell'archivio
    lista_files = zip_archive.namelist()

    print(lista_files)

['000.jpeg', '001.png', '23a.xml', '[dir]/', '[dir]/ricetta.txt', 'data2.txt', 'packs.json', 'prova_pwd_facile.xml', 'sub_dir1/', 'sub_dir1/cycles.json', 'sub_dir2/', 'sub_dir2/mo.json', 'sub_dir2/om.json']


Ora che conosciamo il contenuto del nostro file, abbiamo due opzioni:

Estrarre uno o più file in particolare:

In [2]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/esempi/files.zip', 'r') as zip_archive:
    # estrae uno specifico file in una directory specifica
    zip_archive.extract('sub_dir1/cycles.json', './files_esercizi/outputs/prova_estrazione1')

In [3]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/esempi/files.zip', 'r') as zip_archive:
    # estrae tutti i file in una directory specifica
    zip_archive.extractall('./files_esercizi/outputs/prova_estrazione2')

Come si può vedere, è possibile estrarre dati specifici o tutti in una volta e indicarne la destinazione.

Inoltre, se avete dubbi sul fatto che un certo file sia u veramente uno ZIP, c'è un modo per verificarlo `zipfile.is_zipfile()`:

In [4]:
from zipfile import is_zipfile

is_zipfile('./files_esercizi/esempi/files.zip')

True

## Leggere il contenuto dei file

Abbiamo imparato a estrarre i file, ma se voleste anche vedere cosa contengono? Nessun problema, potete aprirli "al volo" come qualsiasi altro file, senza bisogno di estrarli esplicitamente:

In [5]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/esempi/files.zip', 'r') as zip_archive:
    with zip_archive.open('data2.txt', 'r') as data2_txt:
        testo_file = data2_txt.read()
        print(testo_file)


b'Questo \xc3\xa8 il file "data2.txt" ed \xc3\xa8 stato aperto correttamente!\nQuello che leggete \xc3\xa8 il testo al suo interno.'


Si noti che il file che vogliamo leggere, ci viene restituito come oggetto file-like di tipo binary e quando lo leggiamo, otteniamo un'oggetto di tipo `bytes`. Per trasformarlo in una normale stringa, si può usare il metodo delle stringhe `str.decode()`:

In [7]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/esempi/files.zip', 'r') as zip_archive:
    with zip_archive.open('data2.txt') as data2_txt:
        testo_file = data2_txt.read().decode('utf-8')
        print(testo_file)

Questo è il file "data2.txt" ed è stato aperto correttamente!
Quello che leggete è il testo al suo interno.


`str.decode()` è il metodo che prende oggetti di tipo `bytes` e li converte in tipo `str`. Tuttavia, per farlo, deve conoscere con quale codifica è stato scritto il file in origine. Nel caso qua sopra, la codifica è `utf-8`.

## Creare archivi

Ora che sappiamo come ottenere informazioni e file da un archivio, vediamo come creare gli archivi stessi.

Per creare un nuovo file `.zip`, usiamo la classe `ZipFile` e passiamo `w` al parametro `mode`:

In [6]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/outputs/nuovo_archivio.zip', 'w') as new_archive:
    print(new_archive)

<zipfile.ZipFile filename='./files_esercizi/outputs/nuovo_archivio.zip' mode='w'>


Anche senza fare nulla, il nostro file è ora creato e lo potete trovare al percorso "`./files_esercizi/outputs/nuovo_archivio.zip`".

Tuttavia esso è ancora "vuoto". È necessario usare il metodo `ZipFile.write()` sull'oggetto file-like appena creato e specificare il percorso completo del file che vogliamo inserire all'archivio.

Il i primi due parametri del metodo `.write()` sono `filename` e `arcname`:

- `filename` è obbligatorio ed è il percorso al file che vogliamo inserire nell'archivio.
- `arcname` è facoltatovo ed è il nome che vogliamo dare al nostro file all'interno dell'archivio, se viene omesso, sarà usato il `filename`.

Con `arcname` possiamo quindi specificare un nome e/o un percorso differente per il nostro file archiviato:

In [7]:
from zipfile import ZipFile

with ZipFile('./files_esercizi/outputs/nuovo_archivio.zip', 'w') as new_archive:

    new_archive.write('09_python_zip.ipynb')
    new_archive.write('./files_esercizi/botteghe-storiche.csv')
    new_archive.write('./files_esercizi/tarantino.txt', 'films/lista_tarantino.txt')
    
    new_archive.printdir()

File Name                                             Modified             Size
09_python_zip.ipynb                            2024-03-19 15:01:39        20210
files_esercizi/botteghe-storiche.csv           2023-04-23 15:09:51        52716
films/lista_tarantino.txt                      2023-04-13 16:05:15          189


Nell'esempio qua sopra:

- Archiviamo il file `index.html` e lo lasciamo tale e quale, nella "root" dell'archivio.
- Archiviamo il file `./files_esercizi/botteghe-storiche.csv` e lo lasciamo tale e quale; quindi viene creata una directory `files_esercizi/` nel nostro archivio e il file `botteghe-storiche.csv` viene messo al suo interno.
- Archiviamo il file `./files_esercizi/tarantino.txt` ma lo rinominiamo in `lista_tarantino.txt` e lo mettiamo in una cartella chiamata `films/` che, se non è già presente nell'archivio, sarà creata.

Notate che se non viene specificato l'`arcname`, percorso fornito con `filename` viene riprodotto tale e quale all'interno dell'archivio! Questo ci consente dunque di riprodurre le strutture delle nostre directory all'interno dell'archivio, senza troppe difficoltà. Può essere molto utile quando facciamo dei backup.

> NOTA: Se avete necessità di manipolare i file e le direcotry prima di archiviarle, date un'occhiata al modulo `os` della Libreria standard per comprendere come gestire i percorsi, navigare al loro interno, attraversare le cartelle e operare sui file. In questo modo per esempio potete aggiungere dei file agli archivi utilizzando dei cicli anziché farlo uno per uno.

### Creare un file "al volo" e archiviarlo direttamente

Con il metodo `ZipFile.writestr()` possiamo scrivere in un file direttamente all'interno dell'archivio.

In [12]:
from zipfile import ZipFile

testo_per_file = 'Questo testo va messo in un file .txt e poi archiviato un file .zip'

with ZipFile('../../files_esercizi/outputs/nuovo_archivio.zip', 'a') as new_archive:

    new_archive.writestr('file_creato_da_stringa.txt', testo_per_file)

    new_archive.printdir()

File Name                                             Modified             Size
09_python_zip.ipynb                            2024-03-19 15:01:38        20210
files_esercizi/botteghe-storiche.csv           2023-04-23 15:09:50        52716
films/lista_tarantino.txt                      2023-04-13 16:05:14          189
file_creato_da_stringa.txt                     2024-07-03 21:45:42           67
file_creato_da_stringa.txt                     2024-07-03 21:45:44           67
file_creato_da_stringa.txt                     2024-07-03 21:45:52           67
file_creato_da_stringa.txt                     2024-07-03 21:45:54           67
file_creato_da_stringa.txt                     2024-07-03 21:46:00           67


In questo modo evitiamo di dover prima creare il file `file_creato_da_stringa.txt` e poi aggiungerlo all'archivio. Facciamo tutto *in-memory*.

## Riassumendo

Abbiamo visto come lavorare con gli archivi utilizzando il modulo `zipfile` della Libreria standard di Python. Per essere precisi, abbiamo imparato a:

- estrarre i dati;
- leggere i file all'interno di un archivio;
- creare archivi e inserire dati al loro interno.

## Approfondimento: Creazione di archivi ZIP *in-memory*

Se i dati che vogliamo archiviare non sono contenuti in dei file sul disco, ma provengono da oggetti Python, allora dobbiamo ricorrere al modulo `io` e alla classe `BytesIO` che serve a creare un *buffer* in memoria che si comporta come un file.

In [None]:
from io import BytesIO
from zipfile import ZipFile, ZIP_DEFLATED

testo_per_file = 'Questo testo va messo in un file .txt e poi archiviato un file .zip'

# Crea un buffer in memoria con BytesIO
zip_buffer = BytesIO()

# Crea un archivio zip in memoria, utilizzando il buffer come file
with ZipFile(zip_buffer, mode="w", compression=ZIP_DEFLATED) as file_zip:

    # Aggiunge file all'archivio
    file_zip.writestr('mio_file.txt', testo_per_file)

# Salva il buffer su disco
with open('./files_esercizi/outputs/archivio_in-memory.zip', 'wb') as new_archive:
    new_archive.write(zip_buffer.getvalue())

    # # Importante: spostare il cursore all'inizio del buffer se si usa read()
    # zip_buffer.seek(0)
    # new_archive.write(zip_buffer.read())

Questo approccio è particolarmente utile quando non si desidera lavorare con file reali sul disco, ma si hanno dati in memoria che si vogliono trattare come se fossero contenuti in un file. Lo possiamo applicare a scenari in cui si lavora con applicazioni web, funzioni cloud, o qualsiasi situazione in cui è preferibile evitare l'accesso al disco per motivi di performance o sicurezza.

Utilizzare un archivio zip "in-memory" permette, a volte, di gestire i dati in modo più efficiente e sicuro, riducendo la latenza e i potenziali problemi di accesso ai file su disco.

> NOTA BENE: Naturalmente questo approccio è più oneroso a livello di memoria RAM rispetto a quelli visti in precedenza.