# Scrivere e creare file di Excel

Se stai seguendo questo corso, immagino che tu abbia già aperto un file di Excel. La maggior parte delle persone che fa lavori d'ufficio è probabile che ne apra parecchi ogni giorno. Questo perché è piuttosto facile da usare e può memorizzare molti dati in forma strutturata.

Excel, e in generale tutti i software definiti come ["fogli elettronici" o "fogli di calcolo](https://it.wikipedia.org/wiki/Foglio_elettronico)" (in inglese *spreadsheet*) consentono di memorizzare dati tabellari, ovvero sotto forma di classiche tabelle, le cui celle sono individuabili dall'incrocio di una riga con una colonna. 

Avendo a disposizione una tabella, convenzionalmente gli utenti tendono a strutturare i dati nello stesso modo che abbiamo visto nei file CSV, ovvero una "griglia" (matrice) di dati in cui le righe rappresentano i "record", ovvero delle entità, e le colonne rappresentano delle proprietà di queste entità. In pratica in una cella viene memorizzata una specifica proprietà di una specifica entità.

Purtroppo, a volte è difficile e logorante elaborare manualmente centinaia di dati, e soprattutto centinaia di file. Per questo, potremmo usare Python!

Python non offre supporto per i file Excel nativamente nella libreria standard. Tuttavia esistono alcune librerie di terze parti. Con esse, è possibile creare e modificare i file Excel e in questo notebook vedremo le basi di un paio di queste librerie. Esistono anche altri strumenti per manipolare le tabelle di Excel; potete leggere di più in questa [pagina dedicata](https://www.python-excel.org/).

## Perché XLSX e non CSV?

- I file CSV non fanno distinzione tra tipo di dato, tutto è testo. Sta a noi convertire i dati nel tipo corretto. XLXS supporta un maggior numero di tipi di dati.
- I dato che i file CSV sono scritti in testo semplice (*plain text*) e chiunque può aprirli con un qualunque editor di testo, possono essere facilmente corrotti e potremmo anche non accorgercene. I file XLSX hanno dei sistemi di controllo dell'errore.
- I CSV non possono contenere formule (in modo nativo e consistente).
- Non esiste uno standard in tutto il mondo per quanto riguarda la separazione dei valori: i paesi di lingua inglese usano la virgola, mentre in gran parte dell'europa continentale si tende ad usare il punto e virgola.
- I file XLXS sono più facili da usare rispetto ai CSV.


## Formati dei file

Per i file `.xlsx` (Excel 2007-oggi):

- `openpyxl`: è il pacchetto più usato per leggere e scrivere file `.xlsx` utilizzando python. Ottimo per compilare i fogli di calcolo in modo "lineare", mantenendo il formato "tabellare". Se è necessario creare fogli con strutture più complesse e formattazioni, è preferibile preparare dei template che poi saranno compilati nelle parti interessate. Legge tutti i formati (`.xlsx/xlsm/xltx/xltm`).

- `xlsxwriter`: un pacchetto alternativo per la lettura e la scrittura di file e la formattazione di file `.xlsx.`. È lo strumento giusto se vuoi creare da zero un file di Excel strutturato, anche in modo complesso, usando formattazioni speciali, formule e grafici.


Per i file `.xls` (Excel 97-2003): 

- `xlrd`: lettura delle vecchie versioni di file Excel `.xls`.
- `xlwt`: scrittura e formattazione delle vecchie versioni di file Excel `.xls`.

## Nomenclatura Excel

Seguendo la nomenclatura Microsoft, i fogli elettronici sono composti da:

- Cartella di lavoro (*workbook*): è l'intero file, che può contenere più fogli.
- Foglio di lavoro (*worksheet*): è un singolo foglio, contenuto nella cartella di lavoro.
- Cella (*cell*): punto di incrocio tra una Riga (*row*) e una Colonna (*column*) all'interno di un Foglio di lavoro.

## Spreadsheet softwares

Prima di lavorare con Python su un foglio di calcolo dovresti conoscere <u>**molto bene**</u> Excel o qualunque altro software di questa categoria:

- Microsoft Excel;
- LibreOffice;
- OpenOffice;
- Google Fogli (Sheets)

Se non sei ancora a livello "molto bene", sappi che devi innanzitutto saper fare le sequenti cose con un foglio di calcolo:

**COMPILAZIONE** (immissione i dati):
- compilare un'intera tabella usando solo la tastiera;
- selezionare intervalli di celle, colonne, righe folgio completo;
- copiare, tagliare, incollare:
    - celle da altre porzioni di tabella e da altri file;
    - fogli all'interno del file stesso e tra file diversi;
- formattare le celle;
    - aspetto del testo, font, dimensione, colore testo e sfondo...;
    - formato dei dati (testo, numeri, date, valuta...);
- inserire, rimuovere, tagliare, incollare righe e colonne;

**PROGRAMMAZIONE** (logica dei calcoli):
- scrivere riferimenti ad altre celle/intervalli e a celle/intervalli in altri fogli; 
- scrivere espressioni: scrivere formule e usare funzioni;
- utilizzare la formattazione condizionale;

> CHE BELLO!! Le macro, il linguaggio VBA o gli Office Script non ci servono! ABBIAMO PYTHON!!

**MANIPOLAZIONE DATI**:
- importare dati da CSV;
- applicazione filtri automatici;
    - applicazione filtro;
    - applicazione ordinamento;
- rimozione dei duplicati;
- convalida dei dati;
- creazione grafici;

**VISUALIZZAZIONE, STAMPA e ESPORTAZIONE**:
- gestire lo zoom;
- gestione layout (normale, di pagina);
- gestione stampa;
    - area stampa;
    - margini, intestazione, piè pagina;
    - orientamento e adatta alla pagina;
- sicurezza (blocco delle celle);
- esportazione in PDF;
- esportare dati in CSV;


## Modulo `openpyxl`

- [Sito ufficiale](https://openpyxl.readthedocs.io/en/stable/) della documentazione.
- [Pagina su PyPi](https://pypi.org/project/openpyxl/) (Python Package Index).
- [Repo Git](https://foss.heptapod.net/openpyxl/openpyxl).

Poiché si tratta di una libreria esterna, bisogna per prima cosa installarla (meglio in un virtual enviroment):

```bash
# MAC/LINUX:
(my_venv) $ pip install openpyxl

# WINDOWS:
(my_venv) C:\my_proj> pip install openpyxl
```


Se sei su Windows, non hai creato un virtual environment (male!;) e devi usare il `py` launcher:

```powershell
C:\my_proj> py -m pip install docxtpl
```

### Nomenclatura `openpyxl`

Seguendo la nomenclatura di `openpyxl`, i fogli elettronici sono composti da:

- oggetto di tipo `Workbook`, la *cartella di lavoro*;
- oggetto di tipo `Worksheet`, il *foglio di lavoro*;
- oggetto di tipo `Cell`, la *cella*.

### Creare un file

Ora siamo pronti a lavorare con la libreria. Vediamo dunque il processo di creazione e salvataggio di un nuovo file Excel.

Prima di tutto, dobbiamo importare la classe `Workbook`, la quale ci permette di creare oggetti che fungono da [*interfaccia*](https://it.wikipedia.org/wiki/Interfaccia_(informatica)#Interfaccia_nella_programmazione_orientata_agli_oggetti) tra il nostro codice e i documenti XLSX. In altre parole, gli oggetti di tipo `Workbook` sono oggetti equipaggiati con attributi, proprietà e metodi utili per manipolare i fogli di calcolo.

Come seconda cosa, dobbiamo creare una nuova cartella di lavoro (*workbook*) e salvarla in una variabile. Per impostazione predefinita, `openpyxl` (esattamente come fa Excel) crea un workbook con un unico foglio di lavoro, vuoto. Possiamo quindi usare la proprietà `Workbook.active` per accedere al foglio attivo.

In questo modo creiamo l'ambiente di lavoro che utilizzeremo successivamente.

```python
from openpyxl import Workbook    # importa la classe Workbook

nuovo_book = Workbook()          # crea la cartella di lavoro
nuovo_sheet = nuovo_book.active  # seleziona il foglio di lavoro attivo
```

Dopo aver ottenuto la variabile che puntata al nostro nuovo foglio, possiamo iniziare a riempirlo di dati.

Cominciamo con lo scrivere una semplice lista di parole. 

### Accedere a una cella

Per scrivere un dato in una cella, come su Excel, dobbiamo prima selezionarla. Abbiamo due modi per farlo:

- Tramite le sue coordinate "classiche" sotto forma di stringa. È come se il foglio fosse un enorme dizionario le cui chiavi sono le coordinate di ciascuna cella. Ad esempio:
    - `nuovo_sheet['A1']`, in cui la lettera rappresenta la colonna e il numero la riga.

*oppure*

- Tramite il numero di riga e di colonna, passate come argomenti al metodo `Worksheet.cell()`. Ad esempio:
    - `nuovo_sheet.cell(row=1, column=1)`.

#### Modo statico
Il primo modo, anche se a prima vista sembra intuitivo, in realtà è abbastanza inutile. Funziona bene se abbiamo un file di Excel già in parte "preparato" (come una sorta di template) e vogliamo scrivere/leggere in punti precisi del foglio che sono stabiliti a priori. In questo modo è comoda la notazione lettera-numero, perché rispetta quella usata da Excel. Es. `'A1' -> A` (column) `1` (row). Tuttavia siamo costretti a scrivere le "coordinate" in modo hard-coded nel codice perché, anche se possibile, è poco pratico comporre le stringhe delle chiavi (lettera-numero) in modo dinamico e automatico.

Nel seguente esempio scriviamo il nome di 5 animali nella prima colonna del foglio attivo (che in è anche l'unico, dato che creaiamo il file "da zero"):

In [1]:
from openpyxl import Workbook

nuovo_book = Workbook()          # creo l'oggetto per interfacciarmi col workbook
nuovo_sheet = nuovo_book.active  # seleziono il worksheet attivo

# scrivo i dati uno alla volta
nuovo_sheet['A1'] = 'gatto'
nuovo_sheet['A2'] = 'cane'
nuovo_sheet['A3'] = 'pappagallo'
nuovo_sheet['A4'] = 'criceto'

# salvo il file (come fare un "flush")
nuovo_book.save('./files_esercizi/outputs/nuovo_file.xlsx')

#### Modo dinamico
Se vogliamo automatizzare la compilazione di una tabella, il primo metodo si rivela problematico. Se dobbiamo scrivere i dati nelle celle, passando da una all'altra in modo sequenziale, useremo di probabilmente un ciclo `for`. In questo caso ci farebbero comodo degli indici numerici, uno per le righe e uno per le colonne. Il metodo `Worksheet.cell()` accetta esattamente due integer come argomenti. Es. `row=1` e `column=1`.

Se avete eseguito la cella precedente, ora nell'ambiente di esecuzione abbiamo l'oggetto `nuovo_book` ancora disponibile. Potremmo quindi provare ad aggiungere altri dati, ma questa volta utilizzando il metodo appena descritto:

In [2]:
# NOTA: assicurati prima di aver eseguito la cella precedente!

nuovi_dati = ['micio', 'fido', 'loreto', 'chuck']

for idx, nome in enumerate(nuovi_dati): 
    nuovo_sheet.cell(row=idx+1, column=2).value = nome

nuovo_book.save('./files_esercizi/outputs/nuovo_file.xlsx')

> ATTENZIONE: Righe e colonne vengono numerate a partire da `1` e non da zero `0`, come siamo abituati con le liste o altre sequenze.

Se provate ad aprire il file `nuovo_file.xlsx` nella cartella `files_esercizi/outputs/` dovreste vedere le prime due colonne compilate.

### Cursore: tenere traccia della posizione attuale

Quando scrivi su un foglio di calcolo è utile immaginare di stare compilarlo a mano, con la tastiera. Spostiamo in orizzontale o in verticale il nostro _**cursore**_ e poi inseriamo i dati.

Se dunque scriviamo su un foglio e usiamo il metodo `Worksheet.cell()`, potrebbe essere utile creare uno strumento "cursore" che tenga traccia della nostra posizione attuale all'interno del foglio di lavoro. Lo possiamo usare per dire a Python da dove vogliamo che inizi a scrivere e lo possiamo modificare per "spostarci" in un'altro punto.

Infatti, anche se usiamo la funzione `enumerate()`, che ci consente di usare l'indice di un oggetto come una sorta di contatore/cursore, questo è relativo all'oggetto che stiamo scrivendo: potremmo essere alla posizione con indice `10` di quell'oggetto, ma non è detto che siamo anche alla decima riga o colonna del nostro foglio.

Ecco alcune idee per implementare un cursore:

```python
cursor = [1, 1]  # [row, column]
```
oppure

```python
cursor = {'row': 1, 'col': 1}
```

oppure

```python
row_cursor = 1
col_cursor = 1

In [5]:
from openpyxl import Workbook

nuovo_book = Workbook()          # creo l'oggetto per interfacciarmi col workbook
nuovo_sheet = nuovo_book.active  # seleziono il worksheet attivo

data1 = ['a', 'b', 'c']
data2 = ['d', 'e', 'f']

# iniziamo a scrivere dalla cella "E10"
row_cursor = 10
col_cursor = 5

for idx, value in enumerate(data1):
    nuovo_sheet.cell(row=row_cursor, column=col_cursor+idx).value = value

# finito di scrivere la riga, ne salto una e riparto a scrivere
row_cursor += 2

for idx, value in enumerate(data2):
    nuovo_sheet.cell(row=row_cursor, column=col_cursor+idx).value = value

nuovo_book.save('./files_esercizi/outputs/nuovo_file_cursore.xlsx')

Prima di passare all'esempio successivo, diamo un'occhiata agli oggetti che abbiamo appena creato e manipolato:

In [3]:
# Workbook
print(type(nuovo_book))

# Worksheet
print(type(nuovo_sheet))

# Cell
print(type(nuovo_sheet['A1']))
print(type(nuovo_sheet.cell(row=1, column=1)))

<class 'openpyxl.workbook.workbook.Workbook'>
<class 'openpyxl.worksheet.worksheet.Worksheet'>
<class 'openpyxl.cell.cell.Cell'>
<class 'openpyxl.cell.cell.Cell'>


### Scrittura di una lista di liste (matrice)

Immaginiamo di voler scrivere su un file di Excel la seguente tabella:

|      | `A`               | `B`               | `C`                    | `D`                 |
|------|-------------------|-------------------|------------------------|---------------------|
| `1`  | **COMUNE**        | **PROVINCIA**     | **ABITANTI LOCALITA'** | **QUOTA LOCALITA'** |
| `2`  | CAGLIARI          | CAGLIARI          | 203650                 | 6                   |
| `3`  | SASSARI           | SASSARI           | 98762                  | 225                 |
| `4`  | QUARTU SANT'ELENA | CAGLIARI          | 60618                  | 6                   |
| `5`  | NUORO             | NUORO             | 37218                  | 549                 |
| `6`  | OLBIA             | OLBIA-TEMPIO      | 34336                  | 15                  |
| `7`  | ALGHERO           | SASSARI           | 33677                  | 7                   |
| `8`  | IGLESIAS          | CARBONIA IGLESIAS | 25733                  | 200                 |
| `9`  | CARBONIA          | CARBONIA IGLESIAS | 25512                  | 111                 |
| `10` | ORISTANO          | ORISTANO          | 25398                  | 9                   |

Potremmo rappresentarla come un oggetto Python in molti modi. Il più semplice è una cosiddetta *matrice*, in particolare una matrice bi-dimensionale, a due dimensioni, in questo caso: righe e colonne. Il concetto di [*matrice*](https://it.wikipedia.org/wiki/Matrice) arriva dalla matematica.

In informatica le matrici vengono implementate in molti modi, di solito utilizzando gli [*array*](https://it.wikipedia.org/wiki/Array), ovvero elenchi di valori, come le liste Python.

Dato che le liste Python possono contenere altre liste, il metodo più usato e pratico è quello di annidare due liste.

In [4]:
matrice = [
    ['COMUNE',             'PROVINCIA',         'ABITANTI LOCALITA\'', 'QUOTA LOCALITA\''],
    ['CAGLIARI',           'CAGLIARI',          203650,                6                 ],
    ['SASSARI',            'SASSARI',           98762,                 225               ],
    ['QUARTU SANT\'ELENA', 'CAGLIARI',          60618,                 6                 ],
    ['NUORO',              'NUORO',             37218,                 549               ],
    ['OLBIA',              'OLBIA-TEMPIO',      34336,                 15                ],
    ['ALGHERO',            'SASSARI',           33677,                 7                 ],
    ['IGLESIAS',           'CARBONIA IGLESIAS', 25733,                 200               ],
    ['CARBONIA',           'CARBONIA IGLESIAS', 25512,                 111               ],
    ['ORISTANO',           'ORISTANO',          25398,                 9                 ]
]

Creiamo una lista che contiene le righe e poi ciascuna riga è a sua volta una lista che contiene i valori di ciascuna colonna.

Per accedere a un dato, prima dobbiamo indicare in quale riga si trova, e poi in quale colonna. Tramite la notazione a subscription `[ ]` è molto semplice!

Se vogliamo accedere all'elemento che contiene il numero di abitanti di `"QUARTU SANT'ELENA"`, dobbiamo selezionare la quarta riga e poi spostarci nella terza riga:

In [5]:
matrice[3][2]  # row 4, col 3

60618

Compilare un foglio di Excel è un gioco da ragazzi: cicliamo ogni riga e, ad ogni iterazione, cicliamo le colonne di ciascuna riga.

In [10]:
from openpyxl import Workbook

tabella = [
    ['COMUNE', 'PROVINCIA', 'ABITANTI LOCALITA\'', 'QUOTA LOCALITA\''],
    ['CAGLIARI', 'CAGLIARI', 203650, 6],
    ['SASSARI', 'SASSARI', 98762, 225],
    ['QUARTU SANT\'ELENA', 'CAGLIARI', 60618, 6],
    ['NUORO', 'NUORO', 37218, 549],
    ['OLBIA', 'OLBIA-TEMPIO', 34336, 15],
    ['ALGHERO', 'SASSARI', 33677, 7],
    ['IGLESIAS', 'CARBONIA IGLESIAS', 25733, 200],
    ['CARBONIA', 'CARBONIA IGLESIAS', 25512, 111],
    ['ORISTANO', 'ORISTANO', 25398, 9]
]

sardegna_book = Workbook()           # creo l'oggetto per interfacciarmi col workbook
nuovo_sheet = sardegna_book.active   # seleziono il worksheet attivo

for row_id, row in enumerate(tabella):   # per ciascuna riga
    for col_id, cell in enumerate(row):  # per ciascuna colonna
        
        # scrivo la cella
        nuovo_sheet.cell(row=row_id+1, column=col_id+1).value = cell

sardegna_book.save('./files_esercizi/outputs/comuni_sardi.xlsx')


### Rotazione di una matrice (trasposizione)

E se volessimo "girare" la tabella, ovvero mettere le proprietà nelle righe e i comuni nelle colonne?

In matematica e informatica sono stati scritti centinaia di libri sull'argomento "come manipolare le matrici". In realtà le tecniche di trasformazione delle matrici e il calcolo cosiddetto matriciale è una branca della matematica, e su di essa si fonda l'intera scienza informatica. In teoria qualunque problema è rappresentabile e risolvibile tramite le matrici e, dato il funzionamento dell'elettronica, a basso livello i processori e soprattutto le memorie utilizzano continuamente strutture matriciali per leggere, spostare e trasformare i dati.

Per ruotare di 90° in senso orario una matrice a bi-dimensionale (2D), mantenendo l'ordine degli elementi potete usare questo pattern:

```python
matrice_ruotata = list(zip(*matrice_originale[::1]))
```

> ATTENZIONE: in questo modo non stiamo facendo una "vera" rotazione di 90°, perché vogliamo mantenere l'ordine degli elementi.
> Se volessi fare una precisa rotazione di 90° in senso orario dovresti fare così:
> 
> ```python
> matrice_ruotata = list(zip(*matrice_originale[::-1]))
> ```

In [7]:
from pprint import pprint

tabella_ruotata = list(zip(*tabella[::-1]))

pprint(tabella_ruotata, compact=True, width=150)

[('ORISTANO', 'CARBONIA', 'IGLESIAS', 'ALGHERO', 'OLBIA', 'NUORO', "QUARTU SANT'ELENA", 'SASSARI', 'CAGLIARI', 'COMUNE'),
 ('ORISTANO', 'CARBONIA IGLESIAS', 'CARBONIA IGLESIAS', 'SASSARI', 'OLBIA-TEMPIO', 'NUORO', 'CAGLIARI', 'SASSARI', 'CAGLIARI', 'PROVINCIA'),
 ('25398', '25512', '25733', '33677', '34336', '37218', '60618', '98762', '203650', "ABITANTI LOCALITA'"),
 ('9', '111', '200', '7', '15', '549', '6', '225', '6', "QUOTA LOCALITA'")]


È strano ruotare tabelle di questo tipo. Abbiamo detto che di solito le righe rappresentano le entità/record e le colonne le proprietà di queste entità. Fare il contrario è un po strano e poco pratico, perché di solito abbiamo molti record e relativamente poche proprietà (di solito di meno rispetto ai record). Ruotando una tabella rischiamo creare una tabelle molto larga e con poche righe. Veramente poco prartico!

Tuttavia potrebbe essere utile in caso volessimo compilare la tabella una colonna alla volta anziché una riga alla volta. In questo caso, senza la rotazione dovremmo creare un algoritmo più complesso con contatore/cursore ad-hoc. Con la rotazione potremo usare il medesimo algoritmo visto precedentemente.

In [11]:
tabella_ruotata = list(zip(*tabella[::1]))  # ruoto la tabella

sardegna_book = Workbook()           # creo l'oggetto per interfacciarmi col workbook
nuovo_sheet = sardegna_book.active   # seleziono il worksheet attivo

for col_id, col in enumerate(tabella_ruotata):   # per ciascuna colonna
    for row_id, cell in enumerate(col):          # per ciascuna riga
        
        # scrivo la cella
        nuovo_sheet.cell(row=row_id+1, column=col_id+1).value = cell

sardegna_book.save('./files_esercizi/outputs/comuni_sardi_da_matrice_ruotata.xlsx')

### Scrittura di una lista di dizionari

In [12]:
data = [
    {
        "COMUNE": "CAGLIARI",
        "PROVINCIA": "CAGLIARI",
        "ABITANTI LOCALITA'": 203650,
        "QUOTA LOCALITA'": 6,
    },
    {
        "COMUNE": "SASSARI",
        "PROVINCIA": "SASSARI",
        "ABITANTI LOCALITA'": 98762,
        "QUOTA LOCALITA'": 225,
    },
    {
        "COMUNE": "QUARTU SANT'ELENA",
        "PROVINCIA": "CAGLIARI",
        "ABITANTI LOCALITA'": 60618,
        "QUOTA LOCALITA'": 6,
    },
    {
        "COMUNE": "NUORO",
        "PROVINCIA": "NUORO",
        "ABITANTI LOCALITA'": 37218,
        "QUOTA LOCALITA'": 549,
    },
    {
        "COMUNE": "OLBIA",
        "PROVINCIA": "OLBIA-TEMPIO",
        "ABITANTI LOCALITA'": 34336,
        "QUOTA LOCALITA'": 15,
    }
]

intestazioni = [ "COMUNE", "PROVINCIA", "ABITANTI LOCALITA'", "QUOTA LOCALITA'"]

sardegna_book = Workbook()           # creo l'oggetto per interfacciarmi col workbook
nuovo_sheet = sardegna_book.active   # seleziono il worksheet attivo

# inizializzo il contatore di riga
row_cursor = 1

# scrivo la riga di intestazione delle colonne
for col_id, head in enumerate(intestazioni):
    nuovo_sheet.cell(row=row_cursor, column=col_id+1).value = head
row_cursor += 1  # incremento il contatore di riga

# scrivo un dizionario alla volta
for row_dict in data:
    for col_id, head in enumerate(intestazioni):
        nuovo_sheet.cell(row=row_cursor, column=col_id+1).value = row_dict[head]
    row_cursor += 1  # alla fine passo alla riga successiva


sardegna_book.save('./files_esercizi/outputs/comuni_sardi_da_dict.xlsx')

### Leggere un file esistente

Vediamo ora come leggere che già esiste.

Tu e un guppo di amici fate parte del circolo di taglio e cucito, e vi ritrovate ogni mercoledì. Dato che servono un numero minimo di partecipanti per ogni incontro, hai deciso di tenere traccia delle vacanze estive e invernali di tutti i membri del circolo in modo da decidere quando sospendere le attività. Abbiamo registrato tutto in una tabella. Le vacanze estive sono descritte nel primo foglio e quelle invernali nel secondo. Il file Excel contiene le seguenti informazioni: nome, cognome, città, data di partenza, giorni di soggiorno.

Prima di tutto, dobbiamo utilizzare la funzione `openpyxl.load_workbook()` per aprire il nostro file. Dopodiché, dobbiamo specificare il foglio da trattare. `"Estate"` è il nome del foglio che ci interessa.

In [14]:
import openpyxl

workbook = openpyxl.load_workbook('./files_esercizi/Vacanze.xlsx')

foglio_estate = workbook['Estate']

In caso ci fossimo dimenticati il nome del foglio, ma per esempio ci ricordiamo che è il primo, la seguente istruzione ci permette di aprire il foglio `Vacanze estive`, che ha indice `0`:

In [10]:
import openpyxl

workbook = openpyxl.load_workbook('./files_esercizi/Vacanze.xlsx')

lista_nomi_fogli = workbook.sheetnames
foglio_estate = workbook[lista_nomi_fogli[0]]

# proviamo a stampare la lista dei nomi degli sheet
print(lista_nomi_fogli)


['Estate', 'Inverno']


`Workbook.sheetnames` restituisce tutti i nomi dei fogli di un file Excel in una lista. In seguito, sarà possibile accedervi facilmente utilizzando l'indice corrispondente.

Ora stampiamo il nome, il cognome e la città del primo amico. Possiamo accedervi con l'la proprietà `Cell.value`.

In [12]:
print(foglio_estate['A2'].value)
print(foglio_estate['B2'].value)
print(foglio_estate['C2'].value)

Luca
Rossi
Dubai


Se è necessario stampare alcune informazioni dal secondo foglio, è possibile accedervi allo stesso modo specificandone il nome. Questa volta però facciamo una cosa più utile: piuttosto che leggere dei valori qua e là, leggiamo tutta la tabella. La tecnica è la medesima di quando l'abbiamo compilata.

Per sapere il numero totale di righe e colonne abbiamo i metodi `Worksheet.max_row` e `Worksheet.max_column`.

In [37]:
foglio_inverno = workbook['Inverno']
# foglio_inverno = workbook[workbook.sheetnames[1]]

for row_id in range(foglio_inverno.max_row):
    row = []
    for col_id in range(foglio_inverno.max_column):
        cell = foglio_inverno.cell(row=row_id+1, column=col_id+1).value
        row.append(cell)
    
    print(*row, sep=',')


NOME,COGNOME,CITTA',DATA PARTENZA,GG DURATA
Luca,Rossi,Francoforte,2023-12-20 00:00:00,5
Gianna,Bianchi,Il Cairo,2023-12-24 00:00:00,7
Turi,Neri,Londra,2023-12-23 00:00:00,8
Ada,Verdi,Miami,2023-12-31 00:00:00,10
Micaela,Marrone,Amsterdam,2024-01-04 00:00:00,10
Roby,Porporati,New York,2023-12-28 00:00:00,5
Marco,Rosa,Tokyo,2023-12-23 00:00:00,6


### Scrivere su un file
Continuiamo a lavorare con il nostro file. Vogliamo tracciare le vacanze dei nostri amici anche per la prossima primavera.

Parliamo di Luca. Conosce la città che desidera visitare, ma non è sicuro della data. Possiamo creare un nuovo foglio e scrivere le informazioni su di lui:

In [30]:
workbook.create_sheet(title='Primavera')
foglio_primavera = workbook['Primavera']

# Copio la riga di intestazione dal foglio "Inverno"
foglio_primavera['A1'] = foglio_inverno['A1'].value
foglio_primavera['B1'] = foglio_inverno['B1'].value
foglio_primavera['C1'] = foglio_inverno['C1'].value
foglio_primavera['D1'] = foglio_inverno['D1'].value
foglio_primavera['E1'] = foglio_inverno['E1'].value

# Inserisco i nuovi dati
foglio_primavera['A2'] = 'Luca'
foglio_primavera['B2'] = 'Rossi'
foglio_primavera['C2'] = 'Praga'
foglio_primavera['D2'] = 'Da confermare'
foglio_primavera['E2'] = 7

# Salvo il file su disco
workbook.save("./files_esercizi/outputs/Vacanze_new.xlsx")

`Workbook.create_sheet()` viene utilizzato per aggiungere un nuovo foglio. È possibile specificare il nome tra le parentesi. Dopodiché, possiamo aprire il foglio e scriverci le informazioni. Non dimenticate di salvare il file!

### Filtrare le voci

Gli esempi precedenti sono abbastanza facili da gestire. Ma cosa succede se un file Excel contiene migliaia di voci e dobbiamo mostrarne solo alcune? In questo caso, possiamo utilizzare le dichiarazioni `if` e i cicli `for`.

Analizziamo un file che contiene informazioni sulle strutture ricettive della Bsilicata: comune, provincia, denominazione, tipologia, numero di stelle e così via.

Dato che è poco pratico contare manualmente le righe e le colonne, si può usare `sheet.max_row` e `sheet.max_column` per sapere quante righe e colonne ci sono nel file:

In [8]:
import openpyxl

workbook = openpyxl.load_workbook('./files_esercizi/basilicata-strutture-ricettive-2017.xlsx')

sheet = workbook['Foglio1']

rows = sheet.max_row
cols = sheet.max_column

print(rows)
print(cols)

1309
15


Se vogliamo stampare tutte le entry, possiamo farlo così:

In [7]:
for row_num in range(1, rows+1):
    row_cells = []
    for col_num in range(1, cols+1):
        value = sheet.cell(row=row_num, column=col_num).value
        row_cells.append(str(value))
    print(', '.join(row_cells))

Comune, Provincia, Regione, Denominazione, Tipologia, Class., Indirizzo, CAP, Sigla provincia, FAX, Sito internet, Apertura, Posti letto, Nota, Tipo di nota
ABRIOLA, POTENZA, Basilicata, Az. Agr. La Dolce Vita, Agriturismo, ittiturismo, pescaturismo, None, C.da Valloni, 85010, PZ, None, www.ladolcevitadiabriola.it, annuale, 10, 42832, Nuovo inserimento
ABRIOLA, POTENZA, Basilicata, Hotel Pierfaone, Albergo, 3 stelle ***, C.da Pierfaone, s.n., 85010, PZ, 0971 722973, None, annuale, 43, None, None
ABRIOLA, POTENZA, Basilicata, Hotel Sellata, Albergo, 3 stelle ***, Via Sellata, 1 - Loc. Sellata, 85010, PZ, None, www.hotelsellata.it, annuale, 26, None, None
ABRIOLA, POTENZA, Basilicata, Villaggio Eos di Dapoto Valentina, Agriturismo, ittiturismo, pescaturismo, None, C.da Murge - Loc. Sellata, 85010, PZ, None, None, annuale, 12, None, None
ACERENZA, POTENZA, Basilicata, Affittacamere Il Duomo, Affittacamere, None, Via Alessandro Volta, 6, 85011, PZ, None, www.ristorantealduomoacerenza.it, a

Se invece volessimo stampare solo le voci che sono nel comune di `'MELFI'`, potremmo fare così:

In [6]:
for row_num in range(1, rows+1):
    row_cells = []
    if sheet.cell(row=row_num, column=1).value == 'MELFI':
        for col_num in range(1, cols+1):
            value = sheet.cell(row=row_num, column=col_num).value
            row_cells.append(str(value))
        print(', '.join(row_cells))

MELFI, POTENZA, Basilicata, Albergo Il Tetto, Albergo, 1 stella *, Piazza IV Novembre, 1, 85025, PZ, 0972 252555, www.hosteliltetto.com, annuale, 66, None, None
MELFI, POTENZA, Basilicata, B&B Alla Corte Blu, Bed and breakfast - standard, None, Via Monteverde, s.n.c. - C.da Bicocca, 85025, PZ, 0971 440999, www.allacorteblu.it, annuale, 8, None, None
MELFI, POTENZA, Basilicata, B&B Capricci di Miria, Bed and breakfast - standard, None, Via Ischia, s.n.c. - C.da Ferrara, 85025, PZ, 0972 24531, www.capriccidimiria.it, stagionale, 3, None, None
MELFI, POTENZA, Basilicata, B&B Dolce Risveglio, Bed and breakfast - Comfort, None, Via Cristoforo Colombo, 11, 85025, PZ, 0972 23465, www.bebdolcerisveglio.it, annuale, 3, None, None
MELFI, POTENZA, Basilicata, B&B Donna Ida 1900, Bed and breakfast - standard, None, Vico Bellini, 19, 85025, PZ, None, None, stagionale, 4, None, None
MELFI, POTENZA, Basilicata, B&B Il Fiore della Vita, Bed and breakfast - standard, None, Via A. Di Napoli, 1/a, 85025,

Praticamente abbiamo iterato ogni riga e abbiamo preso in considerazione la prima colonna. Se il contenuto è `'MELFI'`, allora registriamo l'intera riga, altrimenti saltiamo la voce.

È possibile fare lo stesso con altri valori nei file.

### Ricapitolando

Sulla libreria `openpyxl`, abbiamo visto:

- come creare, leggere e scrivere un file Excel;
- come selezionare il foglio "attivo" con `Workbook.active` oppure un determinato foglio;
- come ottenere l'elenco dei nomi dei fogli con `Workbook.sheetnames`;
- come conoscere il numero di righe e colonne con `Worksheet.max_row` e `Worksheet.max_column`;
- come ottenere l'oggetto cella tramite la notazione a subscription `[ ]` applicata al `Worksheet` e scrivendo le calssiche coordinate, oppure con il metodo `Worksheet.cell()` e indicando numero di riga e colonna.
- come accedere al o scrivere il contenuto di una cella tramite la proprietà `Cell.value`.
- come creare un semplice filtro con i cicli `for` e il costrutto `if`.

Se siete interessati ad approfondire le caratteristiche di questa libreria, potete dare un'occhiata alla sua [documentazione ufficiale](https://openpyxl.readthedocs.io/en/stable/).

## Modulo `xlsxwriter`

Provate a cercare, leggere la documentazione e poi ad usarlo con gli esempi precedenti.