# Scrivere e creare file di Excel

Se stai seguendo questo corso, immagino che tu abbia già aperto un file di Excel. La maggior parte delle persone che fa lavori d'ufficio è probabile che ne apra parecchi ogni giorno. Questo perché è piuttosto facile da usare e può memorizzare molti dati in forma strutturata.

Excel, e in generale tutti i software definiti come ["fogli elettronici" o "fogli di calcolo](https://it.wikipedia.org/wiki/Foglio_elettronico)" (in inglese *spreadsheet*) consentono di memorizzare dati tabellari, ovvero sotto forma di classiche tabelle, le cui celle sono individuabili dall'incrocio di una riga con una colonna. 

Avendo a disposizione una tabella, convenzionalmente gli utenti tendono a strutturare i dati nello stesso modo che abbiamo visto nei file CSV, ovvero una "griglia" (matrice) di dati in cui le righe rappresentano i "record", ovvero delle entità, e le colonne rappresentano delle proprietà di queste entità. In pratica in una cella viene memorizzata una specifica proprietà di una specifica entità.

Purtroppo, a volte è difficile e logorante elaborare manualmente centinaia di dati, e soprattutto centinaia di file. Per questo, potremmo usare Python!

Python non offre supporto per i file Excel nativamente nella libreria standard. Tuttavia esistono alcune librerie di terze parti. Con esse, è possibile creare e modificare i file Excel e in questo notebook vedremo le basi di un paio di queste librerie. Esistono anche altri strumenti per manipolare le tabelle di Excel; potete leggere di più in questa [pagina dedicata](https://www.python-excel.org/).

## Formati dei file

Per i file `.xlsx` (Excel 2007-oggi):

- `openpyxl`: è il pacchetto più usato per leggere e scrivere file `.xlsx` utilizzando python. Ottimo per compilare i fogli di calcolo in modo "lineare", mantenendo il formato "tabellare". Se è necessario creare fogli con strutture più complesse e formattazioni, è preferibile preparare dei template che poi saranno compilati nelle parti interessate. Legge tutti i formati (`.xlsx/xlsm/xltx/xltm`).

- `xlsxwriter`: un pacchetto alternativo per la lettura e la scrittura di file e la formattazione di file `.xlsx.`. È lo strumento giusto se vuoi creare da zero un file di Excel strutturato, anche in modo complesso, usando formattazioni speciali, formule e grafici.


Per i file `.xls` (Excel 97-2003): 

- `xlrd`: lettura delle vecchie versioni di file Excel `.xls`.
- `xlwt`: scrittura e formattazione delle vecchie versioni di file Excel `.xls`.

## Nomenclatura Excel

Seguendo la nomenclatura Microsoft, i fogli elettronici sono composti da:

- Cartella di lavoro (*workbook*): è l'intero file, che può contenere più fogli.
- Foglio di lavoro (*worksheet*): è un singolo foglio, contenuto nella cartella di lavoro.
- Cella (*cell*): punto di incrocio tra una riga e una colonna all'interno di un Foglio di lavoro.

## Spreadsheet softwares

Prima di lavorare con Python su un foglio di calcolo dovresti conoscere <u>**molto bene**</u> Excel o qualunque altro software di questa categoria:

- Microsoft Excel;
- LibreOffice;
- OpenOffice;
- Google Fogli (Sheets)

Se non sei ancora a livello "molto bene", sappi che devi innanzitutto saper fare le sequenti cose con un foglio di calcolo:

COMPILAZIONE (immissione i dati):
- compilare un'intera tabella usando solo la tastiera;
- selezionare intervalli di celle, colonne, righe folgio completo;
- copiare, tagliare, incollare:
    - celle da altre porzioni di tabella e da altri file;
    - fogli all'interno del file stesso e tra file diversi;
- formattare le celle;
    - aspetto del testo, font, dimensione, colore testo e sfondo...;
    - formato dei dati (testo, numeri, date, valuta...);
- inserire, rimuovere, tagliare, incollare righe e colonne;

PROGRAMMAZIONE (logica dei calcoli):
- scrivere riferimenti ad altre celle/intervalli e a celle/intervalli in altri fogli; 
- scrivere espressioni: scrivere formule e usare funzioni;
- utilizzare la formattazione condizionale;

> CHE BELLO!! Le macro, il linguaggio VBA o gli Office Script non ci servono! ABBIAMO PYTHON!!

MANIPOLAZIONE DATI:
- importare dati da CSV;
- applicazione filtri automatici;
    - applicazione filtro;
    - applicazione ordinamento;
- rimozione dei duplicati;
- convalida dei dati;

VISUALIZZAZIONE, STAMPA e ESPORTAZIONE:
- gestire lo zoom;
- gestione layout (normale, di pagina);
- gestione stampa;
    - area stampa;
    - margini, intestazione, piè pagina;
    - orientamento e adatta alla pagina;
- esportazione in PDF;
- esportare dati in CSV;


## Modulo `openpyxl`

- [Sito ufficiale](https://openpyxl.readthedocs.io/en/stable/) della documentazione.
- [Pagina su PyPi](https://pypi.org/project/openpyxl/) (Python Package Index).
- [Repo Git](https://foss.heptapod.net/openpyxl/openpyxl).

Poiché si tratta di una libreria esterna, bisogna per prima cosa installarla (meglio in un virtual enviroment):

```bash
# MAC/LINUX:
(my_venv) $ pip install openpyxl

# WINDOWS:
(my_venv) C:\my_proj> pip install openpyxl
```


Se sei su Windows, non hai creato un virtual environment (male!;) e devi usare il `py` launcher:

```powershell
C:\my_proj> py -m pip install docxtpl
```

## Nomenclatura `openpyxl`

Seguendo la nomenclatura di `openpyxl`, i fogli elettronici sono composti da:

- oggetto di tipo `Workbook`, la *cartella di lavoro*;
- oggetto di tipo `Worksheet`, il *foglio di lavoro*;
- oggetto di tipo `Cell`, la *cella*.

### Creare un file

Ora siamo pronti a lavorare con la libreria. Vediamo dunque il processo di creazione e salvataggio di un nuovo file Excel.

Prima di tutto, dobbiamo importare la classe `Workbook`, la quale ci permette di creare oggetti che fungono da [*interfaccia*](https://it.wikipedia.org/wiki/Interfaccia_(informatica)#Interfaccia_nella_programmazione_orientata_agli_oggetti) tra il nostro codice e i documenti XLSX. In altre parole, gli oggetti di tipo `Workbook` sono oggetti equipaggiati con attributi, proprietà e metodi utili per manipolare i fogli di calcolo.

Come seconda cosa, dobbiamo creare una nuova cartella di lavoro (*workbook*) e salvarla in una variabile. Per impostazione predefinita, `openpyxl` (esattamente come fa Excel) crea un workbook con un unico foglio di lavoro, vuoto. Possiamo quindi usare la proprietà `Workbook.active` per accedere al foglio attivo.

In questo modo creiamo l'ambiente di lavoro che utilizzeremo successivamente.

```python
from openpyxl import Workbook    # importa la classe Workbook

nuovo_book = Workbook()          # crea la cartella di lavoro
nuovo_sheet = nuovo_book.active  # seleziona il foglio di lavoro attivo
```

Dopo aver ottenuto la variabile che puntata al nostro nuovo foglio, possiamo iniziare a riempirlo di dati.

Cominciamo con lo scrivere una semplice lista di parole. 

### Accedere a una cella

Per scrivere un dato in una cella, come su Excel, dobbiamo prima selezionarla. Abbiamo due modi per farlo:

- Tramite le sue coordinate "classiche" sotto forma di stringa. È come se il foglio fosse un enorme dizionario le cui chiavi sono le coordinate di ciascuna cella. Ad esempio:
    - `nuovo_sheet['A1']`, in cui la lettera rappresenta la colonna e il numero la riga.

*oppure*

- Tramite il numero di riga e di colonna, passate come argomenti al metodo `Worksheet.cell()`. Ad esempio:
    - `nuovo_sheet.cell(row=1, column=1)`.

#### Modo statico
Il primo modo, anche se a prima vista sembra intuitivo, in realtà è abbastanza inutile. Funziona bene se abbiamo un file di Excel già in parte "preparato" (come una sorta di template) e vogliamo scrivere/leggere in punti precisi del foglio che sono stabiliti a priori. In questo modo è comoda la notazione lettera-numero, perché rispetta quella usata da Excel. Es. `'A1' -> A` (column) `1` (row). Tuttavia siamo costretti a scrivere le "coordinate" in modo hard-coded nel codice perché, anche se possibile, è poco pratico comporre le stringhe delle chiavi (lettera-numero) in modo dinamico e automatico.

#### Modo dinamico
Dunque, se vogliamo automatizzare la compilazione di una tabella, il primo metodo si rivela problematico. Se dobbiamo scrivere i dati nelle celle, passando da una all'altra in modo sequenziale, useremo di probabilmente un ciclo `for`. In questo caso ci farebbero comodo degli indici numerici, uno per le righe e uno per le colonne. Il metodo `Worksheet.cell()` accetta esattamente due integer come argomenti. Es. `row=1` e `column=1`.

In [6]:
from openpyxl import Workbook

nuovo_book = Workbook()
nuovo_sheet = nuovo_book.active

nuovo_sheet['A1'] = 'gatto'
nuovo_sheet['A2'] = 'cane'
nuovo_sheet['A3'] = 'pappagallo'
nuovo_sheet['A4'] = 'criceto'

nuovo_book.save('./files_esercizi/outputs/nuovo_file.xlsx')

C'è però un modo migliore inserire un valore: possiamo specificare esplicitamente il numero di riga e di colonna.

In [3]:
nuovo_sheet.cell(row=5, column=1).value = 'furetto'
nuovo_book.save('./files_esercizi/outputs/nuovo_file.xlsx')

<class 'openpyxl.cell.cell.Cell'>


Diamo un'occhiata ai nostri oggetti:

In [8]:
# Workbook
print(type(nuovo_book))

# Worksheet
print(type(nuovo_sheet))

# Cell
print(type(nuovo_sheet['A1']))
print(type(nuovo_sheet.cell(row=1, column=1)))

<class 'openpyxl.workbook.workbook.Workbook'>
<class 'openpyxl.worksheet.worksheet.Worksheet'>
<class 'openpyxl.cell.cell.Cell'>
<class 'openpyxl.cell.cell.Cell'>


> ATTENZIONE: Righe e colonne vengono numerate a partire da `1` e non da zero `0`, come siamo abituati con le liste o altre sequenze.

### Leggere un file

Vediamo ora come leggere un file esistente. Avete pianificato le vacanze estive e invernali per tutti i vostri amici. Le vacanze estive sono descritte nel primo foglio e quelle invernali nel secondo. Il file Excel contiene le seguenti informazioni: nome, cognome, città, data di partenza, giorni di soggiorno.

Lettura del file delle vacanze

Prima di tutto, dobbiamo utilizzare la funzione `openpyxl.load_workbook()` per aprire il nostro file. Dopodiché, dobbiamo specificare il foglio da trattare. `"Estate"` è il nome del foglio che ci interessa.

In [25]:
import openpyxl

workbook = openpyxl.load_workbook('./files_esercizi/Vacanze.xlsx')

foglio_estate = workbook['Estate']

Se ci si è dimenticati il nome del foglio, ma ci si ricorda che è per esempio il primo, è possibile utilizzare il comando seguente per aprirlo. La seguente istruzione ci permette di aprire il foglio `Vacanze estive`, che è il primo:

In [26]:
lista_nomi_fogli = workbook.sheetnames

print(lista_nomi_fogli)

foglio_estate = workbook[lista_nomi_fogli[0]]

['Estate', 'Inverno']


`Workbook.sheetnames` restituisce tutti i nomi dei fogli di un file Excel in una lista. In seguito, sarà possibile accedervi facilmente utilizzando l'indice corrispondente.

Ora stampiamo il nome e il cognome del primo amico e la città. Possiamo accedervi con l'attributo `value`.

In [27]:
print(foglio_estate['A2'].value)
print(foglio_estate['B2'].value)
print(foglio_estate['C2'].value)

Luca
Rossi
Dubai


Se è necessario stampare alcune informazioni dal secondo foglio, è possibile accedervi allo stesso modo specificandone il nome:

In [28]:
foglio_inverno = workbook['Inverno']
# foglio_inverno = workbook[workbook.sheetnames[1]]

print(foglio_inverno['A3'].value)
print(foglio_inverno['B3'].value)
print(foglio_inverno['C3'].value)

Gianna
Bianchi
Il Cairo


### Scrivere su un file
Continuiamo a lavorare con il nostro file. Vogliamo organizzare le vacanze per i nostri amici per la prossima primavera. Parliamo di Tom. Conosce la città che desidera visitare, ma non è sicuro della data. Possiamo creare un nuovo foglio e scrivere le informazioni su di lui:

In [30]:
workbook.create_sheet(title='Primavera')
foglio_primavera = workbook['Primavera']

# Copio la riga di intestazione dal foglio "Inverno"
foglio_primavera['A1'] = foglio_inverno['A1'].value
foglio_primavera['B1'] = foglio_inverno['B1'].value
foglio_primavera['C1'] = foglio_inverno['C1'].value
foglio_primavera['D1'] = foglio_inverno['D1'].value
foglio_primavera['E1'] = foglio_inverno['E1'].value

# Inserisco i nuovi dati
foglio_primavera['A2'] = 'Luca'
foglio_primavera['B2'] = 'Rossi'
foglio_primavera['C2'] = 'Praga'
foglio_primavera['D2'] = 'Da confermare'
foglio_primavera['E2'] = 7

# Salvo il file su disco
workbook.save("./files_esercizi/outputs/Vacanze_new.xlsx")

`Workbook.create_sheet()` viene utilizzato per aggiungere un nuovo foglio. È possibile specificare il nome tra le parentesi. Dopodiché, possiamo aprire il foglio e scriverci le informazioni. Non dimenticate di salvare il file!

Evviva! Il record è stato aggiunto con successo.

### Filtrare le voci

Gli esempi precedenti sono abbastanza facili da gestire. Ma cosa succede se un file Excel contiene migliaia di voci e dobbiamo mostrarne solo alcune? In questo caso, possiamo utilizzare le dichiarazioni `if` e i cicli `for`.

Analizziamo un file che contiene informazioni sulle merci vendute: settore economico, Paese, numero di merci vendute, sconti e così via.


Se è troppo difficile contare manualmente le righe e le colonne, si può usare sheet.max_row e sheet.max_column per sapere quante righe e colonne ci sono nel file:

In [None]:
workbook = openpyxl.load_workbook('sample-xls-file-for-testing.xlsx')

sheet = workbook['Sheet1']

rows = sheet.max_row
cols = sheet.max_column
print(rows)  # 701
print(cols)  # 16

If we want to print all entries, we can do it like this:

In [None]:
for row in range(1, rows + 1):
    string = ''
    for column in range(1, cols + 1):
        value = sheet.cell(row=row, column=column).value
        string = string + str(value) + ', '
    string = string[:-2]  # we remove the last appended comma and space
    print(string)

# Segment, Country, Product, Discount Band, Units Sold ... 
# Government, Canada, Carretera, None, 1618.5 ... 
# Government, Germany, Carretera, None, 1321 ...
# ...

Possiamo definire il punto di partenza per il conteggio delle colonne e delle righe con range(). Possiamo creare un elenco di valori recuperati con l'aiuto di sheet.cell(). Esiste anche un modo per unire i valori separati da una virgola in una stringa.

Facciamo un passo avanti e stampiamo solo le voci che contengono Germania:

In [None]:
for row in range(1, rows + 1):
    string = ''
    for column in range(1, cols + 1):
        value = sheet.cell(row=row, column=column).value
        string = string + str(value) + ', '
    string = string[:-2]
    check = sheet.cell(row=row, column=2)
    check = str(check.value)
    if check == 'Germany':
        print(string)

# Government, Germany, Carretera, None, 1321 ... 
# Midmarket, Germany, Carretera, None, 888 ...
# Government, Germany, Carretera, None, 1513 ...
# ...

Creiamo la variabile `check` in cui sarà riportato il nome di una città. Sappiamo che si tratta della seconda colonna. Per prima cosa, iteriamo su ogni riga e prendiamo in considerazione la seconda colonna. In secondo luogo, prendiamo il valore da una certa cella e lo trasformiamo in stringa. Se la nostra variabile è `'Germania'`, allora stamperemo la voce.

È possibile fare lo stesso con altri valori nei file.

### Ricapitolando

Su lla libreria `openpyxl`, abbiamo visto:

- come creare un file Excel;
- come selezionare il foglio "attivo" con `Workbook.active`
- come leggere e scrivere su file Excel;
- come creare un semplice filtro per selezionare solo le informazioni che ci interessano.

Se siete interessati ad approfondire le caratteristiche di questa libreria, potete dare un'occhiata alla sua [documentazione ufficiale](https://openpyxl.readthedocs.io/en/stable/).

## `xlsxwriter`

Provate a cercare, leggere la documentazione e poi ad usarlo con gli esempi precedenti.