# Leggere e creare dei file Excel da Python
>>> ##### Guida da me rivisitata presente [qui](https://devnews.it/posts/596789626646aab171580ec0/come-leggere-creare-file-excel-con-python-openpyxl)


Esistono molti moduli Python per leggere file Excel, ma in questa guida ci focalizzeremo su come usare il pacchetto [openpyxl](https://openpyxl.readthedocs.io/en/default/)

## Come aprire e leggere file Excel con Python
Vediamo il codice Python necessario per aprire il file e leggere il suo contenuto. Immaginiamo di avere un file Excel chiamato `test.xlsx`:

In [2]:
import openpyxl
wb = openpyxl.load_workbook(filename='test.xlsx')

Con la prima linea importiamo il modulo openpyxl, e con la seconda andiamo ad utilizzare la funzione load_workbook() per aprire il file. Questa funzione ci restituisce un Oggetto di tipo Workbook.

Per il corretto funzionamento di questo codice, avrete bisogno di avere il file Excel nella stessa directory del file python, altrimenti dovrete specificare l’intero path del file.

Ora che abbiamo un file Workbook (file excel) vediamo come leggere il contenuto di una cella. 

In openpyxl è possibile accedere al valore di una cella, utilizzando le sue coordinate. Per esempio per accedere alla prima casella in alto a sinistra di un file, possiamo utilizzare la coordinata A1. Inoltre siccome i file Excel sono divisi in diverse tab chiamate sheet, dobbiamo specificare la sheet da cui andiamo a leggere la casella.

Vediamo il codice per leggere il valore di una casella Excel con Python:

In [3]:
sheet = wb["Sheet1"]
print(sheet['A1'].value)

Hello world!


Come potete vedere possiamo accedere ad una lista di elementi, prendendo prima la Sheet1. In seguito andiamo ad accedere al valore (value) della casella A1.

Oltre al valore della casella, possiamo accedere a il numero della riga e alle coordinate della casella:

In [4]:
casella = sheet['A1']
# numero riga
print("riga:", casella.row)

# coordinate casella
print("coordinate:", casella.coordinate)

riga: 1
coordinate: A1


Un modo più facile per accedere a casella Excel è utilizzare il metodo cell() e passare riga e colonna come parametri:

In [5]:
casella = sheet.cell(row=1, column=2)
print("riga:", casella.row)
print("coordinate:", casella.coordinate)
print("valore:", casella.value)

riga: 1
coordinate: B1
valore: Ciao mondo!


## Come creare e scrivere un file Excel con Python

Ora che abbiamo visto come leggere da un file Excel, vediamo come creare e salvare un file. Per lavorare con il file Excel non c’è alcun bisogno di creare il file sul FS, invece possiamo creare il file in memoria e poi salvarlo in seguito. 

Per creare un file Excel con openpyxl basta semplicemente chiamare la funzione Workbook(). Vediamo come:

In [2]:
import openpyxl
wb = openpyxl.Workbook()
sheet = wb.active
sheet.title = 'Foglio1'
wb.save('file_esempio.xlsx')

Come potete vedere questo script crea un nuovo file Excel, assegna un titolo alla Sheet attiva, e salva il file con un nome.

## Come inserire dei valori nelle caselle

Inserire valori nelle caselle è molto simile al processo di lettura. Infatti, una volta creato il file possiamo accedere alle caselle di questo file utilizzando ancora una volta le sue coordinate. Vediamo un esempio:

In [6]:
ws = wb['Foglio1']
ws['A1'] = 'Hello world!'
print("valore cella:", ws['A1'].value)
wb.save('file_esempio.xlsx')

valore cella: Hello world!


Ora se eseguite questo script, dovreste vedere il vostro nuovo file Excel nella stessa directory del file Python.

Ci siamo! Siamo riusciti a creare un file Excel con Python utilizzando il modulo openpyxl.

---

# Playing with data
## Accessing one cell
Now we know how to access a worksheet, we can start modifying cells content.

Cells can be accessed directly as keys of the worksheet

In [7]:
c = ws['A4']
print(c)

<Cell 'Foglio1'.A4>


This will return the cell at A4 or create one if it does not exist yet. Values can be directly assigned

In [8]:
print(c.value)
ws['A4'] = 4
print(c.value)

None
4


There is also the `openpyxl.worksheet.Worksheet.cell()` method.

This provides access to cells using row and column notation:

In [10]:
d = ws.cell(row=4, column=2, value=10)
print(d)
print(d.value)

<Cell 'Foglio1'.B4>
10


### Note

When a worksheet is created in memory, it contains no cells. They are created when first accessed.

### Warning

Because of this feature, scrolling through cells instead of accessing them directly will create them all in memory, even if you don’t assign them a value.

Something like

```Python 
>>>  for i in range(1,101):
...        for j in range(1,101):
...            ws.cell(row=i, column=j)
```

will create 100x100 cells in memory, for nothing.

## Accessing many cells
Ranges of cells can be accessed using slicing

In [11]:
cell_range = ws['A1':'C2']

Ranges of rows or columns can be obtained similarly:

In [12]:
colC = ws['C']
col_range = ws['C:D']
row10 = ws[10]
row_range = ws[5:10]

You can also use the `openpyxl.worksheet.Worksheet.iter_rows()` method:

In [13]:
# in questo caso nei parametri di iter_rows definisco il range da esaminare
for row in ws.iter_rows(min_row=1, max_col=3, max_row=2):
    for cell in row:
        print(cell)

<Cell 'Foglio1'.A1>
<Cell 'Foglio1'.B1>
<Cell 'Foglio1'.C1>
<Cell 'Foglio1'.A2>
<Cell 'Foglio1'.B2>
<Cell 'Foglio1'.C2>


Likewise the `openpyxl.worksheet.Worksheet.iter_cols()` method will return columns:

In [14]:
# parimenti nei parametri di iter_cols definisco il range da esaminare
for col in ws.iter_cols(min_row=1, max_col=3, max_row=2):
     for cell in col:
         print(cell)

<Cell 'Foglio1'.A1>
<Cell 'Foglio1'.A2>
<Cell 'Foglio1'.B1>
<Cell 'Foglio1'.B2>
<Cell 'Foglio1'.C1>
<Cell 'Foglio1'.C2>


If you need to iterate through all the rows or columns of a worksheet, you can instead use the `openpyxl.worksheet.Worksheet.rows()` property:

Siccome qui sotto valorizzo la cella C9, automaticamente vengono create 3 righe (A, B, C) e 9 colonne. Questo sarà pertanto l'intero range del foglio. <br>
NOTA: non si sa perché ma viene creata una riga (10) e una colonna (D) in più.
Eppure nel [tutorial](https://openpyxl.readthedocs.io/en/default/tutorial.html) si vede che arriva fino a C9... Boh!?

In [15]:
ws = wb.active
ws['C9'] = 'hello world'
tuple(ws.rows)

((<Cell 'Foglio1'.A1>,
  <Cell 'Foglio1'.B1>,
  <Cell 'Foglio1'.C1>,
  <Cell 'Foglio1'.D1>),
 (<Cell 'Foglio1'.A2>,
  <Cell 'Foglio1'.B2>,
  <Cell 'Foglio1'.C2>,
  <Cell 'Foglio1'.D2>),
 (<Cell 'Foglio1'.A3>,
  <Cell 'Foglio1'.B3>,
  <Cell 'Foglio1'.C3>,
  <Cell 'Foglio1'.D3>),
 (<Cell 'Foglio1'.A4>,
  <Cell 'Foglio1'.B4>,
  <Cell 'Foglio1'.C4>,
  <Cell 'Foglio1'.D4>),
 (<Cell 'Foglio1'.A5>,
  <Cell 'Foglio1'.B5>,
  <Cell 'Foglio1'.C5>,
  <Cell 'Foglio1'.D5>),
 (<Cell 'Foglio1'.A6>,
  <Cell 'Foglio1'.B6>,
  <Cell 'Foglio1'.C6>,
  <Cell 'Foglio1'.D6>),
 (<Cell 'Foglio1'.A7>,
  <Cell 'Foglio1'.B7>,
  <Cell 'Foglio1'.C7>,
  <Cell 'Foglio1'.D7>),
 (<Cell 'Foglio1'.A8>,
  <Cell 'Foglio1'.B8>,
  <Cell 'Foglio1'.C8>,
  <Cell 'Foglio1'.D8>),
 (<Cell 'Foglio1'.A9>,
  <Cell 'Foglio1'.B9>,
  <Cell 'Foglio1'.C9>,
  <Cell 'Foglio1'.D9>),
 (<Cell 'Foglio1'.A10>,
  <Cell 'Foglio1'.B10>,
  <Cell 'Foglio1'.C10>,
  <Cell 'Foglio1'.D10>))

or the `openpyxl.worksheet.Worksheet.columns()` property:

In [16]:
tuple(ws.columns)

((<Cell 'Foglio1'.A1>,
  <Cell 'Foglio1'.A2>,
  <Cell 'Foglio1'.A3>,
  <Cell 'Foglio1'.A4>,
  <Cell 'Foglio1'.A5>,
  <Cell 'Foglio1'.A6>,
  <Cell 'Foglio1'.A7>,
  <Cell 'Foglio1'.A8>,
  <Cell 'Foglio1'.A9>,
  <Cell 'Foglio1'.A10>),
 (<Cell 'Foglio1'.B1>,
  <Cell 'Foglio1'.B2>,
  <Cell 'Foglio1'.B3>,
  <Cell 'Foglio1'.B4>,
  <Cell 'Foglio1'.B5>,
  <Cell 'Foglio1'.B6>,
  <Cell 'Foglio1'.B7>,
  <Cell 'Foglio1'.B8>,
  <Cell 'Foglio1'.B9>,
  <Cell 'Foglio1'.B10>),
 (<Cell 'Foglio1'.C1>,
  <Cell 'Foglio1'.C2>,
  <Cell 'Foglio1'.C3>,
  <Cell 'Foglio1'.C4>,
  <Cell 'Foglio1'.C5>,
  <Cell 'Foglio1'.C6>,
  <Cell 'Foglio1'.C7>,
  <Cell 'Foglio1'.C8>,
  <Cell 'Foglio1'.C9>,
  <Cell 'Foglio1'.C10>),
 (<Cell 'Foglio1'.D1>,
  <Cell 'Foglio1'.D2>,
  <Cell 'Foglio1'.D3>,
  <Cell 'Foglio1'.D4>,
  <Cell 'Foglio1'.D5>,
  <Cell 'Foglio1'.D6>,
  <Cell 'Foglio1'.D7>,
  <Cell 'Foglio1'.D8>,
  <Cell 'Foglio1'.D9>,
  <Cell 'Foglio1'.D10>))

Riepilogando questi ultimi concetti, usando `rows` itero su tutto il foglio che include, ad esempio, anche la prima riga che in genere è "riservata" alle intestazioni delle colonne
```Python
for row in ws.rows:
    #print(row[0].value, row[1].value)
    for cell in row:
        print(cell)
```
Usando invece `iter_rows` itero solo su un range, un sottoinsieme del foglio, e pertanto riesco facilmente ad escludere la prima riga (`min_row=2`) se questa dovesse riportare le intestazioni delle colonne
```Python
for row in ws.iter_rows(min_row=2, max_col=2, max_row=322):
    #print(row[0].value, row[1].value)
    for cell in row:
        print(cell.value)
```