# Spreadsheets


## Intro

In dit notebook gaan we met Excel 2010 spreadsheets werken.  
We gebruiken hiervoor [openpyxl].  
[openpyxl] is niet de enige tool die data kan verwerken.  
Hieronder een paar packages die dat ook kunnen.  


Python heeft eigen en third-party tools om met gestructureerde data te werken.  
Python zelf heeft de modules [csv] en [sqlite3]

Csv staat voor [Comma-separated values](https://nl.wikipedia.org/wiki/Kommagescheiden_bestand).  
Dit is een textbestand waarbij de waardes tussen komma's staan.  
Spreadsheet software kan hier gemakkelijk mee omgaan.  

Sqlite is een databasemanagementsysteem vooral gebruikt voor [embedded] systemen.  
Een Sqlite database is een alleenstaand bestand waar data met SQL queries bekeken/bewerkt kan worden.  
Het database bestand kan ook door [programmas](https://sqlitebrowser.org/) worden geopend.  
offtopic: Sqlite wordt heel goed [getest](https://sqlite.org/testing.html).  


Een kleine selectie Third-party opties voor Python zijn hieronder beschreven.  

[sqlalchemy] is een veelgebruikte SQL toolkit.  
Het heeft enorm veel [features](https://www.sqlalchemy.org/features.html) en een grote userbase.  

[pandas] is een Python package wat veel gebruikt wordt voor big-data.  
Het wordt vaak gebruikt voor AI.  
Maar het kan ook csv en excel inlezen en opslaan.  
[pandas] gebruikt [numpy] wat ook zeer bekend is.  

[openpyxl] openpyxl is een Python library om Excel 2010 files te lezen en te schrijven.  
Het is ook te gebruiken als er geen Office op de computer is geïnstalleerd.  
[openpyxl] heeft enorm goede [documentatie](https://openpyxl.readthedocs.io/en/stable/)


[embedded]: https://nl.wikipedia.org/wiki/Embedded_system
[sqlite3]: https://docs.python.org/3/library/sqlite3.html
[csv]: https://docs.python.org/3/library/csv.html

[sqlalchemy]: https://pypi.org/project/SQLAlchemy/
[openpyxl]: https://pypi.org/project/openpyxl/
[pandas]: https://pandas.pydata.org/docs/index.html
[numpy]: https://numpy.org/

## Openpyxl
Documentatie: https://openpyxl.readthedocs.io/en/stable/

In [1]:
# installeer of upgrade openpyxl
!python -m pip install --upgrade pip openpyxl

Collecting pip
  Downloading pip-21.2.4-py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 2.3 MB/s eta 0:00:01
Installing collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 21.1.3
    Uninstalling pip-21.1.3:
      Successfully uninstalled pip-21.1.3
Successfully installed pip-21.2.4


### De opbouw van een spreadsheet
Een spreadsheet (xlsx) file is een [zipfile] met xml files.  
De xml files vormen het Workbook.  
Het Workbook kan meerdere Worksheets bevatten.  
En een Worksheet is een matrix van Cellen.  
De Cellen hebben elk een apart coördinaat wat een combinatie van de Column en Row is.  
De kolommen zijn aangeduid met letters en de regels met cijfers.  
Een Cell kan data als waarde hebben.  

In het voorbeeld hieronder is de structuur te zien.  
Het Workbook in de file _Spreadsheet_file.xlsx_ heeft een Worksheet met de naam `'Worksheet 1'`.  
De Cell met het coördinaat `'B2'` heeft de waarde `'Cell\nB2'`

[zipfile]: https://docs.python.org/3/library/zipfile.html "zipfile — Work with ZIP archives"

In [2]:
from IPython import display
display.HTML(filename=r'./docs/simple_openpyxl_structure.html')
# hieronder een simpel overzicht van een spreadsheet in openpyxl

---

### Het invullen van een spreadsheet met openpyxl

In de code hieronder wordt de basis functionaliteit van openpyxl uitgelegd.

Importeer de benodigde modules

In [3]:
from pathlib import Path

from openpyxl import Workbook, load_workbook
from openpyxl.utils import get_column_letter, rows_from_range, cols_from_range

Maak een nieuw Workbook aan.  

In [4]:
workbook = Workbook()  # nieuwe workbook (spreadsheet file in memory)
workbook

<openpyxl.workbook.workbook.Workbook at 0x7f1244288880>

Maak een nieuw Worksheet aan.

In [5]:
workbook.create_sheet('nieuwe sheet')  # nieuwe sheet in het workbook
workbook.sheetnames  # huidige sheet namen

['Sheet', 'nieuwe sheet']

Dit worksheet is nu te gebruiken.  

In [6]:
# select het work_sheet, hiermee gaan we werken
worksheet = workbook['nieuwe sheet']
worksheet

<Worksheet "nieuwe sheet">

Het is mogenlijk om deze sheet als `active` sheet te zetten.  
Een `active` sheet is de sheet die open staat zodra je het spreadsheet opent in bijvoorbeeld: Excel.  

In [7]:
# zet de worksheet als de `active` in het workbook
workbook.active = worksheet
workbook.active

<Worksheet "nieuwe sheet">

Hernoem de sheet door het een andere titel te geven.  

In [8]:
worksheet.title = '100x100'   
worksheet.title

'100x100'

In [9]:
# huidige sheet namen
workbook.sheetnames

['Sheet', '100x100']

Verwijder de sheet die we niet nodig hebben.  

In [10]:
workbook.remove(workbook['Sheet'])
workbook.sheetnames

['100x100']

Het invullen van data is op cel niveau.  
De coordinaten van een cel is een combinatie van kolommen en regels

In [11]:
cell_b2 = worksheet['B2']  # selecteer de Cell
print(cell_b2)
print(f'value in cell B2: {cell_b2.value}')

<Cell '100x100'.B2>
value in cell B2: None


In [12]:
# voeg een waarde toe aan de Cell met het `value` attribute
cell_b2.value = 'CELL\nB2'
print(f'value in cell B2: {cell_b2.value!r}')

value in cell B2: 'CELL\nB2'


Het is mogenlijk om over kolommen en regels te itereren met een for-loop.  
Spreadsheets starten bij 1 (niet bij 0 zoals bij `list`).  

In [13]:
# loop over de index van de kolommen
for col_idx in range(1, 100 + 1):
    # vraag het kolom letter op
    col_letter = get_column_letter(col_idx)
    
    # loop onder het kolom over de index van de rijen
    for row_idx in range(1, 100 + 1):
        
        # voeg het kolom letter en de rij cijfer bij een
        coord = f'{col_letter}{row_idx}'
        # selecteer de cel in het worksheet en vul deze in
        # worksheet[coord].value = coord    
        worksheet.cell(column=col_idx, row=row_idx, value=coord)

Creëer een nieuw _path_ om het excel bestand daar op te slaan.

In [14]:
# create path to the new excel file
current_path = Path.cwd()
new_excel = current_path.joinpath('new_excel.xlsx')

str(new_excel)

'/home/username/Documents/Scripts/Jupyter/Advanced_Python/new_excel.xlsx'

In [15]:
workbook.save(new_excel)  # save to path
workbook.close()  # sluit het workbook

---

### Het gebruik van [formules] in spreadsheets

In de code hieronder wordt openpyxl gebruikt om een sheet te vullen.  
En de formules die we toevoegen worden dan gebruikt door het spreadsheet programma als de spreadsheet geopend wordt.  

[formules]: https://support.microsoft.com/en-us/office/overview-of-formulas-in-excel-ecfdc708-9162-49e8-b993-c311f47ca173 "Overview of formulas in Excel"

Open het workbook wat hiervoor gemaakt is 

In [16]:
workbook = load_workbook(new_excel)
workbook.sheetnames

['100x100']

Maak een nieuwe sheet aan.  

In [17]:
worksheet = workbook.create_sheet('formulas')
workbook.sheetnames

['100x100', 'formulas']

Vul het workbook met data.  

In [18]:
data = [
    ('naam',  'oktober', 'november', 'december'),  # headers
    ('ria',           0,       4000,       7000),  # row with data
    ('anna',       7250,       8500,      11000),
    ('bas',        9250,       8000,      10000),
    ('peter',      8500,      10000,      12500),
]

# loop over de data en `append` de regels
for row in data:
    worksheet.append(row)

In de worksheet `'formulas'` staat `'name'` op coordinaat `A1`.  

Het is mogenlijk om de dimensie van de matrix op te vragen.  

In [19]:
# get the worksheet size
worksheet_dimension = worksheet.calculate_dimension()
worksheet_dimension

'A1:D5'

Het idee is om de optelsom van de kolommen boven de headers te plaatsen.  
Hiervoor moet er regels ingevoegd worden.  

In [20]:
# voeg regels toe op 
worksheet.insert_rows(idx=0, amount=1)

# of
# verplaats de ingevulde cellen
# worksheet.move_range(worksheet_dimension, rows=1, cols=0)

Er is ruimte gemaakt voor de optelsom boven de header.

In [21]:
# een aanduiding wat de cellen weergeven
worksheet['A1'].value = 'Totaal kolom'
worksheet['A1'].value

'Totaal kolom'

In [22]:
# de regel onder de header
start_row = 3

# string met formatting opties
cell_formula = '=SUM( OFFSET({col_letter}{start_row}, 0, 0, ROWS({col_letter}:{col_letter})-{start_row}) )'

# loop over de regels in de opgegeven range
for row in rows_from_range('B1:D1'):
    
    # loop over de coordinaten in de regel
    for coord in row:
        # vul de cel met de formule
        cell = worksheet[coord]
        val = cell_formula.format(col_letter=cell.column_letter, start_row=start_row)
        cell.value = val

# check de waarde van cel: C1
worksheet['C1'].value

'=SUM( OFFSET(C3, 0, 0, ROWS(C:C)-3) )'

Maak ook een optelsom per regel

In [23]:
# een aanduiding wat de cellen weergeven
worksheet['F2'].value = 'Total regel'
worksheet['F2'].value

'Total regel'

In [24]:
# string met formatting opties
cell_formula = '=SUM(B{row}: D{row})'

# y-dimensie van de ingevulde sheet
height_sheet = worksheet.max_row

# loop over de kolommen in de opgegeven range
range_ = f'F{start_row}:F{height_sheet}'
for column in cols_from_range(range_):
    
    # loop over de coordinaten van het kolom
    for coord in column:
        # vul de cel met de formule
        cell = worksheet[coord]
        val = cell_formula.format(row=cell.row)
        cell.value = val
        
worksheet['F3'].value

'=SUM(B3: D3)'

In [25]:
workbook.save(new_excel)