# Exporteer een dataset naar Excel
Deze notebook laat zien hoe een dataset of transactie uit ART-DECOR eenvoudig geëxporteerd kan worden naar Excel.

Eerst wat overhead: importeren van de nodige libraries, pandas in dit geval.

In [2]:
import pandas as pd

## Ophalen van de DECOR transactie.
DECOR datasets en transacties zijn te vinden op:
https://decor.nictiz.nl/decor/services/ProjectIndex

Kies een dataset of transactie, en kopieer de uri hieronder. De HTML versie kan gebruikt worden, pandas kan prima HTML tabellen lezen. De 'name' wordt later gebruikt voor het Excel bestand. Verwijder eventueel het deel '&hidecolumns=45ghijklmnop' uit de URI, dan worden alle kolommen uit de dataset getoond.

Heb even geduld na het runnen van de Notebook cell, ophalen kan even tijd kosten. Daarna wordt de tweede tabel uit de HTML gelezen (de eerste tabel (html[0] zijn titels van de pagina). De HTML wordt geïmporteerd naar een pandas DataFrame - te vergelijken met een Excel worksheet.

transaction.head() laat de eerste rijen van de opgehaalde dataset zien.

In [3]:
name = 'Demo'
uri ='https://decor.nictiz.nl/decor/services/RetrieveTransaction?id=2.16.840.1.113883.3.1937.99.62.3.4.2&effectiveDate=2012-09-05T16:59:35&language=nl-NL&ui=nl-NL&version=2019-10-10T11:18:31&format=html'
html = pd.read_html(uri)
transaction = html[1] # First table is overhead
transaction.head()

Unnamed: 0,Naam,ID[‑],Mandatory[‑],Conf[‑],Card[‑],Max[‑],Datatype CC[‑],Datatype[‑],Eigenschappen[‑],Voorbeeld[‑],...,Opmerking[‑],Mapping[‑],Conditie[‑],Status[‑],Community[‑],Terminologie[‑],Waardelijst[‑],Type[‑],Ouderconcept[‑],Erft van[‑]
0,Meetwaarden,demo1-dataelement-1,-,,0 … *,n,0 … *,,,,...,,hl7:organizer - 0 … *,,draft,zibmapper2017 zib2017type: Lichaamsgewicht (g...,,,Groep,,
1,Persoon,demo1-dataelement-21,+,M,1 … 1,1,1 … 1 M,,,,...,,,,draft,ada adaId: true,,,Groep,Meetwaarden,demo1-dataelement-6
2,Gewicht,demo1-dataelement-3,+,M,1 … 1,1,1 … 1 M Hoeveelheid,Hoeveelheid,Min/max: 25…240 Eenheid: kg,,...,,hl7:value - 1 … 1,,draft,zibmapper2017 zib2017type: Lichaamsgewicht.Ge...,Body weight (SNOMED Clinical Terms: 27113001),,Item,Meetwaarden,
3,Gewichtstoename,demo1-dataelement-13,-,,0 … 1,1,0 … 1 Boolean,Boolean,,,...,,ext:weightGain - 0 … *,,draft,,,,Item,Meetwaarden,
4,Gegevens gewichtstoename,demo1-dataelement-18,-,C,0 … 1,1,0 … 1 C,,,,...,,,1 … 1 M Bij gewichtstoename 0 … 0 NP Anders,draft,,,,Groep,Meetwaarden,


## Opschonen van kolomnamen en index zetten
De kolomnamen zoals ze opgehaald zijn, zijn niet wat we in Excel willen zien. Dus deze gaan we:
* neem de eerste regel van kolomkop als er meer regels zijn (kan gebeuren bij lange koppen)
* splits op spaties, en nemen dan het eerste deel
* gebruik dataset ID als de index van het Dataframe

In [4]:
transaction.columns = [col.splitlines()[0] for col in transaction.columns]
transaction.columns = [col.split("[")[0] for col in transaction.columns]
transaction.set_index('ID', drop=True, inplace=True)
transaction.head()

Unnamed: 0_level_0,Naam,Mandatory,Conf,Card,Max,Datatype CC,Datatype,Eigenschappen,Voorbeeld,Codes,...,Opmerking,Mapping,Conditie,Status,Community,Terminologie,Waardelijst,Type,Ouderconcept,Erft van
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
demo1-dataelement-1,Meetwaarden,-,,0 … *,n,0 … *,,,,,...,,hl7:organizer - 0 … *,,draft,zibmapper2017 zib2017type: Lichaamsgewicht (g...,,,Groep,,
demo1-dataelement-21,Persoon,+,M,1 … 1,1,1 … 1 M,,,,,...,,,,draft,ada adaId: true,,,Groep,Meetwaarden,demo1-dataelement-6
demo1-dataelement-3,Gewicht,+,M,1 … 1,1,1 … 1 M Hoeveelheid,Hoeveelheid,Min/max: 25…240 Eenheid: kg,,,...,,hl7:value - 1 … 1,,draft,zibmapper2017 zib2017type: Lichaamsgewicht.Ge...,Body weight (SNOMED Clinical Terms: 27113001),,Item,Meetwaarden,
demo1-dataelement-13,Gewichtstoename,-,,0 … 1,1,0 … 1 Boolean,Boolean,,,,...,,ext:weightGain - 0 … *,,draft,,,,Item,Meetwaarden,
demo1-dataelement-18,Gegevens gewichtstoename,-,C,0 … 1,1,0 … 1 C,,,,,...,,,1 … 1 M Bij gewichtstoename 0 … 0 NP Anders,draft,,,,Groep,Meetwaarden,


## Verwijderen kolommen
In de Excel willen we niet alle kolommen zien. De kolommen in de lijst worden verwijderd uit het DataFrame.

In [5]:
dropcols = ['Mandatory', 'Conf', 'Max', 'Datatype CC',
       'Eigenschappen', 'Voorbeeld', 'Codes', 
       'Context', 'Bron', 'Rationale', 'Operationalisaties', 'Opmerking',
       'Mapping', 'Conditie', 'Status', 'Community', 'Terminologie',
       'Waardelijst','Ouderconcept', 'Erft van']
transaction = transaction.drop(labels=dropcols, axis='columns')
transaction.head()

Unnamed: 0_level_0,Naam,Card,Datatype,Omschrijving,Type
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
demo1-dataelement-1,Meetwaarden,0 … *,,"Metingen die op locatie bij de patiënt, veelal...",Groep
demo1-dataelement-21,Persoon,1 … 1,,Persoon,Groep
demo1-dataelement-3,Gewicht,1 … 1,Hoeveelheid,Lichaamsgewicht,Item
demo1-dataelement-13,Gewichtstoename,0 … 1,Boolean,Is er sprake van gewichtstoename?,Item
demo1-dataelement-18,Gegevens gewichtstoename,0 … 1,,Gegevens gewichtstoename,Groep


## Notatie kardinaliteit aanpassen
Ik ben zelf niet zo'n fan van de omslachtige 1..* notatie, dus ik converteer naar de elegantere ?, 1, +, * notatie.

In [6]:
transaction['Card'] = transaction['Card'].map({'0 … 1': '?', '1 … 1': '1', '1 … *': '+', '0 … *': '*'})
transaction.head()

Unnamed: 0_level_0,Naam,Card,Datatype,Omschrijving,Type
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
demo1-dataelement-1,Meetwaarden,*,,"Metingen die op locatie bij de patiënt, veelal...",Groep
demo1-dataelement-21,Persoon,1,,Persoon,Groep
demo1-dataelement-3,Gewicht,1,Hoeveelheid,Lichaamsgewicht,Item
demo1-dataelement-13,Gewichtstoename,?,Boolean,Is er sprake van gewichtstoename?,Item
demo1-dataelement-18,Gegevens gewichtstoename,?,,Gegevens gewichtstoename,Groep


## Opslaan als Excel
Nu de dataset eruit ziet zoals we deze willen hebben, slaan we deze op als Excel.

In Google Colab kan 'Demo.xslx' gedownload worden links in de Explorer, tab 'Files'. Bij een lokaal notebook staat de Excel in de folder van het notebook.

De opmaak in Excel is minimaal. Voor een uitgebreidere set mogelijkheden zie:
https://xlsxwriter.readthedocs.io/working_with_pandas.html
(Noot: xslxwriter zit niet standaard in Colab.)

In [7]:
writer = pd.ExcelWriter(name + '.xlsx')
transaction.to_excel(writer, sheet_name=name)
writer.save()