# Gestructureerd programmeren in python #
Welkom bij deze tutorial reeks over python voor studenten Chemie. 

In deze reeks tutorials maak je kennis met **python** als tool voor **data-analyse en-visualisatie**. Je leert de *basisconcepten kennen* van deze programmeertaal en doet eerste *praktische ervaring* op. Bij het opstellen van deze tutorials zijn we er van uit gegaan dat je geen praktische voorkennis in python of programmeren in het algemeen hebt. Indien dit toch het geval zou zijn, zullen de eerste notebooks uitermate eenvoudig zijn. Gezien het beperkte tijdsbestek zijn er ook keuzes gemaakt met betrekking tot de onderwerpen welke aan bod komen en hun uitdieping. Wens je meer over een bepaald onderwerp te leren dan zijn er voldoende online bronnen beschikbaar om via zelfstudie de nodige uitdieping te bekomen. 

Met het oog op het zo laagdrempelig mogelijk houden van deze tutorials, maken we gebruik van __*Jupyter notebooks*__ zoals deze. Het is de bedoeling dat je deze notebooks uitvoert en aanpast waar gevraagd. Dit laatste doe je op je eigen *google drive* waar je de tutorials gebruikt in de vorm van *google colaboratory* documenten. Indien je dit nog niet gedaan hebt, lees dan eerst [00_PythonInstallatie.md](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/00_PythonInstallatie.md), waarbij je **puntje 1.1.** uitvoert.

Dit is de tweede tutorial in een reeks, en bouwt verder op de reeds opgedane kennis tijdens de [eerste turorial](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/01_IntroPython.ipynb). We raden dan ook aan deze eerdere tutorial te doorlopen voor je aan deze begint.

In dit tweede notebook beginnen we met het construeren van grotere stukken code met het oog op het creëren van een gestructureerd geheel. We bekijken ook het gebruik van bibliotheken en leren omgaan met de helpfunctie.

## Inhoudstafel ##
1. [Functies als programmaonderdeel](#1.-Functies-als-programmaonderdeel)<br/>
   1.1. [Individuele functies](#1.1.-Individuele-functies)<br/>
   1.2. [Functieresultaten](#1.2.-Functieresultaten)<br/>
   1.3. [Methods: functies in een klasse (basis)](#1.3.-Methods:-functies-in-een-klasse)<br/>
   1.4. [Workflow in een notebook](#1.4.-Workflow-in-een-Notebook)<br/>
2. [Basis bibliotheken](#2.-Basis-bibliotheken)<br/>
   2.1. [Numpy](#2.1.-Numpy)<br/>
   2.2. [helpfunctie](#2.2.-Helpfunctie)<br/>
   2.3. [Random en Math](#2.3.-Random-&-Math)<br/>
   2.4. [Plotten met Matplotlib](#2.4.-Plotten-met-Matplotlib)<br/>

<a name="1.-Functies-als-programmaonderdeel"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
# 1. Functies als programmaonderdeel #

In de [voorgaande tutorial](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/01_IntroPython.ipynb) maakten je kennis met de basisaspecten van het programmeren in python. Je weet intussen wat een variabele is en hoe je operaties tussen variabelen uitvoert. Je leerde ook dat er controlestructuren bestaan zoals *for*-lussen en *if-else*-constructies. Je zou nu telkens opnieuw dezelfde code kunnen intypen, elke keer je een vergelijkbare opdracht of bewerking wenst uit te voeren. Dit is echter dubbel werk. 

<a name="1.1.-Individuele-functies"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 1.1. Individuele functies ##
In programmeertalen zoals python is het daarom mogelijk om **herbruikbare stukken code** te groeperen in wat een ***functie*** wordt genoemd. In het voorgaande maakt je reeds kennis met enkele ingebouwde functies van python zelf: ``print``, ``type`` en ``range``. Het is echter ook mogelijk om zelf een functie te creëren. De verschillende aspecten van een functie zullen we bekijken aan de hand van een eenvoudige functie welke twee getallen bij elkaar dient op te tellen.

In [None]:
def telop(arg1,arg2):
    # Net zoals bij een controlestructuur dienen we hier een inspringing te gebruiken om aan te geven dat 
    # het codeblok samen hoort.
    resultaat = arg1 + arg2
    return resultaat

Merk eerst en vooral op dat bij het uitvoeren van de bovenstaande cel *niets gebeurt*. Inderdaad, er wordt geen berekening uitgevoerd, dus dient er geen resultaat weergegeven te worden. De functie wordt pas uitgevoerd op het moment dat deze wordt aangeroepen.

Het keyword ``def`` geeft aan dat dit een functiedefinitie is. De naam van de functie is *telop*, en deze functie heeft twee argumenten (**``arg1``** en **``arg2``**) nodig. Binnen het codeblok van de functie zijn dit variabelen waarmee gewerkt kan worden. De tekst voorafgegaan door het **``#``**-symbool is **commentaar**, en wordt als dusdanig niet gelezen door de computer. Binnen in het codeblok, dat we laten inspringen, definiëren we een nieuwe variabele **``resultaat``**, welke we gelijk stellen aan de som van de twee argumenten. **De drie variabelen bestaan enkel *lokaal* binnen het codeblok.** Indien je een print opdracht buiten het codeblok deze variabelen wil laten uitschrijven gaat het mis.(*Probeer dit in de bovenstaande cel. Vergeet niet dat de printopdracht niet mag inspringen, anders wordt deze een deel van het codeblok van de functie.*)

Hoewel het codeblok in dit geval maar twee regels beslaat, staat er geen grens op de lengte van een functie, noch op de inhoud. Alles wat toegelaten code is binnen een normaal programma kan ook in het codeblok van een functie voorkomen.

Het resultaat van de som wordt teruggegeven met behulp van het **``return``** keyword. Indien een functie een opdracht of bewerking uitvoert waarbij het niet nodig is dat er een resultaat wordt teruggegeven, dan zal er geen return-regel aanwezig zijn. Bij dit laatste kun je bijvoorbeeld denken aan een functie die resultaten omzet in een specifiek opgemaakte afbeelding. Hoewel er geen return statement nodig is in het voorgaande voorbeeld, is het wel aangeraden deze te gebruiken om bijvoorbeeld foutboodschappen terug te geven.

*De bovenstaande functie kan nu zo vaak aangeroepen worden als we maar willen. Dit kan op verschillende manieren.*
1.  **Zonder toekenning van het resultaat.**

In [None]:
# Indien dit de laatste opdracht van een cel is zal het resultaat naar de output worden geschreven. 
#   (Of als je alle output laat uitschrijven, zoals gezien in de eerste tutorial, kan dat ook indien meerdere zaken 
#    naar de output worden gezonden.)
telop(10,5)    

2. **Met toekenning van het resultaat.**

In [None]:
som=telop(10,5)
print("De som is ",som)

3. **Met variabelen als argumenten**

In [None]:
var1=5
var2=3
print("Beide variabelen ->",telop(var1,var2))
print("Combinate met 1 variabele ->",telop(var1,7)," of ",telop(3.14,var1))
som=telop(var1,var2)
print("Beide variabelen & toekenning ->",som)

4. **Met onverwachte argumenten**

In [None]:
var1=[1,2,3]
var2=[66,5,9]
print("Beide variabelen lijsten->",telop(var1,var2))

var1="Hello "
var2="World!"
print("Beide variabelen strings->",telop(var1,var2))

Tegen de verwachting in crasht de functie niet, hoewel de gegeven input helemaal niet voldoet aan het originele doel dat we voor ogen hadden; namelijk het optellen van getallen. In tegenstelling tot vele andere programmeertalen dient **in python de functiedefinitie niet expliciet aan te geven wat het datatype van de argumenten is**. Python maakt gebruik van zogenaamd **duck typing**, hierbij is het type object niet van belang. Het enige wat van belang is, is of het bepaalde (verwachtte) eigenschappen en/of functies heeft. In het bovenstaande geval betekent dit dat alle soorten objecten waarvoor de ``+``-operator een zinvolle betekenis heeft (en geïmplementeerd is), een resultaat zal opleveren. We kunnen met onze eenvoudige functie dus ook strings en lijsten samenvoegen. 

Dit is een zeer krachtig aspect van python, maar kan het leven van de programmeur ook flink lastig maken, gezien de taak nu op hem/haar valt om ervoor te zorgen dat de functie veilig kan omgaan met wat de gebruiker als input aanlevert, ook als is dat totaal onredelijk. Bij het vervolg van deze tutorials zullen we er echter steeds van uitgaan dat we niet te maken hebben met onredelijke gebruikers. We laten het beveiligen van functies tegen onzinnige input als gevorderd onderwerp voor verdere zelfstudie. Binnen dezelfde context kun je je ook de vraag stellen of het niet interessant zou zijn indien we zouden kunnen aangeven welke input “gewenst” is. Al was het maar om onszelf te helpen bij een groter langlopend project. Je zou hiervoor commentaar kunnen gebruiken, maar er is ook de professionelere optie om ***[type hints](https://docs.python.org/3/library/typing.html)*** te gebruiken. Zonder hier erg diep in te gaan op alle opties, focussen we op enkele zeer eenvoudige toepassingen die de leesbaarheid van een functie enorm kunnen vergroten. Toegepast op de **``telop``** functie, waarbij we uitgaan van kommagetallen (**``floats``**) krijgen we:

In [None]:
def telop(arg1: float ,arg2: float) -> float :
    # Net zoals bij een controlestructuur dienen we hier een inspringing 
    # te gebruiken om aan te geven dat 
    # het codeblok samen hoort.
    resultaat = arg1 + arg2
    return resultaat

Dit zal ons niet beletten om de functie aan te roepen met andere getaltypes, of zelfs andere datatypes, maar maakt het voor de gebruiker duidelijk wat verwacht wordt. Voor elk argument wort na een dubbel punt het verwachte type gegeven. Het verwachte resultaat van de functie schrijven we na de **``->``** en voor het **``:``**. Deze kleine aanpassing (en gewoonte) maakt alles een stuk overzichtelijker, zeker wanneer eigen complexe types en klassen gebruikt worden.

<a name="1.2.-Functieresultaten"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 1.2. Functieresultaten ##
Het resultaat van de functie *telop* wordt teruggegeven met behulp van het ``return``-keyword (zie hieronder).

```python
def telop(arg1: float,arg2: float)->float:
    resultaat = arg1 + arg2
    return resultaat
```
Als gevolg van het **duck typing** van python zal het datatype van *resultaat* hetzelfde zijn als van de argumenten *arg1* en *arg2*. Het resultaat dat door de functie wordt teruggegeven kan direct gebruikt worden (*e.g.* in een ``print`` functie) of toegekend aan een andere variabele (*e.g.* ``som = telop(1,2)``).

In python is het ook mogelijk meerdere resultaten terug te geven vanuit een functie. Een voorbeeld wordt hieronder gegeven.
```python
def bewerk(arg1: float,arg2: float)->tuple:
    res_som = arg1 + arg2
    res_verschil = arg1 - arg2
    return res_som, res_verschil 
```
Deze resultaten kunnen opnieuw aan een nieuwe variabele toegekend worden. Het datatype is dan echter niet meer dat van de invoerargumenten. 

In [None]:
def bewerk(arg1: float,arg2: float)->tuple:
    res_som = arg1 + arg2
    res_verschil = arg1 - arg2
    return res_som, res_verschil 

res = bewerk(5,3)
print("Het datatype van res is ",type(res))

---
Het **tuple** datatype is één van de vier ingebouwde datatypes in python welke een ***collectie*** van data kan bevatten. Deze verschillen in het feit of ze geordend en veranderlijk zijn, en of ze dubbele waarden toelaten.

- **geordend**: de elementen van de collectie komen in een vaste volgorde voor. Je kan element met een index opzoeken.
- **veranderlijk**: de elementen van de collectie en de collectie kunnen aangepast worden zonder dat hiervoor een nieuw object wordt gecreëerd.
- **duplicaten**: meerdere elementen kunnen dezelfde waarde hebben.


| type | geordend | veranderlijk | duplicaten | weergave | voorbeeld |
|------|:--------:|:------------:|:----------:|:--------:|:----------|
| list |  Y | Y | Y | ``[ ]``  | ``lijst=[12.5, 77, 3.14]``   |
| tuple |  Y  | N  | Y | ``( )`` | ``tup=(12.5, 77, 3.14)``  |
| set |  N  | N<sup>+</sup>  | N | ``{ }`` | ``set={'banaan', 'appel', 'peer'}``   |
| dict | Y<sup>*</sup>  |  Y | N | ``{ }`` | ``wboek={ "merk":"asus", "type":"RoG", "prijs": 1699.99}``  |

( <sup>+</sup> De elementen in een set kun je niet veranderen, maar je kan wel elementen toevoegen en verwijderen.<br/>
  &nbsp;<sup>*</sup> Woordenboeken waren ongeordend, maar sinds python 3.7 zijn deze ook geordend)

---
De variabele **``res``** is dus een **``tuple``** welke de twee resultaten van de functie **``bewerk``** bevat. Deze kunnen individueel of als tuple uitgeschreven worden. Om de individuele elementen te gebruiken, kan gebruik worden gemaakt van de index van het gewenste element, ***waarbij het belangrijk is te onthouden dat python bij 0 begint te tellen***.

In [None]:
print("De resultaten als tuple zien er als volgt uit:", res,".")
print("Het resultaat van de eerste bewerking (som) is ",res[0],".")
print("Het resultaat van de tweede bewerking (verschil) is ",res[1],".")

In het geval dat het resultaat van een functie een tuple is kan de toekenning ook gebeuren aan een reeks variabelen. Let wel op dat het aantal variabelen exact hetzelfde dient te zijn als het aantal elementen in het tuple.

In [None]:
som, verschil = bewerk(88,12.99)
print("De som is ",som,".")
print("Het verschil is ",verschil,".")

1. **Intermezzo: collectie-elementen aanroepen.**

In het geval van geordende collecties (en woordenboeken) is het soms ook interessant de individuele elementen aan te kunnen roepen. Dit kan door de element op basis van hun index aan te geven. Dit index wordt steeds tussen **``[ ]``** weergegeven. In het geval van een tuple en een list ziet dit er gelijkaardig uit:


In [None]:
tupres = (12.5, 77, 3.14)
listres = [12.5, 77, 3.14]
print("Het derde element van een tuple vinden we via :", tupres[2],".")
print("Het eerste element van een lijst vinden we via :",listres[0],".")

Een reeks opeenvolgde elementen kunnen ook geselecteerd worden. Dit wordt een slice genoemd (zie ook verder). Een slice wordt aangegeven door het eerste en laatste element (niet meegerekend). Indien de plaats van het eerste of laatste element niet is aangegeven wordt het begin, respectievelijk het einde van de collectie gebruikt.

---
***Opgelet voor verwarring:***
Python start het tellen bij 0, dus het lijst element met “index=5” is het 6<sup>de</sup> element in de lijst. Omdat het laatste element van de slice niet wordt meegegeven zal ``[ :5]`` elementen met index 0 tot 4 geven, wat de eerste 5 elementen zijn. 

In [None]:
listres = [12.5, 77, 3.14, 6.28, 0.25, 6.99, 42]
print("Een slice van het 2de tot en met 5de element :", listres[1:5],".")
print("Een slice van met de eerste 3 elementen :",listres[:3],".")

In python kan je lijsten ook achterwaarts doorlopen door gebruik te maken van negatieve indices, wat handig is als je niet exact weet hoe lang de lijst is. Meestal zal men het laatste element aanduiden als -1 in plaats van de werkelijke indexwaarde te gebruiken. 

In [None]:
listres = [12.5, 77, 3.14, 6.28, 0.25, 6.99, 42]
print("Het laatste element :", listres[-1],".")
print("Een slice met de drie laatste elementen:", listres[-3:],".")

In het geval van een **woordenboek** worden de keys gebruikt als indices (waardoor het al dan niet geordend zijn minder van belang wordt).

In [None]:
boekres = {"boek":"Python syllabus", "auteur":"Vanpoucke", "prijs":10.00 }
print("Een element uit het woordenboek:", boekres["boek"],".")

**_Doe-opdracht:_**<br/>
1. Stel zelf een functie op welke het product ($x\times y$), quotiënt ($\frac{x}{y}$) en de macht ($x^y$) van twee getallen bepaald.
2. Voer deze functie uit met volgende input: $x=8, y=2$.
   1. Schrijf het resultaat rechtstreeks uit door je functie in een print functie uit te voeren.
   2. Ken je resultaat toe aan een tuple, en schrijf de drie individuele elementen uit.
   3. Ken je resultaat toe aan drie variabelen en schrijf deze uit.

In [None]:
# Voer hier de doe-opdracht uit
#Hier komt de functie




In [None]:
# Voer hier de doe-opdracht uit
#Hier gebruik je de functie en schrijf je resultaten uit






<a name="1.3.-Methods:-functies-in-een-klasse"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 1.3. Methods: functies in een klasse ##

Python is een **object georiënteerde programmeertaal**, wat betekent dat **objecten** een centrale rol spelen. Een object is *realisatie* van een klasse, of simpelweg, als je een klasse ziet als een complex datatype, dan is een object een ingevulde variabele van dat datatype. *De klasse kun je beschouwen als de uitgebreide definitie die zowel eigenschappen (**attributen**) als gedragingen (**methoden**) van een (al dan niet abstract) voorwerp beschrijft*. Hieronder is een voorbeeld van een python-klasse genaamd **``Atom``** gegeven :
```python
class Atom()
    """
    Een simpel voorbeeld van een klasse met enkele attributen:
       - Z : Atoomnummer (int)
       - m : massa (float)
       - x,y,z: coördinaten van het atoom (float)
       - symbol: chemisch symbool (string) 
    """
    def __init__(self, Z, m, x, y, z, symbol):
        ...In deze functie worden de attributen van het object geïnitialiseerd...
        
    def getZ(self):
        """
        Functie welke het atoomnummer van het atoom geeft.
        """
        return self.Z
    
    def move(self, dx,dy,dz):
        """
        Functie welke, de coördinaten van het atoom aanpast.
        """
        self.x = self.x+dx
        self.y = self.y+dy
        self.z = self.z+dz
        
    ...
```

Deze klasse bevat enkele **attributen**, dit zijn variabelen welke iets zeggen over het object. In tegenstelling tot programmeertalen zoals C++, Fortran of Pascal moeten deze nergens expliciet opgelijst worden. Een handige manier om mogelijke onduidelijkheden of verwarring te voorkomen is door deze zelf expliciet op te lijsten en te beschrijven in de commentaar die de klassebeschrijving bevat. Daarnaast kun je de attributen ook initialiseren (=eerste toewijzing van een waarde) in de **``__init__``** methode van de klasse.
Naast attributen bevat een klasse ook functies die het gedrag beschrijven, deze noemen we **methoden**. In de Atom-klasse hierboven zijn **``__init__``**, **``getZ``**, en **``move``** drie voorbeelden van methoden. Om de attributen of methoden van een object (*e.g.*, stel dat Hatoom kan een object(=variabele) van de klasse Atom is) aan te roepen wordt er gebruik gemaakt van de **``.``**-notatie.
- het chemisch symbool kan worden uitgeschreven door het attribuut ``symbol`` uit te schrijven: ``print("Atoomtype: ",Hatom.symbol)``
- Het atoom kan 10 Ångström in de x-richting verplaatst worden met de ``move``-functie door: ``Hatom.move(10.0, 0.0, 0.0)``

Dit gebruik van attributen en methoden is vrij gelijklopend aan het gebruik van variabelen en functies. Het belangrijkste verschil zit in het feit dat de attributen en methoden een onderdeel van een object zijn en met puntnotatie worden aangeroepen. Binnen de klasse zelf wordt de variabele **``self``** gebruikt om naar het object van de klasse te verwijzen. Wanneer **``self``** in de argumentenlijst van een methode voorkomt, dient dit steeds het **eerste argument** te zijn.

In deze tutorial zagen we hier reeds eerder een voorbeeld van bij het uitschrijven van een string in hoofdletters. Inderdaad, in python is een string een klasse welke verschillende methoden bevat. Een lijst van deze methoden vind je bijvoorbeeld [hier](https://www.w3schools.com/python/python_ref_string.asp). Hoewel je de meeste hiervan maar zelden zal gebruiken zijn er een aantal welke zeer handige tools zijn die je wel veelvuldig zal leren gebruiken: ``count, find, join, replace, strip, split``. Het interessante hierbij is dat deze functies vaak een string als resultaat teruggeven zodat je verschillende methoden kan combineren door ze in sequentie achter elkaar aan te gebruiken.

In [None]:
LS = ["Hello","World!","This","Is","Me."]
s1 = " " #een string met 1 spatie
s1.join(LS).lower().replace("!",",").capitalize()

**_Doe-opdracht:_**<br/>
1. Waarom is s1 een string met 1 spatie in bovenstaande code? Wat gebeurt er als je deze spatie verwijdert of vervangt door een ander karakter, of zelfs een stukje tekst.
2. Ga voor de verschillende functies na wat ze met de string doen, en begrijp hoe je aan het eindresultaat komt.
3. Pas de code aan om de string op te splitsen in aparte woorden.

In [None]:
# Voer hier de doe-opdracht uit







---
Binnen deze tutorials gaan we niet dieper in op het creëren van klassen en objecten, dit is materiaal voor meer geavanceerde tutorials. Hier is het enkel van belang te weten wat een klasse/object is, wat de puntnotatie inhoudt en hoe functies in objecten ingebed kunnen zijn als methoden. Dit laatste is vooral van belang bij het latere gebruik van bibliotheken. Het staat de geïnteresseerde lezer natuurlijk vrij om zichzelf verder in dit onderwerp te verdiepen. Handige bronnen zijn [de python docs](https://docs.python.org/3/tutorial/classes.html), [w3schools](https://www.w3schools.com/python/python_classes.asp), ...

<a name="1.4.-Workflow-in-een-Notebook"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 1.4. Workflow in een Notebook ##

In een programma of script, worden de regels met commando's uitgevoerd in de volgorde dat deze opgeschreven staan. Door gebruik te maken van functies, wordt deze volgorde aangepast. Het programma verspringt dan naar het codeblock met commando's in de functie om daarna verder te gaan met de commandoregels van het script. Dit geeft een eerste vorm van niet-lineariteit aan programmeren, en het volgen van de *process flow* kan vrij complex worden door het heen en weer springen tussen functies.

Wanneer we gebruik maken van een notebook zoals deze is er nog een aspect dat niet over het hoofd mag worden gezien: **de uitvoervolgorde van de cellen**. In een notebook dien je het uitvoeren van de cellen te zien als het achter elkaar plakken van stukken code in de volgorde dat je de cellen uitvoert. Dit kan soms ongewenste resultaten met zich meebrengen indien je cellen meerdere keren uitvoert, of niet in de volgorde zoals ze in het notebook staan. De wortel van het probleem bevindt zich in het hergebruik van variabelen. Variabelen zullen immers de waarde hebben welke ze bekomen hebben als gevolg van de uitvoervolgorde in het notebook. De cellen hieronder geven een vereenvoudigd voorbeeld om te tonen wat er aan de hand is. In praktische gevallen is het vaak veel moeilijker te zien of een dergelijke situatie zich voordoet.



In [None]:
Myvar = "Dit is een variabele welke we zullen manipuleren"

In [None]:
Myvar = Myvar+" door er iets aan toe te voegen."
print(Myvar)

In [None]:
Myvar = "VERRASSING!!"
#voer na deze cel de cel hierboven terug uit

In [None]:
Myvar = 77
# Gezien datatypes niet vastliggen mag dit. Dit is geen abnormale situatie, 
# soms wil je een variabele met een ander doel hergebruiken.
#Voer na deze cel de cel twee cellen hierboven nogmaals uit/

Zoals je hierboven hebt kunnen ervaren kan dit voor verrassingen zorgen welke misschien niet direct opvallen. Met wat geluk worden deze zichtbaar gemaakt door het onverwachte crashen van je script. Let dus telkens goed op de volgorde van de cellen. Wanneer je een variabele hergebruikt, zorg er dan zeker voor dat je deze initialiseert (*i.e.* een startwaarde geeft) zodat deze niet per ongeluk een waarde van een voorgaande run bevat of van een totaal andere toepassing in een andere cel. **Merk op:** variabelen welke in een codeblok van een **functie** worden gedefinieerd zijn enkel daar beschikbaar (zoals eerder gezien), en vallen hier buiten. Anderzijds is het *good practice* niet dezelfde variabele namen binnen en buiten een functie te gebruiken in eenzelfde omgeving om verwarring te vermijden.

***Importeren van Bibliotheken:*** In deze tutorials worden bibliotheken (zie verder) meestal telkens opnieuw ingeladen bij elke nieuwe rekencel welke er gebruik van maakt. Dit is met het oog op de workflow van de tutorials gedaan. Hierdoor is het mogelijk de meeste rekencellen onafhankelijk van elkaar uit te voeren. In de praktijk zal men proberen de **import**-commando's te beperken. Je kan deze éénmalig plaatsen in de eerste cel welke er gebruik van maakt, maar je kan ze ook groeperen in één cel, bijvoorbeeld aan het begin van het notebook.

<a name="2.-Basis-bibliotheken"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
# 2. Basis bibliotheken #

Bij het programmeren, zeker in talen zoals python, is het de bedoeling het wiel niet telkens opnieuw uit te vinden. Nuttige functies zijn in tal van bibliotheken te vinden, en misschien schrijf jij ooit zelf je eigen bibliotheek (gericht op een specifieke analyse die belangrijk is in je onderzoek) en deel je deze met andere onderzoekers in je vakgebied.

Je zal merken dat binnen het python ecosysteem er meestal meerdere manieren zijn om dezelfde taak uit te voeren. Welke het beste geschikt is voor jouw doeleinden hangt van verschillende aspecten af. Dit kan gaan over efficiëntie, maar ook over compatibiliteit met de rest van je script, of gewoon eigen ervaring met de bibliotheek in kwestie. Om enkele interessante zaken uit te kunnen voeren met een bibliotheek zullen we eerst een databestand inlezen. Dit bestand is een csv-file waarin kwantummechanisch berekende energieën en volumes te vinden zijn voor kristallijn lactosemonohydraat. Dit is een melksuiker dat in de voedings-en geneesmiddelenindustrie uitgebreid gebruikt wordt. Het bestand is te vinden in de data-map van dit GitHub repo: [https://github.com/DannyVanpoucke/PythonTutorials/blob/main/data/LMH_2H2O_EVdata.csv](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/data/LMH_2H2O_EVdata.csv)

Er zijn verschillende manieren waarop dit bestand ingelezen kan worden. Hier zullen we gebruik maken van de mogelijkheden van de numpy bibliotheek.

<a name="2.1.-Numpy"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 2.1. Numpy ##

De **[Numpy](https://numpy.org/)** (samentrekking van **Num**erical **Py**thon) bibliotheek is een veelgebruikte bibliotheek waar je wiskundige tools vindt die nuttig zijn binnen de wetenschappen. Het laat je onder andere toe om met multidimensionale matrices te werken. Deze bibliotheek is een zodanig basisonderdeel van het wetenschappelijk python ecosysteem dat code voorbeelden vaak impliciet aannemen dat iedereen **np** herkent (en erkent) als standaard verwijzing naar de numpy bibliotheek. Hoewel een bibliotheek klassen kan bevatten, is de opmaak en het gebruik van functies in een bibliotheek vergelijkbaar aan deze van een klasse: *de puntnotatie*.

### <u>Inlezen csv-bestand als matrix</u> ###

Het inlezen van een tekstbestand met **``numpy``** gebeurt via de **[genfromtxt](https://numpy.org/doc/stable/reference/generated/numpy.genfromtxt.html)** functie. Er zijn twee manieren om deze functie te gebruiken in je eigen script:
1. Expliciet importeren van de functie uit de numpy bibliotheek
```python
   from numpy import genfromtxt
   dataset = genfromtxt('databestand.csv', delimiter=',')
```
Met de eerste regel wordt de **``genfromtxt``** functie uit de ``numpy`` bibliotheek geïmporteerd. Vanaf dit punt is deze functie bekend, net zoals je eigen gedefinieerde functies. Op de tweede regel wordt de variabele dataset gelijk gesteld aan het resultaat van de  **``genfromtxt``** functie uitgevoerd op het bestand “databestand.csv”. Bij het inlezen van dit bestand werd veronderstelt dat de waarden met een komma gescheiden zijn (**``delimiter=',``**).

2. Gebruik als functie van de bibliotheek
```python
   import numpy as np
   dataset = np.genfromtxt('databestand.csv', delimiter=',')
```
In dit tweede geval wordt de bibliotheek ingeladen onder een pseudoniem-naam (**np**). De **``genfromtxt``** wordt aangeroepen als onderdeel van deze bibliotheek. Het deel ``as np`` op de eerste regel had weggelaten kunnen worden. In dat geval zou op de tweede regel ``dataset = numpy.genfromtxt('databestand.csv', delimiter=',')`` moeten staan. De keuze om een pseudoniem-naam te gebruiken wordt veelal gebruikt om het typewerk te verminderen en de leesbaarheid te verbeteren.

In [None]:
from numpy import genfromtxt

url = 'https://github.com/DannyVanpoucke/PythonTutorials/blob/main/data/LMH_2H2O_EVdata.csv?raw=true'
# Verwijder de `#` bij een van de twee onderstaande regels om het bestand van een online of lokale bron in te laden.
dataset = genfromtxt(url, delimiter=',') #online
#dataset = genfromtxt('../data/LMH_2H2O_EVdata.csv', delimiter=',') #lokaal
print(dataset)

In het csv-bestand zijn 5 kolommen terug te vinden. De eerste bevat een rijindex, de tweede de totale energie (in eV) met van der Waals correctie, de derde zonder van der Waals correctie, de vierde kolom bevat de volumes (in &Aring;$^3$), en de vijfde kolom bevat externe druk in kilobar. De ingelezen 2D matrix geeft mooi de data weer uit het bestand. Er is echter iets vreemd aan de hand met de vijfde kolom. Bekijk het [csv-bestand](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/data/LMH_2H2O_EVdata.csv) rechtstreeks, en probeer in te zien wat het probleem is voor je verder leest.

Zoals je online kan zien, bevat de vijfde kolom steeds een waarde gevolgd door *kB*. ``Numpy`` is gericht op numerieke data. Python daarentegen zal, gezien deze kolom zowel cijfers als letters bevat, dit automatisch als string herkennen. De omzetting naar een getal loopt mis, waardoor ``numpy`` **nan** (*Not a Number*) als resultaat weergeeft. We zullen later zien hoe je deze data toch kan inladen als tabel met behulp van de [**``pandas``**](https://pandas.pydata.org/docs/) bibliotheek.

### <u>Slices: stukjes matrices </u> ###


De data uit het CSV bestand bevindt zich nu in een 2D matrix. De dimensies van deze matrix vinden we door gebruik te maken van het ``shape``-attribuut, wat een tuple met het aantal elementen voor elke dimensie weergeeft. 

In [None]:
dataset.shape

Dit toont dat er 13 rijen met 5 kolommen aanwezig zijn. De eerste index van de numpy matrix kan dus waarden van 0 tot en met 12 aannemen, terwijl de tweede waarden van 0 tot en met 4 kan aannemen. Stukken (of **slices**) van een matrix kunnen afgebakend worden in dezelfde indexnotatie.

In [None]:
print("Het eerste element van de eerste rij: ",dataset[0,0])
print("De eerste rij                       : ",dataset[0])
print("De eerste kolom                     : ",dataset[:,0])

Kijk je terug naar de output van de volledige matrix, dan merk je op dat elke rij weergegeven wordt als één lijst (een set elementen tussen ``[ ]``). Elke rij is dus zelf één element in een lijst met rijen (de buitenste set van ``[ ]``). Het weergeven van de eerste rij is dus niet anders dan het weergeven van het eerste element in deze lijst. Het volstaat daarom om één index te gebruiken in dit geval. Willen we een kolom weergeven, dan is dit telkens één element uit elk rij-element. Dus in het geval van de eerste kolom is dit telkens het element met index 0 in elk rijelement. Om elke rij aan te duiden maken we gebruik van een **slice**. ***Dit is een begin en eind-index gescheiden door een dubbele punt: ``a:b``.*** Laten we één of beide eindpunten weg dan betekent dit dat voor de weggelaten zijde het volledige rest van de reeks gebruikt wordt. 
- ``a:b``: alle elementen van index a tot index b-1 (python neemt nooit de eindgrens mee)
- ``a: ``: alle elementen startende bij index a
- `` :b``: alle elementen tot index b-1
- `` : ``: alle elementen

**<u>WEETJE</u>**
Wens je het **laatste element** in een reeks hebben, maar weet je niet hoeveel elementen een reeks bevat, dan kun je dit element ook selecteren met de **index** $-1$. Waar in andere programmeertalen je een out-of-bounds foutmelding krijgt zal python achterwaarts de reeks aflopen bij het gebruik van een negatieve index.


Hiermee is het mogelijk de gewenste element, rij of kolom uit een meerdimensionale matrix te selecteren. De tweede kolom met energieën en de vierde met volumes kopiëren we naar nieuwe variabelen als volgt:

In [None]:
energie = dataset[:,1]
volume = dataset[:,3]

### <u>Attributen en methoden van numpy-matrices </u> ###

Numpy-matrices zijn uitermate handig in het gebruik, gezien ze, in tegenstelling tot een standaard python lijst, erop gericht zijn wiskundige matrices voor te stellen. Er zijn dan ook een heel aantal methoden en attributen voorgedefinieerd.

In [None]:
print("De getransponeerde van een matrix",dataset.transpose(),"\n \n ----------------- \n")
print("De lengte van een 1D matrix (zoals volume) is een tuple ",volume.shape,
      ". De lengte als getal krijgen we door het element uit het tuple te halen: ",volume.shape[0])

---

Ook eenvoudige statistische operaties zijn geïmplementeerd voor numpy arrays: 
- ``numpy.median()``([mediaan](https://numpy.org/doc/stable/reference/generated/numpy.median.html)), 
- ``numpy.mean()``([gemiddelde](https://numpy.org/doc/stable/reference/generated/numpy.mean.html)), 
- ``numpy.std()``([standaard deviatie](https://numpy.org/doc/stable/reference/generated/numpy.std.html)), 
- ``numpy.var()``([variantie](https://numpy.org/doc/stable/reference/generated/numpy.var.html)), 
- ``numpy.corrcoef()``([correlatie-coëfficiënten](https://numpy.org/doc/stable/reference/generated/numpy.corrcoef.html)), etc.

In [None]:
import numpy as np

print("Gemiddeld volume: ",np.mean(volume)," A³")
print("Mediaan volume: ",np.median(volume)," A³")
print("standaard deviatie volume: ",np.std(volume)," A³")

Deze functies zijn niet beperkt tot 1D matrices. In het geval deze worden toegepast op multidimensionale matrices, dan wordt het resultaat bepaald op alle elementen.

In [None]:
print("Gemiddeld dataset: ",np.mean(dataset[:,1:4])," A³") 
                #dataset[:,1:4] is de volledige matrix met uitzondering van de index-kolom (kolom-0) en de 5e kolom (kolom-4).

Door gebruik te maken van het argument ``axis`` kan in één keer de functie worden uitgevoerd ofwel op alle rijen (apart) of alle kolommen (apart). 

In [None]:
print("Gemiddeld dataset per kolom: ",np.mean(dataset[:,:4],axis=0)," A³") 

De index van een rij is de eerste index (=0), terwijl deze van een kolom de tweede index (=1) is, in een multidimensionale matrix. ``axis=0`` betekent dat het gemiddelde wordt genomen over alle elementen waarbij over de eerste index(=0) wordt gevarieerd, i.e. het gemiddelde van alle elementen in één kolom wordt zo bepaald. De resultaten voor alle kolommen wordt als een lijst teruggegeven.

&nbsp;

**_Doe-opdracht:_**<br/>
Bepaal het gemiddelde per rij in de dataset, zonder de rijindex (kolom 0) mee te nemen.

In [None]:
# Voer hier de doe-opdracht uit








### <u>Zelf matrices maken</u> ###

Tot nu toe maakten we gebruik van matrices welke uit een bestand werden ingelezen, het is ook mogelijk zelf vectoren (1D matrix) en matrices aan te maken. Hoewel een numpy matrix overeenkomsten vertoont met een standaard python lijst, is deze toch iets praktischer in het gebruik voor wetenschappelijke toepassingen. Er zijn verschillende manieren om een matrix aan te maken.
- **``numpy.array()``-functie**: deze functie zet een (geneste) lijst of tuple om in een één of meerdimensionale matrix.
``Mat2D = numpy.array([[1,2,3],[4,5,6]])``
- **Array genererende functies**: Numpy bevat een 40-tal functies welke gebruikt kunnen worden om automatisch 1D-, 2D-, of ND-matrices te construeren.
  - **[``numpy.arange()``](https://numpy.org/doc/stable/reference/generated/numpy.arange.html#numpy.arange) & [``numpy.linspace()``](https://numpy.org/doc/stable/reference/generated/numpy.linspace.html#numpy.linspace)** laten je toe vectoren met gelijk gespreide waarden te genereren. Denk bijvoorbeeld aan een rooster of grid.
  - **[``numpy.eye()``](https://numpy.org/doc/stable/reference/generated/numpy.eye.html#numpy.eye)** genereert een 2D eenheidsmatrix.
  - **[``numpy.diag()``](https://numpy.org/doc/stable/reference/generated/numpy.diag.html#numpy.diag)** genereert een diagonaalmatrix, met op de diagonaal de gegeven elementen.
  - **[``numpy.zeros()``](https://numpy.org/doc/stable/reference/generated/numpy.zeros.html#numpy.zeros) of [``numpy.ones()``](https://numpy.org/doc/stable/reference/generated/numpy.ones.html#numpy.ones)** genereert een matrix gevuld met nullen of enen. De dimensies van deze matrix worden gegeven als één argument, en dienen dus van het datatype tuple te zijn. Een $3\times 3$ matrix met enen wordt gegenereerd met ``numpy.ones( (3,3) )``

&nbsp;

**_Doe-opdracht:_**<br/>
1. Genereer een vector met 5 equidistante waarden, waarbij 0 en 5 de twee uiterste punten zijn. Welke genererende functie gebruik je en waarom?
2. Genereer een 2D $5\times 5$ matrix, met op de diagonaal 5 waarden gaande van 0 tot en met 5, welke equidistant zijn. Doe dit op een slimme manier.
3. Tel bij alle elementen van de bovenstaande matrix 1 op. (Dit kan op twee manieren.)
4. **Bonus**: kun je ook de diagonaalelementen 10 keer kleiner maken voor je  één optelt bij elk element?

In [None]:
# Voer hier de doe-opdracht uit









<a name="2.2.-Helpfunctie"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 2.2. Helpfunctie ##

Bij het gebruik van bibliotheken is er vaak een online handleiding voorhanden. Het is dus steeds mogelijk daar extra informatie te vinden. Daarnaast kun je ook gebruik maken van de ingebouwde **``help()``-functie**. Deze geeft ter plekke korte informatie over de functie waar je interesse in hebt. Dit is een handige tool om te weten te komen welke argumenten een functie vereist, en wat de mogelijke waarden en standaardwaarden zijn.

**<u>Merk op</u>** : Hoewel je informatie over een functie wenst dien je geen ``()`` aan het einde van de functienaam toe te voegen. Indien je dit doet, en de functie heeft verplichtte argumenten, dan zal je een foutboodschap krijgen. Probeer je deze te omzeilen door deze argumenten in te vullen, dan krijg je niet langer de help-informatie over de functie, maar wel over het object dat door de functie wordt teruggegeven. 

&nbsp;

**_Doe-opdracht:_**<br/>
Test de opmerkingen uit op het voorbeeld hieronder met de ``numpy.zeros()`` functie.

In [None]:
# Voer hier de doe-opdracht uit
import numpy 

help(numpy.zeros)

<a name="2.3.-Random-&-Math"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 2.3. Random & Math ##

### Random getallen ###
Random getallen spelen een belangrijke rol binnen wetenschappelijk onderzoek dat gebruik maakt van simulaties. Ze kunnen gebruikt worden om *noise* toe te voegen aan data, stochastische processen te modelleren, willekeurige begincondities te genereren, etc. Het genereren van random getallen is een kunst op zich (welke buiten de scope van deze tutorials valt). Er bestaan verschillende algoritmen om random getallen te genereren— elk met hun sterkten en zwakten. Dit worden ***random number generators (RNGs)*** genoemd. De [**``random``** bibliotheek](https://docs.python.org/3/library/random.html) in python geeft je toegang tot verschillende functies welke je random getallen kunnen aanleveren, volgens verschillende kansverdelingen. De basisfunctie waarop nagenoeg alle functionaliteit in deze bibliotheek steunt is de ``random.random()`` functie, welke een RNG is gebouwd rond de *[Mersenne Twister](https://en.wikipedia.org/wiki/Mersenne_Twister)*.
Enkele interessante functies zijn:

- ``randint(a,b)``: geeft een willekeurig geheel getal gaande van a tot en met b.
- ``random()`` : deze basisfunctie geeft een uniform verdeeld reëel getal $0<= x <1.0$ (1 is dus geen mogelijk resultaat!)
- ``uniform(a,b)``: geeft een willekeurig reëel getal uit een uniforme verdeling met $a<= x <b$.
- ``gauss(mu=0.0, sigma=1.0)``: geeft een willekeurig reëel getal uit een Gaussische (of Normale) verdeling met gemiddelde *mu* en standaard deviatie *sigma*.

Voor de overige verdelingen verwijzen we geïnteresseerde lezer naar de [handleiding](https://docs.python.org/3/library/random.html).

&nbsp;

**_Doe-opdracht:_**<br/>
Voer de onderstaande cel enkele keren uit en ga na dat de resultaten telkens anders zijn.

In [None]:
# Voer hier de doe-opdracht uit
import random

print(random.random())

### Meer random getallen ###

De random bibliotheek is zeer handig bij het genereren van enkelvoudige willekeurige waarden. Indien je meerdere willekeurige getallen nodig hebt, worden deze gegenereerd door opeenvolgende aanroepingen van de *random*-functie uit de random bibliotheek. Soms weet je echter vooraf hoeveel willekeurige getallen je nodig zal hebben. Het is dan, vanuit computationeel oogpunt, niet efficiënt om vele malen een functie aan te roepen. De *numpy* bibliotheek bevat zelf ook een sub-bibliotheek gericht op willekeurige getallen, genaamd **[``random``](https://numpy.org/doc/stable/reference/random/index.html#module-numpy.random)**. Deze laat toe om hele reeksen random getallen met één enkele oproep te genereren. Daarnaast is er ook een zeer uitgebreide hoeveelheid aan mogelijke kansverdelingen beschikbaar (zie [handleiding](https://numpy.org/doc/stable/reference/random/legacy.html#distributions) ).

In [None]:
import numpy 

print(numpy.random.random(10)) # random is de sub-bibliotheek

De bovenstaande uitdrukking is een hele boterham. Er wordt via de bibliotheek (numpy) langs de sub-bibliotheek (random) een aanroep van de functie (random(10)) uitgevoerd. De schijflast kan gelukkig verplaatst worden door de functie alleen te importeren.

In [None]:
from numpy.random import random  # de laatste random is de functie
# vanaf hier slaat "random" dus enkel op de functie
print(random(10))

De set met willekeurige getallen kan ook een N-dimensionale matrix opvullen.

In [None]:
print(random((10,2))) #10 rijen met 2 kolomen

### De Math bibliotheek ###

Hoewel python zelf reeds verschillende basis wiskundige bewerkingen voorziet (+,-,x,:), ontbreken er toch enkele interessante operaties en functies; zoals het bepalen van de **wortel (``math.sqrt(x)``)** van een getal. In de **[math](https://docs.python.org/3/library/math.html)** bibliotheek kun je deze terugvinden, naast ook de **log** en **exponentiële functie**. Bij de log-functies dien je wel even op te letten gezien deze voor de **natuurlijke logaritme (``math.log(x)``)**, de  **basis-10 logaritme (``math.log10(x)``)**, en ook voor de **basis-2 logaritme (``math.log2(x)``)** bestaat. Ook **goniometrische functies** (*e.g.*: **``math.sin(x), math.cos(x), math.tan(x),``**) worden via de math-bibliotheek aangeboden. Hou er rekening mee dat de goniometrische functies hoeken in radialen vereisen, en niet in graden.  
Met het oog op de ingelezen matrix heeft de math-bibliotheek ook een functie welke je kan vertellen of een getal een echt getal is of een *NaN* (``math.isnan(x)``).

Alle bovenstaande functionaliteit is telkens gericht op één enkel getal. Het is dan ook niet verwonderlijk, dat dezelfde functionaliteit ook in de [numpy bibliotheek](https://numpy.org/doc/stable/reference/routines.math.html) aanwezig is, waar de toepassing gericht is op het gebruik van numpy-matrices. In plaats van een for-lus over de elementen in een lijst te doorlopen en een wiskundige functie op elk individueel element toe te passen, kun je de operatie op alle elementen in de matrix toepassen in één enkel commando. De naamgeving van de functies is dezelfde als bij de math bibliotheek.

&nbsp;

**_Doe-opdracht:_**<br/>
1. Bestudeer het onderstaande stuk code aandachtig en probeer te begrijpen wat er gebeurd.
2. Kopieer de code naar de lege cellen eronder en test volgende situaties:
   1. Wat gebeurt er indien de for-lus wordt vervangen door een enkel math commando vergelijkbaar met de numpy versie? (Eerste lege cel.)
   2. Wat gebeurt er indien je het argument dtype=float verwijdert? Gebruik extra printopdrachten waar nuttig tijdens het debuggen. Herinner je de ``help`` en ``type`` functies om je te ondersteunen. (Tweede lege cel.)

In [None]:
import numpy as np
import math

np.set_printoptions(precision=4) #Hiermee beperken we het aantal cijfers na de komma bij reële getallen in numpy matrices

Reeks = np.arange(10, dtype=float)*10
print("Een reeks getallen: \n ",Reeks)
# Omzetting van graden naar radialen
print("In radialen met numpy \n", np.radians(Reeks))   #via numpy
print("In radialen met math  \n", Reeks*math.pi/180.0) #via math
# bereken de sinus
print("Met numpy: sin(reeks)= \n",np.sin(np.radians(Reeks)))
for i in range(len(Reeks)):
    Reeks[i] = math.sin(Reeks[i]*math.pi/180.0)
print("Met math: sin(reeks)= \n",Reeks)

In [None]:
# opdracht 2A








In [None]:
#opdracht 2B 


    
    
    
    
    

<a name="2.4.-Plotten-met-Matplotlib"> </a><!-- this additional tag is needed for colaboratory to work in a copy-->
## 2.4. Plotten met Matplotlib ##

Eén van de redenen waarom python-notebooks zo populair zijn, is het feit dat het zeer eenvoudig is om zowel complexe berekeningen als grafische voorstellingen van de data in eenzelfde notebook samen te brengen. Een veelgebruikte bibliotheek voor de wetenschappelijke visualisatie van data is de ***[matplotlib](https://matplotlib.org/)***-bibliotheek. De plotklasse ([``pyplot``](https://matplotlib.org/stable/api/pyplot_summary.html)) wordt veelal afgekort tot **plt** in tutorials en andere hulpbronnen. De syntax van deze bibliotheek is zeer gelijklopend met deze voor het plotten in MATLAB (waarop de bibliotheek geïnspireerd is).

&nbsp;

**_Doe-opdracht:_**<br/>
Maak gebruik van de handleiding voor de [plot-functie](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html) om het onderstaande script te begrijpen.
1. Voer het script uit.
2. Hoe plot je een xy-dataset: ``plt.plot(x,y)`` of ``plt.plot(y,x)``. 
3. Waarom werkt het onderstaande script hoewel er maar 1 coördinaat is gegeven ?(Welke?)
4. Wat is de betekenis van de string met het punt?
5. Pas het script aan zodanig dat het weergegeven symbool een zwarte driehoek omhoog wordt.

In [None]:
# Voer hier de doe-opdracht uit
import matplotlib.pyplot as plt
i=2
plt.plot(i,'.')




In de praktijk wordt zelden maar één punt geplot. Meestal wenst men puntenwolken of curves te plotten. Aan het begin van deze tutorial werd een dataset ingeladen vanuit een csv bestand. De energie en volume data is dan opgeslagen in twee aparte numpy-vectoren **``energie``** en **``volume``**. Met het volgende commando kan deze data eenvoudig geplot worden.

In [None]:
plt.plot(volume,energie,'--^k',label='E(V) data lactosemonohydraat')

Zoals je hierboven ziet is echter nog wel wat werk aan de winkel voor dit een plot is dat kan gebruikt worden in een paper of rapport. Een paar van de meest opvallende problemen zijn:
1. De legende ontbreekt.
2. De assen hebben geen label.
3. *Minor ticks* ontbreken.
4. De *tickmarks* staan aan de foute zijde van de as.
5. De stapgrootte op de y-as is bizar (0.02) en de waarden welke we zien verschillen sterk van de energiewaarden welke ongeveer -560 eV zijn.

Het is duidelijk dat hoewel er standaardwaarden voorzien zijn, deze niet acceptabel zijn voor werkelijk wetenschappelijk gebruik. Gelukkig kunnen alle onderdelen van een plot aangepast en getuned worden.

### <u>Breaking free of defaults</u> ###
Voor we beginnen aan het opschonen van de afbeelding, is het nuttig om te weten dat pyplot een functie ``show()`` bevat welke de afbeelding waar we aan werken laat zien. Het gebruik van dit commando laat ook de tekst met het type afbeelding verdwijnen uit de output. In het toekomstig script zullen we daarom eindigen met het commando:``plt.show()``

1. **De legende** ([``plt.legend()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.legend.html)). Hoewel er een label aan de curve is toegevoegd is deze toch niet zichtbaar. Door de ``legend()``-functie aan te roepen wordt dit verholpen. Verder kan met deze functie ook de positie van de legende, de font grootte, etc worden aangepast.
2. **De aslabels** ([``plt.xlabel()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xlabel.html) en [``plt.ylabel()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ylabel.html)). Het toevoegen van aslabels kan door gebruik te maken van de functies ``xlabel`` en ``ylabel``, waarbij zowel de tekst als de opmaak van deze tekst bepaald kan worden.
3. **De tickmarks**. Het aanpassen van de tickmarks heeft iets meer voeten in de aarde. Eerst en vooral omdat deze niet direct beschikbaar zijn via pyplot. We hebben hiervoor toegang tot het axes-object nodig. De functie [``plt.subplots()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html) geeft dit samen met een figure object terug. En interessant neveneffect van het gebruik van de subplots functie is dat hiermee ook de dimensies van de afbeelding kunnen ingesteld worden (weliswaar in inches; 1 inch = 2.54 cm): *e.g.* ``fig, ax = plt.subplots(figsize=(7,5))``. Met zowel het ***plt*** als het ***ax*** object ter beschikking kunnen de assen volledig opgemaakt worden.
    1. **Asgrenzen**: De asgrenzen kunnen worden bepaald met de [``plt.xlim()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.xlim.html) en [``plt.ylim()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ylim.html) functies. De boven en ondergrens worden gegeven als een lijst; *e.g.* ``plt.xlim([720,800])``
    2. **Positie ticks**: Voor het plaatsen van de ticks kan gebruik gemaakt worden van een automatische functie welke de positie en het aantal ticks bepaald: [``matplotlib.ticker.MultipleLocator()``](https://matplotlib.org/stable/api/ticker_api.html#matplotlib.ticker.MultipleLocator). In het geval van het volume zullen we elke 10$\AA^3$ een major tick plaatsen, en elke 1$\AA^3$ een minor tick. Hiervoor kan de [``set_major_locator()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.axis.Axis.set_major_locator.html) en [``set_minor_locator()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.axis.Axis.set_minor_locator.html) van het ``xaxis`` object gebruikt worden <br/>
    &rarr; ``ax.xaxis.setmajor_locator(MultipleLocator(10.0))``.<br/>
    Voor de y-as gebruiken we stappen van 25 meV en 5 meV.
    3. **Richting en opmaak ticks**: Het opmaken van de ticks kan met de [``tick_params()``](https://matplotlib.org/stable/api/_as_gen/matplotlib.axes.Axes.tick_params.html) functie. Ticks dienen aan beide zijden van de grafiek voor te komen en naar binnen gericht te zijn. De lengte en dikte kan aangepast worden met het oog op leesbaarheid.
4. **Lijndikte frame/assen**: De assen van de grafiek zijn vrij dun. Deze kunnen iets dikker gemaakt worden met behulp van de ``set_linewidth()`` functie van de spines objecten. Dit laatste is een lijst met elementen 'top','left','right', en 'bottom'. Gezien we alle elementen wensen aan te passen kunnen we gebruik maken van een slice-notatie om ze allemaal in één keer te selecteren (Dit is enkel mogelijk in de meer recente versies van matplotlib. Indien dit niet mogelijk is krijg je een foutmelding, en kun je voor elke spine apart de lijnbreedte instellen.)

In [None]:
from matplotlib.ticker import MultipleLocator

fig, ax = plt.subplots(figsize=(7,5))
plt.xlim([720,800])
plt.ylim([-563.800,-563.675])
ax.xaxis.set_major_locator(MultipleLocator(10))
ax.xaxis.set_minor_locator(MultipleLocator(1))
ax.yaxis.set_major_locator(MultipleLocator(0.025))
ax.yaxis.set_minor_locator(MultipleLocator(0.005))
# opmaak van de major ticks
ax.tick_params(axis='both',direction='in',length=10,width=2,
               bottom=True, top=True, left=True, right=True, labelsize=10)
# opmaak van de minor ticks (deze hebben geen label)
ax.tick_params(axis='both',which='minor',direction='in',length=6,width=1,
              bottom=True, top=True, left=True, right=True)

# ax.spines[:].set_linewidth(2) # Hiervoor is python >3.9 en matplotlib >3.5 nodig, 
                                # dit is misschien niet het geval in google colab
ax.spines['top'].set_linewidth(2) # In welk geval de verschillende spines, stuk per stuk dienen
ax.spines['left'].set_linewidth(2)# aangeroepen te worden.
ax.spines['bottom'].set_linewidth(2)
ax.spines['right'].set_linewidth(2)

plt.xlabel("Volume ($\AA^3$) ", fontsize='x-large', fontweight="bold")
plt.ylabel("Energie (eV) ", fontsize='x-large', fontweight="bold")
plt.plot(volume,energie,'--^k',label='E(V) data lactosemonohydraat')
plt.legend(loc='upper center', fontsize='large')
plt.show()

De finale afbeelding ziet er een stuk beter uit dan de standaardoptie, maar vereist extra werk. Indien je op verschillende plaatsen vergelijkbare figuren wil genereren in een notebook (of script), is het vaak handig het opmaak gedeelte iets te veralgemenen en in een aparte functie onder te brengen. Deze functie vraagt dan als minimale argumenten de lijsten met $x$ en $y$ waarden.

&nbsp;

**_Doe-opdracht:_**<br/>
Gebruik de cel hieronder.
1. Maak van de code in de voorgaande cel een functie welke 3 argumenten aanneemt: $x$ en $y$ waarden, en een string met het label voor de data. Test of je hetzelfde resultaat bekomt als hierboven.
2. Pas je functie aan zodat je ook het label bij de assen moet meegeven. Test of je hetzelfde resultaat bekomt als hierboven.
3. Pas de functie nog verder aan zodat ook de grenzen van de assen, en tickposities worden meegegeven. Test of je hetzelfde resultaat bekomt als hierboven.

Deze functie kan een goed startpunt zijn voor alle toekomstige python plots welke je genereert.


In [None]:
# Voer hier de doe-opdracht uit










Dit is het einde van de tweede python tutorial. In de [volgende tutorial](https://github.com/DannyVanpoucke/PythonTutorials/blob/main/Tutorials_nl/03_DataViz.ipynb)  gaan we dieper in op datavisualisatie en analyse.