<img src="images/logodwengo.png" alt="Banner" style="width: 150px;"/>

<div style='color: #690027;' markdown="1">
    <h1>SPREIDINGSDIAGRAM - DATA UIT BESTAND</h1> 
</div>

<div class="alert alert-block alert-success"> 
Mogelijk beschik je over datasets die onderzocht moeten worden en die opgeslagen zijn in een of ander bestandsformaat. Deze data telkens manueel invoeren in Python is niet echt praktisch. Gelukkig kan je via de geschikte Python-modules die databestanden importeren.
</div>

De punten van opdracht 2.1 uit de notebook 'Spreidingsdiagram - Data manueel ingeven' werden in een csv-bestand geplaatst. Dat is een veel gebruikt bestandsformaat en het ziet er bijvoorbeeld as volgt uit:

<img src="images/csv.jpg" alt="Banner" style="width:100px;"/>

Om van **csv-bestanden** - csv staat voor **comma separated values** - overzichtelijke tabellen te kunnen maken, maak je gebruik van de module 'pandas'.<br>
Om kolommen van zo'n tabel om te vormen naar een lijst en daarmee te kunnen rekenen, importeer je de module 'NumPy'.<br>
Een spreidingsdiagram van de gegevens maken, doe je met de submodule 'pyplot' van de module 'Matplotlib'.

<div style='color: #690027;' markdown="1">
    <h2>1. Data importeren</h2> 
</div>

Je importeert de nodige modules door de volgende code-cel uit te voeren.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Het csv-bestand werd reeds **op de server** geplaatst. Om het csv-bestand te gebruiken, moet je het echter eerst **inlezen** in de notebook.<br>
Lees dus het bestand in door de volgende code-cel uit te voeren:

In [None]:
csv = pd.read_csv("data/csv.dat")                     # inlezen bestand

En vraag het resultaat op:

In [None]:
csv

Wil je enkel het begin van de tabel zien, of enkel de laatste rijen ervan, dan kan dat via de methodes `head()` en `tail()`.

In [None]:
csv.head()

In [None]:
csv.tail()

De tabel heeft 15 rijen en 2 kolommen. <br>

Om deze data uit te zetten in een grafiek, heb je twee NumPy-lijsten nodig: een van x-coördinaten en een van y-coördinaten. Met 'pandas' gaat dat vrij eenvoudig omdat je de hoofding van de tabel als **sleutel** *(key)* kunt gebruiken.

In [None]:
# data opsplitsen

x = csv["x"]     # hoofding van kolom is sleutel, die speelt rol van index, x-coördinaat komt op de x-as
y = csv["y"]     # y-coördinaat komt op y-as
   

Kijk eens hoe zo'n lijst eruitziet:

In [None]:
print(x)

Dit is nog steeds een soort tabel. Eigenlijk heb je voor x enkel de tweede kolom van deze tabel nodig.
Je kunt dat bekomen door gebruik te maken van typecasting: door deze pandas-tabel om te zetten naar een NumPy-lijst krijg je het beoogde resultaat. **Dit is een zeer belangrijke stap.**

In [None]:
# data omzetten naar NumPy-lijsten

x = np.array(x)
y = np.array(y)

In [None]:
# data bekijken

print(x)
print(y)

<div style='color: #690027;' markdown="1">
    <h2>2. Data visualiseren</h2> 
</div>

<div class="alert alert-block alert-warning"> 
    In de notebook <em>'Spreidingsdiagram - Data manueel ingeven'</em> leerde je al hoe je een spreidingsdiagram maakt. Kijk eventueel eens terug. 
</div>

Het bereik van de x-as is eenvoudig te zien want de x'en staan geordend in de lijst. <br>
Voor de y's is dat niet zo. Om het bereik op de y-as te bepalen, is het interessant om te weten wat de kleinste en wat de grootste y-waarde is. Je gebruikt daarvoor de methodes `min()` en `max()`. Omdat het methodes zijn, komen ze in de instructie ná het object y te staan, ervan gescheiden door een punt, bijvoorbeeld `y.max()`.<br><br>
Het is niet altijd even eenvoudig om de geschikte vensterinstellingen voor een dataset te bepalen. Voor een dataset zoals deze, is het nog mogelijk om te schatten door naar de data te kijken en grenzen te kiezen.<br>
Voor een grotere en/of ongeordende dataset zal je echter best gebruikmaken van een meer geautomatiseerde methode: Python-code die dit voor jou doet.<br><br>
Probeer deze methode nu alvast uit!

In [None]:
# minima en maxima bepalen

x_min = x.min()
x_max = x.max()

y_min = y.min()
y_max = y.max()

print(x_min, x_max, y_min, y_max)

Komen jouw schattingen overeen met wat het Python-script gevonden heeft?

Nu je de grenzen van de dataset kent, kan je deze ingeven om een passend tekenvenster te maken.

<div class="alert alert-block alert-danger">
Het is altijd het beste om geen misleidende grafieken te maken en dus zeker 0 ook te tonen op de y-as. Eventuele stijgingen en dalingen worden anders sterk uitvergroot.
</div>

Om duidelijk te maken welke data op de grafiek worden getoond, plaats je een label op de x- en y-as m.b.v. de functies `xlabel()` en `ylabel` van pyplot.<br>
Geef de grafiek ook de titel 'Spreidingsdiagram' en indien je ze een beetje klein vindt, kan je uiteraard ook altijd het argument `figsize=(a,b)` gebruiken om de grafiek groter te maken.<br><br>
Vul de code aan en voer ze uit.

In [None]:
# oefening

plt.figure()                                       # creëer tekenvenster

plt.axis(xmin=25, xmax=120, ymin=..., ymax=...)    # vensterinstellingen
plt.xticks(np.arange(0, 120, step=10))
plt.yticks(np.arange(..., ..., step=10))

plt.scatter(x, y)                                  # plot punten

...                                                # titel en labels

plt.show()                                         # toon grafiek

In [None]:
# oplossing

Let erop dat alle punten er goed op staan! Kijk zeker eens het laatste punt (113, 100) na!<br><br>

<div style='color: #690027;' markdown="1">
    <h2>3. Praktisch</h2> 
</div>

Wanneer je een bestand inleest en omzet naar een lijst, zal je uiteraard niet alle stappen apart uitvoeren! Wanneer je zelf aan de slag gaat, zal je code er eerder als volgt uit zien:

In [None]:
# data uit bestand inlezen en omzetten naar NumPy-lijsten

csv = pd.read_csv("data\csv.dat")                         # inlezen van tabel, je kan zelf de naam kiezen!

x = csv["x"]                                         # 2e kolom een naam geven m.b.v. de sleutel x (hoofding van de kolom)
y = csv["y"]                                         # 3e kolom een naam geven m.b.v. de sleutel y

x = np.array(x)                                      # NumPy-lijst aanmaken met de gewenste data
y = np.array(y)

print(x)                                             # NumPy-lijst weergeven
print(y)

<div class="alert alert-block alert-info"> 
    Als er hierbij iets verkeerd loopt, kan je de code altijd terug opsplitsen en stapsgewijs het proces nakijken! <br>
    Je past dus opnieuw <b>decompositie</b> toe. Ook het efficiënt opsporen van fouten is een concept van computationeel denken: <b>debuggen</b>. <br>   
<img src="images/schemadatainlezen.png" alt="Banner" align="center" style="width:250px;"/>
</div>

<div class="alert alert-block alert-info"> 
    Data inlezen vanuit een bestand en visualiseren verloopt dus als volgt:<br>
    <img src="images/dataenvisualisatie.png" alt="Banner" align="center" style="width:700px;"/><br>
Merk op dat 'gegevens invoeren' en 'gegevens visualiseren' zelf ook stappen van het algoritme omvatten. Hier pas je het concept <b>abstractie</b> van computationeel denken toe. Een groep van instructies, een deelalgoritme, wordt samengebracht.<br>
Bij het visualiseren zal je regelmatig moeten debuggen, bv. het bereik van de assen aanpassen.<br><br>
    Toegepaste <b>concepten van computationeel denken</b>:<br> 
- Decompositie<br>
- Patroonherkenning<br>
- Algoritme<br>
- Debuggen<br>
- Abstractie
</div>

<div class="alert alert-box alert-warning">
Als je denkt dat je dit alles onder de knie hebt, probeer dan nu eens 'echte' data te plotten in de volgende notebook <em>'Toepassing spreidingsdiagram: treinstations'</em>.
 </div>

<img src="images/cclic.png" alt="Banner" align="left" style="width:100px;"/><br><br>
Notebook Python in wiskunde, zie Computationeel denken - Programmeren in Python van <a href="http://www.aiopschool.be">AI Op School</a>, van F. wyffels, B. Van de Velde & N. Gesquière in licentie gegeven volgens een <a href="http://creativecommons.org/licenses/by-nc-sa/4.0/">Creative Commons Naamsvermelding-NietCommercieel-GelijkDelen 4.0 Internationaal-licentie</a>. 