# Data les 1 - numpy, beschrijvende statistiek en boxplots

Notebook bij les 1 van de leerlijn data van S3 - AI. 

© Auteur: Rianne van Os

**Voorbereiding voor les 1:**
- Lees de theorie in dit notebook en maak de opdrachten uit dit notebook t/m het kopje **Elementen selecteren**, dat is t/m **Opdracht 3.1**

Dit notebook bevat theorie en oefenopdrachten voor de leerlijn data van het Data Science semester van AI. Binnen deze leerlijn leer je alle databewerkingen die je nodig hebt om een goede data science pipeline te maken. Ook behandelen we relevante beschrijvende statistiek en datavisualisatie. Dit alles kun je gebruiken in de *Data Understanding* en de *Data preparation* stappen van CRISP-DM. Aan het eind van deze lessenreeks kun je het portfolio item *Airbnb dashboard* inleveren.

In deze eerste les gaan jullie kennismaken met de python library numpy. Numpy staat voor *numerical python* en deze library is geoptimaliseerd om met data om te kunnen gaan. Deze library bevat een array-object. Hierin kun je data opslaan en je kunt bewerkingen uitvoeren op de data in de array. In onderstaande opdrachten laten we je kennismaken met dit object en zul je zelf gaan ervaren dat berekeningen hiermee veel efficiënter zijn dan met, bijvoorbeeld, een python list. 

Het is een beetje droge stof, maar het helpt je later in de toepassing als je weet wat er mogelijk is met numpy. We behandelen uiteraard niet alles wat numpy kan, gebruik de documentatie, google of een LLM als je dingen met arrays wilt doen die we hier nog niet hebben laten zien.

We gaan deze les ook een begin maken met beschrijvende statistiek. We herhalen centrum- en spreidingsmaten en introduceren de boxplot. Je gaat ook zien hoe je numpy kunt gebruiken om deze maten te berekenen.

Om te starten met numpy moeten we de library eerst importeren. Het is gebruikelijk om dit te doen `as np`.

In [None]:
# import library
import numpy as np

## Arrays aanmaken

We bekijken verschillende manieren om 1-dimensionale arrays te maken.

In [None]:
# aanmaken van een array vanuit een python list
arr = np.array([1,4,2,5,3])
arr

In [None]:
# aanmaken van een array vanuit een range definitie
range_array = np.arange(0,20)  # van 0 tot 20 (exclusief)
range_array

In [None]:
# of met stappen van 2
range_array2 = np.arange(0,20,2)  # van 0 tot 20 (exclusief) met stappen van 2
range_array2

In [None]:
# een array met enkel nullen
array_with_zeros = np.zeros(10)
array_with_zeros

In [None]:
#een array met enkel enen
array_with_ones = np.ones(10)
array_with_ones

In [None]:
# een array met random getallen tussen 0 en 1 (zie: https://numpy.org/doc/stable/reference/random/generated/numpy.random.rand.html)
random_float_array = np.random.rand(10)
random_float_array

In [None]:
#een array met random getallen tussen 0 en 100 (zie: https://numpy.org/doc/stable/reference/random/generated/numpy.random.randint.html)
random_int_array = np.random.randint(0,100,10)
random_int_array

Hierboven zagen we het gebruik van `np.arange` om een array te maken met een getallen met een vast interval. Arange werkt goed met gehele getallen (integers), maar wil je komma-getallen (floats), dan kun je beter gebruiken maken van `np.linspace`. Dit geeft een aantal getallen terug op een gegeven interval, waarbij de afstand tussen de getallen even groot is. (zie: https://numpy.org/doc/stable/reference/generated/numpy.linspace.html). Dit ga je later bij maken van visualisatie gebruiken, bijvoorbeeld om $x$-waarden te genereren om een functie $f(x)$ te plotten.

In [None]:
array_linspace= np.linspace(0,1,11) # 11 getallen van 0 t/m 1
array_linspace

#Voor de leesbaarheid kun je ook de namen van de parameters meegeven, dan ziet het er zo uit:
array_linspace = np.linspace(start=0, stop=1, num=11)
array_linspace

## Berekeningen uitvoeren met numpy arrays
Vervolgens kunnen we wiskundige berekeningen uitvoeren op deze numpy arrays:

In [None]:
#Vermenigvuldig alle elementen uit range_array met 3
range_array*3

Merk op, hier wordt een nieuwe array aangemaakt, `range_array` is onverandert.

In [None]:
# we kunnen arrays van elkaar aftrekken:
random_float_array - array_with_ones

In [None]:
#Of bij ieder element een vaste waarde optellen
range_array + 5

In [None]:
#Of andere wiskundige berekeningen uitvoeren (bijvoorbeeld de wortel trekken), dit gaat allemaal element-wise:
np.sqrt(range_array)

### Data opdracht 1.1
1. Maak een numpy array aan met de getallen van 0 tot 100 (exclusief) met stappen van 5.
2. Tel 10 op bij alle elementen van de array uit 1.
3. Maak een numpy array aan met 5 random getallen tussen 0 en 1.
4. Maak een numpy array aan met 20 random gehele getallen tussen 1 en 50. Bedenk goed wat de parameters moeten zijn, als je 1 en 50 wel of niet mee wilt nemen. 
5. Maak een numpy array aan met 100 nullen.
6. Maak een numpy array aan met 50 getallen tussen 0 en 5, waarbij het interval tussen alle getallen gelijk is. Bedenk goed wat de parameters moeten zijn, als je 0 en 5 zelf of niet mee wilt nemen. 
7. Vermenigvuldig alle getallen uit de vorige array met 3.
8. Trek de array uit 6. af van de array uit 7.

In [None]:
# 1
my_array = np.arange(0, 100, 5)
my_array

In [None]:
# 2
my_array + 10

In [None]:
# 3
my_random_array = np.random.rand(5)
my_random_array

In [None]:
# 4
my_random_ints_array = np.random.randint(2, 50, 20) # TUSSEN 1 en 50 --> 2 t/m 49
my_random_ints_array

In [None]:
# 5
my_zero_array = np.zeros(100)
my_zero_array

In [None]:
# 6
my_linspace_array = np.linspace(0, 5, 50, endpoint=False)
my_linspace_array # het beginpunt (0) wordt altijd meegenomen, het eindpunt kan optioneel worden weggelaten met endpoint=False

In [None]:
# 7
my_new_linspace_array = my_linspace_array * 3
my_new_linspace_array

In [None]:
# 8
my_final_array = my_new_linspace_array - my_linspace_array
my_final_array

## Meerdimensionale arrays
We hebben in de voorbeelden hierboven arrays van 1 dimensie gemaakt. Maar we kunnen ook arrays van meerdere dimensies maken.

In [None]:
#Een 2-dimensionale array. Deze array heeft 3 rijen en 3 kolommen.
twee_dim_array = np.array([[1,2,3],[4,5,6],[7,8,9]])
twee_dim_array

In [None]:
# Een 2-dimensional array met enkel nullen, met 2 rijen en 3 kolommen
twee_dim_array_met_zeros = np.zeros((2,3))
twee_dim_array_met_zeros

In [None]:
#Een 2-dimensional array met random getallen tussen 0 en 1, met 5 rijen en 2 kolommen
twee_dim_array_random = np.random.rand(5,2)
twee_dim_array_random

Je kunt de dimensie van arrays zo hoog maken als je wilt, al zul je in dit semester meestal genoeg hebben aan 2 dimensies. Hieronder een voorbeeld met 3 dimensies.

In [None]:
#Een 3-dimensionale array. Deze array heeft 2 lagen, 3 rijen en 4 kolommen.
drie_dim_array = np.array([[[1,2,3,4],[5,6,7,8],[9,10,11,12]],[[13,14,15,16],[17,18,19,20],[21,22,23,24]]])
drie_dim_array

## Attributen van een array
Een array heeft verschillende attributen, waarvan de belangrijkste zijn: `shape`, `size` en `dtype`. Hieronder zie je hoe je deze attributen kunt opvragen. (Extra: lees hier meer over numpy dtypes: https://www.geeksforgeeks.org/numpy-data-types/)

In [None]:
#Een voorbeeld:
print('De dimensies van np11 zijn: {}'.format(twee_dim_array.shape))
print('Het type van de elementen in np11 is: {}'.format(twee_dim_array.dtype))
print('Heta aantal elementen in np11 is: {}'.format(twee_dim_array.size))

### Data opdracht 1.2
1. Maak een 2-dimensionale array met 15 random getallen tussen 0 en 100, met shape (3,5). Print de shape, het datatype en het aantal elementen van deze array.
2. Maak een 2-dimensionale array met 10 nullen, verdeeld over 2 rijen en 5 kolommen. Print de shape, het datatype en het aantal elementen van deze array.
3. Maak een 2-dimensionale array met 3 rijen en 20 kolommen. De eerste rij bevat het interval van 1 t/m 2, in 20 stappen. De tweede rij bevat het interval 2 t/m 3, in 20 stappen, en de derde rij bevat het interval 3 t/m 4, in 20 stappen. Print de shape, het datatype en het aantal elementen van deze array. Je zou hier gebruik kunnen maken van de functie `.reshape(..)`, zie: https://numpy.org/doc/stable/reference/generated/numpy.reshape.html
4. Maak een array met alleen maar nullen, met dezelfde dimensies als de array uit 3. Maak daarbij gebruik van `np.zeros_like(..)` (zie: https://numpy.org/doc/2.2/reference/generated/numpy.zeros_like.html)

## Elementen selecteren

Net als bij een python list kun je delen van een array selecteren, met behulp van de index, slices of boolean masks. Hieronder een paar voorbeelden:

In [None]:
arr2 = np.arange(10,100,10)
arr2

In [None]:
# Selecteren met individuele indices
print("Element met index 3: ", arr2[3]) 
print("Laatste element: ", arr2[-1])   

In [None]:
# Selecteren met slices [begin:eind] of [begin:eind:stapgrootte]
print("Elementen met index 2 tot 6 (exclusief):", arr2[2:6])  
print("Elementen vanaf index 5:", arr2[5:])
print("Elementen tot index 4 (exclusief):", arr2[:4])  
print("Om de twee elementen:", arr2[::2]) 
print("Array in omgekeerde volgorde:", arr2[::-1])

In [None]:
# Selecteren met boolean masks
mask = arr2 > 50 
print("Boolean mask (np13 > 50):", mask) 
print("Elementen waar np13 > 50:", arr2[mask])

# Of direct met de conditie als index
print("Elementen deelbaar door 20:", arr2[arr2 % 20 == 0])

Heb je nooit eerder gebruik gemaakt van een boolean mask? Zie dan bijvoorbeeld deze blog voor meer uitleg: https://www.programiz.com/python-programming/numpy/boolean-indexing. Ook zullen we hier in het college op in gaan.

Je kunt deze selecties ook gebruiken om de waarde van elementen aan te passen:

In [None]:
#maak de eerste 5 elementen 0
arr2[:5] = 0
arr2

Voor een 2D array werkt het soortgelijk:

In [None]:
#Creeër een 2D array:
arr3 = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr3)

In [None]:
#selecties uit een 2D array:
print("Element op rij 1, kolom 2:", arr3[1, 2])  
print("Gehele tweede rij:", arr3[1,:]) 
print("Gehele derde kolom:", arr3[:, 2])
print("Eerste 2 rijen, laatste 2 kolommen:\n", arr3[:2, -2:])

# Maak 0 van het element in de eerste rij en eerste kolom:
arr3[0,0] = 0
print("Het element op met index [0,0] is aangepast:\n", arr3)

### Data opdracht 1.3

De blokcoördinator D.O. Cent van blok A  wil graag de cijfers analyseren en verwerken. Het blok bestaat uit 3 vakken, die door 10 studenten gevolgd zijn. Analyse omvat o.a. het bepalen van gemiddelde cijfer, het aantal voldoendes en cursusrendement. De verwerking bestaat uit het corrigeren van de cijfers.

In `blokAcijfers.txt` staan de cijfers per vak (naast elkaar staan de vakken, onder elkaar de studenten):

vak1 | vak2 | vak3
----|-------|------
6.5 | 7.3   | 6.4
8.0 | 8.0	| 8.5
3.2	| 4.0	| 5.0
7.9	| 7.1	| 3.5
7.3	| 7.8	| 8.0
8.6	| 8.0	| 9.0
4.0	| 6.0	| 5.5
7.3	| 7.8	| 7.8
4.5	| 5.6	| 7.7
5.0	| 7.0	| 7.2


1. Lees het bestand `blokAcijfers.txt` in als een numpy array genaamd cijfers. Zie hier hoe dat moet (https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html). Toon de array, de dimensie van de array, het datatype van de elementen en het totaal aantal elementen in de array.
2. Maak een numpy array genaamd student2 aan die alle cijfers bevat van de 2e student.
3. Maak een numpy array genaamd vak1 aan die alle cijfers bevat van vak1.
4. De docent ziet dat er 2 cijfers fout zijn en wil deze corrigeren
    -	Wijzig de volgende cijfers:
        *	vak-2, student-3  cijfer 4.0 moet 4.3 worden.
        *	vak-1, student-10, cijfer 5.0 moet 4.8 worden.
5. Er is een fout gemaakt bij de cijfers van het 1e vak. Iedere student krijgt 0.5 punt extra erbij.
    -	Vul een ‘ophoogarray’ bestaande uit 3 kolommen en elk 10 rijen en vul deze eerst met 0.0 en daarna de eerste rij met de waarden 0.5.
    -	Tel de ophoogarray op bij de cijfer array.
6. De docent wil een lijstje waarin hij in één opslag ziet waar een voldoende (`True`) en waar een onvoldoende (`False`) staat.  
    -	Maakt dit lijstje.

## Centrum- en spreidingsmaten en de boxplot

In vorige semesters heb je al verschillende maten geleerd om data te beschrijven. Namelijk centummaten (*measures of central tendency*) en spreidingsmaten (*measures of dispersion*). We breiden die kennis nu uit met wat extra maten en je gaat uitzoeken hoe je deze maten met numpy kunt berekenen. 

Alle centrum- en spreidingsmaten die je moet kennen worden uitgelegd in dit blog: https://blog.bijleshuis.be/statistiek-centrummaten-spreidingsmaten. Ook wordt er laten zien hoe je een boxplot moet maken. Lees dit en bekijk de voorbeelden. Merk op: de **variatiecoëffient** hoef je niet te kennen.)




In dit blog wordt in de boxplot de minimum- en de maximumwaarde weergegeven in de *whiskers* (dit zijn de streepjes ). Vaak wordt in plaats van deze waarden, een andere satistiek weergegeven. Hiervoor bereken je eerst de *inter quartile range*. Dit is het verschil tussen $Q_3$ en $Q_1$, dus $IQR = Q_3 - Q_1$.

In plaats van het minimum wordt dan als ondergrens $Q1 - 1.5 \cdot IQR$ weergegeven, tenzij dit kleiner is dan het minimum, dan toon je gewoon het minimum.
In plaats van het maximum wordt de bovengrens $Q3 + 1.5 \cdot IQR$ weergegeven, tenzij deze waarde groter is dan het maximum, ook dan toon je gewoon het maximum.

De waarden die buiten $Q1 - 1.5 \cdot IQR$ en  $Q3 + 1.5 \cdot IQR$ vallen worden ook wel *outliers* genoemd. In de boxplot geef je deze waarden dan als stippen neer.

### Data opdracht 1.4
We bekijken opnieuw de (afgeronde) cijfers van vak1 uit de vorige opdracht. Dit zijn [7,8,3,8,7,9,4,7,5,5].

1. Bepaal handmatig:
    - Gemiddelde
    - Modus
    - Mediaan
    - Variantie
    - Standaard deviatie
2. Maak een numpy array met deze cijfers en bereken bovenstaande maten met behulp van numpy. Zoek zelf in de documentatie (of op google of een LLM) welke numpy functionaliteit je daarvoor moet gebruiken. Merk op: de modus is lastig te bepalen met numpy. Hiervoor kun je gebruik maken van het `scipy` library. Dit is een library met veel statistische functies. (zie: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mode.html) Om dit te kunnen gebruiken moet je SciPy eerst installeren en importeren.
3. Teken (met pen en papier) een boxplot van de afgeronde cijfers van vak1 en vak2. Teken de boxplots op zo'n manier naast elkaar dat je goed de cijfers van de vakken met elkaar kunt vergelijken.
4. Gebruik `np.percentile()` om te controleren of je de juiste getallen hebt gebruikt in je boxplot (zie: https://numpy.org/doc/stable/reference/generated/numpy.percentile.html )

## Statistieken in een 2D array
In de vorige opdracht heb je uitgezocht welke numpy functionaliteit je kunt gebruiken om bepaalde statistieken uit te rekenen. Dit heb je in de opdracht toegepast op een 1-dimenionsale array. Als je dit op een 2-dimensionale array toepast, kun je kiezen of je de statistieken uit wilt rekenen over alle elementen uit de array, of je de statistiek per rij of per kolom wilt weten. Voor het uitrekenen per rij of per kolom moet je de `axis` parameter gebruiken. Een voorbeeld:

In [None]:
#Maak een array met 20 cijfers
np15 = np.arange(0,20)
# We gebruiken reshape om hier een 2D-array van te maken met shape (4,5)
np15 = np15.reshape(4,5)
np15

Roepen we nu `np.mean` aan op deze array, dan krijgen we het gemiddelde van alle getallen:

In [None]:
np.mean(np15)

Maar we kunnen ook het gemiddelde per rij berekenen. We hebben 4 rijen, dus dan krijgen we 4 getallen terug. Hiervoor gebruiken we de paramter `axis = 1`.

In [None]:
np.mean(np15, axis = 1)

Het gemiddelde per kolom is ook mogelijk, met `axis = 0`:

In [None]:
np.mean(np15, axis = 0)

### Data opdracht 1.5

We bekijken opnieuw de cijfers uit `blokAcijfers.txt`. 

1. Bepaal minimum, maximum en gemiddelde van alle cijfers.
2. Bepaal minimum, maximum en gemiddelde van elk vak (3 getallen).
3. Bepaal minimum, maximum en gemiddelde van elke student (10 getallen).
4. De docent wil graag zien wat de cijfers zijn als ze afgerond worden op hele getallen.
    -	Kopieer de array naar een nieuwe array.
    -	Rond de waarden af. (Zoek zelf naar de juiste functie hiervoor.)
    -	Laat de resultaten zien.

## Efficiëntie van numpy-arrays

We hebben hierboven al genoemd dat numpy arrays veel efficienter zijn dan python lists. Lees dit blog om erachter te komen waarom. Vooral het stuk onder het kopje **Comparison between Numpy array and Python List** is relevant. https://www.geeksforgeeks.org/python-lists-vs-numpy-arrays/

### Data opdracht 1.6

In deze opdracht ga je zelf de verschillen tussen python lists en numpy arrays onderzoeken.

1. Maak een list `lst` met 1.000.001 willekeurige getallen tussen 0 en 10 (gebruik `random.randint(0, 10)`)
2. Bepaal de mediaan
3. Maak een list met daarin het kwadraat van elk element in `lst`
4. Maak een list met daarin alleen alle even getallen uit `lst`
5. Maak een tweede list `lst2` met 1.000.001 willekeurige getallen
6. Maak een list met daarin de som van de elementen uit `lst` en `lst2`, dus:
    - `lst_samen[0] = lst[0] + lst2[0]`,
    - `lst_samen[1] = lst[1] + lst2[1]`,
    - etc.

7. Doe bovenstaande ook met Numpy
Gebruik `%timeit` voor je code om de snelheid te vergelijken

## Andere handige numpy functionaliteit
Hieronder nog een paar voorbeelden van andere handige numpy-functionaliteit die je later misschien nodig gaat hebben:

- `np.reshape`: verandert de shape van een array
- `np.concatenate`: voegt arrays samen
- `np.sort`: sorteert een array
- `np.unique`: geeft unieke waarden in een array