# Introductie numPy

**Onderwerpen**

1. [Wat is `numPy`?](#numpy_intro)
2. [bruikbare bronnen en studiemateriaal](#bronnen)
3. [`numPy` oefeningen](#numpy_oefeningen)
4. [`numPy` opdrachten](#numpy_exercises)

**Aanbevolen bronmateriaal**:
__[VanderPlas](http://github.com/jakevdp/PythonDataScienceHandbook)__ Python Data Science Handbook, O'Reilly, November 2016, __[Introduction Numpy](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.00-Introduction-to-NumPy.ipynb)__

Materiaal bijgewerkt 7 november 2019.

-----------

## 1. Wat is numPy?<a id="numpy_intro"></a>

<strong>NumPy</strong>, is een afkorting van <strong>NUM</strong>eric <strong>PY</strong>thon, en een library waarmee in-memory data ten opzichte van de standaard Python, effectief ingeladen, bewaard en gemanipuleerd (lees: mee gerekend) kan worden. 

De library bevat vele wiskundige bewerkingen uit de lineaire algebra, random getallen, fourier transformaties en andere wetenschappelijke formules. 

De belangrijkste datastructuur is een **N-dimensional array object**, genaamd `nparray`, een array waarvan de elemenen allemaal van hetzelfde data-type zijn. Dit maakt de opslag in geheugen, voor een programmeertaal als Python, erg efficient.


In [None]:
# version number of numpy module
import numpy as np
np.__version__

In een programmeertaal als bijvoorbeeld C, is een geheel getal (`int`) in wezen een label voor een positie in het geheugen waarvan de bytes voor het getal is opgeslagen. Een geheel getal (`int`) in Python is een verwijzing naar een positie in het geheugen die alle Python-objectinformatie bevat, inclusief de bytes die de gehele waarde bevatten (figuur 1).

**Figuur 1** ![Figuur 1](images/cint_vs_pyint.png)

In Python is een `list` een lijst van objecten inclusief de objectinformatie.

In [None]:
# Python list
L = list(range(10))
print('L:', L)
[type(L[i]) for i in L] # data-typ of list-elements

Een `list` kan verschillende data-type bevatten, zoals in volgend code-snippet:

In [None]:
# Python lists contain different data-types
L3 = [True, "2", 3.14, 4]
[type(item) for item in L3]

Maar deze flexibiliteit brengt kosten met zich mee: om deze flexibele typen toe te staan, is elk element een compleet Python-object. Het kan veel efficiënter zijn om de gegevens in een lijst van het vaste-type op te slaan en dat is precies wat een numpy-array is (figuur 3).

**Figuur 2** ![Figuur 2](images/array_vs_list.png)

Een numPy-array definieer je als volgt:

In [None]:
# create a numpy-array
import numpy as np
np.array(range(10))

Gegevensbewerkingen in Python is bijna synoniem aan NumPy-array bewerkingen: zelfs tools zoals panda's zijn gebouwd rond de NumPy-array.

#### Basis bewerkingen op numPy's arrays. 

Tip: Leer ze goed kennen!

- **Attributen van arrays**: methoden ter bepaling van de grootte, vorm, geheugenconsumptie en gegevenstypen van arrays.

- **Indexering van arrays**: methoden om de waarde van afzonderlijke arrayelementen op te halen en in te stellen.

- **Slicing van arrays** (array in segmenten splitsen): methoden om kleinere subarrays binnen een grotere array te verkrijgen en in te stellen.

- **Reshaping (hervormen) van arrays**: methoden om de vorm van een gegeven array te wijzigen.

- **Joining en splitting van arrays**: methoden voor het combineren van meerdere arrays tot één array en het splitsen van één array in vele arrays.


#### Oefeningen
Je leert numpy-methoden kennen door de studiestof te bestuderen uit [VanderPlas]: __[The basics of Numpy Arrays](https://github.com/jakevdp/PythonDataScienceHandbook/blob/be23269c7eb119e093a6d5ce91e464f5e686d9ab/notebooks/02.02-The-Basics-Of-NumPy-Arrays.ipynb)__  en onderstaande NumPy oefeningen uit te voeren.

-----------

## 2. Bruikbare bronnen en studiemateriaal<a id="bronnen"></a>

1. De officiele documentatie van __[Numpy](http://www.numpy.org)__
2. __[scipy-lectures.org](http://www.scipy-lectures.org/intro/numpy/index.html)__ — met tutorials over pandas, numpy, matplotlib en scikit-learn

-----------

## 3. NumPy oefeningen <a id="numpy_oefeningen"></a>


### Oefening 1
Gegeven Python code snippets - zie volgende cell:

1. Maak bovenstaande code werkend.
2. Beschrijf in één regel per variabele, wat `x1`, `x2` en `x3` produceren.
3. Print van de variabelen `x1`, `x2` en `x3`: de dimensie (`ndim`), de dimensie's (`shape`) en de totale grootte (`size`).
4. Wat is het data-type van de variabelen `x1`, `x2` en `x3`?

In [None]:
np.random.seed(0) # seed for reproducibility

x1 = np.random.randint(10, size=6)  
x2 = np.random.randint(10, size=(3, 4))  
x3 = np.random.randint(10, size=(3, 4, 5)) 

# Jouw antwoord Oefening 1


In [None]:
# Voorbeeld antwoord 1

import numpy as np
np.random.seed(0)  # seed for reproducibility

x1 = np.random.randint(10, size=6)  # 2: One-dimensional array
x2 = np.random.randint(10, size=(3, 4))  # 2: Two-dimensional array
x3 = np.random.randint(10, size=(3, 4, 5))  # 2: Three-dimensional array

# 3.
print("x1 ndim: ", x1.ndim)
print("x1 shape:", x1.shape)
print("x1 size: ", x1.size)

print("x2 ndim: ", x2.ndim)
print("x2 shape:", x2.shape)
print("x2 size: ", x2.size)

print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

#4
print("dtype:", x1.dtype)
print("dtype:", x2.dtype)
print("dtype:", x3.dtype)

### Oefening 2

1. Maak een NumPy-array van de Python list `[1,4,2,5,3]`.
2. Maak een NumPy-array van de volgende gebroken getallen: 3.14, 7.28, 3, 4.
3. Wat valt je op bij resultaat 2?

In [None]:
# Jouw antwoord Oefening 2

In [None]:
# Voorbeeld antwoord 2
# 1
import numpy as np
np.array([1, 4, 2, 5, 3])


In [None]:
# 2 
np.array([3.14, 7.28, 3, 4])


2.3: Wat opvalt is dat de gehele getalen 3 en 4 zijn ge-upcast naar een gebroken getal. Denk eraan, NumPy-arrays bevatten getallen van hetzelfde data-type.

### Oefening 3

1. Wat is de Python code om de volgende multi-dimensionale (3x3) NumPy-array te produceren?

> `Output[]: array([[2, 3, 4],
                 [4, 5, 6],
                 [6, 7, 8]])`

2. Wat is de Python code om een 3x3 array van random-getallen in het interval [0,10] te produceren? Voorbeeld van een resultaat:</li>

> `Output[]: array([[4, 3, 4],
                 [4, 8, 4],
                 [3, 7, 5]])`


In [None]:
# Jouw antwoord Oefening 3

In [None]:
# Voorbeeld antwoord Oefening 3.1
import numpy as np

# nested lists result in multidimensional arrays
np.array([range(i, i + 3) for i in [2, 4, 6]])


In [None]:
# Voorbeeld antwoord Oefening 3.2
import numpy as np

# Create a 3x3 array of random integers in the interval [0, 10)
np.random.randint(0, 10, (3, 3))


### Oefening 4
Gegeven de NumPy arrays `x1` en `x2`:

> `x1 = np.random.randint(10, size=6)  # One-dimensional array`<br>
`x2 = np.random.randint(10, size=(3,4))  # Two-dimensional array`

1. Print het 1ste getal uit `x1`.
2. Print het 5de getal uit `x1`.
3. Print het voorlaatste getal uit `x1`.
4. Print getal uit `x2` op rij 3, kolom 1.
5. Verander getal in `x2` op rij 1 en kolom 1 naar 12.
6. Wat levert de volgende Python code op: `x1[0] = 3.14159`?

In [None]:
x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3,4))  # Two-dimensional array

# Jouw antwoord Oefening 4


In [None]:
# Voorbeeld antwoord Oefening 4
import numpy as np
x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3,4))  # Two-dimensional array

print('x1:', x1)
print('x2:', x2)

print (x1[0]) #1, 0-indexed array!
print (x1[4]) #2
print(x1[-2]) #3

print(x2[2,0]) #4
x2[0,0] = 12 #5
print('\n x2:', x2)

x1[0] = 3.14159 #6
print('\n x1:', x1)

### Oefening 5

1. Maak een 1-dimensionale NumPy-array gevuld met de getallen 0 t/m 10.
2. Print de eerste 5 elementen.
3. Print de elementen vanaf index 5.
4. Print om elk ander element vanaf het begin (**in dit geval** alleen de even getallen).
5. Print om elk ander element vanaf het 1ste element (**in dit geval** alleen de oneven getallen).
6. Print de array in omgekeerde (*reversed*) volgorde.

In [None]:
# Jouw antwoord Oefening 5

In [None]:
# Voorbeeld antwoord Oefening 5
import numpy as np
x = np.arange(10) #1
print("1: ", x)

print("2: ", x[:5]) #2
print("3: ", x[5:]) #3
print("4: ", x[::2]) #4
print("5: ", x[1::2]) #5

print("6: ", x[::-1]) #6

### Oefening 6
Gegeven 2-dimensionale NumPy-array `x2 = np.random.randint(10, size=(3, 4))`.

Een veel voorkomende bewerking is het opvragen van een enkele rij of kolom van een array.
1. Print de 1ste kolom van `x2`.
2. Print de 2de rij van `x2`.

In [None]:
x2 = np.random.randint(10, size=(3, 4))

# Jouw antwoord Oefening 6


In [None]:
# Voorbeeld antwoord Oefening 6
#import nump as np
x2 = np.random.randint(10, size=(3, 4))

print (x2) # print x2 for convenience
print("first column: ", x2[:, 0])  #1
print("x2[1,:] - 2nd row: ", x2[1,:])  #2
print("x2[1] - same result: ", x2[1])  #2 - compact syntax

### Oefening 7

1. Maak variabele `x` van NumPy-array met de getallen 1, 2 en 3.
2. Maak variabele `y` van NumPy-array met de getallen 3, 2 en 1.
3. Voeg beide arrays samen in één NumPy-array, zodat je resultaat krijgt `[1 2 3 3 2 1]`.
4. Maak NumPy-array met getallen 99, 99 en 99 (variabele `z`).
5. Voeg samen `x`, `y` en `z` in één NumPy-array.
6. Maak een 2-dimensionale NumPy-array, genaamd `grid`, en vul het met getallen 1 t/m 6.
7. Voeg twee grid's samen langs de 1ste as (kolom 1) (0-indexed) tot een nieuwe NumPy-array.
8. Voeg twee grid's samen langs de 2de as (rij 1) (0-indexed) tot een nieuwe NumPy-array.


In [None]:
# Jouw antwoord Oefening 7


In [None]:
# Voorbeeld antwoord Oefening 7
x = np.array([1, 2, 3]) #1
print("1: x:", x) #1
y = np.array([3, 2, 1]) #2
print("2: y:", y) #1

print("3:", np.concatenate([x, y]) ) #3

z = np.array([99, 99, 99]) #4
print("4: z:", z) #4

print( "5: ", np.concatenate([x, y, z]) ) #5

grid = np.array([[1, 2, 3],
                 [4, 5, 6]]) #6
print("6:\n", grid)

#7 concatenate along the first axis (vertical, zero-indexed)
print("7:\n", np.concatenate([grid, grid]))
#8 concatenate along the second axis (horizontal, zero-indexed)
print( "8:\n", np.concatenate([grid, grid], axis=1)) 

### Oefening 8
Gegeven `x = [1, 2, 3, 99, 99, 3, 2, 1]`.

De NumPy-array kent een methode `split()`.
1. Maak code dat de array `x` splitst in 3 delen, op de indices 3 en 5. 
> Resultaat zijn 3 variabelen, `x1`, `x2` en `x3` met respectievelijk de waarden `[1 2 3]`, `[99 99]` en `[3 2 1]`.


In [None]:
x = [1, 2, 3, 99, 99, 3, 2, 1]

# Jouw antwoord Oefening 8


In [None]:
# Voorbeeld antwoord Oefening 8
# import numpy as np
x = [1, 2, 3, 99, 99, 3, 2, 1] 
x1, x2, x3 = np.split(x, [3, 5]) #1
print(x1, x2, x3)

### Oefening 9
We gaan wat Python code benchmarken, met de de *magic* `%timeit`.

**Gegeven**: `functie compute_reciprocals(values)` (zie volgende cell).

1. Maak een 1-dimensionale NumPy-array met de naam `small_array`, met `size=5` en vul dat met random getallen.

2. Bereken de reciproke-waarden (1/getal) van de array `small_array` met de gegeven functie `compute_reciprocals()` en toon resultaat.

3. Maak een 1-dimensionale NumPy-array met de naam `big_array`, met `size=1000000` en vul dat met random getallen.

4. *Time* de uitvoering van `computer_reciprocal(big_array)` met `%timeit`. Let op: het duurt nu veel langer, maar de computer hangt niet (plm. 2.64 s per loop)!

5. *Time* nu de code `(1.0 / big_array)` met `%timeit`. Dit is nu veel sneller (plm. 4.54 ms per loop)! Gevolg van de gevectoriseerde uitvoering van numpy-arrays. Zie uitleg.


In [None]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

# Jouw antwoord Oefening 9

In [None]:
# Voorbeeld antwoord Oefening 9

# example small array
small_array = np.random.randint(1, 10, size=5) #1
print( compute_reciprocals(small_array) ) #2


In [None]:
# example big array
# It takes several seconds to compute these million operations and to store the result!
big_array = np.random.randint(1, 100, size=1000000) #3
%timeit compute_reciprocals(big_array) #4


In [None]:
 %timeit (1.0 / big_array) #5

In [None]:
# zelfde resultaten, maar 2de methode gaat via de *ufuncs* (manier waarop NumPy is gemaakt).
print(compute_reciprocals(values))
print(1.0 / values)

<h4>Uitleg resultaat 5</h4>
Voor veel soorten bewerkingen biedt NumPy een handige interface in alleen dit soort statisch getypeerde, gecompileerde routine. Dit staat bekend als een * vectorized * -bewerking.
Dit kan worden bereikt door eenvoudigweg een bewerking uit te voeren op de array, die vervolgens op elk element wordt toegepast. 
Deze gevectoriseerde benadering is ontworpen om de iteratie in de gecompileerde laag te duwen die ten grondslag ligt aan NumPy, en dat leidt tot een veel snellere uitvoering.

Gevectoriseerde bewerkingen in NumPy worden geïmplementeerd via __ufuncs__, waarvan het hoofddoel is om snel herhaalde bewerkingen uit te voeren op waarden in NumPy-arrays.
__Ufuncs__ zijn extreem flexibel - zoals je al zag bij de bewerking tussen een scalar en een array, maar je kunt ook met twee arrays werken, zoals in volgende code-snippet: <code>  np.arange (5) / np.arange (1, 6) </code>

Zie verder __[VanderPlas](http://github.com/jakevdp/PythonDataScienceHandbook)__ Python Data Science Handbook, O'Reilly, November 2016, __[Computation on NumPy Arrays: Universal Functions](https://github.com/jakevdp/PythonDataScienceHandbook/blob/be23269c7eb119e093a6d5ce91e464f5e686d9ab/notebooks/02.03-Computation-on-arrays-ufuncs.ipynb)__

Zie verder __[VanderPlas](http://github.com/jakevdp/PythonDataScienceHandbook)__ Python Data Science Handbook, O'Reilly, November 2016, __[Computation on NumPy Arrays: Universal Functions](https://github.com/jakevdp/PythonDataScienceHandbook/blob/be23269c7eb119e093a6d5ce91e464f5e686d9ab/notebooks/02.03-Computation-on-arrays-ufuncs.ipynb)__

In [None]:
np.arange (5) / np.arange (1, 6)

-----------

## 4. NumPy opdrachten <a id="numpy_exercises"></a>


### Opdracht 1
**Gegeven** de volgende array `arr`:
<code>
    arr = np.array(range(10))
</code>

1. Vervang alle oneven getallen in `arr` door -1.
2. Vervang alle oneven getallen in de `arr` door -1 **zonder** `arr` te veranderen.
3. Converteer de 1-dimensionele array `arr` in een 2-dimensionale array (zonder `arr` te veranderen).

In [None]:
# Jouw antwoord Opdracht 1


### Opdracht 2 

Gegeven de volgende arrays `a` en `b` (zie volgende cell).

1. Stapel de arrays `a` en `b` vertikaal op elkaar, met volgende resultaat:

> `array([[0, 1, 2, 3, 4],
         [5, 6, 7, 8, 9],
         [1, 1, 1, 1, 1],
         [1, 1, 1, 1, 1]])`

2. Stapel de arrays `a` en `b` horizontaal naast elkaar, met volgende resultaat:

> `array([[0, 1, 2, 3, 4, 1, 1, 1, 1, 1],
         [5, 6, 7, 8, 9, 1, 1, 1, 1, 1]])`


In [None]:
a = np.arange(10).reshape(2,-1)
b = np.repeat(1, 10).reshape(2,-1)

# Jouw antwoord


### Opdracht 3 

Gegeven de volgende array `a`: <code>a = np.array([1,2,3])</code>. 

Genereer het volgende resultaat (een patroon) zonder hardcoding. Gebruik alleen numpy methoden en de array `a`. 
> resultaat: array([1, 1, 1, 2, 2, 2, 3, 3, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3])


In [None]:
# Jouw antwoord


### Opdracht 4 

Gegeven de volgende arrays `a` en `b`:

<code>a = np.array([1,2,3,2,3,4,3,4,5,6])</code><br>
<code>b = np.array([7,2,10,2,7,4,9,4,9,8])</code><br>

Haal de gemeenschappelijke elementen uit de arrays, met volgende resultaat: 
> array([2, 4])


In [None]:
# Jouw antwoord


### Opdracht 5 

Gegeven de volgende arrays `a` en `b`:

<code>a = np.array([1,2,3,4,5])</code><br>
<code>b = np.array([5,6,7,8,9])</code><br>

Haal uit array `a` weg alle elementen die in array `b` zitten.

In [None]:
# Jouw antwoord


### Opdracht 6

Gegeven voor de volgende (deel)opdrachten de __[iris dataset](https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data)__.

1. Hoe import je deze dataset in een numpy-array met de getallen en de tekst intact?
2. Bereken het gemiddelde (mean), de median en de standard deviation van de iris's `sepallength` (1ste kolom).
3. Maak een genormaliseerde array van de iris's `sepallength`, zodat de lengte tussen 0 (minimum) en 1 (maximum) liggen.

**Gegeven**<br>
<code>url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data'</code><br>
<code>sepallength = np.genfromtxt(url, delimiter=',', dtype='float', usecols=[0])</code>

In [None]:
# Jouw antwoord
