# Introductie numPy

**Onderwerpen**

1. [Wat is `numPy`?](#numpy_intro)
2. [bruikbare bronnen en studiemateriaal](#bronnen)
3. [`numPy` oefeningen](#numpy_oefeningen)
4. [`numPy` opdrachten](#numpy_exercises)

**Aanbevolen bronmateriaal**:
__[VanderPlas](http://github.com/jakevdp/PythonDataScienceHandbook)__ Python Data Science Handbook, O'Reilly, November 2016, __[Introduction Numpy](https://github.com/jakevdp/PythonDataScienceHandbook/blob/master/notebooks/02.00-Introduction-to-NumPy.ipynb)

#### Wat ga je doen?
Doorloop en voeruit (*Run* of *Shift+Enter*) de Python voorbeelden en doe de oefeningen in **3. Numpy Oefeningen**. Klik niet te snel op de 'hidden cell' voor een antwoord.

-----------

## 1. Wat is numPy?<a id="numpy_intro"></a>

<strong>NumPy</strong>, is een afkorting van <strong>NUM</strong>eric <strong>PY</strong>thon, en een library waarmee in-memory data ten opzichte van de standaard Python, effectief ingeladen, bewaard en gemanipuleerd (lees: mee gerekend) kan worden. 

De library bevat vele wiskundige bewerkingen uit de lineaire algebra, random getallen, fourier transformaties en andere wetenschappelijke formules. 

De belangrijkste datastructuur is een **N-dimensional array object**, genaamd `nparray`, een array waarvan de elemenen allemaal van hetzelfde data-type zijn. Dit maakt de opslag in geheugen, voor een programmeertaal als Python, erg efficient.


In [1]:
# version number of numpy module
import numpy as np
np.__version__

'2.3.4'

In een programmeertaal als bijvoorbeeld C, is een geheel getal (`int`) in wezen een label voor een positie in het geheugen waarvan de bytes voor het getal is opgeslagen. Een geheel getal (`int`) in Python is een verwijzing naar een positie in het geheugen die alle Python-objectinformatie bevat, inclusief de bytes die de gehele waarde bevatten (figuur 1).

**Figuur 1** ![Figuur 1](./images/cint_vs_pyint.png)

In Python is een `list` een lijst van objecten inclusief de objectinformatie.

In [2]:
# Python list
L = list(range(10))
print('L:', L)
[type(L[i]) for i in L] # data-typ of list-elements

L: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


[int, int, int, int, int, int, int, int, int, int]

Een `list` kan verschillende data-type bevatten, zoals in volgend code-snippet:

In [3]:
# Python lists contain different data-types
L3 = [True, "2", 3.14, 4]
[type(item) for item in L3]

[bool, str, float, int]

Maar deze flexibiliteit brengt kosten met zich mee: om deze flexibele typen toe te staan, is elk element een compleet Python-object. Het kan veel efficiënter zijn om de gegevens in een lijst van het vaste-type op te slaan en dat is precies wat een numpy-array is (figuur 3).

**Figuur 2** ![Figuur 2](./images/array_vs_list.png)

Een numPy-array definieer je als volgt:

In [4]:
# create a numpy-array
import numpy as np
np.array(range(10))

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

Gegevensbewerkingen in Python is bijna synoniem aan NumPy-array bewerkingen: zelfs tools zoals panda's zijn gebouwd rond de NumPy-array.

#### Basis bewerkingen op numPy's arrays. 

Tip: Leer ze goed kennen!

- **Attributen van arrays**: methoden ter bepaling van de grootte, vorm, geheugenconsumptie en gegevenstypen van arrays.

- **Indexering van arrays**: methoden om de waarde van afzonderlijke arrayelementen op te halen en in te stellen.

- **Slicing van arrays** (array in segmenten splitsen): methoden om kleinere subarrays binnen een grotere array te verkrijgen en in te stellen.

- **Reshaping (hervormen) van arrays**: methoden om de vorm van een gegeven array te wijzigen.

- **Joining en splitting van arrays**: methoden voor het combineren van meerdere arrays tot één array en het splitsen van één array in vele arrays.


#### Oefeningen
Je leert numpy-methoden kennen door de studiestof te bestuderen uit [VanderPlas]: __[The basics of Numpy Arrays](https://github.com/jakevdp/PythonDataScienceHandbook/blob/be23269c7eb119e093a6d5ce91e464f5e686d9ab/notebooks/02.02-The-Basics-Of-NumPy-Arrays.ipynb)__  en onderstaande NumPy oefeningen uit te voeren.

-----------

## 2. Bruikbare bronnen en studiemateriaal<a id="bronnen"></a>

1. De officiele documentatie van __[Numpy](http://www.numpy.org)__
2. __[scipy-lectures.org](http://www.scipy-lectures.org/intro/numpy/index.html)__ — met tutorials over pandas, numpy, matplotlib en scikit-learn

-----------

## 3. NumPy oefeningen <a id="numpy_oefeningen"></a>


### Oefening 1
Gegeven Python code snippets - zie volgende cell:

1. Maak de code (in de volgende cel) werkend.
2. Beschrijf in één regel per variabele, wat `x1`, `x2` en `x3` produceren.
3. Print van de variabelen `x1`, `x2` en `x3`: de dimensie (`ndim`), de dimensie's (`shape`) en de totale grootte (`size`).
4. Wat is het data-type van de variabelen `x1`, `x2` en `x3`?

In [5]:
np.random.seed(0) # seed for reproducibility

x1 = np.random.randint(10, size=6)  
x2 = np.random.randint(10, size=(3, 4))  
x3 = np.random.randint(10, size=(3, 4, 5)) 

# Jouw antwoord Oefening 1


### Voorbeeld antwoord oefening 1

In [6]:
import numpy as np
np.random.seed(0)  # seed for reproducibility

x1 = np.random.randint(10, size=6)  # 2: One-dimensional array
x2 = np.random.randint(10, size=(3, 4))  # 2: Two-dimensional array
x3 = np.random.randint(10, size=(3, 4, 5))  # 2: Three-dimensional array

# 3.
print("x1 ndim: ", x1.ndim)
print("x1 shape:", x1.shape)
print("x1 size: ", x1.size)

print("x2 ndim: ", x2.ndim)
print("x2 shape:", x2.shape)
print("x2 size: ", x2.size)

print("x3 ndim: ", x3.ndim)
print("x3 shape:", x3.shape)
print("x3 size: ", x3.size)

#4
print("dtype:", x1.dtype)
print("dtype:", x2.dtype)
print("dtype:", x3.dtype)

x1 ndim:  1
x1 shape: (6,)
x1 size:  6
x2 ndim:  2
x2 shape: (3, 4)
x2 size:  12
x3 ndim:  3
x3 shape: (3, 4, 5)
x3 size:  60
dtype: int32
dtype: int32
dtype: int32


### Oefening 2

1. Maak een NumPy-array van de Python list `[1,4,2,5,3]`.
2. Maak een NumPy-array van de volgende gebroken getallen: 3.14, 7.28, 3, 4.
3. Wat valt je op bij resultaat 2?

In [7]:
# Jouw antwoord Oefening 2


### Voorbeeld antwoord oefening 2

In [8]:
# Voorbeeld antwoord 2
# 1
import numpy as np
np.array([1, 4, 2, 5, 3])


array([1, 4, 2, 5, 3])

In [9]:
# 2 
np.array([3.14, 7.28, 3, 4])


array([3.14, 7.28, 3.  , 4.  ])

2.3: Wat opvalt is dat de gehele getallen 3 en 4 zijn ge-*upcast* naar een gebroken getal. NumPy-arrays bevatten getallen van hetzelfde data-type.

### Oefening 3

1. Wat is de Python code om de volgende multi-dimensionale (3x3) NumPy-array te produceren?

> `Output[]: array([[2, 3, 4],[4, 5, 6],[6, 7, 8]])`

2. Wat is de Python code om een 3x3 array van random-getallen in het interval [0,10] te produceren? Voorbeeld van een resultaat:</li>

> `Output[]: array([[4, 3, 4],[4, 8, 4],[3, 7, 5]])`


In [10]:
# Jouw antwoord Oefening 3


### Voorbeeld antwoord oefening 3

In [11]:
# Voorbeeld antwoord Oefening 3.1
import numpy as np

# nested lists result in multidimensional arrays
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

In [12]:
# Voorbeeld antwoord Oefening 3.2
import numpy as np

# Create a 3x3 array of random integers in the interval [0, 10)
np.random.randint(0, 10, (3, 3))


array([[4, 3, 4],
       [4, 8, 4],
       [3, 7, 5]], dtype=int32)

### Oefening 4
Gegeven de NumPy arrays `x1` en `x2`:

> `x1 = np.random.randint(10, size=6)  # One-dimensional array`<br>
`x2 = np.random.randint(10, size=(3,4))  # Two-dimensional array`

1. Print het 1ste getal uit `x1`.
2. Print het 5de getal uit `x1`.
3. Print het voorlaatste getal uit `x1`.
4. Print getal uit `x2` op rij 3, kolom 1.
5. Verander getal in `x2` op rij 1 en kolom 1 naar 12.
6. Wat levert de volgende Python code op: `x1[0] = 3.14159`?

In [13]:
x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3,4))  # Two-dimensional array

# Jouw antwoord Oefening 4


### Voorbeeld antwoord oefening 4

In [14]:
# Voorbeeld antwoord Oefening 4
import numpy as np
x1 = np.random.randint(10, size=6)  # One-dimensional array
x2 = np.random.randint(10, size=(3,4))  # Two-dimensional array

print('x1:', x1)
print('x2:', x2)

print (x1[0]) #1, 0-indexed array!
print (x1[4]) #2
print(x1[-2]) #3

print(x2[2,0]) #4
x2[0,0] = 12 #5
print('\n x2:', x2)

x1[0] = 3.14159 #6
print('\n x1:', x1)

x1: [5 9 0 2 7 2]
x2: [[9 2 3 3]
 [2 3 4 1]
 [2 9 1 4]]
5
7
7
2

 x2: [[12  2  3  3]
 [ 2  3  4  1]
 [ 2  9  1  4]]

 x1: [3 9 0 2 7 2]


### Oefening 5

1. Maak een 1-dimensionale NumPy-array gevuld met de getallen 0 t/m 10.
2. Print de eerste 5 elementen.
3. Print de elementen vanaf index 5.
4. Print om elk ander element vanaf het begin (**in dit geval** alleen de even getallen).
5. Print om elk ander element vanaf het 1ste element (**in dit geval** alleen de oneven getallen).
6. Print de array in omgekeerde (*reversed*) volgorde.

In [15]:
# Jouw antwoord Oefening 5


### Voorbeeld antwoord oefening 5

In [16]:
# Voorbeeld antwoord Oefening 5
import numpy as np
x = np.arange(10) #1
print("1: ", x)

print("2: ", x[:5]) #2
print("3: ", x[5:]) #3
print("4: ", x[::2]) #4
print("5: ", x[1::2]) #5

print("6: ", x[::-1]) #6

1:  [0 1 2 3 4 5 6 7 8 9]
2:  [0 1 2 3 4]
3:  [5 6 7 8 9]
4:  [0 2 4 6 8]
5:  [1 3 5 7 9]
6:  [9 8 7 6 5 4 3 2 1 0]


### Oefening 6
Gegeven 2-dimensionale NumPy-array `x2 = np.random.randint(10, size=(3, 4))`.

Een veel voorkomende bewerking is het opvragen van een enkele rij of kolom van een array.
1. Print de 1ste kolom van `x2`.
2. Print de 2de rij van `x2`.

In [17]:
x2 = np.random.randint(10, size=(3, 4))

# Jouw antwoord Oefening 6


### Voorbeeld antwoord oefening 6

In [18]:
# Voorbeeld antwoord Oefening 6
#import nump as np
x2 = np.random.randint(10, size=(3, 4))

print (x2) # print x2 for convenience
print("first column: ", x2[:, 0])  #1
print("x2[1,:] - 2nd row: ", x2[1,:])  #2
print("x2[1] - same result: ", x2[1])  #2 - compact syntax

[[8 8 2 3]
 [2 0 8 8]
 [3 8 2 8]]
first column:  [8 2 3]
x2[1,:] - 2nd row:  [2 0 8 8]
x2[1] - same result:  [2 0 8 8]


### Oefening 7

1. Maak variabele `x` van NumPy-array met de getallen 1, 2 en 3.
2. Maak variabele `y` van NumPy-array met de getallen 3, 2 en 1.
3. Voeg beide arrays samen in één NumPy-array, zodat je resultaat krijgt `[1 2 3 3 2 1]`.
4. Maak NumPy-array met getallen 99, 99 en 99 (variabele `z`).
5. Voeg samen `x`, `y` en `z` in één NumPy-array.
6. Maak een 2-dimensionale NumPy-array, genaamd `grid`, en vul het met getallen 1 t/m 6.
7. Voeg twee grid's samen langs de 1ste as (kolom 1) (0-indexed) tot een nieuwe NumPy-array.
8. Voeg twee grid's samen langs de 2de as (rij 1) (0-indexed) tot een nieuwe NumPy-array.


In [19]:
# Jouw antwoord Oefening 7


### Voorbeeld antwoord oefening 7

In [20]:
# Voorbeeld antwoord Oefening 7
x = np.array([1, 2, 3]) #1
print("1: x:", x) #1
y = np.array([3, 2, 1]) #2
print("2: y:", y) #1

print("3:", np.concatenate([x, y]) ) #3

z = np.array([99, 99, 99]) #4
print("4: z:", z) #4

print( "5: ", np.concatenate([x, y, z]) ) #5

grid = np.array([[1, 2, 3],
                 [4, 5, 6]]) #6
print("6:\n", grid)

#7 concatenate along the first axis (vertical, zero-indexed)
print("7:\n", np.concatenate([grid, grid]))
#8 concatenate along the second axis (horizontal, zero-indexed)
print( "8:\n", np.concatenate([grid, grid], axis=1)) 

1: x: [1 2 3]
2: y: [3 2 1]
3: [1 2 3 3 2 1]
4: z: [99 99 99]
5:  [ 1  2  3  3  2  1 99 99 99]
6:
 [[1 2 3]
 [4 5 6]]
7:
 [[1 2 3]
 [4 5 6]
 [1 2 3]
 [4 5 6]]
8:
 [[1 2 3 1 2 3]
 [4 5 6 4 5 6]]


### Oefening 8
Gegeven `x = [1, 2, 3, 99, 99, 3, 2, 1]`.

De NumPy-array kent een methode `split()`.

Maak code dat de array `x` splitst in 3 delen, op de indices 3 en 5. 
> Resultaat zijn 3 variabelen, `x1`, `x2` en `x3` met respectievelijk de waarden `[1 2 3]`, `[99 99]` en `[3 2 1]`.


In [21]:
x = [1, 2, 3, 99, 99, 3, 2, 1]

# Jouw antwoord Oefening 8


### Voorbeeld antwoord oefening 8

In [22]:
# Voorbeeld antwoord Oefening 8
# import numpy as np
x = [1, 2, 3, 99, 99, 3, 2, 1] 
x1, x2, x3 = np.split(x, [3, 5]) #1
print(x1, x2, x3)

[1 2 3] [99 99] [3 2 1]


### Oefening 9
We gaan wat Python code benchmarken, met de de *magic* `%timeit`.

**Gegeven**: `functie compute_reciprocals(values)` (zie volgende cell).

1. Maak een 1-dimensionale NumPy-array met de naam `small_array`, met `size=5` en vul dat met random getallen.

2. Bereken de reciproke-waarden (1/getal) van de array `small_array` met de gegeven functie `compute_reciprocals()` en toon resultaat.

3. Maak een 1-dimensionale NumPy-array met de naam `big_array`, met `size=1000000` en vul dat met random getallen.

4. *Time* de uitvoering van `computer_reciprocal(big_array)` met `%timeit`. Let op: het duurt nu veel langer, maar de computer hangt niet (plm. 2.64 s per loop)!

5. *Time* nu de code `(1.0 / big_array)` met `%timeit`. Dit is nu veel sneller (plm. 4.54 ms per loop)! Gevolg van de gevectoriseerde uitvoering van numpy-arrays. Zie uitleg.


In [23]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output = np.empty(len(values))
    for i in range(len(values)):
        output[i] = 1.0 / values[i]
    return output

# Jouw antwoord Oefening 9


### Voorbeeld antwoord oefening 9

In [24]:
# Voorbeeld antwoord Oefening 9

# example small array
small_array = np.random.randint(1, 10, size=5) #1
print( compute_reciprocals(small_array) ) #2


[0.16666667 1.         0.25       0.25       0.125     ]


In [25]:
# example big array
# It takes several seconds to compute these 
# million operations and to store the result!
big_array = np.random.randint(1, 100, size=1000000) #3
%timeit compute_reciprocals(big_array) #4


1.3 s ± 30.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


In [26]:
 %timeit (1.0 / big_array) #5

1.05 ms ± 96.3 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)
