# De Numpy module

## Overzicht

De `numpy module`, numpy van 'numerical Python', is speciaal ontwikkeled om makkelijk te kunnen werken met grote datasets. Zogenaamde `arrays`. Het `list` data type kun je ook gebruiken om reeksen mee te maken, maar dit is niet erg makkelijk als je reeksen meerdere dimensies krijgen, zoals een tabel (2-dimensionaal) of zelfs 3D, 4D, 5D etc. Bijvoorbeeld een atmospherisch model dat je informatie geeft over de temperatuur op iedere plek op Aarde (2D), op verschillende hoogtes in de atmospfeer (3D) en voor verschillende tijden (bijvoorbeeld dagen). Dit maakt de temperatuur variabele in dit geval 4-dimensionaal. Naast dat het makkelijker werken is met `arrays`, zijn de berekeningen die je ermee kunt doen ook veel sneller. Een berekening doen op een grote array is al snel vele tientallen malen sneller.

In dit deel van de Python cursus zullen we enkele basiselementen van de `numpy module` bekijken.

## Arrays

`numpy` werkt met zogenaamde arrays (of eigenlijk `ndarrays'). Dit is een data type waarin de gevens in een grid zitten. Dat kan een 1-dimensionaal grid zijn, een rij dus. Het kan een 2-dimensionaal grid zijn wat je kan zien als een tabel, of meer dimensies. Een array kan niet bestaan uit verschillende data types (dus geen strings, floats etc door elkaar), en een array is altijd rechthoekig.

## Indexing arrays

Het aanroepen van een waarde of van een reeks waardes uit een array gaat via indexing en is grotendeels gelijk aan indexing bij een lijst data type. Indexing een 1D array is identiek aan indexing van een lijst

In [1]:
import numpy as np

jaar, temp = np.loadtxt('Media/deBilt_yearly_temperatures.txt',comments='#',unpack=True) # Lees een dataset en maak array 'jaar' en array 'temp' aan
jaar[10]  # print de elfde waarde uit de array 'jaar' (je begint te tellen bij nul!)

1911.0

Voor een 2-dimensionale array gebruik je twee indexes, gescheiden door een komma, de eerste index gaat over de 'kolom' en de tweede index over de 'rij':

In [2]:
data = np.loadtxt('Media/deBilt_yearly_temperatures.txt',comments='#',unpack=True) # Lees een dataset en maak een 2D array data
data[:,0] # print alle waardes uit de eerste rij

array([1901.      ,    8.903205])

In [3]:
data = np.loadtxt('Media/deBilt_yearly_temperatures.txt',comments='#',unpack=True) # Lees een dataset en maak een 2D array data
data[1,:] # print alle waardes uit de tweede kolom

array([ 8.903205,  8.92253 ,  8.93362 ,  8.962243,  8.984967,  9.002845,
        9.030684,  9.061136,  9.061813,  9.028958,  8.978573,  8.978765,
        8.976768,  8.973549,  8.987822,  8.986124,  9.031549,  9.053846,
        9.091194,  9.092023,  9.099168,  9.111775,  9.135405,  9.145616,
        9.124907,  9.125786,  9.136966,  9.178061,  9.227715,  9.244284,
        9.252213,  9.204939,  9.186271,  9.166513,  9.139896,  9.147175,
        9.152941,  9.142723,  9.143662,  9.180979,  9.22009 ,  9.233147,
        9.231488,  9.244477,  9.250731,  9.286716,  9.290689,  9.248138,
        9.228629,  9.226952,  9.228156,  9.261005,  9.278863,  9.27778 ,
        9.279699,  9.285302,  9.292798,  9.330986,  9.360363,  9.366921,
        9.381194,  9.455902,  9.512233,  9.566514,  9.591889,  9.591287,
        9.619922,  9.657665,  9.717463,  9.764116,  9.807912,  9.851774,
        9.886477,  9.91304 ,  9.937561,  9.998328, 10.0394  , 10.08407 ,
       10.12719 , 10.14545 , 10.18434 , 10.18912 , 

Nog enkele voorbeelden:

In [4]:
data[:,-1] # Waardes in laatste rij

array([1990.     ,   10.52389])

In [4]:
data[-1,-1] # Waarde in laatste rij en laatste kolom

array([1990.     ,   10.52389])

In [5]:
data[0,10:20] # Waardes 11 tot 20 uit de eerste kolom

array([1911., 1912., 1913., 1914., 1915., 1916., 1917., 1918., 1919.,
       1920.])

In [6]:
data[0,0:-1:2] # Iedere tweede waarde uit de eerste kolom

array([1901., 1903., 1905., 1907., 1909., 1911., 1913., 1915., 1917.,
       1919., 1921., 1923., 1925., 1927., 1929., 1931., 1933., 1935.,
       1937., 1939., 1941., 1943., 1945., 1947., 1949., 1951., 1953.,
       1955., 1957., 1959., 1961., 1963., 1965., 1967., 1969., 1971.,
       1973., 1975., 1977., 1979., 1981., 1983., 1985., 1987., 1989.])

Voor het werken met arrays van meer dan twee dimensies is het principe hetzelfde, alleen kun je dan niet meer spreken van rijen en kolommen:

In [7]:
data_4d = np.reshape(data,(4,5,3,3)) # Use numpy 'reshape' function to create a new array from the 'data' array, now with a size 4x5x3x3 
data_4d.shape                        # show the shape of the new array
data_4d[2,2,1,1]                     # show the value at index 2,2,1,1 in the 4D array

9.135405

## Arrays maken

In de voorbeelden hierboven hebben we een array gemaakt door data in te lezen uit een tekst bestand. Er zijn echter ook een paar andere handige manieren om arrays te maken.

Je kunt een array maken door de getallen zelf op te geven met de `np.array() functie`:

In [10]:
a1D = np.array([1, 2, 3, 4])
a1D

array([1, 2, 3, 4])

In [11]:
a2D = np.array([[1, 2], [3, 4]])
a2D

array([[1, 2],
       [3, 4]])

In [12]:
a3D = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])
a3D

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

Je kunt arrays maken die gevuld zijn met nullen (`np.zeros()`) of met het getal 1 (`np.ones()`). Dit klinkt in eerste instantie misschien vreemd, maar het is heel handig omdat je deze arrayen dan later in je code kan vullen met andere getallen.

In [15]:
array_2D = np.zeros((2, 3))
array_2D

array([[0., 0., 0.],
       [0., 0., 0.]])

In [17]:
array_3D = np.ones((3, 4, 2))
array_3D

array([[[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.],
        [1., 1.],
        [1., 1.]]])

Je kunt 1D arrays vullen met reeksen door gebruik te maken van `np.arange()` of van `np.linspace()`:

In [20]:
reeks = np.arange(2, 3, 0.1) # array met getallen van 2 tot 3 en stapgrootte van 0.1
reeks

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9])

In [22]:
reeks = np.linspace(5, 10, 9) # array met 9 getallen op gelijke afstand tussen de 5 en tot en met 10
reeks

array([ 5.   ,  5.625,  6.25 ,  6.875,  7.5  ,  8.125,  8.75 ,  9.375,
       10.   ])

Tenslotte de `np.reshape()` functie die we hierboven al eerder tegenkwamen. Deze is heel handig als je de reeksen die met `np.arange()` of `np.linspace()` hebt gemaakt om wilt zetten van 1D naar 2D, 3D etc.

In [28]:
reeks = np.arange(2, 3, 0.01) # array met getallen van 2 tot 3 en stapgrootte van 0.01
array_3D = np.reshape(reeks,(5,5,4)) # vorm de 'reeks' van 100 getallen om naar een array van 5x5x4
array_3D

array([[[2.  , 2.01, 2.02, 2.03, 2.04],
        [2.05, 2.06, 2.07, 2.08, 2.09],
        [2.1 , 2.11, 2.12, 2.13, 2.14],
        [2.15, 2.16, 2.17, 2.18, 2.19],
        [2.2 , 2.21, 2.22, 2.23, 2.24]],

       [[2.25, 2.26, 2.27, 2.28, 2.29],
        [2.3 , 2.31, 2.32, 2.33, 2.34],
        [2.35, 2.36, 2.37, 2.38, 2.39],
        [2.4 , 2.41, 2.42, 2.43, 2.44],
        [2.45, 2.46, 2.47, 2.48, 2.49]],

       [[2.5 , 2.51, 2.52, 2.53, 2.54],
        [2.55, 2.56, 2.57, 2.58, 2.59],
        [2.6 , 2.61, 2.62, 2.63, 2.64],
        [2.65, 2.66, 2.67, 2.68, 2.69],
        [2.7 , 2.71, 2.72, 2.73, 2.74]],

       [[2.75, 2.76, 2.77, 2.78, 2.79],
        [2.8 , 2.81, 2.82, 2.83, 2.84],
        [2.85, 2.86, 2.87, 2.88, 2.89],
        [2.9 , 2.91, 2.92, 2.93, 2.94],
        [2.95, 2.96, 2.97, 2.98, 2.99]],

       [[2.  , 2.01, 2.02, 2.03, 2.04],
        [2.05, 2.06, 2.07, 2.08, 2.09],
        [2.1 , 2.11, 2.12, 2.13, 2.14],
        [2.15, 2.16, 2.17, 2.18, 2.19],
        [2.2 , 2.21, 2.22, 2.23,

In [31]:
reeks = np.arange(2, 3, 0.1) # array met getallen van 2 tot 3 en stapgrootte van 0.01
array_3D = np.resize(reeks,(3,2)) # vorm de 'reeks' van 100 getallen om naar een array van 5x5x4
array_3D

array([[2. , 2.1],
       [2.2, 2.3],
       [2.4, 2.5]])

Let op bij het gebruik van `np.reshape()` dat het aantal getallen dat je hebt in je reeks en de grootte van de array die je er van wilt maken wel overeen moeten komen. Je kunt bijvoorbeeld niet van 10 getallen een array maken van 3 bij 3 want dan verwacht de functie een reeks van 9 getallen; of van 9 getallen een array van 4 bij 4 want dan verwacht de functie 16 getallen.

Een alternatief is de `np.resize()` functie, die min of meer hetzelfde werkt als de `np.reshape()` functie maar dan kun je wel iedere willekeurige array maken van een reeks (of andere array) en vult de functie automatisch alle missende getallen aan met herhalingen van de reeks als je reeks te kort is, of hij kapt je reeks af als er teveel getallen zijn. Het gebruik van `np.reshape` is in de meeste gevallen een veiliger optie omdat je zeker bent dat er geen getallen verdwijnen of bijgemaakt worden.

## Numpy functions

Het aantal functies in de `numpy module` is erg groot maar enkele veel gebruikte willen we hier kort nog bespreken.

Je kunt een arrays aanmaken met willekeurige getallen door gebruik te maken van een van de vele functies uit de `numpy.random` sub-module. Bijvoorbeeld de `rand()` functie:

In [38]:
a = np.random.rand(2,3)   # Maak array van 2 bij 3 en vul met willekeurige getallen tussen 0 en 1.
a

array([[0.59049432, 0.19641193, 0.02591848],
       [0.61833626, 0.28811293, 0.83350048]])

Je kunt getallen in een array sorteren met de `np.sort()` functie:

In [41]:
a = np.random.rand(10)
np.sort(a)

array([0.32777398, 0.39307422, 0.48387105, 0.51579835, 0.58093551,
       0.62560346, 0.80217635, 0.80933083, 0.89497377, 0.94617283])

Je kunt de indexen vinden voor alle getallen in een array waarvoor een bepaalde conditie waar is door de `np.nonzero()` functie:

In [44]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # maak array van 3x3
a > 3 # waar is a groter dan 3?

array([[False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In het voorbeeld hierboven is de conditie dat a groter is dan 3 waar voor 6 van de 9 getallen, hun indexen vind je vervolgens door:

In [45]:
np.nonzero(a > 3) # geef indexen van getallen in a die groter zijn dan 3

(array([1, 1, 1, 2, 2, 2]), array([0, 1, 2, 0, 1, 2]))

Dus de getallen in array a zijn groter dan 3 op posities [1,0]; [1,1]; [1,2]; [2,0], [2,1] en [2,2].

Ook kun je getallen vervangen onder een bepaalde conditie door de `np.where` functie. Stel dat je in array a alle getallen groter dan of gelijk aan 5 wil vervangen door 100:

In [50]:
a = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]) # maak array van 3x3
b = np.where(a >= 5, 100, a) # waar a groter is dan of gelijk aan 5 geef waarde '100' anders geef waarde uit array a
b

array([[  1,   2,   3],
       [  4, 100, 100],
       [100, 100, 100]])

Tenslotte twee `numpy` functies die je kunt gebruiken om arrays 'aan elkaar te plakken', namelijk `np.vstack()` om arrays in de verticaal aan elkaar te plakken en `np.hstack()` om arrays in de horizontaal aan elkaar te plakken:

In [59]:
array1 = np.linspace(5, 10, 9).reshape(3,3) # 3x3 array met 9 getallen op gelijke afstand tussen de 5 en tot en met 10
array2 = np.linspace(50, 100, 9).reshape(3,3) # 3x3 array met 9 getallen op gelijke afstand tussen de 50 en tot en met 100
array_new = np.vstack((array1,array2)) # plak array 1 en array 2 verticaal aan elkaar. Let op dat je dubbele haakjes moet gebruiken (een 'tuple')
array_new.shape

(6, 3)

In [60]:
array_new

array([[  5.   ,   5.625,   6.25 ],
       [  6.875,   7.5  ,   8.125],
       [  8.75 ,   9.375,  10.   ],
       [ 50.   ,  56.25 ,  62.5  ],
       [ 68.75 ,  75.   ,  81.25 ],
       [ 87.5  ,  93.75 , 100.   ]])

In [61]:
array1 = np.linspace(5, 10, 9).reshape(3,3) # 3x3 array met 9 getallen op gelijke afstand tussen de 5 en tot en met 10
array2 = np.linspace(50, 100, 9).reshape(3,3) # 3x3 array met 9 getallen op gelijke afstand tussen de 50 en tot en met 100
array_new = np.hstack((array1,array2)) # plak array 1 en array 2 horizontaal aan elkaar. Let op dat je dubbele haakjes moet gebruiken (een 'tuple')
array_new.shape

(3, 6)

In [62]:
array_new

array([[  5.   ,   5.625,   6.25 ,  50.   ,  56.25 ,  62.5  ],
       [  6.875,   7.5  ,   8.125,  68.75 ,  75.   ,  81.25 ],
       [  8.75 ,   9.375,  10.   ,  87.5  ,  93.75 , 100.   ]])

## Ontbrekende data door middel van Numpy Not-a-Number

Het komt vaak voor dat er data ontbreken. Bijvoorbeeld als je meetinstrument op een bepaald moment het niet goed deed. Maar ook als je bijvoorbeeld een grid hebt met daarin temperaturen van het oppervlak van de oceaan, want dan heb je ontbrekende data voor alle gridcellen waar er land is in plaats van oceaan. Om hier handig mee te werken gebruiken we een speciaal data type dat we `Not a number` of in het kort `NaN` noemen.

In de `numpy module` zijn er allerlei handige functies om met `NaNs` te werken. Denk bijvoorbeeld aan het berekenen van een gemiddelde, een som, een maximum of een minimum in het geval van ontbrekende data. Als voorbeeld zullen we in de temperatuurmetingen van de Bilt een `NaNs` toevoegen:

In [64]:
jaar, temp = np.loadtxt('Media/deBilt_yearly_temperatures.txt',comments='#',unpack=True) # Lees een dataset en maak array 'jaar' en array 'temp' aan
temp[10] = np.nan # Zet voor het voorbeeld een waarde 
temp

array([ 8.903205,  8.92253 ,  8.93362 ,  8.962243,  8.984967,  9.002845,
        9.030684,  9.061136,  9.061813,  9.028958,       nan,  8.978765,
        8.976768,  8.973549,  8.987822,  8.986124,  9.031549,  9.053846,
        9.091194,  9.092023,  9.099168,  9.111775,  9.135405,  9.145616,
        9.124907,  9.125786,  9.136966,  9.178061,  9.227715,  9.244284,
        9.252213,  9.204939,  9.186271,  9.166513,  9.139896,  9.147175,
        9.152941,  9.142723,  9.143662,  9.180979,  9.22009 ,  9.233147,
        9.231488,  9.244477,  9.250731,  9.286716,  9.290689,  9.248138,
        9.228629,  9.226952,  9.228156,  9.261005,  9.278863,  9.27778 ,
        9.279699,  9.285302,  9.292798,  9.330986,  9.360363,  9.366921,
        9.381194,  9.455902,  9.512233,  9.566514,  9.591889,  9.591287,
        9.619922,  9.657665,  9.717463,  9.764116,  9.807912,  9.851774,
        9.886477,  9.91304 ,  9.937561,  9.998328, 10.0394  , 10.08407 ,
       10.12719 , 10.14545 , 10.18434 , 10.18912 , 

Als je nu de gewone functies gebruikt om een gemiddelde, een som, een maximum of een minimum te bepalen, zul je zien dat je altijd als antwoord 'nan' krijgt:

In [69]:
print(np.mean(temp))
print(np.sum(temp))
print(np.max(temp))
print(np.min(temp))

nan
nan
nan
nan


Daarom zijn er speciale `numpy functies` die een `NaN` negeren:

In [70]:
print(np.nanmean(temp))
print(np.nansum(temp))
print(np.nanmax(temp))
print(np.nanmin(temp))

9.427589359550561
839.0554529999999
10.52571
8.903205


## Samenvatting

In vakgebieden als Aardwetenschappen, Milieuwetenschappen en meer algemeen in 'data sciences', werken we veel met `Numpy arrays` omdat dit een data type is dat heel efficient is om met grote hoeveelheden gegevens te werken en waarvoor er allerhande numerieke methodes beschikbaar zijn om berekeningen te doen met je gegevens. In dit deel heb je een overzicht gezien van hoe je een array maakt, hoe indexing werkt bij een array, hoe je werkt met 'not-a-numbers' en tenslotte enkele veel voorkomende `Numpy functies`.

<!-- Links -->
[Python_Pandas]: 08_Python_Pandas.ipynb

# Ga naar het volgende deel: [08_Python_Pandas][Python_Pandas]