# Hoofdstuk 1: arrays en lists

## In NumPy gebruiken we arrays
In gewone Python gebruiken we lists, in NumPy gebruiken we arrays. Het grote verschil in de volgende code is dat de *range*-functie in Python een generator teruggeeft. We hebben de *list*-functie nodig om er een list van te maken.

De functie *np.arange* van NumPy werkt op dezelfde manier als *range*. Maar ze geeft meteen een array terug.

In [None]:
import numpy as np
lijst = list(range(10)) #range geeft een generator terug -> extra list()-functie
print(lijst)
array = np.arange(10)
print(array)

Hoe vragen we het laatste element op van een array?

In [None]:
import numpy as np
lijst = list(range(10)) #range geeft een generator terug -> extra list()-functie
print(lijst[-1])
array = np.arange(10)
print(array[-1])

Hoe veranderen we het laatste element van een array.

In [None]:
import numpy as np
lijst = list(range(10)) #range geeft een generator terug -> extra list()-functie
lijst[-1] = 10
print(lijst)
array = np.arange(10)
array[-1] = 10
print(array)

Hoe tonen we de laatste drie elementen van een array?

In [None]:
import numpy as np
lijst = list(range(10)) #range geeft een generator terug -> extra list()-functie
lijst[-1] = 10
print(lijst[-3:])
array = np.arange(10)
array[-1] = 10
print(array[-3:])

Hoe veranderen we de drie laatste elementen van een array?

In [None]:
import numpy as np
lijst = list(range(10)) #range geeft een generator terug -> extra list()-functie
lijst[-3:] = [11, 12, 13]
print(lijst)
array = np.arange(10)
array[-3:] = [11, 12, 13]
print(array)

## Een eerste verschil
De functie *np.append* geeft een nieuwe array terug. De oorspronkelijke array is niet gewijzigd.

Opmerking: een grote array opbouwen door één voor één elementen toe te voegen via *np.append()* is dus niet efficiënt.

In [None]:
import numpy as np
lijst = list(range(10)) #range geeft een generator terug -> extra list()-functie
lijst.append(10)
print(lijst[-3:])
array = np.arange(10)
array = np.append(array, 10)
print(array[-3:])

## Een tweede verschil
De meest efficiënte manier in Python om de waarde van de items in een list te verdubbelen is *list comprehension*. In NumPy doen we dat op een meer eenvoudige manier. De NumPy-manier ziet er hetzelfde uit als wanneer we een getal zouden willen verdubbelen.

In [None]:
import numpy as np
lijst = list(range(10))
array = np.arange(10)
lijst = [ item * 2 for item in lijst]
print(lijst)
array *= 2
print(array)

## Numpy is efficiënter
Met %timeit kunnen we meten hoe lang het duurt om een statement uit te voeren. Let op: NumPy is niet meer efficiënt wanneer we niet meer op de NumPy manier werken (bijvoorbeeld via list comprehension)

In [None]:
import numpy as np
lijst = list(range(10_000))
array = np.arange(10_000)
print('timing Python list:')
%timeit [ item * 2 for item in lijst]
print('timeing NumPy array:')
%timeit array * 2
print('timing verkeerde manier NumPy array:')
%timeit np.array([item * 2 for item in array])


## Een ander belangrijk verschil: geheugenbeheer
In NumPy moeten we definiëren hoe groot een integer mag zijn. De standaardgrootte is 64 bits (8 bytes).

Wanneer we kleinere getallen willen bijhouden, hebben we minder plaats nodig. (bijvoorbeeld een int16: 2 bytes). Maar let op: wanneer we een type kiezen dat te klein is, krijgen we geen foutmelding.

In [None]:
import numpy as np
import sys
getal = 42
print(f'geheugengebruik Python {getal}:', sys.getsizeof(getal))
np_getal = np.int_(getal)
print(f'geheugengebruik numpy {np_getal}:', sys.getsizeof(np_getal))
getal = 4_200_000_000
print(f'geheugengebruik Python {getal}:', sys.getsizeof(getal))
np_getal = np.int_(getal)
print(f'geheugengebruik numpy {np_getal}:', sys.getsizeof(np_getal))
getal_list = [42]
print('geheugengebruik Python list:', sys.getsizeof(getal_list))
np_getal_list = np.array(getal_list)
print('geheugengebruik numpy array:', sys.getsizeof(np_getal_list))
getal_list = list(range(10_000))
print('geheugengebruik Python list:', sys.getsizeof(getal_list))
np_getal_list = np.array(getal_list)
print('geheugengebruik numpy array:', sys.getsizeof(np_getal_list))
np_getal_list = np_getal_list.astype(np.int16)
print(f'geheugengebruik numpy array ({np_getal_list.dtype}): {sys.getsizeof(np_getal_list)}')
print('laatste getal:', np_getal_list[-1])
np_getal_list = np_getal_list.astype(np.int8)  #we krijgen geen foutmelding
print(f'geheugengebruik numpy array ({np_getal_list.dtype}): {sys.getsizeof(np_getal_list)}')
print('laatste getal:', np_getal_list[-1])

We krijgen wel een waarschuwing wanneer we met 1 getal werken, in plaats van een array. Het probleem met een array is dat het inefficiënt zou zijn wanneer NumPy bij elke waarde moet controleren of de waarde niet te groot is voor het type.

In de praktijk werk je best altijd met np.int64. Pas wanneer je problemen krijgt met het geheugen kun je eens (heel voorzichtig) kijken of een kleiner integer type ook niet past.

In [None]:
import numpy as np

grootste_np_int8 = np.int8(np.iinfo(np.int8).max)
print(f'Grootste waarde van int8: {grootste_np_int8}')
print(f'Laatste waarde van int8 getal + 1) is: {grootste_np_int8 + 1}')


Er zijn natuurlijk ook kommagetallen (floating points)

In [None]:
import numpy as np
np.finfo(np.float64)


Let op wanneer je twee floating point getallen wil vergelijken. Dikwijls krijg je kleine afrondingsfouten.

Om twee floats te vergelijken op gelijkheid, gebruik je best je best  [np.isclose()](https://numpy.org/doc/stable/reference/generated/numpy.isclose.html)

In [None]:
import numpy as np

getal1 =np.float64( 0.2+ 0.2 + 0.2)
print(getal1 == np.float64(0.6))
#correcte manier om te vergelijken:
print(np.isclose( getal1, np.float64(0.6)))

NumPy staat voor *numerical Python*. De module dient om met getallen te werken. Maar we kunnen ook teksten bewaren in een array. Let echter op wanneer we types proberen te combineren in een array. (10 is geen integer hier)

In [None]:
import numpy as np

lijst = ['Karen', 'Kristel', 'Kathleen']
arr = np.array(lijst)
print('Het type van de array', arr.dtype)
lijst.append(10)
arr = np.append(arr, 10)
print('De lijst met str en int:', lijst)
print('De array met str en int (let op het type van 10):', arr)
print('Het type van de array', arr.dtype)

We kunnen ook arrays met meerdere dimensies gebruiken. Let op de subtiele verschillen met een Pytyon list.

In [None]:
import numpy as np
lijst = [[1, 2, 3],[4, 5, 6]]
arr = np.array(lijst)
print('De lijst:', lijst)
print('De array:', arr, sep='\n')
print('2de rij laatste kolom van lijst:', lijst[1][-1])
print('2de rij laatste kolom van array:', arr[1, -1])
print('De volledige 2de rij van lijst', lijst[1])  #lijst[1][:] werkt ook
print('De volledige 2de rij van array', arr[1]) #arr[1, :] werkt ook
print('laatste kolom van lijst', [rij[-1] for rij in lijst])
print('laatste kolom van array', arr[:, -1])
print('De "lengte" van de lijst:', len(lijst))
print('Het aantal elementen in de lijst:', sum([len(rij) for rij in lijst]))
print('De size (of len) van de array:', arr.size)
print('De vorm van de array:', arr.shape)

Het is niet zo gemakkelijk om de vierkante haakjes van een array met meer dimensies op de juiste plaats te zetten. Een veelgebruikte techniek om met meerdere dimensies te werken, is de *reshape*-functie gebruiken. Een array van 20 elementen kan omgevormd worden tot een array van 4 rijen en 5 kolommen. Wanneer je niet graag rekent, kun je als waarde voor de overblijvende dimensie '-1' invullen. NumPy deelt dan 20 door 4 en weet dat het aantal kolommen 5 is.

In [None]:
import numpy as np
arr = np.arange(20).reshape(4, -1)
print(arr)
