#Speciale indexering
##Indexen
We hebben gezien dat we tussen de vierkante haakjes van een array een 'filter' kunnen zetten. Een filter is een array met booleanwaarden.

We kunnen echter ook een iterable van indexen meegeven.

In [None]:
import numpy as np
arr = np.array([3, 7, 9, 2, 0, 10, 8, 2, 1, 10])
indices = [3, 5]
print(arr[indices]) #elementen drie en vijf  worden afgedrukt

##De shape van het resultaat
De shape van de resultaatarray wordt overgenomen van de array met de indexen. Dat kennen we al van de boolean arrays die we als filter kunnen meegeven.

In [None]:
import numpy as np
rng = np.random.default_rng(42)
arr = np.arange(55, 155)
print('arr:\n', arr)
indices = rng.integers(0, 100, size=(2, 3))
print('indices:\n', indices)
print('arr[indices]:\n',arr[indices])


## Rijen en kolommen als indexen
Bij een 2-dimensionele array kunnen we ook aparte indexen voor rijen en kolommen gebruiken. Hier drukken we de elementen [0,3] en [1,2] af. In dit voorbeeld hebben beide indexarrays dezelfde *shape*.

In [None]:
import numpy as np
arr = np.arange(12).reshape(3, 4)
print('arr:\n', arr)
rijen = [0, 1]
kolommen = [3, 2]
print(f'{rijen=}')
print(f'{kolommen=}')
print(f'{arr[rijen, kolommen]=}')

##Even herhalen: broadcasting
Wanneer we 2 arrays moeten combineren die niet dezelfde *shape* hebben, zijn de broadcast regels van toepassing.
* broadcasting verandert het aantal elementen (in tegenstelling to *reshape()*)
* een array kan niet naar eender welke *shape* gebroadcast worden

Eerst een vraag vooraf: hoeveel rijen en kolommen heeft de onderstaande array?

In [None]:
import numpy as np
arr = np.array([1, 2, 3])
print('arr:\n', arr) #Hoeveel rijen en kolommen heeft deze array?


Dit was natuurlijk een strikvraag want de array heeft maar 1 dimensie, dus er zijn geen rijen en kolommen. Maar wanneer je '1 rij en 3 kolommen' had geantwoord, was dat geen gek antwoord.

Het verschil tussen volgende beide arrays is heel klein. De tweede array is gemaakt door *aan de linkerkant* van de *shape* van arr1 een 1 te zetten. (Herinner je de eerste regel van broadcasting)

In [None]:
import numpy as np
arr1 = np.array([1, 2, 3])
print('arr1:\n', arr1)
arr2 = np.array([[1, 2, 3]])
print('arr2:\n', arr2)
print(f'{arr1.shape=}')
print(f'{arr2.shape=}')

Vergelijk dat met een 1 toevoegen aan de rechterkant. Die array ziet er helemaal anders uit dan arr1.


In [None]:
import numpy as np
arr1 = np.array([1, 2, 3])
print('arr1:\n', arr1)
arr2 = np.array([[1], [2], [3]])
print('arr2:\n', arr2)
print(f'{arr1.shape=}')
print(f'{arr2.shape=}')

Wanneer beide arrays hetzelfde aantal dimensies hebben, mag je een dimensie met 1 element kopiëren om de dimensie bij beide arrays even groot te maken. Want uiteindelijk kunnen twee arrays alleen gecombineerd worden wanneer ze dezelfde *shape* hebben.

De functie *np.tile()* kopieert de dimensies van een array. In de volgende code bestaat de nieuwe array uit 3 keer de rij en 1 keer de kolom.

In [None]:
import numpy as np
arr1 = np.array([1, 2, 3])
arr2 = np.arange(1, 10).reshape(3, 3)
print(f'{arr1.shape=}')
print(f'{arr2.shape=}')
print('Eerste array is "kleiner" dan de tweede array => 1 links toevoegen')
arr1 = arr1.reshape(1, 3)
print(f'{arr1.shape=}')
print(f'{arr2.shape=}')
print('Kopieer de rij zodat we shape (3, 3) krijgen')
arr1 = np.tile(arr1, (3, 1)) #3 keer rij en 1 keer kolom
print('arr1:\n', arr1)
print('Voeg de arrays samen met np.add()')
print('arr1 + arr2:\n', arr1 + arr2)


##Een kolomarray als rijen
In het volgende voorbeeld hebben beide arrays niet dezelfde *shape*: (2, 1) en (2,). Dan zijn de *broadcast* regels van toepassing:
*   beide arrays worden even lang gemaakt door de 'kortste' array links aan te vullen met 1-nen. De dimensies worden dan (2, 1) en (1, 2)
*   de dimensies worden vergeleken en wanneer één van beide gelijk is aan 1, wordt die uitgebreid. Daardoor krijgen beide arrays de dimensie (2, 2)
    * rijen: [[0], [1]] wordt [[0, 0], [1, 1]]
    * kolommen: [[3, 2]] wordt [[3, 2], [3, 2]]

In [None]:
import numpy as np
arr = np.arange(12).reshape(3, 4)
print('arr:\n', arr)
rijen = np.array([0, 1]).reshape(2, 1)
print('rijen:\n', rijen)
print('gebroadcaste rijen:\n', np.broadcast_to(rijen, (2, 2)))
kolommen = np.array([3, 2])
print(f'{kolommen=}')
print('gebroadcaste kolommen:\n', np.broadcast_to(kolommen, (2, 2)))
print('arr[rijen, kolommen]\n', arr[rijen, kolommen])

##Waarden wijzigen
We kunnen niet alleen waarden opvragen, we kunnen ze ook wijzigen:

In [None]:
import numpy as np
arr = np.arange(12).reshape(3, 4)
print('arr:\n', arr)
rijen = np.array([0, 1]).reshape(2, 1)
kolommen = np.array([3, 2])
arr[rijen, kolommen] = 100
print('arr:\n', arr)

#we kunnen ook += gebruiken
In het volgende voorbeeld verhogen we de elementen 0 en -1 met 1


In [None]:
import numpy as np
arr = np.zeros((4))
indexen = [0, -1]

arr[indexen] += 1
print(arr)

##Meerdere keren verhogen
Maar wat gebeurt er wanneer we proberen om  tweemaal te verhogen?

Het probleem is dat dit in feite een toewijzing tweemaal uitvoert:
```
resultaat = arr[0] + 1
arr[0] = resultaat
arr[0] = resultaat
```



In [None]:
import numpy as np
arr = np.zeros(4)
indexen = [0, 0]
arr[indexen] += 1
print(arr)

##De 'at'-functie van UFuncs
Om meerdere keren 1 op te tellen bij een element, kunnen we beter np.add.at(.., indices,..) gebruiken:

In [None]:
import numpy as np
arr = np.zeros(4)
indexen = [0, 0]
np.add.at(arr, indexen, 1)
print(arr)

[2. 0. 0. 0.]


## Toepassing: 'Binning' van waarden
Wanneer we met integers werken, kunnen we tellen hoe dikwijls een bepaalde waarde voorkomt

In [None]:
import matplotlib.pyplot as plt
import numpy as np

rng = np.random.default_rng(42)
getallen = rng.integers(1, 11, size=100)
values, counts = np.unique(getallen, return_counts=True)
plt.bar(values, counts)
plt.show()

##Binning met floatwaarden
Het probleem met floats is dat we geen bins met een exacte waarde kunnen gebruiken. In plaats daarvan moeten we elke bin een waarde van-tot geven. Wanneer een float tussen die grenswaarden valt, telt hij mee voor een waarde in de bin.(natuurlijk kan dit ook voor integers)

We zouden het aantal waarden in een bin zelf kunnen berekenen. Maar gelukkig heeft matplotlib een eigen plt.hist() functie die dat voor ons doet.

In [None]:
import matplotlib.pyplot as plt
import numpy as np

rng = np.random.default_rng(42)
gemiddelde = 4
stdev = 2
getallen = rng.normal(loc=gemiddelde, scale=stdev, size=10_000)
#In een normaalverdeling liggen 99,7% waarden binnen gemiddelde +/- 3*stdev
bins = np.linspace(gemiddelde - 3 * stdev, gemiddelde + 3 * stdev, 9)
plt.hist(getallen, bins=bins)
plt.show()

##De histogram()-functie in NumPy
Achter de schermen gebruikt matplotlib de functie np.histogram()

In [None]:
import matplotlib.pyplot as plt
import numpy as np

rng = np.random.default_rng(42)
gemiddelde = 4
stdev = 2
getallen = rng.normal(loc=gemiddelde, scale=stdev, size=10)
print(f'{getallen=}')
bins = np.linspace(gemiddelde - 3 * stdev, gemiddelde + 3 * stdev, 9)
hist, bin_edges = np.histogram(getallen, bins=bins)
print(f'{hist=}')
print(f'{bin_edges=}')
plt.bar(bin_edges[1:], hist)
plt.show()

##Een probleem met de vorige oplossing
Met de vorige oplossing is er een probleem. De *bars* staan niet op de correcte plaats. In feite hebben we een array nodig met het gemiddelde van twee opeenvolgende grenswaarden. We kunnen die array als volgt samenstellen.
*   stel dat ik de array [1, 2, 3, 4] heb
*   en ik wil de gemiddelden krijgen: [1.5, 2.5, 3.5]
*   dan kan ik de volgende twee arrays samentellen: [1, 2, 3] en [2, 3, 4]
*   vervolgens deel ik het resultaat door 2



In [None]:
import matplotlib.pyplot as plt
import numpy as np

rng = np.random.default_rng(42)
gemiddelde = 4
stdev = 2
getallen = rng.normal(loc=gemiddelde, scale=stdev, size=10)
bins = np.linspace(gemiddelde - 3 * stdev, gemiddelde + 3 * stdev, 9)
hist, bin_edges = np.histogram(getallen, bins=bins)

gemiddelden = (bin_edges[:-1] + bin_edges[1:]) / 2
print(f'{bin_edges=}')
print(f'{gemiddelden=}')
plt.bar(gemiddelden, hist)
plt.show()


##En wanneer we het zelf willen doen
De functie np.searchsorted(grenzen, waarden) zoekt waar de verschillende waarden terecht zouden komen in de gesorteerde array met grenzen.

Let op met de array *aantallen*: het eerste element in *aantallen* is het aantal waarden dat kleiner is dan bins[0]. Die waarde hebben we niet nodig (vandaar aantallen[1:] in plt.bar())

In [None]:
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.default_rng(42)
gemiddelde = 4
stdev = 2
getallen = rng.normal(loc=gemiddelde, scale=stdev, size=10)
print(f'{getallen=}')
#Bij een normaalverdeling vallen 99,7% van de data binnen gemiddelde +/- 3*stdev
bins = np.linspace(gemiddelde - 3 * stdev, gemiddelde + 3 * stdev, 9)
print(f'{bins=}')
aantallen = np.zeros_like(bins)
indexen = np.searchsorted(bins, getallen)
print(f'{indexen=}')
np.add.at(aantallen, indexen, 1)
print(f'{aantallen=}')
gemiddelden = (bins[:-1] + bins[1:]) / 2
plt.bar(gemiddelden, aantallen[1:])
plt.show()


#Foto's
Een kleurenfoto kan voorgesteld worden als een reeks pixels, waarbij elke pixel drie waarden heeft: een combinatie van de kleuren rood, groen en blauw (rgb). Een foto van 100x100 kan als een array worden voorgesteld met de *shape* (100, 100, 3)

Met de PIL-module kunnen we images laden. In het volgende voorbeeld downloaden we een voorbeeldfoto die gebruikt wordt door matplotlib. We kunnen die vervolgens openen met *Image.open()*. Deze functie laadt de image niet in het geheugen, maar opent het bestand zodat het daarna gelezen kan worden. De *load()*-functie geeft een *iterable* terug die gebruikt kan worden met de functie *np.asarray()* om een NumPy array te maken (shape: (375, 500, 3)).

In [None]:
import PIL.Image as Image
import numpy as np
import requests

url = 'https://raw.githubusercontent.com/matplotlib/matplotlib/main/doc/_static/stinkbug.png'
response = requests.get(url)
FOTO_PNG = 'stinkbug.png'
with open(FOTO_PNG, 'wb') as f:
    f.write(response.content)
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
print(f'{arr.shape=}')


## Een foto tonen met matplotlib
De functie *imshow()* van matplotlib kan gebruikt worden om een array met rgb-waarden te tonen:

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import PIL.Image as Image
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
plt.imshow(arr)
plt.show()


##De resolutie van een foto
Wanneer we in de eerste twee dimensies telkens een waarde overslaan verminderen we de resolutie van de foto

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import PIL.Image as Image
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
arr_kleiner = arr[::2, ::2]  #probeer ook eens met arr[::4, ::4]
print(f'{arr_kleiner.shape=}')
plt.imshow(arr_kleiner)
plt.show()


##De grootte van de foto
*   We kunnen natuurlijk ook de grootte van de foto wijzigen door slices te maken van de eerste twee dimensies
*   De term die hier soms gebruikt wordt is *bijsnijden*.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import PIL.Image as Image
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
arr_300_300 = arr[50:350, 100:400]
plt.imshow(arr_300_300)
plt.show()


## RGB-waarden en grijswaarden
De foto wordt getoond met grijswaarden omdat de RGB-waarden aan elkaar gelijk zijn. Wanneer we maar 1 van de kleuren gebruiken (het maakt natuurlijk niet uit welke), krijgen we een raar resultaat.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import PIL.Image as Image
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
print(f'{arr[0,0]=}')
arr_rood = arr[:,:,0]
plt.imshow(arr_rood)
plt.show()

##Colormaps
Aangezien we geen rgb-waarden meer hebben in de vorige foto, wordt er een *colormap* gebruikt. De waarde van elk beeldpunt verwijst naar een index in de *colormap*. Vergelijk met VLOOKUP (VERT.ZOEKEN) in Excel of een foreign key in een databank

De standaard colormap is 'Viridis'. De colormap bevat geen rgb-waarden (0-255) maar floatwaarden tussen 0.0 en 1.0. We kunnen die natuurlijk omzetten naar een RGB door te vermenigvuldigen met 256 en om te zetten naar een np.uint8.

We hebben nu een array met als shape (256, 3). We kunnen die array tonen met plt.imshow(), maar dan is de tekening maar 1 pixel breed. Om de array 20 keer te 'stapelen' op zichzelf, kunnen we broadcasting gebruiken.

In [None]:
import matplotlib.pyplot as plt
import matplotlib.colors
print(f'{plt.rcParams["image.cmap"]=}')
kleuren = (np.array(plt.get_cmap('viridis').colors) * 256).astype(np.uint8)
print("Eerste 3 waarden van plt.get_cmap('viridis').colors:\n",plt.get_cmap('viridis').colors[:3])
#plt.imshow(kleuren)
plt.imshow(np.broadcast_to(kleuren, (20, 256, 3)))
plt.show()



## Een eigen colormap
* Ik kan een eigen kleurenmap maken door een array te maken met 3 keer de getallen tussen 0 en 255 (een unsigned int8), bijvoorbeeld:
   1. de reeks 0-255
   1. de reeks 128-255, 254-127
   1. de reeks 255-0

* Wanneer we np.vstack() gebruiken om de drie arrays samen te voegen heeft de *lookup*-array nu de shape (3, 256)
* Dat is de verkeerde vorm om te broadcasten naar (20, 256, 3)
* Daarvoor moeten rijen en kolommen omgewisseld worden
* In de wiskunde noemt men dat "een matrix transponeren"
* En NumPy ondersteunt dat met de *transpose()*-functie. Omdat die zo dikwijls gebruikt wordt, kunnen we daarvoor het attribuut *.T* gebruiken van een array:

In [None]:
import matplotlib.pyplot as plt
import numpy as np
arr1 = np.arange(256, dtype=np.uint8)
arr2 = np.hstack([np.arange(128, 256, dtype=np.uint8), np.arange(254, 126, -1, dtype=np.uint8)])
arr3 = np.arange(255, -1, -1, dtype=np.uint8)
lookup = np.vstack([arr1, arr2, arr3])
print('Shape van lookup vóór transponeren:', lookup.shape)
lookup = lookup.T  #transpose: rijen en kolommen wisselen
print('Shape van lookup na transponeren:', lookup.shape)
#De vorige twee statements kunnen natuurlijk ook vervangen worden door
#lookup = np.columnstack([arr1, arr2, arr3])
plt.imshow(np.broadcast_to(lookup, (20, 256, 3)))
plt.show()



##De eigen kleurenmap gebruiken
We zouden een *Matplotlib Colormap* kunnen maken. Maar we kunnen ook een eigen techniek gebruiken om een kleurenfoto te maken. De array *lookup* koppelt een waarde tussen 0 en 255 naar een rgb-waarde.

De array *tekening* bevat de roodwaarden van de foto. Door de tekening te gebruiken als index van de *lookup*-array, krijgen we een foto met als dimensie de dimensie van de tekening en de kleuren van de *lookup*-array. Op die manier kunnen we de foto tonen met onze eigen kleurenmap.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import PIL.Image as Image
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
arr1 = np.arange(256, dtype=np.uint8)
arr2 = np.hstack([np.arange(128, 256, dtype=np.uint8), np.arange(255, 127, -1, dtype=np.uint8)])
arr3 = np.arange(256, dtype=np.uint8)[::-1]
lookup = np.column_stack([arr1, arr2, arr3])
tekening = arr[:,:,0]
plt.imshow(lookup[tekening])
plt.show()

## Een colormap die we kunnen gebruiken als Matplotlib colormap
Om een Matplotlib colormap te maken op basis van een array met RGB-waarden, kunnen we *ListedColormap* gebruiken. De constructor verwacht een reeks RGB-waarden tussen 0.0 en 1.0.

Let op: de cmap-parameter wordt alleen gebruikt wanneer de foto geen RGB-waarden bevat. Daarom nemen we in dit voorbeeld de eerste kleur (de drie kleuren zijn toch aan elkaar gelijk)

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from matplotlib.colors import ListedColormap
import PIL.Image as Image
img = Image.open(FOTO_PNG)
arr = np.asarray(img, dtype=np.uint8)
arr1 = np.arange(256, dtype=np.uint8)
arr2 = np.hstack([np.arange(128, 256, dtype=np.uint8), np.arange(255, 127, -1, dtype=np.uint8)])
arr3 = np.arange(256, dtype=np.uint8)[::-1]
lookup = np.column_stack([arr1, arr2, arr3])/256 #zet om naar 0.0-1.0
plt.imshow(arr[:,:,0], cmap=ListedColormap(lookup))
plt.show()
