#NumPy arrays sorteren
##np.sort()
Net zoals in Python, hebben we in NumPy ook een *np.sort()*-functie. Die functie geeft de gesorteerde array terug. De oorspronkelijke array is niet gewijzigd.

In [1]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(low=0, high=20, size=10)

arr_gesorteerd = np.sort(arr)
print(f'{arr=}')
print('na sorteren:')
print(f'{arr_gesorteerd=}')


arr=array([13,  4, 15,  6,  4, 15, 12, 13, 19,  7])
na sorteren:
arr_gesorteerd=array([ 4,  4,  6,  7, 12, 13, 13, 15, 15, 19])


##ndarray.sort()
Er is ook een sort()-functie van de array-klasse. Die sorteert de oorspronkelijke array

In [None]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(low=0, high=20, size=10)
print(f'{arr=}')
arr.sort()
print('na sorteren:')
print(f'{arr=}')

##De axis-parameter
In een array met 2 dimensies kunnen we per rij (='over de kolommen heen') sorteren.

In [None]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(low=0, high=20, size=10).reshape(2, 5)
print('arr:\n', arr)
print('arr gesorteerd over de kolommen heen:\n', np.sort(arr, axis=1))

##De np.argsort()-functie
We hebben al een aantal voorbeelden gezien waarbij we een bestand lezen met verschillende kolommen. Omdat de data in de kolommen verschillen, kunnen we de data niet in 1 array inlezen. Neem als voorbeeld de plaatsen en de temperaturen in Spanje.

Wanneer we de ene array sorteren, moet de andere array op dezelfde manier gesorteerd worden. Hiervoor kunnen we *np.argsort()* gebruiken. In plaats van de elementen van de array te sorteren, krijgen we de indexen terug die nodig zijn om de array te sorteren.

In het volgende voorbeeld sorteren we op voornaam. Door *np.argsort()* te gebruiken, kunnen we *arr_namen* en *arr_datums* op dezelfde manier sorteren.

In [None]:
import numpy as np
arr_namen = np.array(['Karen', 'Kristel', 'Kathleen'])
arr_datums = np.array(['1974-10-28', '1975-12-10', '1978-06-18'], dtype=np.datetime64)
indexen = np.argsort(arr_namen)
for naam, geboortedatum in zip(arr_namen[indexen], arr_datums[indexen]):
  print(f'{naam} geboren op {geboortedatum}')

##rijen sorteren
Wanneer we een array met 2 dimensies hebben, kunnen we volledige rijen sorteren. We moeten dan kiezen op basis van welke kolom we willen sorteren. Ook hier kan np.argsort() helpen.

In [None]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(low=0, high=20, size=10).reshape(5, 2)
print('arr:\n', arr)
print('sorteren op kolom 0')
print(arr[[np.argsort(arr[:, 0])]])
print('sorteren op kolom 1')
print(arr[[np.argsort(arr[:, 1])]])

We kunnen natuurlijk ook op kolommen sorteren. Maar let op: een array met geavanceerde indexen krijgt de shape van de indexen. Wanneer we de statements van het vorige voorbeeld blindelings aanpassen, voegen we een extra dimensie toe. De kolomindex heeft immers 2 dimensies.

Daarom moeten we een array met 1 dimensie gebruiken: arr[0] en arr[1]. We zien hier dat er ook twee versies bestaan van *argsort*. Maar in dit geval gaat het over dezelfde functie (er is geen verschil)

In [None]:
import numpy as np
rng = np.random.default_rng(12345)
arr = rng.integers(low=0, high=20, size=10).reshape(5, 2)
print('arr:\n', arr)
print('kolommen sorteren op rij 0')
#print(arr[:, [np.argsort(arr[0, :])]])
print(arr[:, np.argsort(arr[0])])
print('kolommen sorteren op rij 2')
#print(arr[:, [np.argsort(arr[2, :])]])
print(arr[:, arr[2].argsort()])

##De drie kleinste waarden: partitioning
Soms zijn we geïnteresseerd in de k kleinste waarden (wanneer? We zien zo dadelijk een voorbeeld). Hiervoor kunnen we de *np.partition()*-functie gebruiken.

De functie zet het k-de kleinste element op de juiste positie. De waarden die kleiner zijn, staan links. De waarden die groter zijn staan rechts. Op die manier hebben we de array verdeeld in twee 'partities'. Let op: binnen de twee partities ligt de volgorde niet vast. In dit geval is de totale array gesorteerd, maar dat hoeft niet altijd het geval te zijn.

In [None]:
import numpy as np
import numpy as np
rng = np.random.default_rng(42)
arr = rng.integers(low=0, high=20, size=10)
print(f'{arr=}')
arr_kleinsten = np.partition(arr, kth=3)
print('Gepartitioneerd op het vierde kleinste element(8)')
print(f'{arr_kleinsten[:3]=}')

##K-dichtste buren
Stel dat we een aantal x- en y-coördinaten hebben van een aantal locaties. Voor elke locatie willen we de dichtste buurlocatie zien.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.default_rng(42)
x = rng.integers(low=1, high=20, size=10)
y = rng.integers(low=1, high=20, size=10)
punten = np.column_stack([x, y])
print(f'{punten=}')

plt.scatter(x, y)
plt.show()


##De dichtste buur
We kunnen de afstand tussen twee punten in een vlak berekenen met
$afstand_{12} = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}$. Maar aangezien we afstanden willen vergelijken met elkaar is alleen de relatieve grootte belangrijk. Omdat de berekening van een vierkantswortel een zware berekening is, laten we die weg.

Om de x- en y-coordinaten van elkaar af te trekken, kunnen we *np.subtract.outer()* gebruiken. De *outer()*-functie van *UFunc* neemt alle mogelijke combinaties van de twee arrays.

We zien dat de afstand van een punt tot zichzelf 0 is. Dat is de eerste kolom in *afstanden*. In de tweede kolom vinden we de dichtste buur.



In [None]:
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.default_rng(42)
x = rng.integers(low=1, high=20, size=10)
y = rng.integers(low=1, high=20, size=10)
verschil_x = np.subtract.outer(x, x) **2
verschil_y = np.subtract.outer(y, y) **2
afstanden = verschil_x + verschil_y

print('afstanden:\n', afstanden)
print('De diagonaal:', np.diag(afstanden))
K=2
nearest_partition = np.argpartition(afstanden, K, axis=1)
print('dichtste buren:\n', nearest_partition)
plt.scatter(x, y)
for i in range(x.shape[0]):
  for j in nearest_partition[i, :K]:
    plt.plot([x[i], x[j]], [y[i], y[j]], 'r-')
plt.show()


#Een andere manier om de afstanden te berekenen: np.newaxis
We hebben *reshape()* al gezien om een extra dimensie toe te voegen aan een array. Het attribuut *np.newaxis* doet hetzelfde.


In [None]:
import numpy as np
arr = np.array([1, 2, 3])
print('1 rij en 3 kolommen met reshape():')
print(arr.reshape(1, 3))
print('1 rij en 3 kolommen met newaxis:')
print(arr[np.newaxis, :])
print('3 rijen en 1 kolom met reshape():')
print(arr.reshape(3, 1))
print('3 rijen en 1 kolom met newaxis:')
print(arr[:, np.newaxis])

##Een array met 2 dimensies
De positie van np.newaxis bepaalt waar de vierkante haakjes worden toegevoegd:
*   arr[:, np.newaxis, :] : arr.reshape(3, 1, 2)
*   arr[:, :, np.newaxis] : arr.reshape(3, 2, 1)

In [None]:
import numpy as np
arr = np.array([1, 2, 3, 4, 5, 6]).reshape(-1, 2)
print('arr:\n',arr)
print(('Voeg aan elke rij een extra dimensie toe'))
#De laatste dubbele punt mogen we weglaten
print(arr[:, np.newaxis, :])
#print(arr.reshape(3, 1, 2))
#De laatste dubbele punt mogen we weglaten
#print(arr[:, np.newaxis])
print('Voeg aan elke kolom een extra dimensie toe')
print(arr[:, : , np.newaxis])
#print(arr.reshape(3, 2, 1))

##Elk element van elk element aftrekken
We hebben gezien dat we met *np.subtract.outer()* elk element van elk element kunnen aftrekken. Dit kan ook de volgende manier.

In [None]:
import numpy as np
arr = np.array([1, 2, 3, 4, 5, 6]).reshape(-1, 2)
print('arr:\n', arr)
x_1 = arr[:, np.newaxis]  #hetzelfde als arr[:, np.newaxis, :]
x_2 = arr[np.newaxis, :]  #hetzelfde als arr[np.newaxis, :, :]
print('x_1:\n', x_1.shape)
print('x_2:\n', x_2.shape)
print('x_1:\n', x_1)
print('x_2:\n', x_2)
print('\nx_1 - x_2:')
print(x_1 - x_2)
#x_broadcast_1 = np.broadcast_to(x_1, (3, 3, 2))
#x_broadcast_2 = np.broadcast_to(x_2, (3, 3, 2))
#print(x_broadcast_1 - x_broadcast_2)
#

##De dichtste buur met np.newaxis
En nu kunnen we dat gebruiken om de afstanden tussen *punten* te berekenen als alternatief voor *np.subtract.outer*

In [None]:
import numpy as np
rng = np.random.default_rng(42)
x = rng.integers(low=1, high=20, size=10)
y = rng.integers(low=1, high=20, size=10)
punten = np.column_stack([x, y])
afstanden = np.sum((punten[:, np.newaxis] - punten[np.newaxis, :])**2, axis=-1)
print('afstanden:\n', afstanden)
K=2
nearest_partition = np.argpartition(afstanden, K, axis=1)
print('dichtste buren:\n', nearest_partition)
plt.scatter(x, y)
for i in range(x.shape[0]):
  for j in nearest_partition[i, :K]:
    plt.plot([x[i], x[j]], [y[i], y[j]], 'r-')
plt.show()