#Aggregaties
Aggregatiefuncties nemen een reeks waarden tezamen en maken er 1 waarde van. De belangrijkste voorbeelden in SQL zijn: min(), max(), sum(), avg(), count()

##De sum-functies
Er is *sum()*(Python functie) en *np.sum()* (NumPy functie). De Python functie is niet alleen trager, ze heeft ook andere argumenten.

In [None]:
import numpy as np

rng = np.random.default_rng(42)
arr_1 = rng.integers(0, 10, size=6).reshape(2, -1)
print('arr_1:\n', arr_1)
print(f'{sum(arr_1)=}')
print(f'{np.sum(arr_1)=}')
print(f'{sum(arr_1, 1)=}')   # arr_1=iterable, 1=startwaarde
print(f'{np.sum(arr_1, 1)=}') #1=axis ('over de kolommen heen'=per rij)
#De sum()-functie met lists voegt ze samen. De startwaarde moet ook een list zijn.
print(f'{sum([[0, 7, 6],[4, 4, 8]], [0, 0, 0])=}')

##Een axis in NumPy
Een *axis* verwijst naar een dimensie in een meer-dimensionele array. In een tweedimensionele array verwijst axis=0 naar de rijen (eerste dimensie) en axis=1 naar de kolommen (tweede dimensie).

Vergelijk de volgende drie sommen:

In [None]:
import numpy as np

rng = np.random.default_rng(42)
arr_1 = rng.integers(0, 10, size=6).reshape(2, -1)
print('arr_1:\n', arr_1)
print(f'{np.sum(arr_1)=}')          #alle waarden optellen
print(f'{np.sum(arr_1, axis=0)=}')  #over de rijen heen (per kolom): de rijdimensie verdwijnt
print(f'{np.sum(arr_1, axis=1)=}')  #over de kolommen heen (per rij): de kolomdimensie verdwijnt

##Het gemiddelde van een reeks waarden

In [None]:
import numpy as np

rng = np.random.default_rng(42)
arr_1 = rng.integers(0, 10, size=6).reshape(2, -1)
print('arr_1:\n', arr_1)
print(f'{np.mean(arr_1)=}')          #gemiddelde van alle waarden
print(f'{np.mean(arr_1, axis=0)=}')  #over de rijen heen (per kolom)
print(f'{np.mean(arr_1, axis=1)=}')  #over de kolommen heen (per rij)

##De waarde 'None' (NULL in een databank)
Soms ontbreekt er een waarde. In Python gebruiken we daarvoor de waarde *None*. Maar let op met een aggregatiefunctie voor een array met None-waarden. (dit is dus anders dan in een databank waar een aggregatiefunctie geen rekening houdt met NULL-waarden)

In [None]:
import numpy as np

arr = np.array([1, 2, 3, None])
print(arr)
print(f'{np.mean(arr[:-1])=}')
print(f'{np.mean(arr)=}')

## De waarde Not-A-Number
Alle elementen van een NumPy array moeten hetzelfde type hebben. De waarde *None* is geen integer, daarom wordt het algemene type 'Python object' gekozen. Door als type specifiek *np.float64* te kiezen, zien we de overeenkomstige NumPy waarde voor *None* verschijnen: np.nan.

In [None]:
import numpy as np

arr = np.array([1, 2, 3, None])
print(f'arr.dtype: {arr.dtype}')
arr = arr.astype(np.float64)
print(f'Na omzetten naar float64 type {arr.dtype=}')
print(f'{arr=}')


## Not-A-Number is een float
In NumPy is NaN geen geldige waarde voor een integer. Dat heeft gevolgen voor het type dat NumPy kiest wanneer we een array maken.

In [None]:
import numpy as np

arr = np.array([1, 2, 3, np.nan])
print(f'{arr=}')
print(f'{arr.dtype=}')

## Let op met np.nan-waarden
De aggregatiefuncties hebben een probleem met np.nan-waarden. Dit is dus anders dan in SQL.

In [None]:
import numpy as np

arr = np.array([1, 2, 3, np.nan])
print(f'{arr=}')

print(f'{np.sum(arr)=}')
print(f'{np.mean(arr)=}')

print(f'{np.nansum(arr)=}')
print(f'{np.nanmean(arr)=}')

##Gemiddelde en mediaan
Het gemiddelde is gedefinieerd als de *som van de elementen gedeeld door het aantal*.

De mediaan is het *middelste element van de gesorteerde elementen*. Wanneer er een even aantal elementen zijn, wordt het gemiddelde van de twee middelste elementen genomen.

In het volgende voorbeeld zien we dat extreme waarden (de 1-waarden) het gemiddelde meer beïnvloeden dan de mediaan.


In [None]:
import numpy as np
arr1 = np.arange(10, 20)
print('arr1:\n', arr1)
print(f'{np.mean(arr1)=}')
print(f'{np.median(arr1)=}')
arr2 = np.ones(2, dtype=np.int64) #standaardtype van np.ones is float
arr = np.hstack ([arr1, arr2])
print('arr1:\n', arr)
print(f'{np.mean(arr)=}')
print(f'{np.median(arr)=}')

##Unieke waarden
Met np.unique() kunnen we unieke waarden opvragen. Met de extra parameter *return_counts* kunnen we ook opvragen hoe dikwijls elk van die waarden voorkomen

In [None]:
import numpy as np
rng = np.random.default_rng(42)
arr = rng.integers(0, 5, size=10)
print(f'{arr=}')
print(f'{np.unique(arr)=}')
print(f'{np.unique(arr, return_counts=True)=}')
waarde = 0
print(f'Hoe dikwijls komt de waarde {waarde} voor in de array?')
uniek, aantallen = np.unique(arr, return_counts=True)
aantallen[uniek==waarde]

##Grootste en kleinste waarde
Met de functies np.max() en np.min() kunnen we het maximum en het minimum van een array opvragen. Maar ook hier moeten we opletten met nan-waarden

In [None]:
import numpy as np
rng = np.random.default_rng(42)
arr1 = rng.integers(0, 10, size=6).reshape(2, -1).astype(np.float64)

print('arr1:\n', arr1)
print(f'{np.max(arr1)=}')
print(f'{np.min(arr1)=}')
print(f'{np.max(arr1, axis=0)=}')
print(f'{np.max(arr1, axis=1)=}')
arr1[1, 0] = np.nan
print('arr1:\n', arr1)
print(f'{np.max(arr1)=}')
print(f'{np.min(arr1)=}')
print(f'{np.nanmax(arr1)=}')
print(f'{np.nanmin(arr1)=}')


##Ongeldige datums
Een ongeldige datum wordt 'NaT' (not-a-time). Hier kunnen we ook np.nanmax() gebruiken wanneer we de laatste datum willen opvragen.

In [None]:
import numpy as np
arr = np.array(['2025-01-01','2025-02-28', '2025-09-20', ''], dtype='datetime64[D]')
print(f'{arr=}')
print(f'{np.isnat(arr)=}')
print(f'{np.nanmax(arr)=}')


## Data uit een bestand
Meestal worden de data bij een data-analyse niet ingetypt. We halen die bijvoorbeeld uit een bestand. We zouden het bestand kunnen lezen met Python. Maar er is een speciale functie in NumPy om CSV-bestanden te lezen: *np.genfromtext*.

We beginnen met een planetendataset te downloaden van [kaggle](https://www.kaggle.com/datasets/iamsouravbanerjee/planet-dataset). Hiervoor gebruiken we natuurlijk Python. De download is een zipbestand. We gebruiken de ingebouwde module *zipfile* om de bestanden (planets.csv en planets_updated.csv) uit te pakken.

In [None]:
from zipfile import ZipFile
import numpy as np
import requests

data = requests.get('https://www.kaggle.com/api/v1/datasets/download/iamsouravbanerjee/planet-dataset')
ZIP_BESTAND = 'archive.zip'
with open(ZIP_BESTAND, 'wb') as bestand:
  bestand.write(data.content)
with ZipFile(ZIP_BESTAND, 'r') as bestand:
  bestand.extractall()

##Planets.csv lezen
Om te zien hoe het bestand er uitziet, kunnen we Python gebruiken

In [None]:
PLANETS_CSV = 'planets.csv'
with open(PLANETS_CSV, 'r') as bestand:
  for _ in range(4):
    print(bestand.readline(), end='')

## Probleem met kolom 'Color'
De tweede kolom (Color) bevat tekst, gescheiden door een komma. De Python CSV-reader heeft hiermee geen probleem omdat we als *quotechar* de dubbele aanhalingstekens kunnen ingeven. Maar de functie die we zullen gebruiken in NumPy herkent de dubbele aanhalingstekens niet (").

Daarom zullen we het scheidingsteken vervangen door de puntkomma en een nieuw CSV-bestand maken.

In [None]:
import csv
PLANETEN_CSV = 'planeten.csv'
with open(PLANETS_CSV, 'r') as bestand:
  reader = csv.DictReader(bestand, delimiter=',', quotechar='"')
  with open(PLANETEN_CSV, 'w', newline='') as bestand2:
    writer = csv.DictWriter(bestand2, fieldnames=reader.fieldnames, delimiter=';')
    writer.writeheader()
    writer.writerows(reader)
with open(PLANETEN_CSV, 'r') as bestand:
  for regel in bestand:
    print(regel, end='')


##De gemiddelde diameter van de planeten in ons zonnestelsel
Het scheidingsteken is een puntkomma. De eerste regel bevat de kolomnamen. Die zullen we moeten overslaan. En de diameter staat in de 4de kolom.

In [None]:
import numpy as np
arr_diameter = np.genfromtxt(PLANETEN_CSV, delimiter=';', usecols=3, skip_header=1)
print(f'{arr_diameter=}')
print(f'{np.mean(arr_diameter)=}')

## De planeten met een ringstelsel
We maken een array met de namen van de planeten. Of een planeet een ringstelsel heeft, staat in de 21ste kolom. De waarden in die kolom zijn 'Yes' en 'No'. Met behulp van een converter kunnen we die omzetten naar een boolean.

En we hebben al gezien dat we een array van booleanwaarden als filter kunnen gebruiken tussen de vierkante haakjes.

In [None]:
import numpy as np
arr_namen = np.genfromtxt(PLANETEN_CSV, delimiter=';', usecols=0, skip_header=1, dtype=str)
arr_rings = np.genfromtxt(PLANETEN_CSV, delimiter=';', usecols=20, skip_header=1, converters={20:lambda s: s=='Yes'})
print(f'{arr_rings=}')
print(f'{arr_namen[arr_rings]=}')