### Bijkomende Math en Stats Functies

Naast de universele wiskundige functies, waarvan we er reeds enkele zagen, implementeert NumPy nog veel meer functies onder meer voor lineaire algebra, Fourier transformaties, statistiek enz... 

Op volgende link kan je een volledig overzicht vinden:

https://numpy.org/doc/stable/reference/routines.html

NumPy heeft een paar eenvoudige financieel gerelateerde functies (voornamelijk gerelateerd aan renteberekeningen), maar deze worden afgeschaft en zullen uiteindelijk uit NumPy worden verwijderd. (https://numpy.org/neps/nep-0032-remove-financial-functions.html)

We bekijken hier enkele wiskundige en statistische functies.

In [1]:
import numpy as np

We kunnen het minimum en maximum van een array vinden:

In [2]:
np.amin(np.array([10, 5, 20]))

5

In [3]:
np.amax(np.array([10, 5, 20]))

20

We kunnen dit ook met 2_D arrays: 

In [4]:
m = np.array([[10, 2, 3], [4, 50, 6], [7, 8, 90]])
m

array([[10,  2,  3],
       [ 4, 50,  6],
       [ 7,  8, 90]])

In [5]:
np.amin(m), np.amax(m)

(2, 90)

We kunnen NumPy dit ook laten uitvoeren over een specifieke as:

In [6]:
np.amin(m, axis=0) # axis=0: doe dit over de rijen

array([4, 2, 3])

Zoals je ziet krijgen we een array die het minimum over alle rijen heen geeft (as `0`) voor elke kolom.

We kunnen als axis ook `1` kiezen, wat betekent dat we het minimum voor elke rij krijgen over alle kolommen heen:

In [7]:
np.amin(m, axis=1)

array([2, 4, 7])

Andere standaard stats functies omvatten zaken zoals de mediaan, gemiddelde, standaardafwijking:

In [7]:
np.median(np.array([1, 2, 3, 4, 5]))

3.0

In [8]:
np.median(np.array([1, 2, 3, 4, 5, 6]))

3.5

Om het gemiddelde te bepalen kunnen we de `mean` functie gebruiken.  Gewogen gemiddeldes kan je verkrijgen via `average`:

In [9]:
np.mean(np.array([1, 2, 3]))

2.0

Standaardafwijking kan je berekenen via de `std` functie:

In [10]:
np.std(np.array([-2, -1, 0, 1, 2]))

1.4142135623730951

Natuurlijk kan je deze functies ook gebruiken voor multi-dimensionale arrays; we moeten enkel de as specifiëren waarover het gemiddelde, de standaardafwijking enz wordt berekend.

In [14]:
m = np.array(
    [
        [1, 10, 100],
        [2, 20, 200],
        [3, 30, 300],
        [3, 30, 300],
        [4, 40, 400]
    ]
)

Om het gemiddelde, de mediaan, ... te berekenen voor elke kolom gebruiken we als as waarover dit gebeurt de rijen (`0`):

In [15]:
np.mean(m, axis=0)

array([  2.6,  26. , 260. ])

In [16]:
np.median(m, axis=0)

array([  3.,  30., 300.])

En om het gemiddelde enz te berekenen voor elke rij, moeten we over de kolommen heen werken, dus zetten we de as op `1`:

In [17]:
np.mean(m, axis=1)

array([ 37.,  74., 111., 111., 148.])

In [18]:
np.median(m, axis=1)

array([10., 20., 30., 30., 40.])

Er zijn ook functies aanwezig waarmee we de som van alle elementen langs een as kunnen vinden:

In [19]:
np.sum(np.arange(1, 10))

45

We kunnen zelfs elk element van een multi-dimensionale array optellen:

In [20]:
m = np.arange(1, 10).reshape(3, 3)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [21]:
np.sum(m)

45

We kunnen in een hoger dimensionale array ook specifieker zijn door de as waarlangs we willen sommeren te specifiëren:

In [22]:
np.sum(m, axis=0)

array([12, 15, 18])

In [23]:
np.sum(m, axis=1)

array([ 6, 15, 24])

NumPy implementeert ook enkele functies waarmee we kunnen afronden, zoals de `around` functie:

In [24]:
arr = np.array([1.11, 2.22, 5.55, 6.66])
arr

array([1.11, 2.22, 5.55, 6.66])

In [25]:
np.around(arr, 1)

array([1.1, 2.2, 5.6, 6.7])

In [26]:
np.around(arr)

array([1., 2., 6., 7.])

Een andere zeer handige functie is de `histogram` functie, die een frequentiedistributie kan berekenen van waarden in een array, gebruikmakend van opgegeven bins:

In [27]:
np.random.seed(0)
arr = np.random.randint(1, 10, 20)
arr

array([6, 1, 4, 4, 8, 4, 6, 3, 5, 8, 7, 9, 9, 2, 7, 8, 8, 9, 2, 6])

We berekeneen een frequentiedistributie van nummers gebruikmakend van de volgende bins: 

```
[0, 2) [2, 4) [4, 6) [6, 8) [8, 9]
```

De bin edges zijn: `0`, `2`, `4`, `6`, `8` en de meest rechtse rand `9` die inclusief is.

In [28]:
np.histogram(arr, bins=np.array([0, 2, 4, 6, 8, 9]))

(array([1, 3, 4, 5, 7]), array([0, 2, 4, 6, 8, 9]))

We zouden ook gewoon het aantal gewenste bins kunnen opgeven, en NumPy zelf de randen laten bepalen.  Dit gebeurt dan met bins die een uniforme breedte hebben, gebaseerd op min en max van onze array:

In [29]:
np.histogram(arr, bins=4)

(array([3, 4, 4, 9]), array([1., 3., 5., 7., 9.]))

#### Voorbeeld

Laten we de frequentie distributie van random gegenereerde data bepalen:

We kunnen de frequentie distributie voor integers bepalen aan de hand van de volgende functie:

In [30]:
def freq_distribution(data):
    freq = {}
    for el in data:
        freq[el] = freq.get(el, 0) + 1
    return freq

In [31]:
data = [1, 1, 1, 2, 2, 3]

In [44]:
freq_d = freq_distribution(data)
freq_d

{1: 3, 2: 2, 3: 1}

Vervolgens berekenen we de relatieve frequenties:

In [33]:
def relative_freq(freq_dist):
    sum_freq = sum(freq_dist.values())
    return {
        k: v / sum_freq * 100 for k, v in freq_dist.items()
    }

In [34]:
relative_f = relative_freq(freq_d)
relative_f

{1: 50.0, 2: 33.33333333333333, 3: 16.666666666666664}

Vervolgens sorteren en transformeren we deze data in een list van tuples voor het aantal en de frequentie:

In [36]:
sorted_items = sorted(relative_f.items(), key=lambda x: x[0])
sorted_items

[(1, 50.0), (2, 33.33333333333333), (3, 16.666666666666664)]

Een soort ruwe grafiek voor deze data:

In [37]:
def chart_freq(data):
    pad = max([len(str(el[0])) for el in data]) # om uit te lijnen
    for k, v in data:
        print(f"{str(k).rjust(pad)}| {'*' * round(v)}")

In [38]:
chart_freq(sorted_items)

1| **************************************************
2| *********************************
3| *****************


We doen nu iets gelijkaardigs, gebruikmakend van NumPy:

In [39]:
data

[1, 1, 1, 2, 2, 3]

In [40]:
arr = np.array(data, dtype=int)
arr

array([1, 1, 1, 2, 2, 3])

In [51]:
freq, bins = np.histogram(arr, bins=[1, 2, 3, 4])
# Dit creëert drie bins: één voor waarden van 1 tot minder dan 2, één voor waarden van 2 tot minder dan 3, 
# en één voor waarden van 3 tot minder dan 4.

In [52]:
freq

array([3, 2, 1])

In [53]:
bins

array([1, 2, 3, 4])

Wat we wensen is niet de absolute frequenties in `freq`, maar de relatieve frequenties - we moeten dus voor elk element van `freq` de waarde berekenen:

```
el / sum(frequencies) * 100
```

We zagen reeds alle functies die we nodig hebben om dit te doen, dus laat ons de berekeningen maken:

In [54]:
freq

array([3, 2, 1])

In [55]:
rel = freq / np.sum(freq) * 100
rel

array([50.        , 33.33333333, 16.66666667])

In [56]:
bins

array([1, 2, 3, 4])

Onze 'ruwe' grafiekfunctie verwacht een lijst van tuples, die we krijgen door eenvoudig de twee arrays samen te voegen met de zip functie (het is belangrijk om de `tolist` methode te gebruiken, omdat deze niet alleen Python list objecten zal creëren, maar ook de NumPy C-types zal omzetten naar de juiste Python-equivalenten):

In [57]:
data = list(zip(bins.tolist(), rel.tolist()))
data

[(1, 50.0), (2, 33.33333333333333), (3, 16.666666666666664)]

Merk op dat we `bins[:-1]` niet hoefden te zippen om de meest rechtse binrand weg te laten, aangezien zip stopt bij de kortste iterabele, die `rel` is.

En nu kunnen we deze data plotten:

In [58]:
chart_freq(data)

1| **************************************************
2| *********************************
3| *****************


Nu voegen we al het voorgaanse samen, te starten met hetgeen we voorheen hebben gedaan met de Python versie:

In [59]:
import random 

def freq_distribution(data):
    freq = {}
    for el in data:
        freq[el] = freq.get(el, 0) + 1
    return freq

def relative_freq(freq_dist):
    sum_freq = sum(freq_dist.values())
    return {
        k: v / sum_freq * 100 for k, v in freq_dist.items()
    }

def chart_freq(data):
    pad = max([len(str(el[0])) for el in data])
    for k, v in data:
        print(f"{str(k).rjust(pad)}| {'*' * round(v)}")
        
def analyze_randint(n, a, b):
    data = [random.randint(a, b) for _ in range(n)]
    
    freq = freq_distribution(data)
    rel = relative_freq(freq)
    
    sorted_items = sorted(rel.items(), key=lambda x: x[0])
    chart_freq(sorted_items)

In [60]:
random.seed(0)

analyze_randint(10_000, 1, 10)

 1| **********
 2| **********
 3| **********
 4| **********
 5| **********
 6| **********
 7| **********
 8| **********
 9| *********
10| **********


En nu hetzelfde met NumPy:

In [61]:
def np_analyze_randint(n, a, b):
    data = np.random.randint(a, b + 1, n)
    bins = np.arange(a, b + 2)
    freq, _ = np.histogram(data, bins=bins)
    rel = freq / np.sum(freq) * 100

    sorted_items = list(zip(bins.tolist(), rel.tolist()))
    print(sorted_items)
    chart_freq(sorted_items)

In [62]:
np.random.seed(0)
np_analyze_randint(10_000, 1, 10)

[(1, 9.67), (2, 10.32), (3, 9.66), (4, 10.100000000000001), (5, 9.629999999999999), (6, 10.17), (7, 9.84), (8, 9.69), (9, 10.489999999999998), (10, 10.43)]
 1| **********
 2| **********
 3| **********
 4| **********
 5| **********
 6| **********
 7| **********
 8| **********
 9| **********
10| **********


Zoals je kunt zien, is de code om deze manipulaties te doen veel beknopter in NumPy.

Er zijn eigenlijk een paar verbeteringen die we gemakkelijk kunnen aanbrengen - let op hoe de relatieve frequentiewaarden worden afgerond binnen de grafiekfunctie - we kunnen beter afronden met NumPy (met vectorisatie) - dat zou efficiënter  zijn dan het gebruik van Python's afronding in een loop.

Bovendien nemen we onze arrays, transformeren ze in lijsten, voegen ze samen en geven ze vervolgens door aan de grafiekfunctie - in plaats daarvan kunnen we NumPy-arrays gebruiken!

We herwerken:

In [63]:
def np_chart_freq(keys, values):
    pad = max(len(key) for key in keys)
    for k, v in zip(keys, values):
        print(f"{k.rjust(pad)}| {'*' * v}")
        
def np_analyze_randint(n, a, b):
    data = np.random.randint(a, b + 1, n)
    bins = np.arange(a, b + 2)
    freq, _ = np.histogram(data, bins=bins)
    rel = np.around(freq / np.sum(freq) * 100)

    np_chart_freq(bins[:-1].astype(str), rel.astype(int))

In [64]:
np.random.seed(0)
np_analyze_randint(10, 1, 5)

1| ********************
2| **********
3| **********
4| ****************************************
5| ********************


Opmerking: we kunnen eigenlijk ook de len functie vectoriseren die we gebruikten om de padding te berekenen - maar dit vereist een beetje meer geavanceerde concepten die we niet gaan behandelen in deze cursus - hier zal ik je gewoon laten zien hoe je het doet, gezien dit voorbeeld vrij eenvoudig is:

In [65]:
def np_chart_freq(keys, values):
    np_len = np.vectorize(len)
    pad = np.amax(np_len(keys))
    for k, v in zip(keys, values):
        print(f"{k.rjust(pad)}| {'*' * v}")
        
def np_analyze_randint(n, a, b):
    data = np.random.randint(a, b + 1, n)
    bins = np.arange(a, b + 2)
    freq, _ = np.histogram(data, bins=bins)
    rel = np.around(freq / np.sum(freq) * 100)

    np_chart_freq(bins[:-1].astype(str), rel.astype(int))

In [66]:
np.random.seed(0)
np_analyze_randint(10, 1, 5)

1| ********************
2| **********
3| **********
4| ****************************************
5| ********************


In [67]:
from time import perf_counter

In [68]:
random.seed(0)
start = perf_counter()
analyze_randint(30_000_000, 1, 10)
end = perf_counter()
print('Elapsed:', end - start)

 1| **********
 2| **********
 3| **********
 4| **********
 5| **********
 6| **********
 7| **********
 8| **********
 9| **********
10| **********
Elapsed: 21.704814445998636


In [69]:
np.random.seed(0)
start = perf_counter()
np_analyze_randint(30_000_000, 1, 10)
end = perf_counter()
print('Elapsed:', end - start)

 1| **********
 2| **********
 3| **********
 4| **********
 5| **********
 6| **********
 7| **********
 8| **********
 9| **********
10| **********
Elapsed: 0.7657971010048641
