### Boolean Masking

Boolean masking is eigenlijk net een filter die op een array kan worden geplaatst om elementen die aan bepaalde criteria voldoen te kunnen selecteren.  

We bekijken eerst de `np.less` functie:

In [2]:
import numpy as np

In [3]:
m = np.array([-1, 1, -2, 2, -3, 3])

We kunnen de `np.less` functie aanroepen om te bepalen welke waarden in `m` lager zijn dan een bepaalde waarde:

In [4]:
np.less(m, 0)

array([ True, False,  True, False,  True, False])

Zoals je kan zien krijgen we een array bestaande uit Boolean values die aangeven of de waarde lager was dan `0` of niet.

We zouden dit ook kunnen bereiken door de Python comparison operators te gebruiken, die op hun beurt de Numpy comparison functies gebruiken:

In [6]:
m < 0

array([ True, False,  True, False,  True, False])

Het resultaat is een array die we kunnen aan een variabele toewijzen.  We noemen deze variabele `mask`:

In [7]:
mask = m > 0

In [8]:
mask

array([False,  True, False,  True, False,  True])

Vervolgens kunnen we de elementen van `m` "filteren" (of **masken**) met behulp van deze array die bestaat uit Boolean values:

In [9]:
m[mask]

array([1, 2, 3])

We kunnen dit vereenvoudigen door dit in een enkel statement te plaatsen:

In [10]:
m[m > 0]

array([1, 2, 3])

Onze originele array had één enkele dimensie, en onze masked array heeft ook één enkele dimensie.  In dit geval was waarschijnlijk wat je had verwacht.  Maar wat met arrays met meer dimensies?  Ook daar zal de masked array nog steeds 1 dimensionaal zijn!

In [11]:
m = np.array(
    [
        [-1, 1, -2, 2],
        [-3, 3, -4, 4],
        [-5, 5, -6, 6]
    ]
)

In [12]:
negative_numbers = m[m < 0]

In [13]:
negative_numbers

array([-1, -2, -3, -4, -5, -6])

We kunnen boolean masks ook met elkaar combineren met behulp van **and**, **or** en **not**.

Binnen NumPy gebruiken we echter niet de standaard Python operatoren, maar `&` voor **and**, `|` voor **or** en `~` voor **not**.

In [14]:
arr = np.arange(-5, 6)
arr

array([-5, -4, -3, -2, -1,  0,  1,  2,  3,  4,  5])

In [15]:
arr[(arr > 0) & (arr < 4)]

array([1, 2, 3])

Merk op dat omwille van operator precedence (voorrangsregels) we haakjes moeten gebruiken zoals hierboven getoond. 

In plaats van de **not** operator, gebruiken we `~`:

In [16]:
arr[~(arr < 0)]

array([0, 1, 2, 3, 4, 5])

Natuurlijk gebruiken we hier beter de eenvoudiger te begrijpen `>=` operator in de plaats.

In [15]:
arr[arr >= 0]

array([0, 1, 2, 3, 4, 5])

We kunnen even een voorbeeld bekijken waar we bepaalde rijen wensen uit te filteren op basis van de waarden in één van de kolommen.

We gebruiken opnieuw de Apple dataset `AAPL.csv`, en we laden deze naar twee arrays: één voor de datums, en een andere met de OHLC/Volume data (numeriek).

In [16]:
import csv
from dateutil import parser

We kijken opnieuw wat in de file aanwezig is:

In [17]:
with open('AAPL.csv') as f:
    reader = csv.reader(f, skipinitialspace=True)
    headers = next(reader)
    data = list(reader)

print(headers)
for row in data:
    print(row)

['Symbol', 'Date', 'Close', 'Volume', 'Open', 'High', 'Low']
['AAPL', '10/29/2020', '115.32', '146129200', '112.37', '116.93', '112.2']
['AAPL', '10/28/2020', '111.2', '143937800', '115.05', '115.43', '111.1']
['AAPL', '10/27/2020', '116.6', '92276770', '115.49', '117.28', '114.5399']
['AAPL', '10/26/2020', '115.05', '111850700', '114.01', '116.55', '112.88']
['AAPL', '10/23/2020', '115.04', '82572650', '116.39', '116.55', '114.28']
['AAPL', '10/22/2020', '115.75', '101988000', '117.45', '118.04', '114.59']
['AAPL', '10/21/2020', '116.87', '89945980', '116.67', '118.705', '116.45']
['AAPL', '10/20/2020', '117.51', '124423700', '116.2', '118.98', '115.63']
['AAPL', '10/19/2020', '115.98', '120639300', '119.96', '120.419', '115.66']
['AAPL', '10/16/2020', '119.02', '115393800', '121.28', '121.548', '118.81']
['AAPL', '10/15/2020', '120.71', '112559200', '118.72', '121.2', '118.15']
['AAPL', '10/14/2020', '121.19', '151062300', '121', '123.03', '119.62']
['AAPL', '10/13/2020', '121.1', '2

We laden alles in een NumPy array:

In [18]:
arr = np.array(data)
arr

array([['AAPL', '10/29/2020', '115.32', '146129200', '112.37', '116.93',
        '112.2'],
       ['AAPL', '10/28/2020', '111.2', '143937800', '115.05', '115.43',
        '111.1'],
       ['AAPL', '10/27/2020', '116.6', '92276770', '115.49', '117.28',
        '114.5399'],
       ['AAPL', '10/26/2020', '115.05', '111850700', '114.01', '116.55',
        '112.88'],
       ['AAPL', '10/23/2020', '115.04', '82572650', '116.39', '116.55',
        '114.28'],
       ['AAPL', '10/22/2020', '115.75', '101988000', '117.45', '118.04',
        '114.59'],
       ['AAPL', '10/21/2020', '116.87', '89945980', '116.67', '118.705',
        '116.45'],
       ['AAPL', '10/20/2020', '117.51', '124423700', '116.2', '118.98',
        '115.63'],
       ['AAPL', '10/19/2020', '115.98', '120639300', '119.96', '120.419',
        '115.66'],
       ['AAPL', '10/16/2020', '119.02', '115393800', '121.28', '121.548',
        '118.81'],
       ['AAPL', '10/15/2020', '120.71', '112559200', '118.72', '121.2',
        '11

Daarna maken we een array met enkel de datums:

In [19]:
dates = np.array([parser.parse(dt) for dt in arr[:, 1]])
dates

array([datetime.datetime(2020, 10, 29, 0, 0),
       datetime.datetime(2020, 10, 28, 0, 0),
       datetime.datetime(2020, 10, 27, 0, 0),
       datetime.datetime(2020, 10, 26, 0, 0),
       datetime.datetime(2020, 10, 23, 0, 0),
       datetime.datetime(2020, 10, 22, 0, 0),
       datetime.datetime(2020, 10, 21, 0, 0),
       datetime.datetime(2020, 10, 20, 0, 0),
       datetime.datetime(2020, 10, 19, 0, 0),
       datetime.datetime(2020, 10, 16, 0, 0),
       datetime.datetime(2020, 10, 15, 0, 0),
       datetime.datetime(2020, 10, 14, 0, 0),
       datetime.datetime(2020, 10, 13, 0, 0),
       datetime.datetime(2020, 10, 12, 0, 0),
       datetime.datetime(2020, 10, 9, 0, 0),
       datetime.datetime(2020, 10, 8, 0, 0),
       datetime.datetime(2020, 10, 7, 0, 0),
       datetime.datetime(2020, 10, 6, 0, 0),
       datetime.datetime(2020, 10, 5, 0, 0),
       datetime.datetime(2020, 10, 2, 0, 0),
       datetime.datetime(2020, 10, 1, 0, 0),
       datetime.datetime(2020, 9, 30, 0, 

Vervolgens maken we een float array met de numerieke waarden:

In [20]:
ohlc = arr[:, [4, 5, 6, 2]].astype(float)
ohlc

array([[112.37  , 116.93  , 112.2   , 115.32  ],
       [115.05  , 115.43  , 111.1   , 111.2   ],
       [115.49  , 117.28  , 114.5399, 116.6   ],
       [114.01  , 116.55  , 112.88  , 115.05  ],
       [116.39  , 116.55  , 114.28  , 115.04  ],
       [117.45  , 118.04  , 114.59  , 115.75  ],
       [116.67  , 118.705 , 116.45  , 116.87  ],
       [116.2   , 118.98  , 115.63  , 117.51  ],
       [119.96  , 120.419 , 115.66  , 115.98  ],
       [121.28  , 121.548 , 118.81  , 119.02  ],
       [118.72  , 121.2   , 118.15  , 120.71  ],
       [121.    , 123.03  , 119.62  , 121.19  ],
       [125.27  , 125.39  , 119.65  , 121.1   ],
       [120.06  , 125.18  , 119.2845, 124.4   ],
       [115.28  , 117.    , 114.92  , 116.97  ],
       [116.25  , 116.4   , 114.5901, 114.97  ],
       [114.62  , 115.55  , 114.13  , 115.08  ],
       [115.7   , 116.12  , 112.25  , 113.16  ],
       [113.91  , 116.65  , 113.55  , 116.5   ],
       [112.89  , 115.37  , 112.22  , 113.02  ],
       [117.64  , 11

We wensen de dagen te identificeren waarop de aandelen sluiten op een prijs hoger dan `116.00`.

Om dit te doen maken we een mask op kolom #3:

In [21]:
ohlc[:, 3] > 116.0

array([False, False,  True, False, False, False,  True,  True, False,
        True,  True,  True,  True,  True,  True, False, False, False,
        True, False,  True, False, False])

We zouden dit mask kunnen gebruiken op de `ohlc` array om de records uit te filteren die een sluitingsprijs hoger dan `116.00` hebben:

In [22]:
ohlc[ohlc[:, 3] > 116.0]

array([[115.49  , 117.28  , 114.5399, 116.6   ],
       [116.67  , 118.705 , 116.45  , 116.87  ],
       [116.2   , 118.98  , 115.63  , 117.51  ],
       [121.28  , 121.548 , 118.81  , 119.02  ],
       [118.72  , 121.2   , 118.15  , 120.71  ],
       [121.    , 123.03  , 119.62  , 121.19  ],
       [125.27  , 125.39  , 119.65  , 121.1   ],
       [120.06  , 125.18  , 119.2845, 124.4   ],
       [115.28  , 117.    , 114.92  , 116.97  ],
       [113.91  , 116.65  , 113.55  , 116.5   ],
       [117.64  , 117.72  , 115.83  , 116.79  ]])

Maar eigenlijk zijn we geïnteresseerd in de datums waarop dit het geval was... De `dates` en `ohlc` arrays bevatten evenveel rijen, dus kunnen we het mask wat we in de `ohlc` array bekomen toepassen op de `dates` array:

In [23]:
dates[ohlc[:, 3] > 116.0]

array([datetime.datetime(2020, 10, 27, 0, 0),
       datetime.datetime(2020, 10, 21, 0, 0),
       datetime.datetime(2020, 10, 20, 0, 0),
       datetime.datetime(2020, 10, 16, 0, 0),
       datetime.datetime(2020, 10, 15, 0, 0),
       datetime.datetime(2020, 10, 14, 0, 0),
       datetime.datetime(2020, 10, 13, 0, 0),
       datetime.datetime(2020, 10, 12, 0, 0),
       datetime.datetime(2020, 10, 9, 0, 0),
       datetime.datetime(2020, 10, 5, 0, 0),
       datetime.datetime(2020, 10, 1, 0, 0)], dtype=object)

We kunnen deze data samenvoegen in een Python list zodat we de datums en de numerieke waarden naast elkaar hebben:

In [24]:
mask = ohlc[:, 3] > 116.0

Deze aanpak werkt bijna:

In [25]:
filtered_data = [
    [date, row]
    for date, row in zip(dates[mask], ohlc[mask])
]

for row in filtered_data:
    print(row)

[datetime.datetime(2020, 10, 27, 0, 0), array([115.49  , 117.28  , 114.5399, 116.6   ])]
[datetime.datetime(2020, 10, 21, 0, 0), array([116.67 , 118.705, 116.45 , 116.87 ])]
[datetime.datetime(2020, 10, 20, 0, 0), array([116.2 , 118.98, 115.63, 117.51])]
[datetime.datetime(2020, 10, 16, 0, 0), array([121.28 , 121.548, 118.81 , 119.02 ])]
[datetime.datetime(2020, 10, 15, 0, 0), array([118.72, 121.2 , 118.15, 120.71])]
[datetime.datetime(2020, 10, 14, 0, 0), array([121.  , 123.03, 119.62, 121.19])]
[datetime.datetime(2020, 10, 13, 0, 0), array([125.27, 125.39, 119.65, 121.1 ])]
[datetime.datetime(2020, 10, 12, 0, 0), array([120.06  , 125.18  , 119.2845, 124.4   ])]
[datetime.datetime(2020, 10, 9, 0, 0), array([115.28, 117.  , 114.92, 116.97])]
[datetime.datetime(2020, 10, 5, 0, 0), array([113.91, 116.65, 113.55, 116.5 ])]
[datetime.datetime(2020, 10, 1, 0, 0), array([117.64, 117.72, 115.83, 116.79])]


Het probleem hier is dat onze resulterende rijen twee elementen bevatten: de datum en een array die de OHLC data horend bij die rij bevat.  Dit kunnen we oplossen door de numerieke waarden van elke rij te unpacken, en dit samen te voegen.  Laat ons even bekijken hoe we dit kunnen doen aan de hand van een eenvoudiger voorbeeld:

In [1]:
date = '10/1/2020'
numbers = [100, 200, 300, 400]

[date, numbers]

['10/1/2020', [100, 200, 300, 400]]

Dit is dus hetzelfde probleem.  Herinner je dat we een iterable kunnen 'unpacken' met behulp van `*`:

In [27]:
[date, *numbers]

['10/1/2020', 100, 200, 300, 400]

Dit doet wat we willen! We passen dit nu toe op het voorgaande probleem:

In [28]:
filtered_data = [
    [date, *row]
    for date, row in zip(dates[mask], ohlc[mask])
]

for row in filtered_data:
    print(row)

[datetime.datetime(2020, 10, 27, 0, 0), 115.49, 117.28, 114.5399, 116.6]
[datetime.datetime(2020, 10, 21, 0, 0), 116.67, 118.705, 116.45, 116.87]
[datetime.datetime(2020, 10, 20, 0, 0), 116.2, 118.98, 115.63, 117.51]
[datetime.datetime(2020, 10, 16, 0, 0), 121.28, 121.548, 118.81, 119.02]
[datetime.datetime(2020, 10, 15, 0, 0), 118.72, 121.2, 118.15, 120.71]
[datetime.datetime(2020, 10, 14, 0, 0), 121.0, 123.03, 119.62, 121.19]
[datetime.datetime(2020, 10, 13, 0, 0), 125.27, 125.39, 119.65, 121.1]
[datetime.datetime(2020, 10, 12, 0, 0), 120.06, 125.18, 119.2845, 124.4]
[datetime.datetime(2020, 10, 9, 0, 0), 115.28, 117.0, 114.92, 116.97]
[datetime.datetime(2020, 10, 5, 0, 0), 113.91, 116.65, 113.55, 116.5]
[datetime.datetime(2020, 10, 1, 0, 0), 117.64, 117.72, 115.83, 116.79]
