### Fancy Indexing

In NumPy is **fancy indexing** een manier om een array, bestaande uit indices, te gebruiken om meerdere elementen van een andere array in één keer aan te duiden.  Dit is te zien als een uitbreiding van indexing zoals we tot heden hebben gezien waarbij je één element via zijn index selecteert - nu is het meerdere ineens.

In [1]:
import numpy as np

In [2]:
arr = np.arange(10, 100, 10)
arr

array([10, 20, 30, 40, 50, 60, 70, 80, 90])

Indien we een array wensen te maken die bestaat uit element 0, 2 en 3 van `arr` dan kan dit op deze manier:

In [3]:
sub = np.array([arr[0], arr[2], arr[3]])
sub

array([10, 30, 40])

Met behulp van fancy indexing kunnen we hetzelfde doen op basis van de indices:

In [4]:
sub = arr[np.array([0, 2, 3])]
sub

array([10, 30, 40])

In dit voorbeeld is `[0, 2, 3]` de **index array** - een array bestaande uit indices.

Wees voorzichtig met fancy indexing - we kunnen een `ndarray`, en in sommige gevallen zelfs een Python `list` gebruiken, maar we kunnen **geen** `tuple` gebruiken - NumPy zal dit interpreteren als het specifiëren van enkelvoudige indices voor meerdere dimensies.

In [5]:
try:
    arr[(0, 2, 3)]
except Exception as ex:
    print(type(ex), ex)

<class 'IndexError'> too many indices for array: array is 1-dimensional, but 3 were indexed


We krijgen die uitzondering omdat NumPy onze tuple interpreteert als het specificeren van indices voor 3 assen (dimensies), maar onze array heeft er slechts één - vandaar de melding `too many indices`.

In tegenstelling tot bij slicing, heeft de array die we terugkrijgen bij fancy indexing **geen** "link" met het origineel:

In [6]:
arr

array([10, 20, 30, 40, 50, 60, 70, 80, 90])

In [7]:
sub

array([10, 30, 40])

In [8]:
sub[1] = 300
sub

array([ 10, 300,  40])

In [9]:
arr

array([10, 20, 30, 40, 50, 60, 70, 80, 90])

Eén van de interessante dingen over fancy indexing is dat de resulterende array de vorm heeft van de indexarray:

In [10]:
arr = np.arange(1, 10)
arr

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [11]:
arr[np.array([0, 1, 1, 5])]

array([1, 2, 2, 6])

Hier was de selectie-array `[0, 1, 1, 5]`, dus een shape van `1 x 4`, en dus was ons resultaat een array van die vorm. (Merk ook op dat we dezelfde index meer dan één keer kunnen specificeren).

Maar we kunnen ook het volgende doen, met behulp van een 2-D `ndarray` voor de indices:

In [12]:
arr[np.array(
    [
        [0, 1], 
        [1, 5]
    ]
)]

array([[1, 2],
       [2, 6]])

Je zal merken dat de resulterende array, net als in het vorige voorbeeld, de elementen van `arr` gebruikt op de indices `0`, `1`, `1`, en `5`, maar de resulterende **shape** komt overeen met de vorm van de indices die we hebben gespecificeerd.

We kunnen ook fancy indexing gebruiken op multi-dimensionale arrays:

In [13]:
m = np.arange(25).reshape(5, 5)
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

Laten we alle kolommen kiezen uit rijen `0`, `1` en `3` - niet iets dat we kunnen doen met standaard slicen:

In [14]:
m[[0, 1, 3]]

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [15, 16, 17, 18, 19]])

Bovendien kunnen we voor de tweede as een enkele index, een slice of een fancy index specificeren:

In [15]:
m[[0, 1, 3], 2]

array([ 2,  7, 17])

Zoals je kan zien, hebben we uiteindelijk het 3e element van elke rij gekozen, voor rijen `0`, `1`, en `3`.

We kunnen ook een slice specifiëren:

In [16]:
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [17]:
m[[0, 1, 3], 0::2]

array([[ 0,  2,  4],
       [ 5,  7,  9],
       [15, 17, 19]])

En natuurlijk kunnen we ook een indexarray specificeren voor beide dimensies, maar dit is wat moeilijker te begrijpen en wordt niet vaak gebruikt - maar het is zeker mogelijk:

In [18]:
m

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [19]:
m[np.array([0, 1, 3]), np.array([1, 2, 4])]

array([ 1,  7, 19])

Omdat beide indexarrays dezelfde shape hadden, kregen we als resultaat `(0, 1)`, `(1, 2)` en `(3, 4)` voor onze indices.

Je kan het resultaat zien als de elementen op de tuples `(i, j)` die gevormd worden door de twee arrays samen te voegen:

```
zip([0, 1, 3], [1, 2, 4])
```
wat overeenkomt met volgende indices:
```
[(0, 1), (1, 2), (3, 4)]
```

Je kan zelfs 2-D indexarrays gebruiken, maar dit wordt behoorlijk ingewikkeld om te begrijpen en dit wordt daarom niet vaak gebruikt.

Bijvoorbeeld:

In [20]:
m[np.array([[0, 4], [2, 3]]), np.array([[1, 3], [2, 4]])]

array([[ 1, 23],
       [12, 19]])

Opnieuw kan je dit interpreteren als het "zippen" van de eerste en tweede dimensie indices als volgt:

```
0 4
2 3
```

"ge-zipped" met

```
1 3
2 4
```

wat resulteert in de volgende gecombineerde indices:

```
(0, 1) (4, 3)
(2, 2) (3, 4)
```

Opnieuw is de resulterende shape gelijk aan de shape van de twee index arrays.

##### Voorbeeld

Laat ons even een praktische toepassing van fancy indexing bekijken:

We laden wat data inzake dagelijkse beurskoersen uit een file laden: `AAPL.csv`

In [3]:
import csv

with open('AAPL.csv') as f:
    reader = csv.reader(f, skipinitialspace=True)
    headers = next(reader)
    data = list(reader)

In [4]:
headers

['Symbol', 'Date', 'Close', 'Volume', 'Open', 'High', 'Low']

In [5]:
data

[['AAPL', '10/29/2020', '115.32', '146129200', '112.37', '116.93', '112.2'],
 ['AAPL', '10/28/2020', '111.2', '143937800', '115.05', '115.43', '111.1'],
 ['AAPL', '10/27/2020', '116.6', '92276770', '115.49', '117.28', '114.5399'],
 ['AAPL', '10/26/2020', '115.05', '111850700', '114.01', '116.55', '112.88'],
 ['AAPL', '10/23/2020', '115.04', '82572650', '116.39', '116.55', '114.28'],
 ['AAPL', '10/22/2020', '115.75', '101988000', '117.45', '118.04', '114.59'],
 ['AAPL', '10/21/2020', '116.87', '89945980', '116.67', '118.705', '116.45'],
 ['AAPL', '10/20/2020', '117.51', '124423700', '116.2', '118.98', '115.63'],
 ['AAPL', '10/19/2020', '115.98', '120639300', '119.96', '120.419', '115.66'],
 ['AAPL', '10/16/2020', '119.02', '115393800', '121.28', '121.548', '118.81'],
 ['AAPL', '10/15/2020', '120.71', '112559200', '118.72', '121.2', '118.15'],
 ['AAPL', '10/14/2020', '121.19', '151062300', '121', '123.03', '119.62'],
 ['AAPL', '10/13/2020', '121.1', '262330500', '125.27', '125.39', '119.

Wat we hier willen doen, is de data in één array extraheren en de numerieke waarden voor `Open` en `Close` in een andere array - zolang we beide arrays in dezelfde volgorde houden, kunnen we altijd de datum met de data associëren door dezelfde index op beide arrays te gebruiken.

We starten met al deze data in een NumPy array te stoppen:

In [6]:
data = np.array(data)
data

array([['AAPL', '10/29/2020', '115.32', '146129200', '112.37', '116.93',
        '112.2'],
       ['AAPL', '10/28/2020', '111.2', '143937800', '115.05', '115.43',
        '111.1'],
       ['AAPL', '10/27/2020', '116.6', '92276770', '115.49', '117.28',
        '114.5399'],
       ['AAPL', '10/26/2020', '115.05', '111850700', '114.01', '116.55',
        '112.88'],
       ['AAPL', '10/23/2020', '115.04', '82572650', '116.39', '116.55',
        '114.28'],
       ['AAPL', '10/22/2020', '115.75', '101988000', '117.45', '118.04',
        '114.59'],
       ['AAPL', '10/21/2020', '116.87', '89945980', '116.67', '118.705',
        '116.45'],
       ['AAPL', '10/20/2020', '117.51', '124423700', '116.2', '118.98',
        '115.63'],
       ['AAPL', '10/19/2020', '115.98', '120639300', '119.96', '120.419',
        '115.66'],
       ['AAPL', '10/16/2020', '119.02', '115393800', '121.28', '121.548',
        '118.81'],
       ['AAPL', '10/15/2020', '120.71', '112559200', '118.72', '121.2',
        '11

Het zal je opvallen dat ons data type string (Unicode strings van met lengte van maximaal 10 karakters) is - daar moeten we straks iets aan doen.

We extraheren eerst de datums.  Daar kunnen we een slice voor gebruiken:

In [8]:
dates = data[:, 1]
dates

array(['10/29/2020', '10/28/2020', '10/27/2020', '10/26/2020',
       '10/23/2020', '10/22/2020', '10/21/2020', '10/20/2020',
       '10/19/2020', '10/16/2020', '10/15/2020', '10/14/2020',
       '10/13/2020', '10/12/2020', '10/09/2020', '10/08/2020',
       '10/07/2020', '10/06/2020', '10/05/2020', '10/02/2020',
       '10/01/2020', '09/30/2020', '09/29/2020'], dtype='<U10')

De datums zijn ook strings, en we kunnen deze waarden omzetten naar `datetime` objecten.  
NumPy kan andere Python types zoals datetime verwerken, maar dit wordt niet zo snel verwerkt als numerieke datatypes die volledig vectorisatie ondersteunen.  Dit betekent dat operaties op arrays van datetime objecten mogelijk niet zo efficiënt zijn als bij native NumPy numerieke datatypes, omdat deze operaties mogelijk niet gevectoriseerd kunnen worden en dus element-per-element moeten worden uitgevoerd.  

Alles wat we echt nodig hebben van deze datums is om de datum voor een bepaalde index op te zoeken, dus zal dit geen problemen opleveren. 

In [9]:
from dateutil import parser

In [10]:
dates = [parser.parse(d) for d in dates]

In [11]:
dates

[datetime.datetime(2020, 10, 29, 0, 0),
 datetime.datetime(2020, 10, 28, 0, 0),
 datetime.datetime(2020, 10, 27, 0, 0),
 datetime.datetime(2020, 10, 26, 0, 0),
 datetime.datetime(2020, 10, 23, 0, 0),
 datetime.datetime(2020, 10, 22, 0, 0),
 datetime.datetime(2020, 10, 21, 0, 0),
 datetime.datetime(2020, 10, 20, 0, 0),
 datetime.datetime(2020, 10, 19, 0, 0),
 datetime.datetime(2020, 10, 16, 0, 0),
 datetime.datetime(2020, 10, 15, 0, 0),
 datetime.datetime(2020, 10, 14, 0, 0),
 datetime.datetime(2020, 10, 13, 0, 0),
 datetime.datetime(2020, 10, 12, 0, 0),
 datetime.datetime(2020, 10, 9, 0, 0),
 datetime.datetime(2020, 10, 8, 0, 0),
 datetime.datetime(2020, 10, 7, 0, 0),
 datetime.datetime(2020, 10, 6, 0, 0),
 datetime.datetime(2020, 10, 5, 0, 0),
 datetime.datetime(2020, 10, 2, 0, 0),
 datetime.datetime(2020, 10, 1, 0, 0),
 datetime.datetime(2020, 9, 30, 0, 0),
 datetime.datetime(2020, 9, 29, 0, 0)]

In [13]:
dates[0].weekday()

3

Nu gaan we de numerieke gegevens extraheren - en deze keer zullen we zeker een NumPy-array hiervoor willen gebruiken.  De kolommen die we wensen te extraheren zijn de `Open`en `Close` kolommen:

In [29]:
headers

['Symbol', 'Date', 'Close', 'Volume', 'Open', 'High', 'Low']

We zijn dus geïnteresseer in indices `4` en `2` - in die volgorde.

We kunnen fancu indexing gebruiken om die twee kolommen te extraheren:

In [30]:
oc = data[:, np.array([4, 2])]
oc

array([['112.37', '115.32'],
       ['115.05', '111.2'],
       ['115.49', '116.6'],
       ['114.01', '115.05'],
       ['116.39', '115.04'],
       ['117.45', '115.75'],
       ['116.67', '116.87'],
       ['116.2', '117.51'],
       ['119.96', '115.98'],
       ['121.28', '119.02'],
       ['118.72', '120.71'],
       ['121', '121.19'],
       ['125.27', '121.1'],
       ['120.06', '124.4'],
       ['115.28', '116.97'],
       ['116.25', '114.97'],
       ['114.62', '115.08'],
       ['115.7', '113.16'],
       ['113.91', '116.5'],
       ['112.89', '113.02'],
       ['117.64', '116.79'],
       ['113.79', '115.81'],
       ['114.55', '114.09']], dtype='<U10')

We zijn er bijna - het enige wat we nu nog willen doen is om alle strings om te zetten naar floats.  Hiervoor gebruiken we de `astype`methode:

In [31]:
oc = data[:, np.array([4, 2])].astype(float)
oc

array([[112.37, 115.32],
       [115.05, 111.2 ],
       [115.49, 116.6 ],
       [114.01, 115.05],
       [116.39, 115.04],
       [117.45, 115.75],
       [116.67, 116.87],
       [116.2 , 117.51],
       [119.96, 115.98],
       [121.28, 119.02],
       [118.72, 120.71],
       [121.  , 121.19],
       [125.27, 121.1 ],
       [120.06, 124.4 ],
       [115.28, 116.97],
       [116.25, 114.97],
       [114.62, 115.08],
       [115.7 , 113.16],
       [113.91, 116.5 ],
       [112.89, 113.02],
       [117.64, 116.79],
       [113.79, 115.81],
       [114.55, 114.09]])

Als we nu het verschil tussen high en low willen berekenen, kunnen we vectorized operations gebruiken:

In [32]:
diffs = oc[:, 1] - oc[:, 0]
diffs

array([ 2.95, -3.85,  1.11,  1.04, -1.35, -1.7 ,  0.2 ,  1.31, -3.98,
       -2.26,  1.99,  0.19, -4.17,  4.34,  1.69, -1.28,  0.46, -2.54,
        2.59,  0.13, -0.85,  2.02, -0.46])

Of misschien willen we het % verschil tov de open berekenen: 

In [34]:
diff_percs = ((oc[:, 1] - oc[:, 0]) / oc[:, 0]) * 100
diff_percs

array([ 2.62525585, -3.34637114,  0.96112218,  0.91220068, -1.15989346,
       -1.44742444,  0.17142367,  1.12736661, -3.31777259, -1.86345646,
        1.67621294,  0.15702479, -3.32880977,  3.61485924,  1.46599584,
       -1.10107527,  0.40132612, -2.19533276,  2.27372487,  0.11515635,
       -0.72254335,  1.77519993, -0.40157137])