### Het Selecteren van Data

In [32]:
import numpy as np
import pandas as pd

Maken van een DataFrame:

In [33]:
arr = np.arange(9).reshape(3, 3)
df = pd.DataFrame(
    arr, 
    columns=['c1', 'c2', 'c3'], 
    index=['r1', 'r2', 'r3'])
df

Unnamed: 0,c1,c2,c3
r1,0,1,2
r2,3,4,5
r3,6,7,8


We kunnen dit beschouwen als een Series van Series objecten (`c1`, `c2`, `c3`).

En de index voor `df` (een index op de kolommen) is:

In [34]:
df.index

Index(['r1', 'r2', 'r3'], dtype='object')

We weten dat we elementen uit een Series-object kunnen ophalen met behulp van de expliciete index:

In [35]:
df['c2']

r1    1
r2    4
r3    7
Name: c2, dtype: int64

Zoals je kunt zien, krijgen we de tweede kolom terug, en de rij-index wordt behouden.

Let op dat we met `[]` niet de impliciete index kunnen gebruiken:

In [36]:
try:
    df[0]
except KeyError as ex:
    print('KeyError:', ex)

KeyError: 0


Nu we een enkele kolom hebben, eigenlijk een `Series`, kunnen we eenvoudig bij een specifiek element van de kolom komen door ofwel de expliciete of de impliciete index te gebruiken.

In [37]:
df['c2'][1]

4

In [38]:
df['c2']['r2']

4

Maar net zoals we zagen bij `Series` objecten, is de voorkeursmanier om gegevens in een `DataFrame` te benaderen door gebruik te maken van de `loc` en `iloc` attributen.

Het verschil is dat we nu NumPy-arraytoegang gebruiken.  Zoals je weet gaan we bij NumPy 2D-arrays data benaderen met `[rij, index]`:

In [39]:
df.values[1, 2]

5

Wanneer we `iloc` gebruiken op een gegevensframe, volgen we in feite hetzelfde `rij, kolom` patroon:

In [40]:
df.iloc[1, 2]

5

En eigenlijk geldt hetzelfde zelfs als we de expliciete index gebruiken:

In [41]:
df

Unnamed: 0,c1,c2,c3
r1,0,1,2
r2,3,4,5
r3,6,7,8


In [42]:
df.loc['r2', 'c3']

5

Ik raad aan, net zoals ik deed met `Series` objecten, om de `[]` notatie niet te gebruiken, en in plaats daarvan `loc` en `iloc` te gebruiken.

Slicing en fancy indexing werken op dezelfde manier met behulp van `loc` en `iloc`:

In [43]:
print(df)
df.loc['r1': 'r2', 'c2': 'c3']

    c1  c2  c3
r1   0   1   2
r2   3   4   5
r3   6   7   8


Unnamed: 0,c2,c3
r1,1,2
r2,4,5


En net als bij Serie-slicing, moet je onthouden dat het eindpunt van de slice **inclusief** is in het resultaat, in tegenstelling tot slicing met de impliciete (positionele) index:

In [44]:
print(df)
df.iloc[0:1, 1:2]

    c1  c2  c3
r1   0   1   2
r2   3   4   5
r3   6   7   8


Unnamed: 0,c2
r1,1


Als we de kolommen willen slicen en alle rijen willen opnemen, specificeren we gewoon `:` voor de rij-slice:

In [45]:
df.iloc[:, 1:2]

Unnamed: 0,c2
r1,1
r2,4
r3,7


Als we alle kolommen willen voor een specifieke reeks rijen, kunnen we `:` gebruiken voor de kolomslice:

In [46]:
df.iloc[0:2, :]

Unnamed: 0,c1,c2,c3
r1,0,1,2
r2,3,4,5


In dit geval kunnen we eigenlijk ook de kolomslice helemaal weglaten:

In [47]:
df.iloc[0:2]

Unnamed: 0,c1,c2,c3
r1,0,1,2
r2,3,4,5


Fancy indexing werkt zoals verwacht:

In [48]:
df.loc[:, ['c1', 'c3']]

Unnamed: 0,c1,c3
r1,0,2
r2,3,5
r3,6,8


En met de impliciete index:

In [49]:
df.iloc[:, [0, 2]]

Unnamed: 0,c1,c3
r1,0,2
r2,3,5
r3,6,8


Wat als je wilt indexeren/slicen met een impliciete index in één as en een expliciete index in de andere?

Dit kan je doen in twee stappen.

Bijvoorbeeld, stel dat we de eerste twee rijen willen, met de kolommen `c1` en `c3`:

In [50]:
print(df)
tmp = df.iloc[0:2, :]
tmp

    c1  c2  c3
r1   0   1   2
r2   3   4   5
r3   6   7   8


Unnamed: 0,c1,c2,c3
r1,0,1,2
r2,3,4,5


In [51]:
tmp.loc[:, ['c1', 'c3']]

Unnamed: 0,c1,c3
r1,0,2
r2,3,5


We kunnen dit eigenlijk ook in één stap doen:

In [52]:
df.iloc[0:2, :].loc[:, ['c1', 'c3']]

Unnamed: 0,c1,c3
r1,0,2
r2,3,5


Je kunt waarden in het DataFrame vervangen met een toekenningsoperatie, net zoals we hebben gezien bij `Series` en NumPy-arrays:

In [53]:
df

Unnamed: 0,c1,c2,c3
r1,0,1,2
r2,3,4,5
r3,6,7,8


In [54]:
df.iloc[0, 0] = -10
df

Unnamed: 0,c1,c2,c3
r1,-10,1,2
r2,3,4,5
r3,6,7,8


Of zelfs met een slice - zolang de slice vervangen wordt door een array (of dataframe) van dezelfde vorm, of een die uitgezonden kan worden naar die vorm.

In [55]:
df.loc['r1': 'r2', 'c1': 'c2']

Unnamed: 0,c1,c2
r1,-10,1
r2,3,4


In [56]:
df.loc['r1': 'r2', 'c1': 'c2'] = np.array([10, 20, 30, 40]).reshape(2, 2)
df

Unnamed: 0,c1,c2,c3
r1,10,20,2
r2,30,40,5
r3,6,7,8


Met broadcasting kunnen we een scalaire waarde toewijzen:

In [57]:
df.loc['r1': 'r2', 'c1': 'c2'] = -100
df

Unnamed: 0,c1,c2,c3
r1,-100,-100,2
r2,-100,-100,5
r3,6,7,8


Of zelfs broadcasting vanuit een 1-D array met 2 elementen (of zelfs alleen een Python-lijst):

In [58]:
df.loc['r1': 'r2', 'c1': 'c2'] = [100, 200]
df

Unnamed: 0,c1,c2,c3
r1,100,200,2
r2,100,200,5
r3,6,7,8


We kunnen ook vervangen door een andere Pandas `DataFrame` of `Series`, maar dan moeten we voorzichtig zijn vanwege de expliciete indexen!

Bekijk dit series object:

In [63]:
ser = pd.Series([-10, -20], index=['n1', 'n2'])
ser

n1   -10
n2   -20
dtype: int64

Laten we nu een slice van dezelfde vorm vervangen in `df`:

In [60]:
df.iloc[0:2, 0:2]

Unnamed: 0,c1,c2
r1,100,200
r2,100,200


In [61]:
df.iloc[0:2, 0:2] = ser
df

Unnamed: 0,c1,c2,c3
r1,-10,-20,2
r2,-10,-20,5
r3,6,7,8


Bij oudere versies van Pandas kunnen er ontbrekende waarden zijn (`NaN`, waar we binnenkort wat dieper op in zullen gaan), omdat de index in de reeks `ser` niet overeenkwam met een index in `df`.  Bij nieuwere versies (Pandas >1.0 zoals hier het geval is) zal Pandas toch proberen de data te mappen, ongeacht het feit dat indexen niet overeenkomen.  Dit kan tot onverwacht gedrag leiden - controleer dus wat je doet!

Als we alleen de waarden willen vervangen zonder rekening te moeten houden met de index op `ser`, is het beter om dit explicieter te doen - vb op deze manier:

In [65]:
df.iloc[0:2, 0:2] = ser.values
df

Unnamed: 0,c1,c2,c3
r1,-10,-20,2
r2,-10,-20,5
r3,6,7,8


We kunnen ook boolean-masking gebruiken om elementen te selecteren, maar daar komen we later op terug.

Pandas data selectie kan ingewikkeld worden.
Als je meer te weten wil komen hierover, kan je steeds de Pandas documentatie raadplegen:

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html