# Data selecteren
## Een nieuwe dataframe
We maken een dataframe met belangrijke data. Als extra zorgen we ervoor dat we de indexkolom ook een naam geven.

In [2]:
import pandas as pd

voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1978-06-18')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')

## Index omzetten naar kolom: reset_index()
Met reset_index() kunnen we van de index terug een kolom maken. Het is nu handig dat we de index een naam hebben gegeven. Maar aangezien we dit niet willen, zetten we de index terug met *set_index*. Omdat we de huidige index (met waarden 0, 1, 2) niet als kolom willen, voegen we *drop=True* toe.

In [None]:
df_k3 = df_k3.reset_index()
display(df_k3)
df_k3.set_index('voornaam', inplace=True, drop=True)
print('\nna df_k3.set_index("voornaam", inplace=True, drop=True)')
display(df_k3)

## Een kolom selecteren
Een kolom in een dataframe is een Series. We kunnen die opvragen op basis van de kolomnaam. Omdat het een Series is, krijgen we niet alleen de waarden, maar ook de index. (voornaam)

In [None]:
df_k3['achternaam']

## 'Damen' selecteren (op de oude manier)
Nu de de Series met achternamen hebben, kunnen we de eerste achternaam selecteren. Let op: dit lijkt meer op het aanspreken van een Python list met 2 dimensies. In NumPy zouden we dit anders doen.

Vandaar dat we een *FutureWarning* krijgen. Dit is niet de manier om dit te doen. 

In [None]:
df_k3['achternaam'][0]

## De moderne manier met .at[index, kolomnaam]
.at wordt gebruikt zoals een array, namelijk met vierkante haakjes. We geven eerst de rij (index) mee, gevolgd door de kolom.

In [None]:
df_k3.at['Karen', 'achternaam']

## Een alternatief met .iat[rijnr, kolomnr]
We kunnen ook de rij- en kolomnummers gebruiken. Daarvoor dient .iat

In [None]:
df_k3.iat[0, 0]

## slicing met .loc
We gebruiken .at en .iat om 1 cel op te vragen. Om een reeks op te vragen (via een slice) moeten we .loc gebruiken.
Let op met de slicing wanneer we .loc gebruiken.: het eindpunt is inclusief. Aangezien de waarden van indexen of kolomnamen geen echte volgorde moeten hebben, heeft 'eindpunt niet inbegrepen' geen eenduidige betekenis.

In [None]:
display(df_k3.loc['Karen':'Kristel', 'achternaam':'geboortedatum'])

## slicing met .iloc
We gebruiken .iloc in plaats van .iat wanneer we meerdere cellen willen opvragen. Aangezien .iloc werkt zoals bij een NumPy array, volgen we daar de regel dat het eindpunt niet inbegrepen is:

In [None]:
display(df_k3.iloc[0:1, 0:1])

## alle rijen
Net zoals bij NumPy kunnen we alle rijen tonen met ':'. Dat geldt zowel voor .loc als voor .iloc. Let op het verschil bij de interpretatie van de stopwaarde.

In [None]:
display(df_k3.iloc[:, 0:1])
display(df_k3.loc[:, 'achternaam':'geboortedatum'])

## Waarden wijzigen
Net zoals in NumPy kunnen we waarden ook wijzigen. In de volgende code is de geboortedatum van Kathleen niet correct. Aangezien we 1 waarde willen wijzigen, gebruiken we .at.

In [None]:
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.at['Kathleen', 'geboortedatum'] = pd.to_datetime('1978-06-18')
display(df_k3)

## Combinatie van .at en .iat
Stel dat we de geboortedatum van de laatste record willen wijzigen. Dan moeten we ofwel de voornaam van de laatste record kennen (voor .at), ofwel het kolomnummer van geboortedatum (voor .iat). Wanneer we de twee proberen te combineren, krijgen we een fout omdat we bij .at en .iat altijd een rij en een kolom moeten meegeven. 

In [None]:
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.iat[-1].at['geboortedatum'] = pd.to_datetime('1978-06-18')



## Combinatie van .loc en .iloc
Met .loc en .iloc kunnen we de combinatie wel maken. We krijgen echter een SettingWithCopyWarning.

In [None]:
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.iloc[-1].loc['geboortedatum'] = pd.to_datetime('1978-06-18')
df_k3.loc[:, 'geboortedatum'].iloc[-1]

## Wat is de SettingWithCopyWarning?
Het is waarschuwing die je krijgt bij de toewijzing, niet bij de opvraging. Door .loc en .iloc te combineren, voeren we twee stappen uit. Dit is de eerste stap.

In [None]:
df_k3.iloc[-1]

Op dat resultaat voeren we .loc['geboortedatum'] uit. Het probleem is dat we niet altijd weten wat het resultaat is van *df_k3.iloc[-1]. Geeft dit een view terug of een een copy? In het eerste geval zal de combinatie van .iloc en .loc het oorspronkelijke dataframe wijzigen (wat de bedoeling is). Wanneer .iloc een copy teruggeeft, wijzigen we een tijdelijke object met .loc en blijft het oorspronkelijke dataframe ongewijzigd. We weten dus niet 100% zeker wat er gebeurt. Vandaar de waarschuwing. 

In Pandas 3 zal de optie *copy_on_write* standaard True zijn. Dat wil zeggen dat bij wijziging van een deel van een dataframe er altijd een kopie zal gemaakt worden. We zullen de oorspronkelijke dataframe dus niet wijzigen.

We kunnen die optie zelf aanzetten en dan zien we dat onze code niet meer werkt. 

In [None]:
pd.options.mode.copy_on_write = True
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.iloc[-1].loc['geboortedatum'] = pd.to_datetime('1978-06-18')
display(df_k3)

## Een betere oplossing voor de combinatie van .iloc en .loc
Met df_k3.index[-1] kunnen we de index opvragen van de laatste record ('Kathleen'). Dat resultaat kunnen we gebruiken in .loc.

In [None]:
pd.options.mode.copy_on_write = True
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.loc[df_k3.index[-1], 'geboortedatum'] = pd.to_datetime('1978-06-18')
display(df_k3)

## Nu kunnen we weer .at gebruiken
Nu dat we weten hoe we de indexwaarde kunnen opvragen, werkt het ook met .at.

In [None]:
pd.options.mode.copy_on_write = True
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.at[df_k3.index[-1], 'geboortedatum'] = pd.to_datetime('1978-06-18')
display(df_k3)

## En nu hetzelfde met een kolomnummer
Wanneer we de indexnaam en het kolomnummer kennen, kunnen we de naam van de laatste kolom opvragen:

In [None]:
pd.options.mode.copy_on_write = True
voornamen = ['Karen', 'Kristel', 'Kathleen']
achternamen = ['Damen', 'Verbeke', 'Aerts']
geboortedatums = [pd.to_datetime('1974-10-28'), pd.to_datetime('1975-12-10'), pd.to_datetime('1986-02-16')]
df_k3 = pd.DataFrame({'achternaam': achternamen, 'geboortedatum':geboortedatums}, index=voornamen)
df_k3 = df_k3.rename_axis('voornaam', axis='index')
df_k3.at['Kathleen', df_k3.columns[-1]] = pd.to_datetime('1978-06-18')
display(df_k3)

## Waarom .at en .iat gebruiken?
Je kunt je afvragen waarom je .at(of .iat) zou gebruiken wanneer .loc en .iloc ook werkt. Het heeft weer met efficiÃ«ntie te maken. Aangezien .at en .iat nooit met slices of advanced indexing kunnen werken, is de interpretatie van rij en kolom veel eenvoudiger (en dus ook sneller.)