# Extra: Data Voorbewerken

Als we met "echte" data aan de slag gaan, ontdekken we vaak al gauw dat die in zijn oorspronkelijke vorm niet zonder meer bruikbaar is om onze analyses op los te laten. Kolommen zijn leeg of bevatten verschillende soorten waarden of misschien hebben we eigenlijk maar een deel van de data nodig en zouden we het liefste wat overbodige rijen uit onze dataset willen wegfilteren.

Ook kan het zijn dat we de analyses willen uitvoeren op combinaties van kolommen. We willen bijvoorbeeld niet de waarden zelf maar juist de gemiddelden van een paar kolommen weergeven of juist de hoogste of de laagste waarde.

Over dit soort werk, waarbij we data **voorbewerken** voordat we analyses gaan maken, kun je op internet, om te beginnen in de handleiding van Pandas, meer dan genoeg informatie vinden. Vaak is het een kwestie van aan Google - of aan een AI uitleggen wat je wil doen. Dit levert vaak handige voorbeeldcode op - of een langdurige zoektocht met allemaal valse starts omdat precies datgene dat je wil doen nergens goed beschreven staat.

Om je op weg te helpen, vind je in dit notebook wat voorbeeldcode. Deze kun je gebruiken wanneer de data die je voor je portfolio-opdrachten wil inzetten, wat extra bewerkingen vereist.

In [70]:
# Importeer de bibliotheken die we nodig hebben
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [71]:
# Voorbeelddata. np.nan : NaN
df = pd.DataFrame({
    'a' : [1, 2, 3, 4, np.nan, np.nan, 7, 8, 9, 10],
    'b' : [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
    'c' : [1, 2, 'a', 'b', 5, 6, 7, 8, 9, 10],
    'd' : [np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan, np.nan]
})
df

Unnamed: 0,a,b,c,d
0,1.0,10,1,
1,2.0,9,2,
2,3.0,8,a,
3,4.0,7,b,
4,,6,5,
5,,5,6,
6,7.0,4,7,
7,8.0,3,8,
8,9.0,2,9,
9,10.0,1,10,


## Filteren

Hieronder vind je wat voorbeelden waarin er rijen en zelfs kolommen uit data worden verwijderd. Merk op dat alle bewerkingen die je op een dataframe uitvoert, non-destructief zijn: het oorspronkelijke data frame blijft behouden. Alleen als je de bewerkte versie toewijst aan de variabele met de oorspronkelijke versie worden je bewerkingen vastgelegd.

In [72]:
# Eenvoudige voorbeelden. 
# We beginnen eenvoudig: bewaar alleen die rijen waar kolom b een waarde heeft die groter is dan 5.
# Van dataframe df willen we die rijen hebben waarvoor geldt dat de kolom b van dataframe df een waarde heeft die groter is dan 5
df[df['b'] > 5]


Unnamed: 0,a,b,c,d
0,1.0,10,1,
1,2.0,9,2,
2,3.0,8,a,
3,4.0,7,b,
4,,6,5,


In [73]:
# Het omgekeerde kan ook: alle rijen waar kolom b een waarde heeft die kleiner is dan 5
df[df['b'] < 5]

Unnamed: 0,a,b,c,d
6,7.0,4,7,
7,8.0,3,8,
8,9.0,2,9,
9,10.0,1,10,


In [74]:
# We willen alleen rijen hebben waar kolom b een waarde heeft van 5
df[df['b'] == 5]


Unnamed: 0,a,b,c,d
5,,5,6,


In [75]:
# Of waar kolom b NIET een waarde heeft van 5
df[df['b'] != 5]

Unnamed: 0,a,b,c,d
0,1.0,10,1,
1,2.0,9,2,
2,3.0,8,a,
3,4.0,7,b,
4,,6,5,
6,7.0,4,7,
7,8.0,3,8,
8,9.0,2,9,
9,10.0,1,10,


In [76]:
# Combineren kan ook. Gebruik hiervoor haakjes en & (EN) 
df[(df['b'] < 6) & (df['b'] > 2)]



Unnamed: 0,a,b,c,d
5,,5,6,
6,7.0,4,7,
7,8.0,3,8,


In [77]:
# Of gebruik | (OF)
display(df[(df['b'] > 6) | (df['b'] < 2)])

Unnamed: 0,a,b,c,d
0,1.0,10,1,
1,2.0,9,2,
2,3.0,8,a,
3,4.0,7,b,
9,10.0,1,10,


In [78]:
# Excel produceert soms CSV-bestanden met een lege kolom aan het einde. In dit voorbeeld is dat kolom d. Verwijder deze.
df.drop(columns=['d'])

Unnamed: 0,a,b,c
0,1.0,10,1
1,2.0,9,2
2,3.0,8,a
3,4.0,7,b
4,,6,5
5,,5,6
6,7.0,4,7
7,8.0,3,8
8,9.0,2,9
9,10.0,1,10


In [79]:
# Kolom c bevat zowel numerieke waarden als karakters. Verwijder de rijen met een karakter in kolom c.
# Let op: dit werkt in twee stappen:
# 1. Zet kolom c om naar een string (astype(str))
# 2. Roep voor elke waarde de functie str.isnumeric() aan.
df[df['c'].astype(str).str.isnumeric()]

Unnamed: 0,a,b,c,d
0,1.0,10,1,
1,2.0,9,2,
4,,6,5,
5,,5,6,
6,7.0,4,7,
7,8.0,3,8,
8,9.0,2,9,
9,10.0,1,10,


In [80]:
# We willen alleen rijen waarvoor kolom a niet leeg is (geen NaN bevat). Omdat kolom d uitsluitend uit NaN bestaat, moeten we die eerst verwijderen.
df.drop(columns=['d']).dropna()

Unnamed: 0,a,b,c
0,1.0,10,1
1,2.0,9,2
2,3.0,8,a
3,4.0,7,b
6,7.0,4,7
7,8.0,3,8
8,9.0,2,9
9,10.0,1,10


In [81]:
# Het kan ook zijn dat we de rijen met lege waarden niet willen verwijderen maar dat we de lege waarden willen vervangen door een 0 (of een andere waarde):
df.fillna(0)

Unnamed: 0,a,b,c,d
0,1.0,10,1,0.0
1,2.0,9,2,0.0
2,3.0,8,a,0.0
3,4.0,7,b,0.0
4,0.0,6,5,0.0
5,0.0,5,6,0.0
6,7.0,4,7,0.0
7,8.0,3,8,0.0
8,9.0,2,9,0.0
9,10.0,1,10,0.0


## Aanmaken van nieuwe kolommen op basis van bestaande kolommen

Soms volstaan de kolommen die we aangeleverd hebben gekregen niet om onze analyses te kunnen uitvoeren en willen we eigenlijk combinaties maken van kolommen of op een andere manier nieuwe kolommen maken die zijn gebaseerd op de inhoud van andere kolommen.

Dit aanmaken van kolommen noemen we "feature engineering". Hieronder staan wat voorbeelden.

In [82]:
# Maak een nieuw dataframe aan zonder NaNs en zonder kolommen met verschillende typen waarden erin.
# dfc = df clean (want er zit geen rotzooi meer in)
dfc = pd.DataFrame({
    'a' : [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'b' : [10, 9, 8, 7, 6, 5, 4, 3, 2, 1],
    'c' : [5, 4, 3, 2, 1, 1, 2, 3, 4, 5],
})
dfc

Unnamed: 0,a,b,c
0,1,10,5
1,2,9,4
2,3,8,3
3,4,7,2
4,5,6,1
5,6,5,1
6,7,4,2
7,8,3,3
8,9,2,4
9,10,1,5


In [83]:
# Maak een nieuwe kolom met het gemiddelde van kolom a, b en c
dfc['mean'] = dfc[['a', 'b', 'c']].mean(axis = 1) # axis = 1 betekent: bereken het gemiddelde per rij.
dfc

Unnamed: 0,a,b,c,mean
0,1,10,5,5.333333
1,2,9,4,5.0
2,3,8,3,4.666667
3,4,7,2,4.333333
4,5,6,1,4.0
5,6,5,1,4.0
6,7,4,2,4.333333
7,8,3,3,4.666667
8,9,2,4,5.0
9,10,1,5,5.333333


In [84]:
# Maak een nieuwe kolom met de laagste waarde in kolom a en b
dfc[['a', 'b']].min(axis = 1) # axis = 1: per rij
# Er bestaat ook een max

0    1
1    2
2    3
3    4
4    5
5    5
6    4
7    3
8    2
9    1
dtype: int64

In [85]:
# Soms willen we het verschil weten tussen een waarde en zijn voorganger.
# Dit berekenen we in 2 stappen:
# 1. Verschuif de kolom naar beneden met shift(1)
# 2. Bereken het verschil tussen de oorspronkelijke kolom en de verschoven kolom.
dfc['a_vorige'] = dfc['a'].shift(1) # 1 naar boven verschuiven
dfc['a_verschil'] = dfc['a'] - dfc['a_vorige']
dfc
# Merk op dat de verschoven kolom en dus ook de kolom met het verschil een NaN hebben: dat klopt, omdat de eerste rij geen voorganger heeft.
# Dit kun je oplossen met fillna(0) (zie hierboven)




Unnamed: 0,a,b,c,mean,a_vorige,a_verschil
0,1,10,5,5.333333,,
1,2,9,4,5.0,1.0,1.0
2,3,8,3,4.666667,2.0,1.0
3,4,7,2,4.333333,3.0,1.0
4,5,6,1,4.0,4.0,1.0
5,6,5,1,4.0,5.0,1.0
6,7,4,2,4.333333,6.0,1.0
7,8,3,3,4.666667,7.0,1.0
8,9,2,4,5.0,8.0,1.0
9,10,1,5,5.333333,9.0,1.0


## Datum en tijd

Soms willlen we berekeningen uitvoeren die te maken hebben met tijd: het verschil tussen twee datums berekenen, bijvoorbeeld.

In [94]:
# Maak wat voorbeelddata aan.
dfd = pd.DataFrame({
    'start' : ['2025-10-01 01:00:00', '2025-10-02 02:00:00', '2025-10-03 03:00:00'],
    'eind' : ['2025-10-01 02:00:00', '2025-10-02 03:00:00', '2025-10-03 04:00:00'],
})
dfd

Unnamed: 0,start,eind
0,2025-10-01 01:00:00,2025-10-01 02:00:00
1,2025-10-02 02:00:00,2025-10-02 03:00:00
2,2025-10-03 03:00:00,2025-10-03 04:00:00


In [95]:
# Eerst moeten we Pandas vertellen dat we met datums / tijden te maken hebben.
dfd['start'] = pd.to_datetime(dfd['start'])
dfd['eind'] = pd.to_datetime(dfd['eind'])
dfd


Unnamed: 0,start,eind
0,2025-10-01 01:00:00,2025-10-01 02:00:00
1,2025-10-02 02:00:00,2025-10-02 03:00:00
2,2025-10-03 03:00:00,2025-10-03 04:00:00


In [96]:
# We zien geen verschil met de vorige versie. Dat zien we pas als we het dataframe beschrijven:
dfd.describe()
# Als een kolom datatime-objecten bevat, kan pandas gemiddelden, min, max enzovoort berekenen. Met datums in strings kan dat niet.

Unnamed: 0,start,eind
count,3,3
mean,2025-10-02 02:00:00,2025-10-02 03:00:00
min,2025-10-01 01:00:00,2025-10-01 02:00:00
25%,2025-10-01 13:30:00,2025-10-01 14:30:00
50%,2025-10-02 02:00:00,2025-10-02 03:00:00
75%,2025-10-02 14:30:00,2025-10-02 15:30:00
max,2025-10-03 03:00:00,2025-10-03 04:00:00


In [97]:
# Nu we data met datums hebben, kunnen we rekeken.
# Wat is het verschil tussen start en eind?
dfd['eind'] - dfd['start']

0   0 days 01:00:00
1   0 days 01:00:00
2   0 days 01:00:00
dtype: timedelta64[ns]

In [99]:
# Als we dit soort berekeningen doen, krijgen we een speciaal type datetime.timedelta terug.
# Vaak is dat niet handig en willen we juist het verschil in dagen, uren of minuten weten.
(dfd['eind'] - dfd['start']) / pd.Timedelta(minutes=1) # hours of seconds kan ook


0    60.0
1    60.0
2    60.0
dtype: float64

## Samenvatten: groeperen

Ten slotte kijken we naar manieren om data samen te vatten door deze te groeperen. Dit doen we bijvoorbeeld als we meetwaarden hebben die we elk uur meten maar die we per dag willen samenvatten (als som of als gemiddelde, bijvoorbeeld).

In [100]:
dfe = pd.DataFrame({
    'tijd' : ['2025-10-01 01:00:00', '2025-10-01 02:00:00', '2025-10-01 03:00:00', '2025-10-02 01:00:00', '2025-10-02 02:00:00', '2025-10-02 03:00:00'],
    'meetwaarde': [1, 2, 3, 4, 5, 6],
})
# Let op dat we de kolom 'tijd' eerst moeten omzetten naar een datetime-object
dfe['tijd'] = pd.to_datetime(dfe['tijd'])
dfe

Unnamed: 0,tijd,meetwaarde
0,2025-10-01 01:00:00,1
1,2025-10-01 02:00:00,2
2,2025-10-01 03:00:00,3
3,2025-10-02 01:00:00,4
4,2025-10-02 02:00:00,5
5,2025-10-02 03:00:00,6


In [108]:
# Om het totaal van de meetwaarden per dag te kunnen berekenen, moeten we de tijd eerst omzetten naar een dag:
dfe['datum'] = dfe['tijd'].dt.date
dfe

Unnamed: 0,tijd,meetwaarde,datum
0,2025-10-01 01:00:00,1,2025-10-01
1,2025-10-01 02:00:00,2,2025-10-01
2,2025-10-01 03:00:00,3,2025-10-01
3,2025-10-02 01:00:00,4,2025-10-02
4,2025-10-02 02:00:00,5,2025-10-02
5,2025-10-02 03:00:00,6,2025-10-02


In [None]:
# Bereken het totaal van de meetwaarden per datum.
# LET OP: van de kolom "tijd" kan geen som worden berekend dus die moeten we verwijderen
dfe[['datum', 'meetwaarde']].groupby('datum').sum()

Unnamed: 0_level_0,meetwaarde
datum,Unnamed: 1_level_1
2025-10-01,6
2025-10-02,15


In [111]:
# min, max, mean en median werken ook
dfe[['datum', 'meetwaarde']].groupby('datum').mean()

Unnamed: 0_level_0,meetwaarde
datum,Unnamed: 1_level_1
2025-10-01,2.0
2025-10-02,5.0


In [None]:
# groupby levert een speciaal soort dataframe op dat we niet zomaar verder kunnen gebruiken.
# Om een groupby-object om te zetten naar een "gewoon" object gebruik je de functie reset_index.
dfe[['datum', 'meetwaarde']].groupby('datum').min().reset_index()

Unnamed: 0,datum,meetwaarde
0,2025-10-01,1
1,2025-10-02,4
