# Pandas

Indien pandas nog niet geinstalleerd is, voer onderstaande codecell uit.

In [None]:
!pip install pandas


De twee belangrijkste gegevensstructuren in Pandas zijn de Series en de DataFrame.

Een Series in Pandas is een één-dimensionale array-achtige structuur die een lijst van waarden bevat, samen met een index die aan elke waarde is gekoppeld. Je kunt een Series maken vanuit een Python-lijst of een NumPy-array. Bijvoorbeeld:

In [3]:
import pandas as pd

s = pd.Series([1, 2, 3, 4, 5]) # series is een reeks van waarden (vaak is dit 1 rij of 1 kolom  van een dataframe)
# als je dit uitprint zie je twee reeksen van getallen -> het eerste is de index (denk aan de primary key van een tabel), het tweede zijn de values
s
s.index
s.values

array([1, 2, 3, 4, 5])

Hier wordt een Series s gemaakt met de waarden 1 tot 5. Standaard wordt een numerieke index van 0 tot 4 gebruikt, maar je kunt ook een aangepaste index specificeren:

In [5]:
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
s

a    1
b    2
c    3
d    4
e    5
dtype: int64

In [9]:
s.index
s['b']

np.int64(2)

In dit voorbeeld heeft elke waarde in de Series nu een corresponderende letterindex in plaats van een numerieke index. Dit maakt Series krachtig omdat je kunt werken met labels in plaats van alleen met posities.

De DataFrame is de meest gebruikte structuur in Pandas. Een DataFrame is een tweedimensionale tabel die lijkt op een spreadsheet of een SQL-tabel. Het bestaat uit rijen en kolommen, waarbij elke kolom een Series is. Een DataFrame kan worden gemaakt uit verschillende bronnen, zoals een dictionary van lijsten of een NumPy-array. Bijvoorbeeld:

In [20]:
data = {'Naam': ['Alice', 'Bob', 'Charlie'], 'Leeftijd': [25, 30, 35]}
df = pd.DataFrame(data)

display(df) # display tekent het iets mooier dan een standaard print
df.Naam # selecteer 1 kolom (dit geeft een series)
#df['Naam'] is analoog aan het vorige (als er spaties in je kolomnaam staan (of punten, of quotetekens of ...))

#df = df.set_index('Naam') # set_index geeft een nieuw dataframe terugaa
df.set_index('Naam', inplace=True)
# df['Alice'] # dit gaat een kolom selecteren -> keyerror want er is geen kolom met naam Alice
df.loc['Alice']
df.iloc[2, 0] # met iloc kan je met getallen gaan werken om te gaan slicen

Unnamed: 0,Naam,Leeftijd
0,Alice,25
1,Bob,30
2,Charlie,35


np.int64(35)

In dit voorbeeld wordt een DataFrame df gemaakt met twee kolommen: Naam en Leeftijd. De waarden van deze kolommen zijn afkomstig uit de dictionary data. De DataFrame-structuur biedt tal van functies voor het manipuleren, selecteren en bewerken van gegevens. Bijvoorbeeld, je kunt toegang krijgen tot een specifieke kolom met:

In [None]:
namen = df['Naam']

Dit retourneert een Series met de waarden in de kolom Naam. Je kunt ook rijen selecteren op basis van hun positie met de .iloc[]-methode of op basis van hun index met .loc[].

Een ander krachtig aspect van Pandas is de mogelijkheid om bewerkingen uit te voeren op kolommen. Bijvoorbeeld, je kunt een nieuwe kolom toevoegen aan een DataFrame door een wiskundige operatie toe te passen op bestaande kolommen:

In [23]:
df['Leeftijd_plus_5'] = df['Leeftijd'] + 5 # dit is een manier om nieuwe kolommen toe te voegen aan een dataframe

display(df)

df.max() # standaard gedrag is per kolom
df.max(axis=1) # met axis kan je dit gedrag aanpassen naar per rij


Unnamed: 0_level_0,Leeftijd,Leeftijd_plus_5
Naam,Unnamed: 1_level_1,Unnamed: 2_level_1
Alice,25,30
Bob,30,35
Charlie,35,40


Naam
Alice      30
Bob        35
Charlie    40
dtype: int64

Hier wordt een nieuwe kolom toegevoegd aan df genaamd Leeftijd_plus_5, die de waarden in de kolom Leeftijd verhoogt met 5.

In [28]:
# df.drop('Leeftijd_plus_5')  # KeyError: "['Leeftijd_plus_5'] not found in axis" -> dit is heel vaak omdat je in de verkeerde axis werkt

df.drop('Leeftijd_plus_5', axis=1, inplace=True)

In [29]:
df

Unnamed: 0_level_0,Leeftijd
Naam,Unnamed: 1_level_1
Alice,25
Bob,30
Charlie,35


In [30]:
df.reset_index()

Unnamed: 0,Naam,Leeftijd
0,Alice,25
1,Bob,30
2,Charlie,35
