# Oefenbundel: Pandas Series & DataFrames
Uitgebreide oefeningen voor beginners

In elke oefening staat op het einde een **Challenge**-vraag voor wie wat extra uitdaging wil.

## 1. Series – Basis
Beantwoord de vragen door de code onderaan elke opdracht te schrijven.


### Oefening 1.1  
Maak een Series `s` met de waarden: 10, 20, 30, 40.

**Vragen:**  
- Wat is het datatype van `s`?  
- Hoeveel elementen bevat `s`?  

**Challenge:**  
- Geef alle elementen maal 10 terug als nieuwe Series `s2`.  
- Wat is het gemiddelde van de waarden in `s2`?


In [168]:
import pandas as pd

In [169]:
s = pd.Series([10,20,30,40])


In [170]:
type(s)

pandas.core.series.Series

In [171]:
len(s)

4

In [172]:
s2 = s *10
s2

0    100
1    200
2    300
3    400
dtype: int64

In [173]:
s2.mean()

np.float64(250.0)


### Oefening 1.2  
Maak een Series met deze labels:  
- index: `['a', 'b', 'c']`  
- waarden: `[5, 9, 12]`  

**Vraag:**  
- Haal enkel het element met label `'b'` op.  

**Challenge:**  
- Verhoog alle waarden met 1.  
- Verander daarna de waarde met label `'c'` naar `100`.  
- Welke invloed heeft dat op de som van de Series?


In [174]:
ser = pd.Series([5, 9, 12], index=['a', 'b', 'c'], )

In [175]:
ser['b']

np.int64(9)

In [176]:
ser = ser + 1
ser

a     6
b    10
c    13
dtype: int64

In [177]:
ser['c'] = 100
ser

a      6
b     10
c    100
dtype: int64

In [178]:
sum(ser)

116


### Oefening 1.3  
Gegeven de Series:

```python
scores = pd.Series([12, 17, 19, None, 15])
```

**Vragen:**  
- Tel het aantal ontbrekende waarden.  
- Vervang ontbrekende waarden door het gemiddelde.  

**Challenge:**  
- Bereken de standaardafwijking van de scores (na het opvullen van de ontbrekende waarde).  
- Schrijf code die alle scores boven het gemiddelde filtert.


In [179]:
# Er is 1 ontbrekende waarde. Dit kon je ook berekenen met sum(scores.isna())
scores = pd.Series([12, 17, 19, None, 15])



In [180]:
scores[3] = scores.mean()
scores

0    12.00
1    17.00
2    19.00
3    15.75
4    15.00
dtype: float64

In [181]:
# Een andere, betere, manier die we later zullen zien
scores.fillna(scores.mean())


0    12.00
1    17.00
2    19.00
3    15.75
4    15.00
dtype: float64

In [182]:
scores.std()

np.float64(2.5860201081971503)

In [183]:
scores[scores > scores.mean()]

1    17.0
2    19.0
dtype: float64

## 2. DataFrames – Basis


### Oefening 2.1  
Construeer deze DataFrame:

| naam | leeftijd | stad      |
|------|----------|-----------|
| Tom  | 21       | Gent      |
| Anna | 19       | Antwerpen |
| Max  | 22       | Brugge    |

**Vragen:**  
- Wat zijn de kolomnamen?  
- Toon de eerste twee rijen.  

**Challenge:**  
- Stel dat er nog een student is: `Sara`, 20 jaar, uit `Leuven`.  
  Voeg haar toe als extra rij aan de DataFrame.  
- Hoeveel rijen heeft de DataFrame nu?


In [184]:
# naam, leeftijd, stad, later kan je hier df.columns voor gebruiken
df = pd.DataFrame({'naam': ['Tom', 'Anna', 'Max'], 'leeftijd': [21, 19,22], 'stad':['Gent', 'Antwerpen', 'Brugge']})

In [185]:
df.iloc[:2]

Unnamed: 0,naam,leeftijd,stad
0,Tom,21,Gent
1,Anna,19,Antwerpen


In [186]:
# een betere manier die we later gaan zien
df.head(2)

Unnamed: 0,naam,leeftijd,stad
0,Tom,21,Gent
1,Anna,19,Antwerpen


In [187]:
df

Unnamed: 0,naam,leeftijd,stad
0,Tom,21,Gent
1,Anna,19,Antwerpen
2,Max,22,Brugge


In [188]:
df.loc[len(df)] = ['Sarah', 20, 'Leuven']

In [189]:
len(df)

4

### Oefening 2.2
Vertrek van dezelfde DataFrame als in oefening 2.1.  

Voeg een nieuwe kolom `is_volwassen` toe waarbij de waarde `True` is als `leeftijd ≥ 18`.

**Challenge:**  
- Maak een nieuwe kolom `leeftijdsgroep` met waarden:  
  - `'jongvolwassene'` als leeftijd < 21  
  - `'volwassene'` als leeftijd ≥ 21  
- Toon enkel de rijen waar `leeftijdsgroep == 'volwassene'`.


In [190]:
df

Unnamed: 0,naam,leeftijd,stad
0,Tom,21,Gent
1,Anna,19,Antwerpen
2,Max,22,Brugge
3,Sarah,20,Leuven


In [191]:
df["is_volwassen"] = df["leeftijd"] >= 18

In [192]:
# Challenge: nieuwe kolom leeftijdsgroep
# Stap 1: maak de kolom en vul alles met 'volwassene'
df["leeftijdsgroep"] = "volwassene"
# Stap 2: overschrijf de rijen waar leeftijd < 21
mask_jong = df["leeftijd"] < 21
df.loc[mask_jong, "leeftijdsgroep"] = "jongvolwassene"

In [193]:
# Hoe we het later zullen doen
df["leeftijdsgroep"] = df["leeftijd"].apply(
    lambda x: "jongvolwassene" if x < 21 else "volwassene"
)

In [194]:
df[df['leeftijdsgroep'] == 'volwassene']


Unnamed: 0,naam,leeftijd,stad,is_volwassen,leeftijdsgroep
0,Tom,21,Gent,True,volwassene
2,Max,22,Brugge,True,volwassene



### Oefening 2.3  
Vertrek opnieuw van de DataFrame uit oefening 2.1 (zonder extra rijen is ook ok).  

Filter alle rijen waar de stad *niet* `'Gent'` is.

**Challenge:**  
- Maak een DataFrame met alleen de kolommen `naam` en `stad`.  
- Sorteer deze nieuwe DataFrame alfabetisch op `stad`.


In [195]:
df[df['stad'] != 'Gent']

Unnamed: 0,naam,leeftijd,stad,is_volwassen,leeftijdsgroep
1,Anna,19,Antwerpen,True,jongvolwassene
2,Max,22,Brugge,True,volwassene
3,Sarah,20,Leuven,True,jongvolwassene


In [196]:
df2 = df[['naam', 'stad']].copy()

In [197]:
df2 = df2.sort_values(by='stad')

In [198]:
df2

Unnamed: 0,naam,stad
1,Anna,Antwerpen
2,Max,Brugge
0,Tom,Gent
3,Sarah,Leuven


## 3. Operaties op DataFrames


### Oefening 3.1 – Statistieken  
Gegeven:

```python
df = pd.DataFrame({
    "A": [5, 2, 7, 1],
    "B": [3, 8, 4, 6]
})
```

**Vragen:**  
- Bereken de som van kolom `A`.  
- Bereken het gemiddelde van kolom `B`.  
- Bereken de correlatie tussen `A` en `B`.  

**Challenge:**  
- Voeg een nieuwe kolom `C` toe met de waarden `A * B` (elementgewijs).  
- Bereken de maximumwaarde van kolom `C`.  
- Filter de rijen waar `C` groter is dan het gemiddelde van `C`.


In [199]:
df = pd.DataFrame({"A": [5, 2, 7, 1], "B": [3, 8, 4, 6]})

In [200]:
df['A'].sum()

np.int64(15)

In [201]:
df['B'].mean()

np.float64(3.75)

In [202]:
df['A'].corr(df['B'])

np.float64(-0.750612837097955)

In [203]:
df['C'] = df['A'] * df['B']

In [204]:
df['C'].max()

np.int64(28)

In [205]:
df[df['C'] > df['C'].mean()]

Unnamed: 0,A,B,C
2,7,4,28



### Oefening 3.2 – Sorteren  
Vertrek van dezelfde DataFrame `df` als in oefening 3.1.  

Sorteer de DataFrame `df` op kolom `B`, aflopend.

**Challenge:**  
- Sorteer `df` eerst oplopend op kolom `A` en binnen dezelfde `A`-waarde aflopend op kolom `B`.  
- Reset de index van de gesorteerde DataFrame (zodat hij terug 0,1,2,... is).


In [211]:
df.sort_values(by='B', ascending=False, inplace=True)

In [207]:
df.sort_values(by=['A', 'B'], ascending=[True, False])

Unnamed: 0,A,B,C
3,1,6,6
1,2,8,16
0,5,3,15
2,7,4,28


In [208]:
df.reset_index(inplace=True)