# Oefenboek op het gebruik van Pandas

Deze oefenboekjes bevatten oefeningen om te leren (leeroefeningen). We gaan er dus vanuit dat je op dit punt nog niet veel kennis hebt over de deze topic. Ze zijn bedoeld om de leerstof nog te leren begrijpen en niet om te testen of je de leerstof al onder de knie hebt. Daarvoor hebben we een ander soort oefeningen.


## Oefeningen op Pandas Series

Maak eerst de oefenboekjes op Python en Numpy alvorens je hier aan begint. Importeer nu eerst de juiste libraries zodat je aan de slag kan.


```python
import numpy as np
import pandas as pd
```


In [2]:
import numpy as np
import pandas as pd

### Oefening 1 - Eenvoudige Pandas Series maken

Een Pandas series kan je aanmaken met de `Series`-constructor.

```python
import pandas as pd     # Pandas importeren
 
s = pd.Series(....)
```
Een series is een 1D rij van gegevens. Ze kan een naam hebben die je kan meegeven aan de Series m.b.v. het `name`-argument. In sommige gevallen is het belangrijk dat je de naam ook effectief meegeeft. Maak nu zelf een `Series`-object aan genaamd `data` met deze waarden `[0.25, 0.5, 0.75, 1.0]` en met als `name` de waarde 'quantielen'.

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], name='quantielen')
data

0    0.25
1    0.50
2    0.75
3    1.00
Name: quantielen, dtype: float64

Een Pandas `Series`-object heeft net als een Numpy array een `.shape` eigenschap die aangeeft wat de afmeting zijn van dit object. Een shape is een Python <a href="https://realpython.com/python-lists-tuples/#python-tuples">tuple</a>. Je tuples nog heel vaak tegenkomen.

Wat is de shape waarde van bovenstaand `Series`-object? 

*Nota: Je zal merken dat het er een beetje vreemd uit ziet. Dat komt omdat een Series maar 1 dimensie heeft en tuple minstens twee waarden moet bevatten*

In [4]:
data.shape

(4,)

Een series bevat altijd gegevens van één bepaald datatype, maar dankzij **overerving** kan je natuurlijk toch een series maken die verschillende types combineert. Zo is het datatype `object` een verzamelnaam voor een series die misschien zoalwel `int`, `float`, `strings`, ... elementen bevat, want die zijn natuurlijk ook allemaal van het supertype `object`. Het datatype van een series kan je opvragen met de `.dtypes`-eigenschap.

Meer informatie over datatypes vind je op <a href="https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#basics-dtypes">Pandas datatypes</a>. Bekijk ze zeker!

Wat is het datatype van je series?

In [None]:
data.dtypes

dtype('float64')

Pandas Series zijn gebouwd op Numpy-arrays en standaard Python. Achter de schermen gebruikt Pandas dus eigenlijk Numpy-arrays. Je kan deze altijd opvragen m.b.v. van volgende methode.

```python
s.to_numpy()
```
Converteer je series nu naar een Numpy array.

In [None]:
data.to_numpy()

array([0.25, 0.5 , 0.75, 1.  ])

Een series zal ook een **expliciete index** hebben. Dit is een soort van extra kolom die elke rij van de Series identificeert. Bekijk de index van je series-object door de `.index`-eigenschap op te vragen.

Welk soort `Index`-object is er gemaakt? Is dit logisch?

In [None]:
data.index  # RangeIndex is afgeleid van een Python range

RangeIndex(start=0, stop=4, step=1)

Het <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.loc.html">loc</a>-commando werkt met verschillende soorten argumenten en geeft soms ook andere resultaten terug: het kan één getal teruggeven of een `Series`-object.  Je kan specifieke rijen selecteren met een getal, een Python `list` of een Python <a href="https://realpython.com/lessons/indexing-and-slicing/">`slice`</a>

Hieronder zie je enkele tips van hoe je commando kan gebruiken. Het kost enige moeite om het goed te begrijpen dus je hoeft niet te panikeren als je het niet meteen begrijpt.

```python
s.loc[...] # dit verdient de voorkeur
# of
s[...]
``` 

*Nota: het `loc`-commando werkt op **expliciete indexen** in de dataframes (en series). Expliciete indexen zijn diegene die wij zelf definiëren en die je vindt m.b.v. `.index` en `.columns`*


Haal het tweede element en het tweede t.e.m. het derde element op.

In [11]:
print(data.loc[1])
print(data.loc[1:3])
print(data[1])
print(data[1:3])

0.5
1    0.50
2    0.75
3    1.00
Name: quantielen, dtype: float64
0.5
1    0.50
2    0.75
Name: quantielen, dtype: float64


### Oefening 2 - Pandas Series verder exploreren

Maak een `Series`-object aan met de naam `data` met deze waarden `[0.25, 0.5, 0.75, 1.0]`, waarvan de index gelijk is aan `['a', 'b', 'c', 'd']`, dat kan je door een list mee te geven aan de parameter `index`. Je mag series ook een naam geven.

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=list('abcd')) # of korter
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Wat is het datatype?

In [None]:
data.dtypes

dtype('float64')

Vraag de `.index`-eigenschap op. Welk soort `Index`-object is er ditmaal gemaakt? Vergelijk het met datgene uit [Oefening 1](https://colab.research.google.com/drive/12xxUNXEVEXkj4pk1CcwE0gHg2663A5Ux#scrollTo=hF5hH5EcwH-l&line=1&uniqifier=1).

In [None]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

* Haal het tweede element en het tweede t.e.m. het derde element op.

In [None]:
print(data['b'])
data['b':'c']

0.5


b    0.50
c    0.75
dtype: float64

### Oefening 3 - Andere manieren om een Series te maken

Maak een Series object aan o.b.v. deze Python dictionary.
```python
population_dict = {
        'California': 38332521,
        'Texas':      26448193,
        'New York':   19651127,
        'Florida':    19552860,
        'Illinois':   12882135}
```

In [None]:
population_dict = {
        'California': 38332521,
        'Texas':      26448193,
        'New York':   19651127,
        'Florida':    19552860,
        'Illinois':   12882135}

data = pd.Series(population_dict)
data

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

* Is er een Index gemaakt? Zo ja, welke?

In [None]:
data.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

* Het datatype van de index is 'object'. Waarom is dit geen string? Zoek dit op.

In [None]:
# Object wordt gebruikt in de plaats van String.

### Oefening 4 - Tips & Tricks


Vaak kun je op meerdere manieren hetzelfde resultaat bekomen. We onderzoeken dit in deze vraag voor de creatie van een Series. We willen een `Series` aanmaken met 100 maal de waarde $\pi$ in. 

Maak een `Series` object aan m.b.v. een Numpy array die 100 maal $\pi$ bevat. 

*Tip: Uit het oefenboek op Numpy arrays weet je dat Numpy  beschikt over verschillende functies om arrays op te vullen met (een) bepaald(e) waarde(n).*

In [None]:
pd.Series(np.repeat(np.pi, 100)) # of
pd.Series(np.tile(np.pi, 100))

0     3.141593
1     3.141593
2     3.141593
3     3.141593
4     3.141593
        ...   
95    3.141593
96    3.141593
97    3.141593
98    3.141593
99    3.141593
Length: 100, dtype: float64

Maak een `Series`-object aan m.b.v. een Python **list comprehension** die 100 maal $\pi$ bevat. 

*Tip: [List comprehensions](https://realpython.com/courses/using-list-comprehensions-effectively/) zijn een geweldig hulpmiddel. Zorg dat je ze goed kent!*

In [None]:
pd.Series([np.pi for i in range(100)])

0     3.141593
1     3.141593
2     3.141593
3     3.141593
4     3.141593
        ...   
95    3.141593
96    3.141593
97    3.141593
98    3.141593
99    3.141593
Length: 100, dtype: float64

Maak een Series object aan die 100 maal $\pi$ bevat door eenmaal de waarde $\pi$ mee te geven, maar ervoor te zorgen dat de `index`-parameter gelijk is aan `list` met elementen 0 t.e.m. 99. Voor dat laatste kan je dan weer een Python **`range`** gebruiken.

In [None]:
pd.Series(np.pi, index=range(100))

0     3.141593
1     3.141593
2     3.141593
3     3.141593
4     3.141593
        ...   
95    3.141593
96    3.141593
97    3.141593
98    3.141593
99    3.141593
Length: 100, dtype: float64

### Oefening 5 - Selecties doen

Maak gebruik van de Series uit Vraag 1.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

Je kan de `.loc`-operator ook condities meegeven die alleen die rijen teruggeven die voldoen aan die voorwaarden.

```python
condities = (s > x) & (s <= y) # voorbeeld van twee condities
s.loc[condities] # verdient de voorkeur
s[condities] # of zonder loc
```
Je kan de condities apart schrijven of verwerken in bovenstaande commando's. Beide technieken zijn handig.

Selecteer nu alle elementen uit je series die groter zijn 0.5.

In [13]:
data.loc[data > 0.5]
# data[data > 0.5]

c    0.75
d    1.00
dtype: float64

Selecteer vervolgens alle elementen die kleiner zijn 0.5 of groter dan 0.75. 

**Let op**: je moet extra ronde haakjes gebruiken.

In [14]:
data.loc[(data < 0.5) | (data > 0.75)]
# data[(data < 0.5) | (data > 0.75)]

a    0.25
d    1.00
dtype: float64

### Oefening 6 - Diepgang verkrijgen


Maak een `Series`-object aan met deze waarden `['a','b','c','d']`, waarvan de index gelijk is aan deze `list` `[1,3,3,5]`. Merk op dat de indexwaarden hier **wel oplopend, maar niet aaneensluitend** zijn. Zo'n geval kan voorkomen in een dataset. Denk bijvoorbeeld aan patiënten met patiëntid die meerdere keren voorkomen in een dataset. 

*Nota: je mag ook altijd Numpy arrays gebruiken i.p.v. Python lists.  Soms kan je met Numpy veel makkelijker complexere lijsten bouwen.*

In [16]:
data = pd.Series(['a','b','c','d'], index=[1,3,3,5])
data

1    a
3    b
3    c
5    d
dtype: object

Selecteer nu het 4e element. Wat merk je?

In [17]:
data.loc[3] # geeft twee waarden terug.
# of 
# data[3] 

3    b
3    c
dtype: object

Selecteer de elementen tussen 2 t.e.m. 3 m.b.v. een Python slice (:). Doe dit zowel met `.loc` en enkel met vierkante haakjes `[]`.

Welk resultaaten had je verwacht?  Komt dit overeen met wat je als output krijgt? Zo niet, verklaar dit dan.


In [18]:
# dit werkt wel zoals het moet.
data.loc[2:3]

# maar onderstaande werkt niet zoals verwacht.
# dit is zeer verwarrend, maar slicing via [] werkt niet met de expliciete indexwaarden uit de index, 
# maar met de impliciete array indices zoals je gewoon bent in welke programmeertaal dan ook. 
# Slicing zonder loc werkt dus zoals iloc (zie verder)
# data[2:3] 

3    b
3    c
dtype: object

* Selecteer de elementen tussen 1 t.e.m. 3 m.b.v. een Python slice (:) in combinatie met het **loc** commando. Welk resultaat had je verwacht?  Komt dit overeen met wat je als output krijgt? Verklaar in woorden wat het verschil is met het vorige command.

In [None]:
data.loc[1:4]

1    a
3    b
3    c
dtype: object

Selecteer de elementen tussen 1 t.e.m. 3 m.b.v. een Python slice(:) in combinatie met het **iloc** commando. 

Welk resultaat had je verwacht?  Komt dit overeen met wat je als output krijgt? Leg de relatie met de vorige commando's: zijn er gelijkenissen of verschillen?

In [None]:
data.iloc[1:4]

3    b
3    c
5    d
dtype: object

Selecteer de elementen tussen 1 en 5 met het **loc** commando. Let op: hier moet je aan loc zelf een list meegeven.

In [None]:
data.loc[[1,5]] # je hebt dus een list [] staan binnen de vierkante haken van loc.

1    a
5    d
dtype: object

Selecteer de elementen tussen 1 en 5 met het **iloc** commando. Waarom geeft dit een fout? Waarom geeft het juist die fout?

In [None]:
# data.iloc[[1,5]] # dit zou je moeten geprobeerd hebben.
# Dit geeft natuuurlijk een IndexError, want 5 is geen correct impliciete index (cft. ArrayIndexOutOfBoundsException)