# Pair programming: DataFrames

In [1]:
import numpy as np
import pandas as pd
from numpy.random import randn

np.random.seed(101)

df = pd.DataFrame(
    randn(5, 4),
    index=['A', 'B', 'C', 'D', 'E'],
    columns=['W', 'X', 'Y', 'Z']
)
df

Unnamed: 0,W,X,Y,Z
A,2.70685,0.628133,0.907969,0.503826
B,0.651118,-0.319318,-0.848077,0.605965
C,-2.018168,0.740122,0.528813,-0.589001
D,0.188695,-0.758872,-0.933237,0.955057
E,0.190794,1.978757,2.605967,0.683509


## 1. Selection

We beginnen met eenvoudige, maar vaak verwarrende selectie:

- `df['W']` → geeft een **Series**
- `df[['W']]` → geeft een **DataFrame**
- `df[['W', 'Y']]` → DataFrame met meerdere kolommen


### Oefening 1.1
1. Print de kolommen `W` en `Y`
2. Print de vorm (aantal rijen en kolommen) van de volledige DataFrame

In [44]:
# Jouw code hier


Unnamed: 0,W,Y
A,2.70685,0.907969
B,0.651118,-0.848077
C,-2.018168,0.528813
D,0.188695,-0.933237
E,0.190794,2.605967


In [45]:
# Jouw code hier


(5, 4)


## 2. New columns

### Oefening 2.1

Navigator: leg uit aan de driver wat deze code doet

```python
df['col5'] = [0, 1, 2, 3]
```

Na de uitleg voert de driver de code uit en legt hij uit wat de code doet

In [46]:
# Jouw code hier


### Oefening 2.2


1. Maak een nieuwe kolom `sum_WY` die gelijk is aan de som van kolom `W en Y`.
2. Maak een nieuwe kolom `flag_W_positive` die `True` is waar `W > 0` en anders `False`.
3. Toon `df` om te controleren dat de kolommen zijn toegevoegd.

In [47]:
# Jouw code hier


In [48]:
# Jouw code hier


Unnamed: 0,W,X,Y,Z,sum_WY,flag_W_positive
A,2.70685,0.628133,0.907969,0.503826,3.614819,True
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959,True
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,False
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542,True
E,0.190794,1.978757,2.605967,0.683509,2.796762,True


## 3. Dropping rows and columns

### Oefening 3.1


1. Maake een DataFrame genaamd 'df2', dat exact dezelfde data bevat als df
2. Verwijder de kolom flag_W_positive uit df2

In [50]:
# Jouw code hier


In [51]:
# Jouw code hier


Unnamed: 0,W,X,Y,Z,sum_WY
A,2.70685,0.628133,0.907969,0.503826,3.614819
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542
E,0.190794,1.978757,2.605967,0.683509,2.796762


**Reflectievraag: navigator leg uit**

-   Wat `inplace=True` doet.
-   Wat  `axis=1` hier betekent

## 4. `loc` vs `iloc` en conditionele selectie

### Oefening 4.1

Gebruik de **huidige** `df` (met extra kolommen) voor deze oefeningen.

**Opdrachten:**

1. Selecteer de rij met indexlabel `'B'`
2. Selecteer waarde op rij 0, kolom 3


In [53]:
# Jouw code hier


W                  0.651118
X                 -0.319318
Y                 -0.848077
Z                  0.605965
sum_WY            -0.196959
flag_W_positive        True
Name: B, dtype: object

In [54]:
# Jouw code hier


np.float64(0.5038257538223936)

### Oefening 4.2

**Opdrachten:**

1. Maak een DataFrame df_negative dat enkel de rijen bevat waarbij de waarde van kolom W negatief is
2. Doe opdracht 1 op nog een andere manier
3. Print de rijen waar zowel kolom X en Y minstens 0.5 zijn of kolom Z is kleiner dan 0.7

In [55]:
# Jouw code hier


Unnamed: 0,W,X,Y,Z,sum_WY,flag_W_positive
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,False


In [56]:
# Jouw code hier


Unnamed: 0,W,X,Y,Z,sum_WY,flag_W_positive
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,False


In [57]:
# Jouw code hier


Unnamed: 0,W,X,Y,Z,sum_WY,flag_W_positive
A,2.70685,0.628133,0.907969,0.503826,3.614819,True
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959,True
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,False
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542,True
E,0.190794,1.978757,2.605967,0.683509,2.796762,True


## 5. Sorting

### Oefening 5.1

1. Maak een nieuwe kolom 'score' die de waarden 1 t.e.m. 5 bevat (uitdaging: doe dit zonder de cijfers zelf volledig
in een lijst uit te typen)
2. Sorteer df **aflopend** op `score`
3. Sorteer df **aflopend** op `score` en **oplopend** op `flag_W_positive` .

In [58]:
# Jouw code hier


In [67]:
# Uitdaging



Unnamed: 0,W,X,Y,Z,sum_WY,flag_W_positive,score
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,False,3
A,2.70685,0.628133,0.907969,0.503826,3.614819,True,1
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959,True,2
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542,True,4
E,0.190794,1.978757,2.605967,0.683509,2.796762,True,5


Unnamed: 0,W,X,Y,Z,sum_WY,flag_W_positive,score
C,-2.018168,0.740122,0.528813,-0.589001,-1.489355,False,3
E,0.190794,1.978757,2.605967,0.683509,2.796762,True,5
D,0.188695,-0.758872,-0.933237,0.955057,-0.744542,True,4
B,0.651118,-0.319318,-0.848077,0.605965,-0.196959,True,2
A,2.70685,0.628133,0.907969,0.503826,3.614819,True,1


---

## Super goed gedaan!