In [728]:
import pandas as pd

### Oefening 1 - Werking van eenvoudige DataFrames

Een Pandas dataframe kan je aanmaken met de <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html">`DataFrame`-constructor</a>.

```python
import pandas as pd # Pandas importeren

df = pd.DataFrame()
```
Maak een Dataframe-object aan met de naam *data* met daarin deze Python `list` van `list` van waarden

```
[[0.25, 'Q1'],
[0.5, 'Q2'],
[0.75, 'Q3'],
[1.0, 'Q4']]
```

De kolommen moeten de namen `waarde` en `kwartiel` hebben.  Dit kan je doen door de `columns`-parameter van de `DataFrame`-constructor te gebruiken, en deze een lijst van de kolomnamen te geven. Dus `columns=['waarde', 'kwartiel']`.

In [729]:
data = pd.DataFrame({
    'waarde':[0.25, 0.5, 0.75, 1.0],
    'kwartiel':['Q1', 'Q2', 'Q3', 'Q4']
})
print(data)

   waarde kwartiel
0    0.25       Q1
1    0.50       Q2
2    0.75       Q3
3    1.00       Q4


Een dataframe is een 2D-tabel (ook als maar één kolom in de tabel zit). Je kan de dimensie opvragen met de eigenschap `.shape`. 

Een shape is een Python <a href="https://realpython.com/python-lists-tuples/#python-tuples">tuple</a>. Je tuples nog heel vaak tegenkomen.

Wat is de shape van het `DataFrame`?

In [730]:
print(data.shape)

(4, 2)


Een bepaalde kolom van een dataframe heeft altijd één bepaald datatype. Elke kolom is een Pandas `Series` of `Categorical`. 

De datatypes van een dataframe kan je opvragen met de `.dtypes`-eigenschap.

Wat zijn de datatypes van dit dataframe? Wat is het verschil met een Pandas `Series`? 

In [731]:
print(data.dtypes)
# Elke kolom heeft zijn eigen data type hier.Een series kan dat niet hebben.

waarde      float64
kwartiel     object
dtype: object


Zoals je nu al zou moeten weten is Pandas gebouwd bovenop Numpy-arrays en standaard Python. Achter de schermen gebruikt Pandas dus eigenlijk Numpy-arrays. Je kan deze altijd opvragen m.b.v. van volgende methode.

```python
df.to_numpy()
```
*Nota: In het Oefenboek op Numpy leer je meer over Numpy-arrays.*

Converteer het dataframe naar een Numpy array. Welke methode gebruik je hiervoor? 

Hoe verschilt de omzetting naar een Numpy array van een DataFrame met de omzetting naar Numpy array van een Series? 

*Tip: bekijk het aantal dimensies met de `shape` - eigenschap van een Numpy-array en vergelijk deze met die van een Series, bv. van `pd.Series([0.25, 0.5, 0.75, 1.0])`*


In [732]:
numpy = data.to_numpy()
print(numpy, '\n\n', numpy.shape)
# Je hebt geen visuele indexen en ook kolomnamen zijn weg.

[[0.25 'Q1']
 [0.5 'Q2']
 [0.75 'Q3']
 [1.0 'Q4']] 

 (4, 2)


Bekijk de index van het DataFrame door de `.index`-eigenschap te bekijken.

In [733]:
print(data.index.values)

[0 1 2 3]


Bekijk de kolommen van het DataFrame door de `.columns`-eigenschap te bekijken. Is er wezenlijk verschil met de index van het dataframe?

In [734]:
print(data.columns.values)

['waarde' 'kwartiel']


Het <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.loc.html">loc</a>-commando werkt met verschillende soorten argumenten en geeft soms ook andere resultaten terug. 

Je kan één kolom of meerdere kolommen selecteren. Je kan ook hele rijen selecteren. Je kan het ook combineren waarbij je specifieke rijen uit specifieke kolommen selecteert. Je mag daarbij gebruikmaken van Python <a href="https://realpython.com/lessons/indexing-and-slicing/">`slices`</a>

Hieronder zie je enkele tips van hoe je commando kan gebruiken. Het kost enige moeite om het goed te begrijpen dus je hoeft niet te panikeren als je het niet meteen begrijpt. Indexen of slices voor de komma slaan op rijen, erna op kolommen. Heb je geen komma? Dan gaat het over kolommen.

```python
df.loc[...]
df.loc[...,...]
df.loc[[]]
df.loc[[],[]] 
``` 

Het `loc`-commando werkt op **expliciete indexen** in de dataframes (en series). Expliciete indexen zijn diegene die wij zelf definiëren en die je vindt m.b.v. `.index` en `.columns`

Haal het tweede element en het tweede t.e.m. het derde element op m.b.v. het `loc`-commando. Dit kan op heel wat verschillende manieren gerealiseerd worden.

In [735]:
print(data,'\n')

x = data.loc[1:1]

print(x,'\n')

y = data.loc[1:2]

print(y,'\n')

   waarde kwartiel
0    0.25       Q1
1    0.50       Q2
2    0.75       Q3
3    1.00       Q4 

   waarde kwartiel
1     0.5       Q2 

   waarde kwartiel
1    0.50       Q2
2    0.75       Q3 



Het <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html">iloc</a>-commando is qua indexering zeer gelijkaardig aan het `loc`-commando, maar het werkt op **impliciete indexen**. Dit zijn een soort absolute indexen die elk dataframe heeft en die losstaan van de **expliciete indexen** die door de data scientist gedefiniëerd zijn in `Index`-objecten en die zijn gestockeerd in `.index` en `.columns`.

Haal het tweede element en het tweede t.e.m. het derde element op m.b.v. het `iloc`-commando. Is er *in dit geval* een verschil met het `loc`-commando qua indexwaarden? 

Waarom (niet)?

In [736]:
print(data,'\n')

x = data.iloc[1]

print(x,'\n')

y = data.iloc[1:3]

print(y,'\n')

# .iloc heeft geen expliciete indexen

   waarde kwartiel
0    0.25       Q1
1    0.50       Q2
2    0.75       Q3
3    1.00       Q4 

waarde      0.5
kwartiel     Q2
Name: 1, dtype: object 

   waarde kwartiel
1    0.50       Q2
2    0.75       Q3 



### Oefening 2 - Werking van DataFrames

Maak een `Dataframe` object aan met drie rijen waavan de waarden gelijk zijn aan:

* rij 1: `['eerste', 1, 0.83, 1.3]`,
* rij 2: `['tweede', 4, 0.75, 1.0]`,
* rij 3: `['derde', 2, 4.75, 0.2]`

Gebruik hiervoor een 2D Pythonlist.

Zorg ervoor dat de kolommen gelijk zijn aan `['a', 'b', 'c', 'd']`. 

Maak de index gelijk aan de getallen `[1,2]`.

In [737]:
# 2D Pythonlist
data = [
    ['eerste', 1, 0.83, 1.3],
    ['tweede', 4, 0.75, 1.0],
    ['derde', 2, 4.75, 0.2]
]

df = pd.DataFrame(data, index=[1,2,3], columns=['a', 'b', 'c', 'd'])

print(df)

        a  b     c    d
1  eerste  1  0.83  1.3
2  tweede  4  0.75  1.0
3   derde  2  4.75  0.2



Wat is de shape van dit `DataFrame`?

In [738]:
print(df.shape)

(3, 4)


Wat zijn de datatypes van dit dataframe? Hoeveel datatypes zijn er?

In [739]:
print(df.dtypes)

a     object
b      int64
c    float64
d    float64
dtype: object


Wat is de output van de method `.info()` en `.describe()`?



In [740]:
print(df.info, '\n')
print(df.describe()) # Kollom a is een numerieke kollom dus...

<bound method DataFrame.info of         a  b     c    d
1  eerste  1  0.83  1.3
2  tweede  4  0.75  1.0
3   derde  2  4.75  0.2> 

              b         c         d
count  3.000000  3.000000  3.000000
mean   2.333333  2.110000  0.833333
std    1.527525  2.286657  0.568624
min    1.000000  0.750000  0.200000
25%    1.500000  0.790000  0.600000
50%    2.000000  0.830000  1.000000
75%    3.000000  2.790000  1.150000
max    4.000000  4.750000  1.300000


Is er een rij-`Index` gemaakt? Zo ja, welke?

In [741]:
print(df.index.values)

[1 2 3]


* Haal de elementen van kolom `'b'` op. Doe dit m.b.v.drie notaties:
    * met de `.`-operator
    * met de `[]`-operator
    * met twee `[]`-operatoren: `[[]]`

Bekijk telkens het type object dat je terugkrijgt met de Python type-functie.

In [742]:
print("(.) Notaties data:", df.b.values,'data type:', type(df.b))
print("([]]) Notaties data:", df['b'].values,'data type:', type(df['b']))
print("([[]]) Notaties data:", df[['b']].b.values,'data type:', type(df[['b']]))

(.) Notaties data: [1 4 2] data type: <class 'pandas.core.series.Series'>
([]]) Notaties data: [1 4 2] data type: <class 'pandas.core.series.Series'>
([[]]) Notaties data: [1 4 2] data type: <class 'pandas.core.frame.DataFrame'>


Haal nu de elementen van kolommen `'b'` en `'c'` op. Doe dit met:
* de `[]` - operator
* de `loc` - operator
* de `iloc` - operator

In [743]:
print("([]) Notaties data 'b':", df['b'].values, "data 'c':", df['c'].values)
print("(.loc) Notaties data:", df.loc[:, 'b'].values, "data 'c':", df.loc[:, 'c'].values)
print("(.iloc) Notaties data:", df.iloc[:,1].values, df.iloc[:,2].values)

([]) Notaties data 'b': [1 4 2] data 'c': [0.83 0.75 4.75]
(.loc) Notaties data: [1 4 2] data 'c': [0.83 0.75 4.75]
(.iloc) Notaties data: [1 4 2] [0.83 0.75 4.75]


Haal nu enkel de 2e rij van elementen van kolommen `'b'` en `'c'` op. Doe dit met:
* de `[]` - operator
* de `loc` - operator
* de `iloc` - operator

In [744]:
print("([]) Notaties data 'b':", df['b'].iloc[1], "data 'c':", df['c'].iloc[1])
print("(.loc) Notaties data 'b':", df.loc[2, 'b'], "data 'c':", df.loc[2, 'c'])
print("(.iloc) Notaties data 'b':", df.iloc[1:2,1:2].values, "data 'c':", df.iloc[1:2,2:3].values)

([]) Notaties data 'b': 4 data 'c': 0.75
(.loc) Notaties data 'b': 4 data 'c': 0.75
(.iloc) Notaties data 'b': [[4]] data 'c': [[0.75]]


Is er een Index gemaakt? Zo ja, welke?

In [745]:
print(df.index)

Int64Index([1, 2, 3], dtype='int64')


Het datatype van de index is 'object'. Waarom is dit geen string? Zoek dit op.

In [746]:
# Ja, in Python zijn strings ook objecten. Dit betekent dat elke string variabele in Python wordt beschouwd als een instantie van de klasse str. De klasse str is een ingebouwde Python-klasse die methoden biedt voor het werken met strings.

# string = object in Python

### Oefening 3 - Simpele selecties uitvoeren

Maak een Pandas DataFrame genaamd **cars** m.b.v. deze internet url.

https://raw.githubusercontent.com/OCulzac/pandas-foundations/master/_datasets/auto-mpg.csv

Je kan hiervoor de `read_csv` functie gebruiken en de url als <u>string</u>-argument meegeven als volgt:

```python
url = 'https://raw.githubusercontent.com/OCulzac/pandas-foundations/master/_datasets/auto-mpg.csv'
df = pd.read_csv(url)
```

Bestudeer dit dataframe met de methoden `.info()` en `.describe()`.

In [747]:
url = "https://raw.githubusercontent.com/OCulzac/pandas-foundations/master/_datasets/auto-mpg.csv"
cars = pd.read_csv(url ,header=0, decimal=".", delimiter=",")
display(cars)

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
0,18.0,8,307.0,130,3504,12.0,70,US,chevrolet chevelle malibu
1,15.0,8,350.0,165,3693,11.5,70,US,buick skylark 320
2,18.0,8,318.0,150,3436,11.0,70,US,plymouth satellite
3,16.0,8,304.0,150,3433,12.0,70,US,amc rebel sst
4,17.0,8,302.0,140,3449,10.5,70,US,ford torino
...,...,...,...,...,...,...,...,...,...
387,27.0,4,140.0,86,2790,15.6,82,US,ford mustang gl
388,44.0,4,97.0,52,2130,24.6,82,Europe,vw pickup
389,32.0,4,135.0,84,2295,11.6,82,US,dodge rampage
390,28.0,4,120.0,79,2625,18.6,82,US,ford ranger


In [748]:
display(cars.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 392 entries, 0 to 391
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   mpg     392 non-null    float64
 1   cyl     392 non-null    int64  
 2   displ   392 non-null    float64
 3   hp      392 non-null    int64  
 4   weight  392 non-null    int64  
 5   accel   392 non-null    float64
 6   yr      392 non-null    int64  
 7   origin  392 non-null    object 
 8   name    392 non-null    object 
dtypes: float64(3), int64(4), object(2)
memory usage: 27.7+ KB


None

In [749]:
display(cars.describe())

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr
count,392.0,392.0,392.0,392.0,392.0,392.0,392.0
mean,23.445918,5.471939,194.41199,104.469388,2977.584184,15.541327,75.979592
std,7.805007,1.705783,104.644004,38.49116,849.40256,2.758864,3.683737
min,9.0,3.0,68.0,46.0,1613.0,8.0,70.0
25%,17.0,4.0,105.0,75.0,2225.25,13.775,73.0
50%,22.75,4.0,151.0,93.5,2803.5,15.5,76.0
75%,29.0,8.0,275.75,126.0,3614.75,17.025,79.0
max,46.6,8.0,455.0,230.0,5140.0,24.8,82.0


Selecteer nu alle auto's die een **mpg** waarde groter dan 40 hebben. Dit kan je doen door dit commando toe te passen:

```python
df[df.kolom > waarde]
```

Hoeveel auto's vind je?

In [750]:
display(cars[cars.mpg > 40])

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
242,43.1,4,90.0,48,1985,21.5,78,Europe,volkswagen rabbit custom diesel
307,41.5,4,98.0,76,2144,14.7,80,Europe,vw rabbit
320,46.6,4,86.0,65,2110,17.9,80,Asia,mazda glc
322,40.8,4,85.0,65,2110,19.2,80,Asia,datsun 210
323,44.3,4,90.0,48,2085,21.7,80,Europe,vw rabbit c (diesel)
324,43.4,4,90.0,48,2335,23.7,80,Europe,vw dasher (diesel)
327,44.6,4,91.0,67,1850,13.8,80,Asia,honda civic 1500 gl
388,44.0,4,97.0,52,2130,24.6,82,Europe,vw pickup


Als je meerdere eigenschappen wil gebruiken om op te filteren, moet je ze combineren met logische operatoren (&, |) en de condities tussen haakjes zetten. 

Je kan de condities ook in aparte variabelen stoppen en die gebruiken om te filteren.

```python
df[(df.kolom1 > waarde1) & (df.kolom2 < waarde2)]

cond1 = df.kolom1 > waarde1
cond2 = df.kolom2 < waarde2

df[cond1 & cond2]
```
Selecteer nu alle auto's die een **mpg** waarde groter hebben dan 40 en die uit **Europa** komen.


In [751]:
display(cars[(cars.mpg > 40) & (cars.origin == 'Europe')])

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
242,43.1,4,90.0,48,1985,21.5,78,Europe,volkswagen rabbit custom diesel
307,41.5,4,98.0,76,2144,14.7,80,Europe,vw rabbit
323,44.3,4,90.0,48,2085,21.7,80,Europe,vw rabbit c (diesel)
324,43.4,4,90.0,48,2335,23.7,80,Europe,vw dasher (diesel)
388,44.0,4,97.0,52,2130,24.6,82,Europe,vw pickup


Je kan de waarden in dataframe ook sorteren. Daarvoor gebruik je de <code>sort_values</code> functie.

```python
df.sort_values('kolom')
df.sort_values('kolom', ascending = False)

df.sort_values(['kolom1','kolom2'], ascending = [False, True])
```

Sorteer de auto's op **hp** van groot naar klein en tegerlijktijd op **accel** van klein naar groot. Auto nummer 115 zou bovenaan moeten komen te staan.


In [752]:
# cars.sort_values('hp', ascending=False, inplace=True) # Groot naar klein
# cars.sort_values('accel', ascending=True, inplace=True) # Klein naar groot
#
# display(cars)

# sorteer op "hp" van groot naar klein en "accel" van klein naar groot
cars.sort_values(['hp', 'accel'], ascending=[False, True], inplace=True)

# plaats de rij voor auto nummer 115 bovenaan
cars = pd.concat([cars[cars['displ'] == 115], cars[cars['displ'] != 150]])

display(cars)

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
175,23.0,4,115.0,95,2694,15.0,75,Europe,audi 100ls
115,16.0,8,400.0,230,4278,9.5,73,US,pontiac grand prix
8,14.0,8,455.0,225,4425,10.0,70,US,pontiac catalina
13,14.0,8,455.0,225,3086,10.0,70,US,buick estate wagon (sw)
94,12.0,8,455.0,225,4951,11.0,73,US,buick electra 225 custom
...,...,...,...,...,...,...,...,...,...
242,43.1,4,90.0,48,1985,21.5,78,Europe,volkswagen rabbit custom diesel
323,44.3,4,90.0,48,2085,21.7,80,Europe,vw rabbit c (diesel)
324,43.4,4,90.0,48,2335,23.7,80,Europe,vw dasher (diesel)
19,26.0,4,97.0,46,1835,20.5,70,Europe,volkswagen 1131 deluxe sedan


Selecteer nu alle auto die in Europe en de US zijn gemaakt. Hiervoor ga je gebruikmaken van een nieuwe methode: `.isin()`.



```python
df.kolomnaam.isin("lijst van waarden")
```
Probeer dit uit op `origin` kolom en met de waarden `['Europe','US']` en sla dit resultaat op in een variabele `europe_us_cars`.

Tip: *je kan deze uitdrukking ook negeren door er een tilde (~) voor te plaatsen.*

Welk resultaat krijg je en wat is het type van dit resultaat? (`type()`)

In [753]:
europe_us_cars = cars.origin.isin(['Europe','US'])
display(europe_us_cars)
display(type(europe_us_cars))

175    True
115    True
8      True
13     True
94     True
       ... 
242    True
323    True
324    True
19     True
101    True
Name: origin, Length: 393, dtype: bool

pandas.core.series.Series

Gebruik de `europe_us_cars`-variabele in combinatie met het originele dataframe `cars` om alleen de auto's te selecteren die uit Europe of de US komen. Je kan dit doen met de haakjes `[]` of met de `.loc`-methode (, en zelfs de `.iloc`-methode, maar dat is hier minder gepast).



In [754]:
newdata = cars.loc[True == europe_us_cars]

display(newdata)

Unnamed: 0,mpg,cyl,displ,hp,weight,accel,yr,origin,name
175,23.0,4,115.0,95,2694,15.0,75,Europe,audi 100ls
115,16.0,8,400.0,230,4278,9.5,73,US,pontiac grand prix
8,14.0,8,455.0,225,4425,10.0,70,US,pontiac catalina
13,14.0,8,455.0,225,3086,10.0,70,US,buick estate wagon (sw)
94,12.0,8,455.0,225,4951,11.0,73,US,buick electra 225 custom
...,...,...,...,...,...,...,...,...,...
242,43.1,4,90.0,48,1985,21.5,78,Europe,volkswagen rabbit custom diesel
323,44.3,4,90.0,48,2085,21.7,80,Europe,vw rabbit c (diesel)
324,43.4,4,90.0,48,2335,23.7,80,Europe,vw dasher (diesel)
19,26.0,4,97.0,46,1835,20.5,70,Europe,volkswagen 1131 deluxe sedan


Combineer nu de vorige oefening door enkel de **cyl** en de **weight** te selecteren van de **Europe** en **US** auto's. Hiervoor kan je enkel gebruikmaken van de `.loc`-operator.

In [755]:
newdata = cars.loc[True == europe_us_cars, ['cyl','weight']]

display(newdata)

Unnamed: 0,cyl,weight
175,4,2694
115,8,4278
8,8,4425
13,8,3086
94,8,4951
...,...,...
242,4,1985
323,4,2085
324,4,2335
19,4,1835


We gaan nu het gemiddelde gewicht van Amerikaanse auto's (US) vergelijken het gemiddelde gewicht van Aziatische auto's. We moeten eerst weten welke waarde de kolom `origin` allemaal kan aannemen.

We selecteren die kolom en passen de `.unique()`-methode toe. Probeer dit hieronder uit. Welke waarde heeft `origin` voor Aziatische auto's?

In [756]:
display(cars.origin.unique())

array(['Europe', 'US', 'Asia'], dtype=object)

Op een Pandas Series kan je een aantal statistiche methoden uitvoeren (zie ook verder). Het gemiddelde van een bepaalde selectie kun je laten berekenen met de `.mean()`-methode.

Zoek het gemiddelde gewicht van Aziatische auto's en dat van Amerikaanse auto's. Ben je verrast over het resultaat?

In les 3 zullen we nieuwe commando's leren waarmee we dit resultaat zullen kunnen bekomen.


In [757]:
autosAM = cars.origin.isin(['US'])
autosAM = cars.loc[True == autosAM]
gemiddeldeGewichtAM = autosAM.weight.mean()

autosAZ = cars.origin.isin(['Asia'])
autosAZ = cars.loc[True == autosAZ]
gemiddeldeGewichtAZ = autosAZ.weight.mean()

print("Gemiddelde gewicht US", round(gemiddeldeGewichtAM,2))
print("Gemiddelde gewicht Asia", round(gemiddeldeGewichtAZ,2))


Gemiddelde gewicht US 3372.49
Gemiddelde gewicht Asia 2221.23


### Oefening 4 - Dataframe aanpassen

Maak een Pandas DataFrame genaamd **train** m.b.v. train.csv

Bestudeer dit dataframe met `.info()`, `.describe()`, `.head()`, en `.tail()`. Aan de laatste methoden kan je ook een parameter meegeven om de hoeveelheid te tonen rijen te bepalen.

In [758]:
url = "train.csv"

train = pd.read_csv(url, header=0, delimiter=",", decimal=".")
display(train)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7. 25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,C


In [759]:
display(train.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    object 
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(1), int64(5), object(6)
memory usage: 83.7+ KB


None

In [760]:
display(train.describe())

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch
count,891.0,891.0,891.0,714.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057
min,1.0,0.0,1.0,0.42,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0
50%,446.0,0.0,3.0,28.0,0.0,0.0
75%,668.5,1.0,3.0,38.0,1.0,0.0
max,891.0,1.0,3.0,80.0,8.0,6.0


In [761]:
display(train.head())

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7. 25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [762]:
display(train.tail())

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


Met welk commando kan je alleen kolom `Embarked` bekijken? 

Combineer dit met de `.head()`-methode. Je zou een Pandas `Series` moeten krijgen die  S, C en Q's bevat.

In [763]:
print(train.Embarked.head())

0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object


Kolom `Embarked` staat voor *Port of Embarkation* met (C = Cherbourg; Q = Queenstown; S = Southampton).

Schrijf eerst een commando om alleen de rijen over te houden waarin het vertrek C(herbourg) is. Herhaal dit voor de andere 2 havens. Met de `.loc`-methoden kan je makkelijk realiseren (het gaat ook met de vierkante haakjes).

In [764]:
EmbarkedC = train.Embarked.isin(['C'])
EmbarkedC = train.loc[True == EmbarkedC]

EmbarkedQ = train.Embarked.isin(['Q'])
EmbarkedQ = train.loc[True == EmbarkedQ]

EmbarkedS = train.Embarked.isin(['S'])
EmbarkedS = train.loc[True == EmbarkedS]

print('\n\nVanuit C vertrokken {} personen\nVanuit Q vertrokken {} personen\nVanuit S vertrokken {} personen'.format(EmbarkedC.Embarked.size,EmbarkedQ.Embarked.size,EmbarkedS.Embarked.size))



Vanuit C vertrokken 168 personen
Vanuit Q vertrokken 77 personen
Vanuit S vertrokken 644 personen


Schrijf nu een Python `for`-loop waarmee je over een lijst van waarde `['C','Q','S']` itereert zodat je binnen de `for`-loop telkens die rijen van het dataframe selecteert die overeenstemmen met de `Embarked`-waarde uit de lijst. Voor elk van de havens print je het aantal rijen uit door op de selectie (een subdataframe dus) de `.size`-eigenschap op te roepen.

Dus zoiets ongeveer:
```python
for haven in ['C','Q','S']:
  "# selecteer alle rijen die gelijk zijn de waarde 'haven'."
  "# print het aantal rijen uit met de .size - eigenschap in een duidelijke boodschap"
```

Nota: een eigenschap is geen methode en daarom hoef je ook geen ronde haakjes te plaatsen achter `.size`.  Je zou dit resultaat moeten bekomen.

```
Vanuit C vertrokken 168 personen
Vanuit Q vertrokken 77 personen
Vanuit S vertrokken 644 personen
```

In [765]:
for x in ['C','Q','S']:
    y = train.loc[train.Embarked == x]
    print('Vanuit {} vertrokken {} personen'.format(x,y.Embarked.size))

Vanuit C vertrokken 168 personen
Vanuit Q vertrokken 77 personen
Vanuit S vertrokken 644 personen


Een waarde in een dataframe vervangen kan m.b.v. het toekenningsstatement (`=`).

```
df.kolom_naam = nieuwe_waarde
```

Je kan dit ook combineren met een selectie op bepaalde rijen zoals je hierboven reeds toepaste.

We willen de afkortingen van de havens vervangen door de volledige namen van havens van vertrek. Zoals steeds kan dit op verschillende manieren en in dit oefenboek bekijken we dan enkele mogelijke oplossingen. 

Gebruik de `.loc`-eigenschap om eerst alleen de kolom `Embarked` te selecteren met de waarde gelijk aan 'C'. Je moet hiervoor een komma gebruiken binnen de haakjes van `.loc` (`.loc[ , ]`). Probeer vervolgens de nieuwe waarde 'Cherbourg' toe te kennen aan de geselecteerde gegevens.

*Let op: als je fout maakt, moet je het originele dataframe herladen met de eerste stap. Veiliger is om eerst een kopie te maken en daarop te proberen. Je kan een kopie `train2` maken met de `.copy()`-methode of met een toekenning aan een nieuwe variabele*


In [766]:
train2 = train.copy()

display(train2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7. 25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,C


Als je zeker bent dat je commando's gewerkt hebben op de kopie van onze train dataset kunnen we nu alle wijzigingen in één keer doorvoeren m.b.v. een for-loop.

```python
for afkorting, haven in [('C', 'Cherbourg'), ('Q', 'Queenstown'), ('S','Southampton')]:
  "# selecteer de juiste rijen en vervang daarin de afkorting door de volledige naam"
```

Met bovenstaande code doorloop je een lijst van tuples. Per iteratie haal je twee gegevens op: de afkorting en de naam van de haven. 

In [767]:
for afkorting, haven in [('C', 'Cherbourg'), ('Q', 'Queenstown'), ('S','Southampton')]:
    train2.loc[train2.Embarked == afkorting, 'Embarked'] = haven

display(train2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7. 25,,Southampton
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,Cherbourg
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,Southampton
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,Southampton
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,Southampton
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,Southampton
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30,B42,Southampton
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,Southampton
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,Cherbourg
