# Module 1. Steekproeven

De meeste Python scripts (of Jupyter Notebooks) voor het analyseren van data maken gebruik van dezelfde programmabibliotheken. De belangrijkste zijn:

- `numpy` - multidimensionale arrays, lineaire algebra, enz.
- `scipy` - wiskunde, (ingenieurs)wetenschappen, enz.
- `pandas` - data-analyse en -manipulatie
- `matplotlib`, `seaborn`, `altair` - datavisualisatie.

Je kan deze installeren met `pip`:

```console
> pip install numpy scipy pandas matplotlib seaborn altair statsmodels
```

Omdat je meestal telkens dezelfde packages nodig hebt, zet je deze dus best bovenaan elk script dat je schrijft. In veel scripts is het de conventie om de packagenamen af te korten, bv. `np` voor `numpy`, `sns` voor `seaborn`, enz.

In [36]:
# Importeren van de nodige packages
import numpy as np                                  # "Scientific computing"
import scipy.stats as stats                         # Statistical tests

import pandas as pd                                 # Dataframe
import matplotlib.pyplot as plt                     # Basis visualisatie
from statsmodels.graphics.mosaicplot import mosaic  # Mozaïekdiagram
import seaborn as sns                               # Geavanceerde datavisualisatie
import altair as alt                                # Een alternatief visualisatiesysteem

Je kan een dataset inlezen uit uiteenlopende bronnen (Rajagopalan, 2021, p.158). Je kan een pad opgeven naar een bestandsnaam of zelfs een URL:

In [37]:
# Titanic dataset importeren. (Rajagopalan, 2021, p. 106)
titanic = pd.read_csv('https://raw.githubusercontent.com/DataRepo2019/Data-files/master/titanic.csv')
# Toon de eerste regels van de dataset
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [38]:
# Hoeveel rijen heeft de dataset?
len(titanic)
# Hoveel kolommen?
len(titanic.columns)
# Hoeveel rijen en kolommen?
titanic.shape
# Algemene info over de dataset:
titanic.info()

# Van welk datatype is elke variabele?
titanic.dtypes

# Hoeveel kolommen van elk type zijn er?
#   Let op! In het boek staat get_dtype_counts(), maar deze functie bestaat
#   niet meer.
titanic.dtypes.value_counts()

891

12

(891, 12)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

int64      5
object     5
float64    2
dtype: int64

De kolom "PassengerId" is eigenlijk geen variabele, maar een getal dat de observatie identificeert. Je kan deze kolom als een index markeren:

In [39]:
titanic.set_index(['PassengerId'])

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Sommige van de variabelen, zoals Survived en Pclass, worden ten onrechte beschouwd als kwantitatief. Dit kan je rechtzetten door ze expliciet om te zetten naar een categorische:

In [40]:
# Beschrijf de variabele Survived -> wordt nu als kwantitatief beschouwd
titanic['Survived'].describe()
# Zet om naar een categorische variabele
titanic['Survived'] = titanic['Survived'].astype('category')
# Vraag opnieuw de beschrijving op -> nu is het een kwalitatieve variabele
titanic['Survived'].describe()

count    891.000000
mean       0.383838
std        0.486592
min        0.000000
25%        0.000000
50%        0.000000
75%        1.000000
max        1.000000
Name: Survived, dtype: float64

count     891
unique      2
top         0
freq      549
Name: Survived, dtype: int64

In [41]:
# Beschrijf de (kwantitatieve) variabele "Age"
titanic['Age'].describe()
# Beschrijf de (kwalitatieve) variabele "Embarked"
titanic['Embarked'].describe()

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

count     889
unique      3
top         S
freq      644
Name: Embarked, dtype: object

In [42]:
# Alle observaties voor één variabele selecteren (kolom van de dataset)
titanic['Age']
# Dit werkt ook:
# titanic.loc[:, 'Age']

# Selecteer aangrenzende kolommen:
titanic.iloc[:, 2:4]

0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64

Unnamed: 0,Pclass,Name
0,3,"Braund, Mr. Owen Harris"
1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th..."
2,3,"Heikkinen, Miss. Laina"
3,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)"
4,3,"Allen, Mr. William Henry"
...,...,...
886,2,"Montvila, Rev. Juozas"
887,1,"Graham, Miss. Margaret Edith"
888,3,"Johnston, Miss. Catherine Helen ""Carrie"""
889,1,"Behr, Mr. Karl Howell"


In [43]:
# Observatie met index 5
titanic.iloc[5]

# De eerste vier observaties
titanic.iloc[0:4]

PassengerId                   6
Survived                      0
Pclass                        3
Name           Moran, Mr. James
Sex                        male
Age                         NaN
SibSp                         0
Parch                         0
Ticket                   330877
Fare                     8.4583
Cabin                       NaN
Embarked                      Q
Name: 5, dtype: object

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S


In [44]:
# Enkel de observaties waar de waarde voor variabele Age kleiner is dan 18
titanic[titanic['Age'] < 18]

# Idem, maar hou enkel de variabele "Embarked" over
titanic[titanic['Age'] < 18]['Embarked']

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.0750,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
14,15,0,3,"Vestrom, Miss. Hulda Amanda Adolfina",female,14.0,0,0,350406,7.8542,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.1250,,Q
...,...,...,...,...,...,...,...,...,...,...,...,...
850,851,0,3,"Andersson, Master. Sigvard Harald Elias",male,4.0,4,2,347082,31.2750,,S
852,853,0,3,"Boulos, Miss. Nourelain",female,9.0,1,1,2678,15.2458,,C
853,854,1,1,"Lines, Miss. Mary Conover",female,16.0,0,1,PC 17592,39.4000,D28,S
869,870,1,3,"Johnson, Master. Harold Theodor",male,4.0,1,1,347742,11.1333,,S


7      S
9      C
10     S
14     S
16     Q
      ..
850    S
852    C
853    S
869    S
875    C
Name: Embarked, Length: 113, dtype: object

In [46]:
# Alle jongens jonger dan 10 jaar oud
titanic.query("(Sex=='male') and (Age < 18)")

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
7,8,0,3,"Palsson, Master. Gosta Leonard",male,2.0,3,1,349909,21.075,,S
16,17,0,3,"Rice, Master. Eugene",male,2.0,4,1,382652,29.125,,Q
50,51,0,3,"Panula, Master. Juha Niilo",male,7.0,4,1,3101295,39.6875,,S
59,60,0,3,"Goodwin, Master. William Frederick",male,11.0,5,2,CA 2144,46.9,,S
63,64,0,3,"Skoog, Master. Harald",male,4.0,3,2,347088,27.9,,S
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
86,87,0,3,"Ford, Mr. William Neal",male,16.0,1,3,W./C. 6608,34.375,,S
125,126,1,3,"Nicola-Yarred, Master. Elias",male,12.0,1,0,2651,11.2417,,C
138,139,0,3,"Osen, Mr. Olaf Elon",male,16.0,0,0,7534,9.2167,,S
163,164,0,3,"Calic, Mr. Jovo",male,17.0,0,0,315093,8.6625,,S


## TODO

- dataconversie, bv. object -> category