# Module 1. Steekproeven

De meeste Python scripts (of Jupyter Notebooks) voor het analyseren van data maken gebruik van dezelfde programmabibliotheken. De belangrijkste zijn:

- `numpy` - multidimensionale arrays, lineaire algebra, enz.
- `scipy` - wiskunde, (ingenieurs)wetenschappen, enz.
- `pandas` - data-analyse en -manipulatie
- `matplotlib`, `seaborn`, `altair` - datavisualisatie.

Je kan deze installeren met `pip`:

```console
> pip install numpy scipy pandas matplotlib seaborn altair statsmodels
```

Omdat je meestal telkens dezelfde packages nodig hebt, zet je deze dus best bovenaan elk script dat je schrijft. In veel scripts is het de conventie om de packagenamen af te korten, bv. `np` voor `numpy`, `sns` voor `seaborn`, enz.

In [None]:
# Importeren van de nodige packages
import numpy as np                                  # "Scientific computing"
import scipy.stats as stats                         # Statistical tests

import pandas as pd                                 # Dataframe
from pandas.api.types import CategoricalDtype

import matplotlib.pyplot as plt                     # Basis visualisatie
from statsmodels.graphics.mosaicplot import mosaic  # Mozaïekdiagram
import seaborn as sns                               # Geavanceerde datavisualisatie
import altair as alt                                # Een alternatief visualisatiesysteem

## Dataset openen, algemene info

Je kan een dataset inlezen uit uiteenlopende bronnen (Rajagopalan, 2021, p.158). Je kan een pad opgeven naar een bestandsnaam of zelfs een URL:

In [None]:
# Titanic dataset importeren. (Rajagopalan, 2021, p. 106)
titanic = pd.read_csv('https://raw.githubusercontent.com/DataRepo2019/Data-files/master/titanic.csv')
# Toon de eerste regels van de dataset
titanic.head()

In [None]:
# Hoeveel rijen heeft de dataset?
len(titanic)
# Hoveel kolommen?
len(titanic.columns)
# Hoeveel rijen en kolommen?
titanic.shape
# Algemene info over de dataset:
titanic.info()

# Van welk datatype is elke variabele?
titanic.dtypes

# Hoeveel kolommen van elk type zijn er?
#   Let op! In het boek staat get_dtype_counts(), maar deze functie bestaat
#   niet meer.
titanic.dtypes.value_counts()

## Indexen

De kolom "PassengerId" is eigenlijk geen variabele, maar een getal dat de observatie identificeert. Je kan deze kolom als een index markeren:

In [None]:
titanic.set_index(['PassengerId'])

## Kwalitatieve variabelen

Sommige van de variabelen, zoals Survived en Pclass, worden ten onrechte beschouwd als kwantitatief. Dit kan je rechtzetten door ze expliciet om te zetten naar een **kwalitatieve** (categorische) variabele:

In [None]:
# Beschrijf de variabele Survived -> wordt nu als kwantitatief beschouwd
print(titanic.Survived.describe())
# Zet om naar een categorische variabele
titanic.Survived = titanic.Survived.astype('category')
# Vraag opnieuw de beschrijving op -> nu is het een kwalitatieve variabele
print(titanic.Survived.describe())

Je kan variabelen ook als **ordinale** markeren, dus met een ordening. We zullen dit als voorbeeld doen met de variabele "Embarked" en de havens ordenen in de volgorde van vertrek. De Titanic vertrok in SouthHampton, en nam vervolgens nog passagiers op eerst in Cherbourg en vervolgens in Queenstown.

Voor dit soort gevallen definieer je zelf een datatype waarin je de volgorde specifieert:

In [None]:
print(titanic.Embarked.unique())

embarked_type = CategoricalDtype(categories=['S', 'C', 'Q'], ordered=True)
titanic.Embarked = titanic.Embarked.astype(embarked_type)
titanic.Embarked.describe()

Deze volgorde zal dan altijd gerespecteerd worden, bv. in grafieken:

In [None]:
sns.countplot(data=titanic, x='Embarked');

## Data selecteren

In [None]:
# Alle observaties voor één variabele selecteren (kolom van de dataset)
titanic.Age
# Dit werkt ook (en is misschien beter want het zal ook werken
# als de kolomnaam een spatie bevat)
# titanic['Age']
# Dit werkt ook maar is niet zeer elegant
# titanic.loc[:, 'Age']

In [None]:
# Selecteer aangrenzende kolommen:
titanic.iloc[:, 2:4]

Je kan ook meerdere kolommen selecteren op basis van hun naam.
Dat is vaak duidelijker dan op basis van positie én de kolommen moeten 
niet aangrenzend zijn.

In [None]:
titanic[['Name', 'Age', 'Cabin']] # Merk op: twee paar haakjes!

In [None]:
# Observatie met rijnummer 5 (tellend vanaf 0)
print(titanic.iloc[5])

# De eerste vier observaties
titanic.iloc[0:4]

In [None]:
# Enkel de observaties waar de waarde voor variabele Age kleiner is dan 18
titanic[titanic.Age < 18]

# Idem, maar hou enkel de variabele "Embarked" over
titanic[titanic.Age < 18].Embarked

# Idem, maar hou kolommen 'Age' en 'Embarked' over
titanic[titanic['Age'] < 18][['Age', 'Embarked']]

In [None]:
# Alle jongens jonger dan 10 jaar oud
titanic.query("(Sex=='male') and (Age < 18)")