In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import math

# Stel visualisatie-instellingen in voor betere leesbaarheid
sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

# Laad de dataset in
try:
    df = pd.read_excel("Mobiliteitsdata.xlsx")
    print("Dataset succesvol geladen.")
    print("Aantal rijen en kolommen:", df.shape)
except FileNotFoundError:
    print("Error: 'Mobiliteitsdata.xlsx' niet gevonden. Zorg dat het bestand in dezelfde map staat.")

df.head()

Error: 'Mobiliteitsdata.xlsx' niet gevonden. Zorg dat het bestand in dezelfde map staat.


NameError: name 'df' is not defined

1. Geef voor elke variabele in de dataset weer tot welk meetniveau deze behoort.

Hieronder staat een overzicht van de variabelen en hun bijbehorende meetniveau.
Variabele	Meetniveau	Toelichting
persoon_ID	Nominaal	Een unieke identificatie zonder kwantitatieve betekenis of rangorde.
geslacht	Nominaal	Categorieën (man, vrouw, anders) zonder natuurlijke rangorde.
leeftijd	Ratio	Numerieke waarde met een absoluut nulpunt en gelijke intervallen.
gewicht_KG	Ratio	Numerieke waarde met een absoluut nulpunt.
burgerlijke_staat	Nominaal	Categorieën zonder rangorde (gehuwd, ongehuwd, etc.).
jaarsalaris_eu	Ratio	Numerieke waarde met een absoluut nulpunt.
huishouden_grootte	Ratio	Numerieke waarde (aantal personen) met een absoluut nulpunt.
stad	Nominaal	Geografische categorieën zonder rangorde.
provincie	Nominaal	Geografische categorieën zonder rangorde.
opleiding_niveau	Ordinaal	Categorieën met een duidelijke rangorde (MBO < HBO < WO).
autobezit	Nominaal	Dichotome variabele (ja/nee) zonder rangorde.
fietsbezit	Nominaal	Dichotome variabele (ja/nee) zonder rangorde.
elektrisch_auto	Nominaal	Dichotome variabele (ja/nee) zonder rangorde.
km_auto_per_jaar	Ratio	Numerieke waarde met een absoluut nulpunt.
km_fiets_per_jaar	Ratio	Numerieke waarde met een absoluut nulpunt.
km_ov_per_jaar	Ratio	Numerieke waarde met een absoluut nulpunt.
km_vliegtuig_per_jaar	Ratio	Numerieke waarde met een absoluut nulpunt.
dagen_thuiswerken_per_week_pro_rato	Ratio	Numerieke waarde met een absoluut nulpunt.
dagen_kantoorwerken_per_week_pro_rato	Ratio	Numerieke waarde met een absoluut nulpunt.
dagen_in_buitenland_per_jaar	Ratio	Numerieke waarde met een absoluut nulpunt.
gebruik_carsharing	Ordinaal	Categorieën met een duidelijke rangorde (Nooit < ... < Altijd).
co2_uitstoot_per_jaar_KG	Ratio	Numerieke waarde met een absoluut nulpunt (onze afhankelijke variabele).

2. Waarom is het nodig om vooraf te bekijken tot welk meetniveau elke variabele behoort?

Het bepalen van het meetniveau van elke variabele is een fundamentele en cruciale eerste stap in data-analyse om de volgende redenen:
Keuze van Statistische Maten: Het meetniveau bepaalt welke centrum- en spreidingsmaten zinvol zijn.
Nominaal: Alleen de modus (meest voorkomende categorie) is zinvol.
Ordinaal: Modus en mediaan zijn zinvol. Een gemiddelde is technisch onjuist.
Ratio/Interval: Gemiddelde, mediaan, modus, standaarddeviatie en variantie zijn allemaal zinvol.
Keuze van Visualisaties: Het meetniveau dicteert de meest geschikte visualisatietechniek.
Nominaal/Ordinaal: Staafdiagrammen (count plots) of taartdiagrammen.
Ratio/Interval: Histogrammen, boxplots, of scatter plots (in relatie tot een andere numerieke variabele).
Keuze van Statistische Toetsen: De juiste statistische toets om hypotheses te onderzoeken hangt direct af van het meetniveau van de betrokken variabelen (bijv. Chi-kwadraat voor twee nominale variabelen, t-toets/ANOVA voor een nominale en een ratio variabele).
Voorbereiding voor Machine Learning (Preprocessing): Machine learning-algoritmes vereisen numerieke input. Het meetniveau bepaalt hoe we een variabele moeten transformeren:
Nominaal: Vaak via One-Hot Encoding om te voorkomen dat het model een onjuiste rangorde leert.
Ordinaal: Vaak via Ordinal Encoding (of Label Encoding) waarbij de rangorde wordt behouden (bijv. MBO=1, HBO=2, WO=3).
Ratio/Interval: Vaak via schalen (bijv. Standaardisatie of Normalisatie) om te zorgen dat variabelen met een groot bereik het model niet domineren.
Kortom, zonder kennis van het meetniveau lopen we het risico onjuiste analyses uit te voeren, misleidende visualisaties te maken en machine learning-modellen incorrect te trainen, wat leidt tot ongeldige conclusies.

3. Ga na of er missende/niet kloppende/extreme waarden zijn in de dataset en ga hier op een adequate manier mee om.

Stap 1: Controleer datatypen en missende waarden

In [None]:
kolommen_naar_numeriek = [
    'gewicht_KG', 'jaarsalaris_eu', 'km_auto_per_jaar', 'km_fiets_per_jaar',
    'km_ov_per_jaar', 'km_vliegtuig_per_jaar', 'co2_uitstoot_per_jaar_KG'
]

# Corrigeer komma's en converteer naar numeriek type
for col in kolommen_naar_numeriek:
    if df[col].dtype == 'object':
        df[col] = df[col].str.replace(',', '.').astype(float)

# Controleer nu de datatypes en missende waarden opnieuw
print("Datatypes na conversie:")
print(df.info())