## 1. Bibliotheken Importeren

In [46]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
import joblib  # Voor het opslaan van modellen en scalers

## 2. Dataset laden

In [47]:
df = pd.read_csv('CardioGoodFitness.csv')


## 3. Data inspecteren

In [48]:
# Bekijk de eerste rijen van de dataset:
df.head()

Unnamed: 0,product_code,leeftijd,gender,onderwijsniveau,burgerlijke_staat,gebruik,fitness,Inkomen,kilometers,lengte,gewicht,bmi
0,TM798,37.0,Female,14.0,Single,5.0,4.0,64409.0,275.0,,78.0,
1,TM195,34.0,Male,13.0,Partnered,1.0,2.0,75176.0,,172.0,70.0,23.661439
2,,47.0,Female,17.0,Partnered,1.0,,74261.0,245.0,198.0,96.0,24.487297
3,TM798,34.0,Male,11.0,Single,3.0,3.0,40530.0,72.0,158.0,65.0,26.037494
4,TM195,43.0,Female,11.0,Single,5.0,2.0,59964.0,,184.0,86.0,25.401701


In [49]:
# Bekijk de datatypes:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   product_code       180 non-null    object 
 1   leeftijd           180 non-null    float64
 2   gender             180 non-null    object 
 3   onderwijsniveau    180 non-null    float64
 4   burgerlijke_staat  180 non-null    object 
 5   gebruik            180 non-null    float64
 6   fitness            180 non-null    float64
 7   Inkomen            180 non-null    float64
 8   kilometers         180 non-null    float64
 9   lengte             180 non-null    float64
 10  gewicht            180 non-null    float64
 11  bmi                144 non-null    float64
dtypes: float64(9), object(3)
memory usage: 18.9+ KB


In [50]:
# Controleer op missende waarden:
df.isnull().sum()

product_code         20
leeftijd             20
gender               20
onderwijsniveau      20
burgerlijke_staat    20
gebruik              20
fitness              20
Inkomen              20
kilometers           20
lengte               20
gewicht              20
bmi                  56
dtype: int64

In [51]:
# Beschrijvende statistieken van de dataset:
df.describe()

Unnamed: 0,leeftijd,onderwijsniveau,gebruik,fitness,Inkomen,kilometers,lengte,gewicht,bmi
count,180.0,180.0,180.0,180.0,180.0,180.0,180.0,180.0,144.0
mean,33.505556,13.155556,2.838889,2.538889,50861.5,159.777778,175.25,74.216667,24.538636
std,10.113047,2.269108,1.374809,1.140243,17276.28102,82.775631,14.009923,13.880284,6.201142
min,18.0,10.0,1.0,1.0,20822.0,22.0,150.0,50.0,13.130982
25%,23.0,11.0,2.0,1.75,35620.5,82.75,162.0,62.75,20.126371
50%,34.0,13.0,3.0,3.0,51850.5,166.0,177.0,73.5,24.342414
75%,42.0,15.0,4.0,4.0,65822.25,234.25,187.0,86.0,28.661393
max,49.0,17.0,5.0,4.0,79676.0,297.0,199.0,99.0,39.72831


## 4. Omgaan met Missende Waarden

In [52]:
# Check of er verschillende formaten voor missende waarden zijn
missende_waarden = df.isin([np.nan, None, 'NA', 'null', '']).sum()
print(missende_waarden)

product_code         20
leeftijd             20
gender               20
onderwijsniveau      20
burgerlijke_staat    20
gebruik              20
fitness              20
Inkomen              20
kilometers           20
lengte               20
gewicht              20
bmi                  56
dtype: int64


In [53]:
# Imputeren van missende waarden: Gemiddelde/Mediaan/Meest voorkomende waarde voor numerieke data:

leeftijd = df['leeftijd'].median()
df['leeftijd'].fillna(leeftijd, inplace=True)

onderwijsniveau = df['onderwijsniveau'].mode()[0]
df['onderwijsniveau'].fillna(onderwijsniveau, inplace=True)

gebruik = df['gebruik'].median()
df['gebruik'].fillna(gebruik, inplace=True)

fitness = df['fitness'].median()
df['fitness'].fillna(fitness, inplace=True)

inkomen = df['Inkomen'].median()
df['Inkomen'].fillna(inkomen, inplace=True)

kilometers = df['kilometers'].mean()
df['kilometers'].fillna(kilometers, inplace=True)

lengte = df['lengte'].mean()
df['lengte'].fillna(lengte, inplace=True)

gewicht = df['gewicht'].mean()
df['gewicht'].fillna(gewicht, inplace=True)

bmi = df['bmi'].mean()
df['bmi'].fillna(bmi, inplace=True)

# # mean
# mean_value = df['kolom'].mean()
# df['kolom'].fillna(mean_value, inplace=True)
# 
# # median
# median_value = df['kolom'].median()
# df['kolom'].fillna(median_value, inplace=True)
# 
# # mode
# mode_value = df['kolom'].mode()[0]
# df['kolom'].fillna(mode_value, inplace=True)



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['leeftijd'].fillna(leeftijd, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['onderwijsniveau'].fillna(onderwijsniveau, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are se

In [54]:
# Verwijderen van missende waarden:
df.dropna(inplace=True)  # Verwijder rijen met missende waarden

In [60]:
df

Unnamed: 0,leeftijd,gender,onderwijsniveau,burgerlijke_staat,gebruik,fitness,Inkomen,kilometers,lengte,gewicht,bmi,product_code_TM498,product_code_TM798
0,0.397824,-0.946628,0.498147,0.883452,1.592375,1.285712,0.815728,1.381433,0.116638,0.332355,-0.070937,-0.614295,1.344504
1,0.078105,1.056382,0.046411,-1.131923,-1.426933,-0.563686,1.477842,-0.053708,-0.128793,-0.290777,-0.236789,-0.614295,-0.743768
3,0.078105,1.056382,-0.857060,0.883452,0.082721,0.361013,-0.652705,-1.147017,-1.186032,-0.680235,0.212454,-0.614295,1.344504
4,1.037262,-0.946628,-0.857060,0.883452,1.592375,-0.563686,0.542384,-0.053708,0.777412,0.955487,0.092244,-0.614295,-0.743768
5,0.397824,-0.946628,-0.857060,0.883452,1.592375,1.285712,0.810685,-0.798265,-0.355344,-0.368669,-0.142749,-0.614295,-0.743768
...,...,...,...,...,...,...,...,...,...,...,...,...,...
194,1.250409,1.056382,-0.857060,0.883452,0.837548,-1.488386,-1.215259,0.908127,-1.034998,-0.057103,-0.070937,-0.614295,1.344504
196,0.078105,-0.946628,1.853353,-1.131923,0.082721,0.361013,1.203022,1.418799,-1.639134,0.037665,-0.070937,-0.614295,1.344504
197,0.291251,-0.946628,-0.857060,-1.131923,0.082721,-0.563686,-1.017615,1.456166,-0.581895,0.566030,0.847202,-0.614295,1.344504
198,-1.307345,-0.946628,-0.857060,0.883452,-1.426933,0.361013,0.149309,-1.744877,1.457066,1.267053,-0.142200,1.627882,-0.743768


## 5. Duplicaten Verwijderen

In [56]:
# Verwijder dubbele rijen:
df.drop_duplicates(inplace=True)

## 6. Categorieën coderen

In [57]:
# Label Encoding (voor binaire of ordinale categorieën):
label_encoder = LabelEncoder()
df['burgerlijke_staat'] = label_encoder.fit_transform(df['burgerlijke_staat'])

label_encoder = LabelEncoder()
df['gender'] = label_encoder.fit_transform(df['gender'])

In [58]:
# One-Hot Encoding (voor nominale categorieën):
df = pd.get_dummies(df, columns=['product_code'], drop_first=True).astype('float64')

## 7. Schalen van Features

In [59]:
scaler = StandardScaler()
df[[
    'leeftijd',
    'gender',
    'onderwijsniveau',
    'burgerlijke_staat',
    'gebruik',
    'fitness',
    'Inkomen',
    'kilometers',
    'lengte',
    'gewicht',
    'bmi',
    'product_code_TM498',
    'product_code_TM798'
]] = scaler.fit_transform(df[[
    'leeftijd',
    'gender',
    'onderwijsniveau',
    'burgerlijke_staat',
    'gebruik',
    'fitness',
    'Inkomen',
    'kilometers',
    'lengte',
    'gewicht',
    'bmi',
    'product_code_TM498',
    'product_code_TM798'
]])

## 8. Feature Engineering

In [None]:
# Nieuwe features creëren:
df['nieuwe_feature'] = df['feature1'] / df['feature2']

## 9. Schoongemaakte Data Opslaan

In [62]:
df.to_csv('schoongemaakte_data.csv', index=False)