## 1. Bibliotheken Importeren

In [87]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
import joblib  # Voor het opslaan van modellen en scalers

## 2. Dataset laden

In [88]:
df = pd.read_csv('CardioGoodFitness.csv')


## 3. Data inspecteren

In [89]:
# Bekijk de eerste rijen van de dataset:
df.head()

Unnamed: 0,product_code,leeftijd,gender,onderwijsniveau,burgerlijke_staat,gebruik,fitness,Inkomen,kilometers,lengte,gewicht,bmi
0,TM798,37.0,Female,14.0,Single,5.0,4.0,64409.0,275.0,,78.0,
1,TM195,34.0,Male,13.0,Partnered,1.0,2.0,75176.0,,172.0,70.0,23.661439
2,,47.0,Female,17.0,Partnered,1.0,,74261.0,245.0,198.0,96.0,24.487297
3,TM798,34.0,Male,11.0,Single,3.0,3.0,40530.0,72.0,158.0,65.0,26.037494
4,TM195,43.0,Female,11.0,Single,5.0,2.0,59964.0,,184.0,86.0,25.401701


In [102]:
# Bekijk de datatypes:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 146 entries, 0 to 199
Data columns (total 13 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   leeftijd            146 non-null    float64
 1   gender              146 non-null    int64  
 2   onderwijsniveau     146 non-null    float64
 3   burgerlijke_staat   146 non-null    int64  
 4   gebruik             146 non-null    float64
 5   fitness             146 non-null    float64
 6   Inkomen             146 non-null    float64
 7   kilometers          146 non-null    float64
 8   lengte              146 non-null    float64
 9   gewicht             146 non-null    float64
 10  bmi                 146 non-null    float64
 11  product_code_TM498  146 non-null    bool   
 12  product_code_TM798  146 non-null    bool   
dtypes: bool(2), float64(9), int64(2)
memory usage: 14.0 KB


In [91]:
# Controleer op missende waarden:
df.isnull().sum()

product_code         20
leeftijd             20
gender               20
onderwijsniveau      20
burgerlijke_staat    20
gebruik              20
fitness              20
Inkomen              20
kilometers           20
lengte               20
gewicht              20
bmi                  56
dtype: int64

In [101]:
# Beschrijvende statistieken van de dataset:
df.describe()

Unnamed: 0,leeftijd,gender,onderwijsniveau,burgerlijke_staat,gebruik,fitness,Inkomen,kilometers,lengte,gewicht,bmi
count,146.0,146.0,146.0,146.0,146.0,146.0,146.0,146.0,146.0,146.0,146.0
mean,33.267123,0.472603,12.89726,0.561644,2.890411,2.609589,51143.996575,164.089802,173.705479,73.733105,24.913822
std,9.415535,0.500967,2.221306,0.497894,1.329367,1.085156,16317.531049,80.562701,13.287623,12.882562,5.307221
min,18.0,0.0,10.0,0.0,1.0,1.0,20822.0,23.0,150.0,50.0,13.130982
25%,24.0,0.0,11.0,0.0,2.0,2.0,38567.25,96.25,162.0,64.0,22.315596
50%,34.0,0.0,13.0,1.0,3.0,3.0,51850.5,160.5,175.25,74.216667,24.538636
75%,40.0,1.0,14.0,1.0,4.0,3.0,64255.0,234.0,184.0,82.0,27.332696
max,49.0,1.0,17.0,1.0,5.0,4.0,79676.0,297.0,199.0,99.0,39.125911


## 4. Omgaan met Missende Waarden

In [93]:
# Check of er verschillende formaten voor missende waarden zijn
missende_waarden = df.isin([np.nan, None, 'NA', 'null', '']).sum()
print(missende_waarden)

product_code         20
leeftijd             20
gender               20
onderwijsniveau      20
burgerlijke_staat    20
gebruik              20
fitness              20
Inkomen              20
kilometers           20
lengte               20
gewicht              20
bmi                  56
dtype: int64


In [94]:
# Imputeren van missende waarden: Gemiddelde/Mediaan/Meest voorkomende waarde voor numerieke data:

leeftijd = df['leeftijd'].median()
df['leeftijd'].fillna(leeftijd, inplace=True)

onderwijsniveau = df['onderwijsniveau'].mode()[0]
df['onderwijsniveau'].fillna(onderwijsniveau, inplace=True)

gebruik = df['gebruik'].median()
df['gebruik'].fillna(gebruik, inplace=True)

fitness = df['fitness'].median()
df['fitness'].fillna(fitness, inplace=True)

inkomen = df['Inkomen'].median()
df['Inkomen'].fillna(inkomen, inplace=True)

kilometers = df['kilometers'].mean()
df['kilometers'].fillna(kilometers, inplace=True)

lengte = df['lengte'].mean()
df['lengte'].fillna(lengte, inplace=True)

gewicht = df['gewicht'].mean()
df['gewicht'].fillna(gewicht, inplace=True)

bmi = df['bmi'].mean()
df['bmi'].fillna(bmi, inplace=True)

# # mean
# mean_value = df['kolom'].mean()
# df['kolom'].fillna(mean_value, inplace=True)
# 
# # median
# median_value = df['kolom'].median()
# df['kolom'].fillna(median_value, inplace=True)
# 
# # mode
# mode_value = df['kolom'].mode()[0]
# df['kolom'].fillna(mode_value, inplace=True)



The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['leeftijd'].fillna(leeftijd, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['onderwijsniveau'].fillna(onderwijsniveau, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are se

In [95]:
# Verwijderen van missende waarden:
df.dropna(inplace=True)  # Verwijder rijen met missende waarden

In [100]:
df

Unnamed: 0,leeftijd,gender,onderwijsniveau,burgerlijke_staat,gebruik,fitness,Inkomen,kilometers,lengte,gewicht,bmi,product_code_TM498,product_code_TM798
0,37.0,0,14.0,1,5.0,4.0,64409.0,275.000000,175.25,78.000000,24.538636,False,True
1,34.0,1,13.0,0,1.0,2.0,75176.0,159.777778,172.00,70.000000,23.661439,False,False
3,34.0,1,11.0,1,3.0,3.0,40530.0,72.000000,158.00,65.000000,26.037494,False,True
4,43.0,0,11.0,1,5.0,2.0,59964.0,159.777778,184.00,86.000000,25.401701,False,False
5,37.0,0,11.0,1,5.0,4.0,64327.0,100.000000,169.00,69.000000,24.158818,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
194,45.0,1,11.0,1,4.0,1.0,31382.0,237.000000,160.00,73.000000,24.538636,False,True
196,34.0,0,17.0,0,3.0,3.0,70707.0,278.000000,152.00,74.216667,24.538636,False,True
197,36.0,0,11.0,0,3.0,2.0,34596.0,281.000000,166.00,81.000000,29.394687,False,True
198,21.0,0,11.0,1,1.0,3.0,53572.0,24.000000,193.00,90.000000,24.161722,True,False


## 5. Duplicaten Verwijderen

In [97]:
# Verwijder dubbele rijen:
df.drop_duplicates(inplace=True)

## 6. Categorieën coderen

In [98]:
# Label Encoding (voor binaire of ordinale categorieën):
label_encoder = LabelEncoder()
df['burgerlijke_staat'] = label_encoder.fit_transform(df['burgerlijke_staat'])

label_encoder = LabelEncoder()
df['gender'] = label_encoder.fit_transform(df['gender'])

In [99]:
# One-Hot Encoding (voor nominale categorieën):
df = pd.get_dummies(df, columns=['product_code'], drop_first=True)

## 7. Schalen van Features

In [86]:
scaler = StandardScaler()
df[['kolom1', 'kolom2']] = scaler.fit_transform(df[['kolom1', 'kolom2']])

KeyError: "None of [Index(['kolom1', 'kolom2'], dtype='object')] are in the [columns]"

## 8. Feature Engineering

In [None]:
# Nieuwe features creëren:
df['nieuwe_feature'] = df['feature1'] / df['feature2']

## 9. Schoongemaakte Data Opslaan

In [None]:
df.to_csv('schoongemaakte_data.csv', index=False)