# Pandas Dataframe oefening

# Inladen van een pandas DataFrame

Maak gebruik van een kleine <a href="https://archive.ics.uci.edu/ml/datasets/heart+Disease" class="external">dataset</a> over hartziektes dat beschikbaar gesteld wordt door de UCI Machine Learning Repository.
Deze dataset is een csv bestaande uit een aantal honderd lijnen.
Elke lijn beschrijft een patient en elke kolom een kenmerk van de patient.
We gaan in deze notebook proberen te voorspelen of een patient een hartziekte heeft op basis van deze gegevens.
Dit is een binaire classificatie taak.

## Inlezen van de data via pandas

Schrijf in de code cell hieronder de nodige code om met behulp van pandas (zoals we bij datascience gezien hebben) de dataset te downloaden en in te lezen via pandas.
De link naar de dataset zelf is https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/.
Print daarna de eerste 10 rijen uit van de dataset en de datatypes van elke kolom.
Splits ten slotte de dataset in twee delen, namelijk de features en de labels/targets.

In [1]:
# downloaden en inlezen van de data
import pandas as pd

df = pd.read_csv("https://storage.googleapis.com/download.tensorflow.org/data/heart.csv")
display(df.head(10))
display(df.dtypes)

features = df.loc[:, df.columns != "target"]
display(features.head())
targets = df["target"]
display(targets.head())

## Model trainen met minimale preprocessing

Op basis van deze dataset kan je nu een model trainen.
Bij Data Science hebben we hiervoor gebruik gemaakt van de sklearn library.

Maak voor het model te trainen een pipeline aan.
Voer in deze pipeline de volgende preprocessing stappen uit.
* Voer normalisatie uit op de numerieke kolommen ('age', 'thalach', 'trestbps',  'chol', 'oldpeak')

Na het uitvoeren van de preprocessing stappen, train een Random Forest Classifier met zelfgekozen hyperparameters.
Welke accuraatheid behaal je met een test-size van 20%?

In [2]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

num_cols = ['age', 'thalach', 'trestbps', 'chol', 'oldpeak']

X_train, X_test, y_train, y_test = train_test_split(df, targets, test_size = 0.2)

#  pipeline
p = Pipeline(steps = [
    ("preprocessor", ColumnTransformer(transformers=[
        ('numeric', StandardScaler(), num_cols)
    ])),
    ("rf", RandomForestClassifier())
])

# Preprocessing
p.fit(X_train, y_train)
p.score(X_test, y_test)

## Model trainen met volledige preprocessing

Maak voor het model te trainen een pipeline aan.
Voer in deze pipeline de volgende preprocessing stappen uit.
* Voer normalisatie uit op de numerieke kolommen ('age', 'thalach', 'trestbps',  'chol', 'oldpeak')
* Voer one-hot encoding uit op de categorieke kolommen

Na het uitvoeren van de preprocessing stappen, train een Random Forest Classifier met zelfgekozen hyperparameters.
Welke accuraatheid behaal je met een test-size van 20%?

In [3]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

num_cols = ['age', 'thalach', 'trestbps', 'chol', 'oldpeak']
cat_cols = list(set(df.columns) - set(num_cols))

X_train, X_test, y_train, y_test = train_test_split(df, targets, test_size = 0.2)

#  pipeline
p = Pipeline(steps = [
    ("preprocessor", ColumnTransformer(transformers=[
        ('num_imputer', StandardScaler(), num_cols),
        ('ohe_encoder', OneHotEncoder(handle_unknown="ignore"), cat_cols)
    ])),
    ("rf", RandomForestClassifier())
])

# Preprocessing
p.fit(X_train, y_train)
p.score(X_test, y_test)