# Pandas Dataframe oefening

# Inladen van een pandas DataFrame

Maak gebruik van een kleine <a href="https://archive.ics.uci.edu/ml/datasets/heart+Disease" class="external">dataset</a> over hartziektes dat beschikbaar gesteld wordt door de UCI Machine Learning Repository.
Deze dataset is een csv bestaande uit een aantal honderd lijnen.
Elke lijn beschrijft een patient en elke kolom een kenmerk van de patient.
We gaan in deze notebook proberen te voorspelen of een patient een hartziekte heeft op basis van deze gegevens.
Dit is een binaire classificatie taak.

## Inlezen van de data via pandas

Schrijf in de code cell hieronder de nodige code om met behulp van pandas (zoals we bij datascience gezien hebben) de dataset te downloaden en in te lezen via pandas.
De link naar de dataset zelf is https://archive.ics.uci.edu/ml/machine-learning-databases/heart-disease/.
Print daarna de eerste 10 rijen uit van de dataset en de datatypes van elke kolom.
Splits ten slotte de dataset in twee delen, namelijk de features en de labels/targets.

In [1]:
import opendatasets as od
import pandas as pd

od.download("https://storage.googleapis.com/download.tensorflow.org/data/heart.csv")

df = pd.read_csv("heart.csv")
display(df.head(10))
display(df.dtypes)

features = df.loc[:, df.columns != "target"]
display(features.head())
targets = df["target"]
display(targets.head())

Using downloaded and verified file: .\heart.csv


Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,63,1,1,145,233,1,2,150,0,2.3,3,0,fixed,0
1,67,1,4,160,286,0,2,108,1,1.5,2,3,normal,1
2,67,1,4,120,229,0,2,129,1,2.6,2,2,reversible,0
3,37,1,3,130,250,0,0,187,0,3.5,3,0,normal,0
4,41,0,2,130,204,0,2,172,0,1.4,1,0,normal,0
5,56,1,2,120,236,0,0,178,0,0.8,1,0,normal,0
6,62,0,4,140,268,0,2,160,0,3.6,3,2,normal,1
7,57,0,4,120,354,0,0,163,1,0.6,1,0,normal,0
8,63,1,4,130,254,0,2,147,0,1.4,2,1,reversible,1
9,53,1,4,140,203,1,2,155,1,3.1,3,0,reversible,0


age           int64
sex           int64
cp            int64
trestbps      int64
chol          int64
fbs           int64
restecg       int64
thalach       int64
exang         int64
oldpeak     float64
slope         int64
ca            int64
thal         object
target        int64
dtype: object

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal
0,63,1,1,145,233,1,2,150,0,2.3,3,0,fixed
1,67,1,4,160,286,0,2,108,1,1.5,2,3,normal
2,67,1,4,120,229,0,2,129,1,2.6,2,2,reversible
3,37,1,3,130,250,0,0,187,0,3.5,3,0,normal
4,41,0,2,130,204,0,2,172,0,1.4,1,0,normal


0    0
1    1
2    0
3    0
4    0
Name: target, dtype: int64

## Model trainen met minimale preprocessing

Op basis van deze dataset kan je nu een model trainen.
Bij Data Science hebben we hiervoor gebruik gemaakt van de sklearn library.

Maak voor het model te trainen een pipeline aan.
Voer in deze pipeline de volgende preprocessing stappen uit.
* Voer normalisatie uit op de numerieke kolommen ('age', 'thalach', 'trestbps',  'chol', 'oldpeak')

Na het uitvoeren van de preprocessing stappen, train een Random Forest Classifier met zelfgekozen hyperparameters.
Welke accuraatheid behaal je met een test-size van 20%?

In [2]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

num_cols = ['age', 'thalach', 'trestbps', 'chol', 'oldpeak']

X_train, X_test, y_train, y_test = train_test_split(df, targets, test_size = 0.2)

#  pipeline
p = Pipeline(steps = [
    ("preprocessor", ColumnTransformer(transformers=[
        ('numeric', StandardScaler(), num_cols)
    ])),
    ("rf", RandomForestClassifier())
])

# Preprocessing
p.fit(X_train, y_train)
p.score(X_test, y_test)

0.7540983606557377

## Model trainen met volledige preprocessing

Maak voor het model te trainen een pipeline aan.
Voer in deze pipeline de volgende preprocessing stappen uit.
* Voer normalisatie uit op de numerieke kolommen ('age', 'thalach', 'trestbps',  'chol', 'oldpeak')
* Voer one-hot encoding uit op de categorieke kolommen

Na het uitvoeren van de preprocessing stappen, train een Random Forest Classifier met zelfgekozen hyperparameters.
Welke accuraatheid behaal je met een test-size van 20%?

In [11]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

num_cols = ['age', 'thalach', 'trestbps', 'chol', 'oldpeak']
cat_cols = list(set(df.columns) - set(num_cols))

X_train, X_test, y_train, y_test = train_test_split(df, targets, test_size = 0.2)

#  pipeline
p = Pipeline(steps = [
    ("preprocessor", ColumnTransformer(transformers=[
        ('num_imputer', StandardScaler(), num_cols),
        ('ohe_encoder', OneHotEncoder(handle_unknown="ignore"), cat_cols)
    ])),
    ("rf", RandomForestClassifier())
])

# Preprocessing
p.fit(X_train, y_train)
p.score(X_test, y_test)

1.0