# Business Understanding

## Wie (de opdrachtgever)? 

Appbakkers (Corné & Guido) is een bedrijf die (mobiele) applicaties ontwikkeld.  

## Wat (de opdracht)? 

Bij opname van een patiënt wordt er een elektrocardiogram (ECG) gemaakt. Hierbij worden alle elektrische impulsen in het hart geregistreerd, waardoor kan worden afgeleid welke gebieden van het hart naar behoren functioneren.  

Arts-onderzoekers vragen zich af of het aantal hartslagen per minuut een goede voorspeller kan zijn van de calciumscore. Gebruik de ECG-datasets om per dataset het gemiddelde aantal hartslagen per minuut te bepalen (bedenk goed welke onderdelen van de ECGs je hiervoor allemaal gaat gebruiken): indien deze boven de 100 slagen per minuut is heet dit tachycardie, indien deze onder de 60 slagen per minuut is heet dit bradycardie.  

Onderzoek daarna met deze resultaten en de calciumscore uitkomsten of de aanwezigheid van bradycardie/tachycardie/normale hartslag (en meer specifiek het aantal hartslagen per minuut) de calciumscore kan voorspellen. Bepaal hierna of de datasets een regelmatig of onregelmatig hartritme vertonen en probeer je model hiermee te verbeteren. Kan je model nu accuraat de calciumscore voorspellen? Zijn er risico’s bij het gebruik van je model in de praktijk? Als je nog tijd over hebt, is het interessant om je gegevens te combineren met die van opdracht 1. Kan je elkaars modellen verder verbeteren?

## Wanneer (tijdsframe)? 

Deze opdracht voeren we uit vanaf 13 april ’22. Op deze dag hebben we de kennismaking gehad met onze opdrachtgever. Hierin hebben we de opdracht besproken en een aantal afspraken gemaakt. De einddatum van de opdracht zal zijn op 3 juni ’22. 

## Waarom (doel)? 

Het doel is om te achterhalen of hartslag een goede voorspeller kan zijn van de calciumscore. 

Als het model gemaakt is om dit te voorspellen kan deze verbeterd/uitgebreid worden met de resultaten en de calciumscore uitkomsten of de aanwezigheid van bradycardie/tachycardie/normale hartslag (en meer specifiek het aantal hartslagen per minuut) de calciumscore kan voorspellen.  

## Wat (wat gaan we gebruiken)? 

Door middel van Jupyter notebooks gaan wij het model ontwikkelen.  
ECG viewer om ECG´s bestanden door te lezen. 

# Data Understanding

Wij hebben 2 publieke datasets gekregen om mee bezig te gaan. Deze zijn "cardio_train.csv" en "riskchartsampledata.xlsx". Wij gaan gebruik maken van "cardio_train.csv", omdat deze het meeste lijkt op de data die we komende week ontvangen. Hieronder is te lezen wat de kolommen in deze dataset betekenen.

### "cardio_train.csv"

* id          
    De id van de rij, **integer** <br/>
* age         
    De leeftijd van de patient in dagen, **integer** <br/>
* gender      
    Het geslacht van de patient, waarbij 1 een man is en 2 een vrouw, **category** <br/>
* height      
    De lengte van de patient, gegeven in centimeters, **integer** <br/>
* weight      
    Het gewicht van de patient, gegeven in kilogram, **float** <br/>
* ap_hi       
    De bovendruk van de patient, **integer**  <br/>
* ap_lo       
    De onderdruk van de patient, **integer**  <br/>
* cholesterol <br/>
    Hoe veel cholesterol de patient heeft, **category**  <br/>
* gluc        
    Hoe veel glucoses de patient heeft, **category**  <br/>
* smoke       
    Of de patient rookt, **boolean** <br/>
* alco        
    Of de patient alcohol drinkt, **boolean** <br/>
* active      
    Of de patient actief is in het dagelijks leven, **boolean** <br/>
* cardio      
    Of de patient een cardiovasculaire ziekte heeft, **boolean** <br/>

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pandas_profiling as pp
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

In [6]:
cardio_train = pd.read_csv("Data/cardio_train.csv", delimiter=';')

In [7]:
report1 = pp.ProfileReport(cardio_train, progress_bar=False)
report1.to_file('report1.html')


[Report van cardio_train](report1.html)

## Gender in cardio_train

In [8]:
cardio_train[['gender','height']].groupby('gender').agg(np.mean)


Unnamed: 0_level_0,height
gender,Unnamed: 1_level_1
1,161.355612
2,169.947895


De personen met 2 als gender zijn gemiddeld langer, dus is de 2 een man en 1 een vrouw.

# Data Preparation

In [9]:
#cardio_train.astype({'gender':'category','cholesterol':'category','gluc':'category','smoke':'bool','alco':'bool','active':'bool','cardio':'bool'}, copy=False)

## Feature Engineering

In [10]:
#if (1 in cardio_train['gender'].unique()):
#    cardio_train['gender'] = ['male' if x is 2 else 'female' for x in cardio_train['gender']]
#cardio_train.astype('category',copy=False)


#cardio_train['age_category'] = pd.cut(cardio_train['age_in_years'], range(5,105,10))
#age_cat = [str(x.left) + '-' + str(x.right-1) for x in cardio_train['age_category']]
#cardio_train['age_category'] = age_cat
#cardio_train['age_category'].astype('category',copy=False)

In [11]:
cardio_train['age'] = (cardio_train['age']/365).apply(lambda x: int(x))


cardio_train['bmi'] = cardio_train['weight'] / (cardio_train['height']/100)**2 

cardio_train['ap_difference'] = cardio_train['ap_hi'] - cardio_train['ap_lo']


## Bovendruk kan niet lager zijn dan onderdruk

In [12]:
# ap_hi kan niet lager zijn dan ap_lo
cardio_train = cardio_train[:][cardio_train['ap_hi'] > cardio_train['ap_lo']]
cardio_train.shape


(68764, 15)

# Modeling

In [13]:
cardio_train.drop_duplicates(inplace=True)
data = cardio_train
data = data[~(data['bmi']>60)]


high_ap_filter = ((data["ap_hi"]>220) | (data["ap_lo"]>180))
data = data[~high_ap_filter]

low_ap_filter = ((data["ap_hi"] < 40) | (data["ap_lo"] < 40))
data = data[~low_ap_filter]

labels = data['cardio']

# Use this as a filter for which columns you dont want in your model
columns_to_remove = ['cardio','id','height','weight','gluc']
for column in columns_to_remove:
    data = data.loc[:, data.columns != column]


data_train, data_test, label_train, label_test = train_test_split(data, labels, random_state=42, test_size=0.3, stratify=data['gender'])
data

Unnamed: 0,age,gender,ap_hi,ap_lo,cholesterol,smoke,alco,active,bmi,ap_difference
0,50,2,110,80,1,0,0,1,21.967120,30
1,55,1,140,90,3,0,0,1,34.927679,50
2,51,1,130,70,3,0,0,0,23.507805,60
3,48,2,150,100,1,0,0,1,28.710479,50
4,47,1,100,60,1,0,0,0,23.011177,40
...,...,...,...,...,...,...,...,...,...,...
69995,52,2,120,80,1,1,0,1,26.927438,40
69996,61,1,140,90,2,0,0,1,50.472681,50
69997,52,2,180,90,3,0,1,0,31.353579,90
69998,61,1,135,80,1,0,0,0,27.099251,55


In [14]:
model = GaussianNB()
model.fit(data_train, label_train)
y_pred = model.predict(data_test)


In [15]:
#Score matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay


conf_mat = confusion_matrix(label_test, y_pred)
falsePositive = conf_mat[1][0]

print(conf_mat)
print(str(falsePositive) + " people of the " + str(conf_mat[1].sum()) + " that have a CVD didnt get diagnosed with it")
print("That is " + str(round(falsePositive/conf_mat.sum()*100,2)) + "% of all patients that died because of no treatment!")


[[8710 1755]
 [3981 6135]]
3981 people of the 10116 that have a CVD didnt get diagnosed with it
That is 19.34% of all patients that died because of no treatment!


In [16]:
acc_train = round(model.score(data_train,label_train)*100, 4)
print("Accuracy van de training data: " + str(acc_train) + "%")

acc_test = round(model.score(data_test,label_test)*100, 4)
print("Accuracy van de test data: " + str(acc_test) + "%")
print("Verschil: " + str(round(acc_test-acc_train,2)) + "%")


Accuracy van de training data: 72.1393%
Accuracy van de test data: 72.1296%
Verschil: -0.01%


In [17]:
# modelNN.fit(data_train, label_train, epochs=400)

# Hoe nu verder?

* Tot nu toe hebben we:</br>
    Business Understanding</br>
    Data Understanding</br>
    Data Preparation</br>
    Modeling van Naive Bayes</br>
    </br>
* Hoe nu verder:</br>
    Modeling van meerdere algoritmes</br>
    Volgende week (hopen we) bezig met echte data </br>
    

In [19]:
from sklearn.ensemble import RandomForestClassifier

In [24]:
model = RandomForestClassifier(max_depth = 15)
model.fit(data_train, label_train)

RandomForestClassifier(max_depth=15)

In [25]:
y_pred = model.predict(data_test)
y_pred

array([1, 0, 1, ..., 1, 0, 0], dtype=int64)

In [26]:
#Score matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay


conf_mat = confusion_matrix(label_test, y_pred)
falsePositive = conf_mat[1][0]

print(conf_mat)
print(str(falsePositive) + " people of the " + str(conf_mat[1].sum()) + " that have a CVD didnt get diagnosed with it")
print("That is " + str(round(falsePositive/conf_mat.sum()*100,2)) + "% of all patients that died because of no treatment!")


acc_train = round(model.score(data_train,label_train)*100, 4)
print("Accuracy van de training data: " + str(acc_train) + "%")

acc_test = round(model.score(data_test,label_test)*100, 4)
print("Accuracy van de test data: " + str(acc_test) + "%")
print("Verschil: " + str(round(acc_test-acc_train,2)) + "%")


[[8194 2271]
 [3265 6851]]
3265 people of the 10116 that have a CVD didnt get diagnosed with it
That is 15.86% of all patients that died because of no treatment!
Accuracy van de training data: 80.5064%
Accuracy van de test data: 73.1014%
Verschil: -7.41%


In [30]:
from sklearn import tree
tree.plot_tree(model.estimators_[0])

[Text(194.83572680263305, 210.645, 'X[2] <= 129.5\ngini = 0.5\nsamples = 30424\nvalue = [24185, 23836]'),
 Text(116.07802472939849, 197.055, 'X[8] <= 27.671\ngini = 0.436\nsamples = 18166\nvalue = [19485, 9208]'),
 Text(78.79648355734274, 183.465, 'X[4] <= 2.5\ngini = 0.411\nsamples = 12688\nvalue = [14260, 5800]'),
 Text(45.422026826043854, 169.875, 'X[3] <= 73.5\ngini = 0.396\nsamples = 11980\nvalue = [13788, 5151]'),
 Text(20.91654731739562, 156.285, 'X[8] <= 21.833\ngini = 0.326\nsamples = 3832\nvalue = [4755, 1227]'),
 Text(10.041018508317727, 142.695, 'X[2] <= 113.5\ngini = 0.231\nsamples = 857\nvalue = [1159, 178]'),
 Text(4.140277624765893, 129.10500000000002, 'X[7] <= 0.5\ngini = 0.203\nsamples = 737\nvalue = [1018, 132]'),
 Text(1.549146193676325, 115.515, 'X[0] <= 43.5\ngini = 0.279\nsamples = 136\nvalue = [184, 37]'),
 Text(0.49179244243692855, 101.925, 'X[2] <= 105.0\ngini = 0.089\nsamples = 41\nvalue = [61, 3]'),
 Text(0.39343395394954284, 88.33500000000001, 'gini = 0.0\n

In [32]:
plt.figure(figsize=(20,20))
_ = tree.plot_tree(model.estimators_[0], feature_names=data_train.columns, filled=True)

[Text(649.4524226754435, 1053.2250000000001, 'ap_hi <= 129.5\ngini = 0.5\nsamples = 30424\nvalue = [24185, 23836]'),
 Text(386.92674909799496, 985.2750000000001, 'bmi <= 27.671\ngini = 0.436\nsamples = 18166\nvalue = [19485, 9208]'),
 Text(262.6549451911425, 917.325, 'cholesterol <= 2.5\ngini = 0.411\nsamples = 12688\nvalue = [14260, 5800]'),
 Text(151.40675608681283, 849.375, 'ap_lo <= 73.5\ngini = 0.396\nsamples = 11980\nvalue = [13788, 5151]'),
 Text(69.72182439131872, 781.425, 'bmi <= 21.833\ngini = 0.326\nsamples = 3832\nvalue = [4755, 1227]'),
 Text(33.47006169439242, 713.475, 'ap_hi <= 113.5\ngini = 0.231\nsamples = 857\nvalue = [1159, 178]'),
 Text(13.800925415886306, 645.5250000000001, 'active <= 0.5\ngini = 0.203\nsamples = 737\nvalue = [1018, 132]'),
 Text(5.16382064558775, 577.575, 'age <= 43.5\ngini = 0.279\nsamples = 136\nvalue = [184, 37]'),
 Text(1.6393081414564283, 509.625, 'ap_hi <= 105.0\ngini = 0.089\nsamples = 41\nvalue = [61, 3]'),
 Text(1.3114465131651427, 441.67

In [34]:
plt.show()

  plt.show()
