## Bibliotheken einlesen

Für das Aufbereiten und Visualisieren, sowie für die Erstellung der Machine Learning Modelle werden verschiedene Bibliotheken benötigt. Folgende Python Bibiliotheken werden zur Durchführung der Analysen verwendet:

**pandas**

Mit der [**pandas**](https://pandas.pydata.org/) Bibiliothek können Daten aus verschiedenen Formaten in ein Data Frame eingelesen werden. Es stehen weiterhin Funktionen für die Datenbereinigung, für das Aggregieren oder Transformieren von Daten und anderen Dingen zur Verfügung.

---

**matplotlib**

[**matplotlib**](https://matplotlib.org/) ist eine weit verbreitete Python Bibliothek mit der man verschiedene Charts erstellen kann. Sie bietet viele Konfigurationsmöglichkeiten, um auch komplexe Darstellungen zu ermöglichen

---

**seaborn**

Die [**seaborn**](https://seaborn.pydata.org/) Bibliothek baut auf der Library matplotlib auf und ermöglicht es, mit einfacher Syntax anschauliche Datenvisualisierungen zu erzeugen. Im Vergleich zu matplotlib wirken die Grafiken moderner und sind mit weniger Kommandos zu erstellen.

---

**plotly**

Die [**plotly**](https://plotly.com/) ..

---

**sklearn**

Die [**sklearn**](https://scikit-learn.org/stable/) ..

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots

# For ML models
from sklearn.linear_model import LinearRegression ,LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import AdaBoostRegressor
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC ,SVR
from sklearn.metrics import *
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder 


import warnings
warnings.filterwarnings("ignore")

## Überblick über die Daten erhalten

Im nächsten Schritt wird sich ein Überblick über die Daten verschafft. Dabei werden die einzelnen Variablen betrachtet und beschrieben.

Dazu werden die Daten aus der CSV-Datei *train.csv* in ein pandas DataFrame *df* eingelesen. Anschließend wird mit dem Aufruf des DataFrame-Namen eine Übersicht des Datasets ausgegeben.

In [None]:
df = pd.read_csv('heart_2020_cleaned.csv')
df

Aus der Übersicht geht hervor, dass der Datensatz aus insgesamt 319795 Zeilen und 18 Spalten besteht. Sowohl die Anzahl Zeilen also auch die Anzahl der Spalten eignet sich sehr gut für die Entwicklung eines aussagekräftigen Modells. Für ein besseres Verständnis des Datasets werden im folgenden die Beschreibungen der Spalten aufgeführt:

| Variable      | Beschreibung |
| :-----------   | :-----------  |
| **HeartDisease**  | **Zielvariable**. Befragte, die jemals eine koronare Herzkrankheit (KHK) oder einen Myokardinfarkt (MI) hatten   |
| BMI     | Body Mass Index (BMI)         |
| Smoking | Haben die Probanden in ihrem Leben mehr als 100 Zigaretten geraucht? |
| AlcoholDrinking | Starke Trinker (erwachsene Männer mit mehr als 14 Getränken pro Woche und erwachsene Frauen mit mehr als 7 Getränken pro Woche) |
| Stroke | Wurde dem Probanden jemals gesagt, dass er einen Schlaganfall hatte? |
| PhysicalHealth | An wie viele der letzten 30 Tage hatten die Probanden physische körperliche Beschwerden |
| MentalHealth | An wie viele der letzten 30 Tage hatten die Probanden psychische Beschwerden |
| DiffWalking | Haben die Probanden starke Beschwerden, Treppen zu steigen? |
| Sex | Geschlecht der Probanden |
| AgeCategory | Alterskategorie (insgesamt 14 Kategorien) |
| Race | Rasse / Ethnizität |
| Diabetic | Hatte der Proband jemals Diabetes? |
| PhysicalActivity | Hat der Proband in den letzten 30 Tagen Sport gemacht |
| GenHealth | Wie schätzt der Proband seine Gesundheite ein -> Exzellent / Sehr gut / gut / angemessen / schlecht |
| SleepTime | Durschnittliche Schlafzeit in Stunden |
| Asthma | Hatte der Proband jemals Asthma? |
| KidneyDisease | Wurde dem Probanden jemals gesagt, dass Sie eine Nierenerkrankung haben, ausgenommen Nierensteine, Blasenentzündung oder Inkontinenz? |
| SkinCancer | Hatte der Proband jemals Hautkrebs? |


Anhand der Daten der verschiedenen Spalten ist zu erkennen, dass das Dataset sowohl kategorische, als auch kontinuierliche Spalten besitzt. Für die unterschiedlichen Spaltentypen sind unterschiedliche Analysen und Visualisierungen sinnvoll. Daher wird im Folgenden eine **Aufteilung der Spalten in Arrays** vorgenommen, um sie im Anschluss getrennt analysieren zu können.

Das Array *cat_cols* hält alle kategorischen Spalten, das Array *con_cols* alle kontinuierlichen Spalten.
Zusätzlich wird ein Array angelegt mit der Zielvariable *HeartDisease*. Diese wird später für die Vorhersage des Preises eines Smartphones genutzt.

In [None]:
cat_cols = ['Smoking','AlcoholDrinking','Stroke','DiffWalking','Sex','Race',
            'Diabetic', 'PhysicalActivity', 'GenHealth', 'Asthma', 'KidneyDisease', 'SkinCancer']

con_cols = ["BMI","PhysicalHealth","MentalHealth","AgeCategory", "SleepTime"]

target_col = ["HeartDisease"]

Bevor die einzelnen Spalten analysiert werden, werden zunächst noch einige Analysen über den Datensatz insgesamt vorgenommen. So werden beispielsweise die eindeutigen Werte pro Spalte betrachtet, oder ob Spalten vorliegen, die null-Werte enthalten.

Ziel ist es, die Qualtät des Datensatzes zu ermitteln. Fehlende oder fälschliche Daten können im Verlauf der Analyse oder auch bei der Erstellung der Modelle zu schlechten oder falschen Ergebnissen führen.

Hierzu wird eine Übersicht als Tabelle erstellt, in der der Datentyp, die fehlenden und eindeutigen Werte, sowie das Minimum und Maximum pro Spalte dargestellt wird. Zur Erstellung dieser Werte bietet die Bibliothek *pandas* einige hilfreiche Funktionen.

In [None]:
## Datentyp
data_types = pd.DataFrame(
    df.dtypes,
    columns=['Datentyp']
)

## Fehlende Werte
missing_data = pd.DataFrame(
    df.isnull().sum(),
    columns=['Fehlende Werte']
)

## Eindeutige Werte
unique_values = pd.DataFrame(
    columns=['Eindeutige Werte']
)
for row in list(df.columns.values):
    unique_values.loc[row] = [df[row].nunique()]

## Minimum
minimum_values = pd.DataFrame(
    columns=['Minimaler Wert']
)
for row in list(df.columns.values):
    minimum_values.loc[row] = [df[row].min()]

## Maximum
maximum_values = pd.DataFrame(
    columns=['Maximaler Wert']
)
for row in list(df.columns.values):
    maximum_values.loc[row] = [df[row].max()]


dq_report = data_types.join(missing_data).join(unique_values).join(minimum_values).join(maximum_values)
dq_report

Zu erkennen ist, dass die Spalte **AgeCategory** noch den Datentyp Object besitzt. Für eine einfachere Analyse der Daten, wird die Spalte in eine numerische Spalte konvertiert, indem jeweils die Mitte einer Alterskategorie als Wert ersetzt wird (z.B. 57 für den Eintrag "55-59"). 

So kann die Spalte auch besser in späteren Machine Learning verwendet werden.

In [None]:
## AgeCategory zu einer kontinuierlichen Variable konvertieren

## Zuordnung von AgeCategory Wert zu einem neuen Wert
encode_AgeCategory = {'18-24': 21, '25-29': 27, '30-34': 32, '35-39': 37, '40-44': 42, '45-49': 47, '50-54': 52, '55-59': 57, 
                      '60-64': 62, '65-69': 67, '70-74': 72, '75-79': 77, '80 or older': 80}

## Datensatz durchiterieren und Werte für AgeCategory ersetzen
df['AgeCategory'] = df['AgeCategory'].apply(lambda x: encode_AgeCategory[x])

## AgeCategory von einem 'object' Datentyp in einen 'float' Datentyp konvertieren
df['AgeCategory'] = df['AgeCategory'].astype('float')

Folgende **Erkenntnisse** gehen aus der oberen Übersicht hervor:

1. Nahezu alle Spalten besitzen den Datentyp int64. Lediglich die Spalten clock_speed und m_dep sind float64-Spalten. Das gesamte Dataset besteht demnach aus Zahlen. Es gibt also keine Text-Spalten oder ähnliches.

2. Keine der Spalten weißt fehlende Werte auf. Im Dataset liegen demnach keine Einträge mit null-Werte vor.

3. Es gibt Spalten im Dataset mit lediglich 2 eindeutigen Werte. Dies deutet auf Boolean-Spalten hin. Darüber hinaus gibt es Spalten mit nur wenigen Ausprägungen, die vermutlich kategorische Werte abbilden. Zuletzt gibt es Spalten mit sehr viele eindeutigen Werten, die auf kontinuierliche Werte hindeuten.

4. Die Minium und Maximum Werte der Spalten geben den Wertebereich an.

**Bewertung**

Insgesamt weißt das Dataset eine sehr gute Qualität auf. Es liegen keine fehlenden Werte vor, die das Ergebnis der Vorhersage oder der Analysen beeinträchtigen könnten. Darüber hinaus können im Dataset ausschließlich mit Zahlen gearbeitet werden. Es muss also keine Konvertierung von Textspalten oder ähnliches vorgenommen werden.

## Unvariate Analyse der Spalten

Nachdem eine Überblick über das Dataset gegeben wurde, werden nun Spalten des Dataset einzeln betrachtet und statistische Auswertungen erstellt. Diesen Vorgang nennt man auch "Unvariate Analyse". Es werden also noch keine Spalten in Beziehung gesetzt.
Zu Analyse werden die kategorischen und kontinuierlichen Spalten gesondert betrachtet, wie bereits eingangs erwähnt. Es bieten sich pro Spaltentyp unterschiedliche Visualisierungen und Analysen an.

Zunächst werden die **kategorischen Spalten** mithilfe von Bar-Charts betrachtet. Hierzu werden alle kategorischen Spalten in einer gemeinsamen Übersicht mithilfe von Subploty der Plotly-Bibliothek dargestellt.

### Kategorische Variablen

In [None]:
fig = make_subplots(rows=3, cols=4, subplot_titles=("Smoking", "AlcoholDrinking", "Stroke", "DiffWalking", "Sex",
                                                    "Race", "Diabetic", "PhysicalActivity", "GenHealth", "Asthma",
                                                    "KidneyDisease", "SkinCancer"))


fig.add_trace(go.Histogram(histfunc="count",  x=df['Smoking']),
              row=1, col=1)
fig.add_trace(go.Histogram(histfunc="count",  x=df['AlcoholDrinking']),
              row=1, col=2)
fig.add_trace(go.Histogram(histfunc="count",  x=df['Stroke']),
              row=1, col=3)
fig.add_trace(go.Histogram(histfunc="count",  x=df['DiffWalking']),
              row=1, col=4)
fig.add_trace(go.Histogram(histfunc="count",  x=df['Sex']),
              row=2, col=1)
fig.add_trace(go.Histogram(histfunc="count",  x=df['Race']),
              row=2, col=2)
fig.add_trace(go.Histogram(histfunc="count",  x=df['Diabetic']),
              row=2, col=3)
fig.add_trace(go.Histogram(histfunc="count",  x=df['PhysicalActivity']),
              row=2, col=4)
fig.add_trace(go.Histogram(histfunc="count",  x=df['GenHealth']),
              row=3, col=1)
fig.add_trace(go.Histogram(histfunc="count",  x=df['Asthma']),
              row=3, col=2)
fig.add_trace(go.Histogram(histfunc="count",  x=df['KidneyDisease']),
              row=3, col=3)
fig.add_trace(go.Histogram(histfunc="count",  x=df['SkinCancer']),
              row=3, col=4)

fig.update_layout(height=700, title_text="Kategorische Variablen")
fig.show()

### Kontinuierliche Variablen

Für die Betrachtung der kontinuierlichen Variablen bieten sich sowohl Histogramme und auch Boxplots an. Boxplots sind Diagramme, die zur graphischen Darstellung der Verteilung von mindestens ordinalskalierten Merkmalen verwendet werden. Es fasst dabei verschiedene Streuungs- und Lagemaße in einer Darstellung zusammen. Ein Box-Plot soll schnell einen Eindruck darüber vermitteln, in welchem Bereich die Daten liegen und wie sie sich über diesen Bereich verteilen.

Ein Boxplot fasst folgende Werte in einer Darstellung zusammen:
- Minimum
- Unteres Quartil
- Median
- Oberes Quartil
- Maximum
- Spannweite
- Interquartilsabstand (IQR)

Darüber hinaus werden extreme Ausreißer (3x IQR) in den Daten als Punkte dargestellt.

Ein Histogramm liefert darüber hinaus die grafische Darstellung der absoluten oder relativen Häufigkeitsverteilung eines quantitativen, klassierten Merkmals in einem speziellen Säulendiagramm: Der Flächeninhalt der einzelnen (aneinandergrenzenden) Säulen gibt die Häufigkeit der jeweiligen Klassen wider.

In [None]:
## BMI
fig = make_subplots(rows=1, cols=2)

fig.add_trace(
    go.Histogram(histfunc="count",  x=df['BMI']),
    row=1, col=1
)

fig.add_trace(
    go.Box(x=df['BMI']),
    row=1, col=2
)

fig.update_layout(height=400, width=1000, title_text="Body Mass Index", showlegend=False)
fig.show()

In [None]:
# BMI
sns.set(rc={'figure.figsize':(26,9.27)})

plt.subplot(231)
sns.boxplot(data=df, x="BMI")
plt.subplot(232)
sns.histplot(data=df, x="BMI")

In [None]:
## PhysicalHealth

plt.subplot(231)
sns.boxplot(data=df, x="PhysicalHealth")
plt.subplot(232)
sns.countplot(x=df["PhysicalHealth"].astype(int), color='#5975a4')

In [None]:
## MentalHealth

plt.subplot(231)
sns.boxplot(data=df, x="MentalHealth")
plt.subplot(232)
sns.countplot(x=df["MentalHealth"].astype(int), color='#5975a4')

In [None]:
## AgeCategory

plt.subplot(231)
sns.boxplot(data=df, x="AgeCategory")
plt.subplot(232)
sns.countplot(x=df["AgeCategory"].astype(int), color='#5975a4')

In [None]:
## SleepTime

plt.subplot(231)
sns.boxplot(data=df, x="SleepTime")
plt.subplot(232)
sns.countplot(x=df["SleepTime"].astype(int), color='#5975a4')

### Zielvariable

In [None]:
sns.set(rc={'figure.figsize':(16, 5.27)})
sns.countplot(x="HeartDisease", data=df)

## Bivariate Analyse der Spalten

Im Anschluss an die unvariate Analyse folgt die bivariate Analyse der Spalten. Der Fokus liegt hier in der Suche nach Beziehungen zwischen 2 oder mehr Spalten. Genauer gesagt ist das Ziel, eine Beziehung zischen der Zielvariabel *HeartDisease* und einer beschreibenden Variable wie z.B. *Smoking* zu finden. Es wird also eine Art empirische Beziehung zwischen den Variablen ermittelt.

Außerdem werden Korrelationen zwischen den beschreibenden Variablen ermittelt. Eine hohe Korrelation zweier Variablen sagt aus, dass die eine Variable die andere bedingt.

Vor der bivariaten Analyse werden allerdings noch Hypothesen aufgestellt, die eine Richtung bei der Analyse der Daten vorgeben. Man stellt also Vermutungen zu den Daten auf, die im Anschluss mittels Analysen und Visualisierung belegt oder wiederlegt werden.

**Hypthesen**:

1.

### Kategorische Variablen

In [None]:
sns.set(rc={'figure.figsize':(16, 9.27)})

plt.subplot(231)
sns.countplot(x="Smoking", hue='HeartDisease', data=df)
plt.subplot(232)
sns.countplot(x="AlcoholDrinking", hue='HeartDisease', data=df)
plt.subplot(233)
sns.countplot(x="Stroke", hue='HeartDisease', data=df)

variables = ["Smoking", "AlcoholDrinking", "Stroke"]

for v in variables:
    smoke_and_heart_disease = len(df[(df['HeartDisease']=='Yes') & (df[v]=='Yes')])
    num_smoke = len(df[df[v]=='Yes'])
    no_smoke_and_heart_disease = len(df[(df['HeartDisease']=='Yes') & (df[v]=='No')])
    num_no_smoke = len(df[df[v]=='No'])
    print('Wahrscheinlichkeit für einen Herzinfakt, wenn die Ausprägung ' + v + ' "Yes" ist:', 
          str(round(smoke_and_heart_disease * 100 / num_smoke, 2)) + " %")
    print('Wahrscheinlichkeit für einen Herzinfakt, wenn die Ausprägung ' + v + ' "No" ist:', 
          str(round(no_smoke_and_heart_disease * 100 /num_no_smoke, 2)) + " %")
    print('-------------')

In [None]:
plt.subplot(234)
sns.countplot(x="DiffWalking", hue='HeartDisease', data=df)
plt.subplot(235)
sns.countplot(x="Sex", hue='HeartDisease', data=df)
plt.subplot(236)
sns.countplot(x="Race", hue='HeartDisease', data=df)

## DiffWalking
smoke_and_heart_disease = len(df[(df['HeartDisease']=='Yes') & (df['DiffWalking']=='Yes')])
num_smoke = len(df[df['DiffWalking']=='Yes'])
no_smoke_and_heart_disease = len(df[(df['HeartDisease']=='Yes') & (df['DiffWalking']=='No')])
num_no_smoke = len(df[df['DiffWalking']=='No'])
print('Wahrscheinlichkeit für einen Herzinfakt, wenn die Ausprägung DiffWalking "Yes" ist:', 
      str(round(smoke_and_heart_disease * 100 / num_smoke, 2)) + " %")
print('Wahrscheinlichkeit für einen Herzinfakt, wenn die Ausprägung DiffWalking "No" ist:', 
      str(round(no_smoke_and_heart_disease * 100 /num_no_smoke, 2)) + " %")
print('-------------')

## Sex
smoke_and_heart_disease = len(df[(df['HeartDisease']=='Yes') & (df['Sex']=='Male')])
num_smoke = len(df[df['Sex']=='Male'])
no_smoke_and_heart_disease = len(df[(df['HeartDisease']=='Yes') & (df['Sex']=='Female')])
num_no_smoke = len(df[df['Sex']=='Female'])
print('Wahrscheinlichkeit für einen Herzinfakt, wenn die Ausprägung Sex "Male" ist:', 
      str(round(smoke_and_heart_disease * 100 / num_smoke, 2)) + " %")
print('Wahrscheinlichkeit für einen Herzinfakt, wenn die Ausprägung Sex "Female" ist:', 
      str(round(no_smoke_and_heart_disease * 100 /num_no_smoke, 2)) + " %")
print('-------------')


In [None]:
plt.subplot(234)
sns.countplot(x="Diabetic", hue='HeartDisease', data=df)
plt.subplot(235)
sns.countplot(x="PhysicalActivity", hue='HeartDisease', data=df)
plt.subplot(236)
sns.countplot(x="GenHealth", hue='HeartDisease', data=df)

In [None]:
plt.subplot(234)
sns.countplot(x="Asthma", hue='HeartDisease', data=df)
plt.subplot(235)
sns.countplot(x="KidneyDisease", hue='HeartDisease', data=df)
plt.subplot(236)
sns.countplot(x="SkinCancer", hue='HeartDisease', data=df)

### Kontinuierliche Variablen

In [None]:
sns.kdeplot(data=df, x="BMI", hue="HeartDisease", alpha=0.5, shade=True, multiple="stack")

In [None]:
sns.kdeplot(data=df, x="PhysicalHealth", hue="HeartDisease", alpha=0.5, shade=True, multiple="stack")

In [None]:
sns.kdeplot(data=df, x="MentalHealth", hue="HeartDisease", alpha=0.5, shade=True, multiple="stack")

In [None]:
sns.kdeplot(data=df, x="AgeCategory", hue="HeartDisease", alpha=0.5, shade=True, multiple="stack")

In [None]:
sns.kdeplot(data=df, x="SleepTime", hue="HeartDisease", alpha=0.5, shade=True, multiple="stack")

### Zielvariable

In [None]:
sns.histplot(df[df['HeartDisease']=='Yes'], x="BMI", kde=True, color="#ea4335")

sns.histplot(df[df['HeartDisease']=='No'], x="BMI", kde=True, color='#4285f4')

### Korrelationsmatrix aller Variablen erstellen

In [None]:
df_corr = df[['HeartDisease', 'Smoking', 'AlcoholDrinking', 'Stroke', 'DiffWalking', 'Sex',
                    'PhysicalActivity', 'Asthma', 'KidneyDisease', 'SkinCancer','BMI', 'PhysicalHealth',
                    'MentalHealth', 'AgeCategory', 'SleepTime']].corr()
df_corr

In [None]:
fig = plt.figure(figsize=(10,10))
gs = fig.add_gridspec(1,1)
gs.update(wspace=0.3, hspace=0.15)
ax0 = fig.add_subplot(gs[0,0])

color_palette = ["#5833ff","#da8829"]
mask = np.triu(np.ones_like(df_corr))
ax0.text(1.5,-0.1,"Correlation Matrix",fontsize=22, fontweight='bold', fontfamily='serif', color="#000000")
df_corr = df[['HeartDisease', 'Smoking', 'AlcoholDrinking', 'Stroke', 'DiffWalking', 'Sex',
                    'PhysicalActivity', 'Asthma', 'KidneyDisease', 'SkinCancer','BMI', 'PhysicalHealth',
                    'MentalHealth', 'AgeCategory', 'SleepTime']].corr().transpose()
sns.heatmap(df_corr,mask=mask,fmt=".2f",annot=True,cmap='YlGnBu')
plt.show()

In [None]:
correlation = df.corr().round(2)
sns.heatmap(correlation,annot=True ,cmap='YlGnBu')

## Machine Learning Modell erstellen

Bislang wurden die Daten analysiert mithilfe von verschiedenen Visualisierungen. Dabei wurde ein Verständnis für die Daten entwickelt.
Nun soll für die Vorhersage der Zielvariable **HeartDisease** ein bzw. mehrere Machine Learning Modelle erstellt werden. Dabei werden verschiedene Verfahren betrachtet, um zu ermitteln, welches der Verfahren die besten Ergebnisse erzielt. Dies ist ein gängiges Vorgehen im Data Science Bereich, da sich die Modelle je nach Datensatz unterschiedlich verhalten können.

Bevor die Machine Learning Modelle allerdings erstellt werden, werden die Daten noch aufbereitet, um die spätere Genauigkeit der Vorhersagen zu verbessern. Im Folgenden werden dafür 2 Verfahren angewendet: **StandardScaler** und **OneHotEncoding**.

StandardScaler:
Kontinuierliche Variablen in einem Dataset weisen oft unterschiedliche Skalen auf. So hat die Variable **BMI** beispielsweise eine Skala von 12.02 bis 94.85, die Variable **SleepTime** hingegen eine Skala von 1 bis 24. Dies kann die Vorhersageperformance viele Machine Learning Modelle beeinträchtigen. Nicht skalierte Daten können auch die Konvergenz vieler gradientenbasierter Modelle verlangsamen oder sogar verhindern.

<div>
<img src="StandardScaler.png" width="400"/>
</div>

OneHotEncoding:
Viele Machine Learning Modelle können nur schwer mit kategorischen Daten als Input umgehen. Ähnlich wie bei den kontinuierlich Variablen ist auch hier das Problem, dass einige Variablen nur 2 Ausprägungen besitzen, andere dafür aber 20 oder mehr. 
Viel besser können Machine Learning Modelle mit numerischen Werte umgehen.

Beim OneHotEncoding wird jeder kategorische Wert in eine neue kategorische Spalte umgewandelt und diesen Spalten ein binärer Wert von 1 oder 0 zugewiesen. Jeder ganzzahlige Wert wird als binärer Vektor dargestellt. Alle Werte sind Null, und der Index ist mit einer 1 gekennzeichnet.

<div>
<img src="one_hot_encoding.png" width="700"/>
</div>

### Standardisierung der Variablen

In [None]:
## Standardisierung der kontinuierlichen Variablen

Scaler = StandardScaler()
df[con_cols] = Scaler.fit_transform(df[con_cols])

df[con_cols].head()

Nach Anwendung des StandardScaler haben alle kontinuierlichen Variabeln einen Durchschnitt von 0 (µ = 0) und eine Standardabweichung von 1 (σ = 1). 

### OneHotEncoding

In [None]:
# Integer encode columns with 2 unique values
for col in ['HeartDisease', 'Smoking', 'AlcoholDrinking', 'Stroke', 'DiffWalking', 'Sex', 'PhysicalActivity', 'Asthma', 'KidneyDisease', 'SkinCancer']:
    if df[col].dtype == 'O':
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col])

# One-hot encode columns with more than 2 unique values
df = pd.get_dummies(df, columns=['Race', 'Diabetic', 'GenHealth', ], prefix = ['Race', 'Diabetic', 'GenHealth'])

In [None]:
df.head().transpose()

Nach Anwendung des OneHotEncoding gibt es neue Spalten wie z.B. die Spalte **Race_White**, die die Ausprägungen 0 und 1 besitzt. Für alle kategorischen Werte der Spalten 'Race', 'Diabetic' und 'GenHealth' gibt es nun eine dedizierte Spalte mit den Werte 0 und 1.

Nachdem die letzten Vorbereitung der Daten für die Machine Learning Modelle vorgenommen wurden, werden die Daten nun in Trainings- und Testdaten unterteilt. Dies ist ebenfalls ein weit verbreitetes Vorgehen im Data Science Umfeld.
Die Idee ist, das Modell auf einem Teil der Daten zu trainieren (Trainingsdaten) und das Modell anschließend auf einem Datensatz zu testen, dass das Modell zuvor noch nicht gesehen hat (Testdaten). 

Eine gängige Aufteilung ist hierbei 80/20, wobei 80% Trainingsdaten und 20% Testdaten verwendet werden.

In [None]:
## Split dataset for training and testing

#Select Features
features = df.drop(columns =['HeartDisease'], axis = 1)

#Select Target 
target = df['HeartDisease']

# Set Training and Testing Data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(features, target, shuffle = True, test_size = .2, random_state = 44)


print('Shape of training feature:', X_train.shape)
print('Shape of testing feature:', X_test.shape)
print('Shape of training label:', y_train.shape)
print('Shape of training label:', y_test.shape)

In [None]:
y_train.head(20)

Für alle ausgewählten Modelle soll nach dem Training eine Validierung der Genauigkeit erfolgen. Da diese Validierung immer nach demselben Schema erfolgt und dieselben Metriken betrachtet werden sollen, wird im folgenden eine Funktion *evaluate_model* erstellt, mit der die Modelle später einfacher validiert werden können, da die Ergebnisse in einer standardisierten Form vorliegen.

In [None]:
def evaluate_model(model, x_test, y_test):
    from sklearn import metrics

    # Predict Test Data 
    y_pred = model.predict(x_test)

    # Calculate accuracy, precision, recall, f1-score, and kappa score
    acc = metrics.accuracy_score(y_test, y_pred)
    prec = metrics.precision_score(y_test, y_pred)
    rec = metrics.recall_score(y_test, y_pred)
    f1 = metrics.f1_score(y_test, y_pred)
    kappa = metrics.cohen_kappa_score(y_test, y_pred)

    # Calculate area under curve (AUC)
    y_pred_proba = model.predict_proba(x_test)[::,1]
    fpr, tpr, _ = metrics.roc_curve(y_test, y_pred_proba)
    auc = metrics.roc_auc_score(y_test, y_pred_proba)

    # Display confussion matrix
    cm = metrics.confusion_matrix(y_test, y_pred)

    return {'acc': acc, 'prec': prec, 'rec': rec, 'f1': f1, 'kappa': kappa, 
            'fpr': fpr, 'tpr': tpr, 'auc': auc, 'cm': cm}

### KNN

In [None]:
# Building a model using KNeighborsClassifier 
# https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 5)

knn.fit(X_train, y_train)


# Evaluate Model
knn_eval = evaluate_model(knn, X_test, y_test)

# Print result
print('Accuracy:', knn_eval['acc'])
print('Precision:', knn_eval['prec'])
print('Recall:', knn_eval['rec'])
print('F1 Score:', knn_eval['f1'])
print('Cohens Kappa Score:', knn_eval['kappa'])
print('Area Under Curve:', knn_eval['auc'])
print('Confusion Matrix:\n', knn_eval['cm'])

### Decision Tree

In [None]:
from sklearn import tree

# Building Decision Tree model 
# https://scikit-learn.org/stable/modules/tree.html

clf = tree.DecisionTreeClassifier(max_depth = 3, random_state=0)
clf.fit(X_train, y_train)

# Evaluate Model
clf_eval = evaluate_model(clf, X_test, y_test)

# Print result
print('Accuracy:', clf_eval['acc'])
print('Precision:', clf_eval['prec'])
print('Recall:', clf_eval['rec'])
print('F1 Score:', clf_eval['f1'])
print('Cohens Kappa Score:', clf_eval['kappa'])
print('Area Under Curve:', clf_eval['auc'])
print('Confusion Matrix:\n', clf_eval['cm'])

In [None]:
from sklearn import tree
tree.plot_tree(clf,
               feature_names = df.columns,
               class_names = target.astype(str),
               filled = True)

### RandomForest

In [None]:
# Building RandomForest classifier
# https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html

rfc = RandomForestClassifier(random_state=0)
rfc.fit(X_train, y_train)

# Evaluate Model
rfc_eval = evaluate_model(rfc, X_test, y_test)

# Print result
print('Accuracy:', rfc_eval['acc'])
print('Precision:', rfc_eval['prec'])
print('Recall:', rfc_eval['rec'])
print('F1 Score:', rfc_eval['f1'])
print('Cohens Kappa Score:', rfc_eval['kappa'])
print('Area Under Curve:', rfc_eval['auc'])
print('Confusion Matrix:\n', rfc_eval['cm'])



### Support Vector Machine

<div>
<img src="Support_Vector_Machine.png" width="500"/>
</div>

In [None]:
# instantiating the object and fitting
# https://scikit-learn.org/stable/modules/svm.html

svc = SVC(kernel='linear', C=1, random_state=42).fit(X_train,y_train)

# predicting the values
y_pred = svc.predict(X_test)

# printing the test accuracy
print("The test accuracy score of SVM is ", accuracy_score(y_test, y_pred))

### Neural Network

In [None]:
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D
from keras.layers import Activation, Dropout, Flatten, Dense
import keras
import tensorflow
from keras.models import Sequential
from keras.layers import Dense
import warnings

classifier = Sequential()

# Adding the input layer and the first hidden layer
classifier.add(Dense(256, activation = 'relu', input_shape=(X_train.shape[1],)))
classifier.add(Dense(515, activation = 'relu'))
classifier.add(Dropout(0.3))
# Adding the second hidden layer
classifier.add(Dense(50, activation = 'relu'))
classifier.add(Dropout(0.3))
# Adding the output layer
classifier.add(Dense(1, activation = 'sigmoid'))

# Compiling the ANN
opt = tensorflow.keras.optimizers.Adam(learning_rate=0.001)
classifier.compile(optimizer = opt, loss = 'binary_crossentropy', metrics = ['binary_accuracy'])

In [None]:
 history = classifier.fit(X_train, y_train, validation_data=(X_test, y_test), epochs = 30, batch_size=15, verbose=1)

In [None]:
# Predicting the Test set results
y_pred = classifier.predict(X_test)

In [None]:
import seaborn as sns
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred.round())
sns.heatmap(cm,annot=True,cmap="Blues",fmt="d",cbar=False)
#accuracy score
from sklearn.metrics import accuracy_score
ac=accuracy_score(y_test, y_pred.round())
print('accuracy of the model: ',ac)

In [None]:
classifier.evaluate(X_test)

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

plt.plot(history.history['accuracy'])
plt.plot(history.history['val_accuracy'])
plt.title('Model Accuracy')
plt.ylabel('accuracy')
plt.xlabel('epoch')
plt.legend(['train', 'test'])
plt.show()

In [None]:
# Model Losss

plt.plot(history.history['loss'])
plt.plot(history.history['val_loss'])
plt.title('Model Loss')
plt.ylabel('loss')
plt.xlabel('epoch')
plt.legend(['train', 'test'])
plt.show()

In [None]:
df.head(20)