<h1>Heart Failure Prediction mit verschiedenen Ansätzen</h1>
- SVM, Random-Forest, LogisticRegression

In diesem Notebook untersuche ich ein Dataset, wo es um Herzprobleme geht. Ziel ist es, ein Model zu finden, was die besten Ergebnisse durch Klassifizierung erzielt.

Bei diesem Vorgehen werde die Parameter verschiedener Modelle optimieren und das beste Model wird am Ende ausgesucht. 

Das Dataset ist auf dieser Seite verfügbar: https://www.kaggle.com/datasets/fedesoriano/heart-failure-prediction [Letzter Zugriff 04.06.2024] 

> fedesoriano. (September 2021). Heart Failure Prediction Dataset. Retrieved [Date Retrieved]<br> from https://www.kaggle.com/fedesoriano/heart-failure-prediction.

In [33]:
# Imports
import pandas as pd   
import numpy  as np

from sklearn.svm          import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble     import RandomForestClassifier

from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing   import StandardScaler  
from sklearn.preprocessing   import LabelEncoder

In [34]:
heart_data = pd.read_csv("./files_data/data/heart_failure_prediction.zip", compression='zip')
heart_data.head(3)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283,0,ST,98,N,0.0,Up,0


In [35]:
# Übersicht der Daten
heart_data.describe()

Unnamed: 0,Age,RestingBP,Cholesterol,FastingBS,MaxHR,Oldpeak,HeartDisease
count,918.0,918.0,918.0,918.0,918.0,918.0,918.0
mean,53.510893,132.396514,198.799564,0.233115,136.809368,0.887364,0.553377
std,9.432617,18.514154,109.384145,0.423046,25.460334,1.06657,0.497414
min,28.0,0.0,0.0,0.0,60.0,-2.6,0.0
25%,47.0,120.0,173.25,0.0,120.0,0.0,0.0
50%,54.0,130.0,223.0,0.0,138.0,0.6,1.0
75%,60.0,140.0,267.0,0.0,156.0,1.5,1.0
max,77.0,200.0,603.0,1.0,202.0,6.2,1.0


In [36]:
# Zeigt welche Strings es gibt.
heart_data.ST_Slope.unique()

array(['Up', 'Flat', 'Down'], dtype=object)

In [37]:
# Das soll klassifiziert werden.
heart_data.HeartDisease.unique()

array([0, 1], dtype=int64)

In [38]:
# // 

In [39]:
# // Content coming 

In [40]:
# // 

Man sieht direkt, dass es nicht nur numerische Daten gibt. Features, die Strings enthalten, müssen in eine numerische Form umgewandelt werden, damit Operationen darauf ausgeführt werden können. 

Pandas und Sklearn bieten die Möglichkeit, die Features einfach zu encoden.

In [41]:
# Encode Sex
# - Male: 0, Female: 1
heart_data.Sex = heart_data.Sex.apply(lambda x: 0 if x=='M' else 1)
heart_data.head(3)

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,0,ATA,140,289,0,Normal,172,N,0.0,Up,0
1,49,1,NAP,160,180,0,Normal,156,N,1.0,Flat,1
2,37,0,ATA,130,283,0,ST,98,N,0.0,Up,0


In [42]:
# Mit Dummies
ChestPainType_dummy = pd.get_dummies(heart_data['ChestPainType'], dtype="int")  # Ohne Angabe von dtype => True/False
ChestPainType_dummy.head(6)

Unnamed: 0,ASY,ATA,NAP,TA
0,0,1,0,0
1,0,0,1,0
2,0,1,0,0
3,1,0,0,0
4,0,0,1,0
5,0,0,1,0


Bei On Hot Encode muss eine Spalte gelöscht werden, um das Problem Dummy-Variable-Trap zu vermeiden. 

Bei drei verschiedenen Strings werden zwei Dummy-Variablen erstellt. Zwei dieser Strings kann man eindeutig durch das erstellte Coding unterscheiden, so, dass man den dritten nicht braucht. <br>
Der dritte wäre dann redundant. 

<i>Abb1</i>: Beispiel mit dem Feature ChestPainType. Im Beispiel 2 Einträge pro Typ.  <br>
<img src="./files_data/img/sklearn_Heart_Failure_Prediction-notebook_1.PNG" width="300" hight="300">

Die Abbildung 1 zeigt, dass man TA dadurch unterscheidet, dass die Codierung bei allen anderen drei 0 ist.

In [43]:
heart_data.drop(['ChestPainType'], axis="columns", inplace=True)          # Lösche ChestPainType.
heart_data = pd.concat([heart_data, ChestPainType_dummy], axis="columns") # Dummy Tabelle wird rechts eingesetzt.
heart_data.head(3)

Unnamed: 0,Age,Sex,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease,ASY,ATA,NAP,TA
0,40,0,140,289,0,Normal,172,N,0.0,Up,0,0,1,0,0
1,49,1,160,180,0,Normal,156,N,1.0,Flat,1,0,0,1,0
2,37,0,130,283,0,ST,98,N,0.0,Up,0,0,1,0,0


In [44]:
# Läsche eine Spalte wo die Typen von ChestPainType enthalten sind, hier: TA. 
heart_data.drop(['TA'], axis="columns", inplace=True)   
heart_data.head(3)

Unnamed: 0,Age,Sex,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease,ASY,ATA,NAP
0,40,0,140,289,0,Normal,172,N,0.0,Up,0,0,1,0
1,49,1,160,180,0,Normal,156,N,1.0,Flat,1,0,0,1
2,37,0,130,283,0,ST,98,N,0.0,Up,0,0,1,0


Es bleiben noch drei nicht numerische Features. Der Rest wird mit dem Label Encoder von Sklearn behandelt. 

In [45]:
# Erstelle Encoder für betroffene Features 
label_RestingECG       = LabelEncoder()
label_ST_Slope         = LabelEncoder()
label_ExerciseAngina   = LabelEncoder()

labe_encoded_heart_data = heart_data

In [46]:
labe_encoded_heart_data['RestingECG']         = label_RestingECG.fit_transform(labe_encoded_heart_data['RestingECG'])
labe_encoded_heart_data['ST_Slope']           = label_ST_Slope.fit_transform(labe_encoded_heart_data['ST_Slope'])
labe_encoded_heart_data['ExerciseAngina']     = label_ExerciseAngina.fit_transform(labe_encoded_heart_data['ExerciseAngina'])

In [47]:
labe_encoded_heart_data.head(3)

Unnamed: 0,Age,Sex,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease,ASY,ATA,NAP
0,40,0,140,289,0,1,172,0,0.0,2,0,0,1,0
1,49,1,160,180,0,1,156,0,1.0,1,1,0,0,1
2,37,0,130,283,0,2,98,0,0.0,2,0,0,1,0


Jetzt ist das Dataset bereit für den Einsatz.

In [48]:
# Train- und Testset
X_train, X_test, y_train, y_test = train_test_split( labe_encoded_heart_data.drop(['HeartDisease'], axis='columns'), labe_encoded_heart_data['HeartDisease'], test_size=0.23 )

In [49]:
# Die Daten skalieren
scaler    = StandardScaler()
X_scaled  = scaler.fit_transform(X_train)

In [54]:
X_scaled.shape

(706, 13)

Jetzt werden die drei verschiedenen Modelle erstellt und deren Parameter durch Gird Search verbessert. 

In [60]:
# Um es einfach zu halten, ein Dict mit den Modellen und Parametern.
params = {
    'svm': {                            # Model-Name.
        'model': SVC(gamma='auto'),     # Angabe Model mit Parameter.
        'params' : {                    # Parameter die getestet werden sollen.
            'C': [1,10,20],             
            'kernel': ['rbf','linear', 'poly', 'sigmoid'],
            'degree': [2, 3, 4, 5]
        }  
    },
    'random_forest': {
        'model': RandomForestClassifier(),
        'params' : {
            'n_estimators': [1,5,10],
            'max_features': ['sqrt', 'log2']
        }
    },
    'logistic_regression' : {
        'model': LogisticRegression(),
        'params': {
            'solver': ['lbfgs', 'liblinear', 'newton-cg'],
            'C': [1,5,10]
        }}}

Am Ende soll das beste Model ausgewählt werden. <br>
Dafür werden zuerst die Parameter mit Gird Search getestet. Danach kann ausgelesen werden, welche Parameter den besten Wert geliefert haben. 

Das kann für alle drei Modelle durchgespielt werden, wo dann die Ergebnisse in einem Dict landen. <br>
Alternativ könnte man diese in einer Datei ablegen oder direkt für eine Visualisierung nutzen. 

In [61]:
punkte = []  # Liste Speichert die Einträge des Models. 

for model_name, mp in params.items():
    
    my_model =  GridSearchCV(mp['model'], mp['params'], cv=5, return_train_score=False)  # Mit Cross-Validation = 5
    my_model.fit(X_scaled, y_train) 
    
    punkte.append({
        'model': model_name,
        'best_score': my_model.best_score_,   # Auswahl Punkte 
        'best_params': my_model.best_params_  # Auswahl der Parametrer für die meisten Punkte.
    })

In [62]:
# Als Liste mit Dicts sieht das ganze so aus:
punkte 

[{'model': 'svm',
  'best_score': 0.8625911497352912,
  'best_params': {'C': 1, 'degree': 2, 'kernel': 'rbf'}},
 {'model': 'random_forest',
  'best_score': 0.8569273798821296,
  'best_params': {'max_features': 'sqrt', 'n_estimators': 10}},
 {'model': 'logistic_regression',
  'best_score': 0.8385376086305063,
  'best_params': {'C': 1, 'solver': 'lbfgs'}}]