#Diagnose von Herzerkrankungen mit Machine Learning
**Autor:**<br> Vimal Kandrical

**Daten:**<br>[Heart Disease Cleveland UCI | Kaggle](https://www.kaggle.com/cherngs/heart-disease-cleveland-uci) 

# Einleitung

Im Rahmen des Moduls Machine Learning im CAS Machine Intelligence werden in diesem Projekt verschiedene Machine Learning Methoden genutzt, um Herzerkrankungen vorherzusagen.


# Datensatz

## Ursprung
Dieser Datensatz stammt von der Cleveland Klinik aus Ohio. Es handelt sich um klinische und nicht-invasive Resultate, welche aus Angiographien bei 303 Patienten resultierten.

## Beschreibung
Der Datensatz beinhaltete ursprünglich 75 Attribute, welche aber auf 13 Attribute und eine Zielvariable reduziert wurde.

**Attribute:**
*   age:<br>
age in years
*   sex:<br>
sex (1 = male, 0 = female)
*   cp:<br>
chest pain type (0 = typical angina, 1 = atypical angina, 2 = non-anginal pain, 3 = asymptomatic)
*   trestbps:<br>
resting blood pressure (in mm Hg on admission to the hospital)
*   chol:<br>
serum cholestoral in mg/dl 
*   fbs:<br>
fasting blood sugar > 120 mg/dl (1 = true, 0 = false)
*   restecg:<br>
resting electrocardiographic results (0 = normal, 1 = having ST-T wave abnormality, 2 = showing probable or definite left ventricular hypertrophy by Estes' criteria)
*   thalach:<br>
maximum heart rate achieved
*   exang:<br>
exercise induced angina (1 = yes, 0 = no)
*   oldpeak:<br>
ST depression induced by exercise relative to rest
*   slope:<br>
the slope of the peak exercise ST segment (0 = upsloping, 1 = flat, 2 = downsloping)
*   ca :<br>
number of major vessels (0-3) colored by flourosopy
*   thal:<br>
thallium stress test result (0 = normal, 1 = fixed defect, 2 = reversabel defect)

**Zielvariable:**
*   condition:<br>
0 = no disease, 1 = disease

Zum besseren medizinischen Verständnis der Attribute werden hier noch zwei Themen kurz erläutert.

**EKG Basics:**

![Bildlink kaputt](https://www.ratgeber-herzinsuffizienz.de/sites/ratgeber_herzinsuffizienz_de/files/styles/crop_freeform/public/2019-12/ekg-kurve.webp?itok=2qVKNimN)
*   P-Welle: Erregung der Vorhöfe, die sich zusammenziehen und Blut in die schlaffen Kammern pressen
*   PQ-Strecke: Überleitung des Impulses auf die Herzkammern
*   QRS-Komplex: Höchster Punkt der Zacke zeigt an, dass die gesamten Herzmuskelzellen mit elektrischer Energie versorgt sind – die Herzkammern ziehen sich zusammen
*   ST-Strecke: Zeit, die vergeht, bis das Blut aus den Kammern gepumpt ist, und die Erholung des Herzmuskels beginnt
*   T-Welle: Nachdem das Blut vollständig aus dem Herzen ausgeworfen ist, erfolgt die Entspannungsphase und Erschlaffung der Herzkammern

[Quelle: ratgeber-herzinsuffizienz.de](https://www.ratgeber-herzinsuffizienz.de/erkennen/herzinsuffizienz-diagnose/ekg)

**Thallium stress test:**

[...]

Imaging the heart helps determine whether inducing stress using the above methods (*Laufbahn/Ergometer*) caused detectable myocardial ischemia, which would **then indicate a significant coronary stenosis**. The means to image the heart include electrocardiography (ECG stress testing), echocardiography, nuclear imaging and magnetic resonance imaging (MRI). 

[...]

Nuclear stress testing requires the injection of a tracer, commonly technicium 99M (Myoview or Cardiolyte) (*hier: Thallium*), which is then taken up by healthy, viable myocardial cells. A camera (detector) is used afterwards to image the heart and compare segments. **A coronary stenosis is detected when a myocardial segment takes up the nuclear tracer at rest, but not during cardiac stress**. This is called a **"reversible defect"**. **Scarred myocardium from prior infarct will not take up tracer at all** and is referred to as a **"fixed defect"**. 

[...]

[Quelle: healio.com](https://www.healio.com/cardiology/learn-the-heart/cardiology-review/topic-reviews/stress-testing-review)















# Voranalyse

Daten einlesen und sich einen ersten Überblick verschaffen

In [5]:
import pandas as pd

pd.options.display.max_columns = 20

datensatz = pd.read_csv("heart_cleveland_upload.csv", ",")
print(datensatz.head())
print(datensatz.info())
print(datensatz.describe())

   age  sex  cp  trestbps  chol  fbs  restecg  thalach  exang  oldpeak  slope  \
0   69    1   0       160   234    1        2      131      0      0.1      1   
1   69    0   0       140   239    0        0      151      0      1.8      0   
2   66    0   0       150   226    0        0      114      0      2.6      2   
3   65    1   0       138   282    1        2      174      0      1.4      1   
4   64    1   0       110   211    0        2      144      1      1.8      1   

   ca  thal  condition  
0   1     0          0  
1   2     0          0  
2   0     0          0  
3   1     0          1  
4   0     0          0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 297 entries, 0 to 296
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        297 non-null    int64  
 1   sex        297 non-null    int64  
 2   cp         297 non-null    int64  
 3   trestbps   297 non-null    int64  
 4   chol       29

**Erste Erkenntnisse:**


*   keine kategoriellen Variablen -> kein onehotencoding notwendig
*   keine NULL Werte
*   nur Patienten über 29
*   mehrheitlich Männer (68%)
*   keine kategoriellen Variablen -> kein onehotencoding notwendig
*   keine NULL Werte
*   keine kategoriellen Variablen -> kein onehotencoding notwendig
*   keine NULL Werte
*   keine kategoriellen Variablen -> kein onehotencoding notwendig
*   keine NULL Werte




# Pipelines

# Training der Modelle

# Resultate

# Konklusion