# Analyse des Datasets heart_prediction.csv

Der Heart Disease Datensatz stammt vom UCI Machine Learning Repository und wird häufig verwendet, um Modelle zur Vorhersage von Herzkrankheiten
zu entwickeln und zu testen. Der Datensatz enthält 303 Instanzen und 14 Attribute (inklusive des Zielattributs).

## Attribute

1. **age**: Alter des Patienten (numerisch)
   - **Medizinischer Begriff:** Chronologisches Alter in Jahren.

2. **sex**: Geschlecht des Patienten (kategorisch; 1 = männlich, 0 = weiblich)
   - **Medizinischer Begriff:** Biologisches Geschlecht, das sich auf physiologische Unterschiede bezieht.

3. **cp**: Brustschmerztyp (kategorisch)
   - 0: Typische Angina (Angina pectoris)
   - 1: Atypische Angina
   - 2: Nicht-anginöse Schmerzen
   - 3: Asymptomatisch
   - **Medizinischer Begriff:** Angina pectoris ist ein Schmerz oder Unbehagen im Brustbereich, der durch eine unzureichende Sauerstoffversorgung des Herzmuskels verursacht wird.

4. **trestbps**: Ruheblutdruck (numerisch; mm Hg)
   - **Medizinischer Begriff:** Der Blutdruck im arteriellen System des Körpers in Ruhe gemessen, ausgedrückt in Millimeter Quecksilbersäule (mm Hg).

5. **chol**: Serumcholesterin (numerisch; mg/dl)
   - **Medizinischer Begriff:** Die Menge an Cholesterin im Blutserum, gemessen in Milligramm pro Deziliter (mg/dl).

6. **fbs**: Nüchternblutzucker > 120 mg/dl (kategorisch; 1 = wahr, 0 = falsch)
   - **Medizinischer Begriff:** Der Blutzuckerspiegel nach einer Fastenperiode von mindestens 8 Stunden. Ein Wert über 120 mg/dl kann auf Diabetes hinweisen.

7. **restecg**: Ruhe-EKG-Ergebnisse (kategorisch)
   - 0: Normal
   - 1: ST-T-Wellen-Anomalie (z.B. T-Wellen-Inversion und/oder ST-Hebung oder -Senkung > 0,05 mV)
   - 2: Linksventrikuläre Hypertrophie nach Estes-Kriterien
   - **Medizinischer Begriff:** Elektrokardiogramm (EKG) in Ruhe, das elektrische Aktivität des Herzens misst und Anomalien identifiziert.

8. **thalach**: Maximale Herzfrequenz erreicht (numerisch)
   - **Medizinischer Begriff:** Die höchste Herzfrequenz, die bei körperlicher Belastung erreicht wird.

9. **exang**: Belastungsangina (kategorisch; 1 = ja, 0 = nein)
   - **Medizinischer Begriff:** Auftreten von Angina pectoris während körperlicher Aktivität.

10. **oldpeak**: ST-Senkung induziert durch Bewegung relativ zur Ruhe (numerisch; mm)
    - **Medizinischer Begriff:** Die Veränderung des ST-Segments im EKG nach körperlicher Belastung im Vergleich zum Ruhe-EKG, gemessen in Millimetern.

11. **slope**: Steigung des ST-Segments (kategorisch)
    - 0: Upsloping (ansteigend)
    - 1: Flat (flach)
    - 2: Downsloping (abfallend)
    - **Medizinischer Begriff:** Beschreibt die Richtung des ST-Segments im EKG nach Belastung, was Hinweise auf verschiedene Arten von Herzerkrankungen geben kann.

12. **ca**: Anzahl der großen Gefäße (0–3) gefärbt durch Fluoroskopie (numerisch)
    - **Medizinischer Begriff:** Anzahl der Hauptblutgefäße (Koronararterien), die durch Fluoroskopie sichtbar gemacht wurden und Hinweise auf Verengungen geben.

13. **thal**: Thalassemie (kategorisch)
    - 3: Normal
    - 6: Feste Defekte
    - 7: Reversible Defekte
    - **Medizinischer Begriff:** Genetische Blutstörung, die die Produktion von Hämoglobin beeinflusst, hier in Bezug auf Herzprobleme bewertet.

14. **target**: Zielvariable (kategorisch; 0 = keine Herzkrankheit, 1 = Herzkrankheit vorhanden)
    - **Medizinischer Begriff:** Gibt an, ob beim Patienten eine Herzkrankheit diagnostiziert wurde (1) oder nicht (0).

## Analyse der einzelnen Variablen
Im folgenden Codeblock wird das bereinigte Dataset geladen. Bei der Bereinigung wurden fehlerhafte Werte entfernt, aussagekräftigere Attributnamen gewählt (bsp. cp -> chest_pain_type), sowie die Kategorien auf die numerischen Werte gemappt und für die Visualisierung vorbereitet.


In [7]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import PercentFormatter


# Daten laden
data = pd.read_csv("../resources/data_clean/heart_predictions_clean.csv").dropna(how='any')

# Unterteilung der Daten in kategorische und numerische Werte:
categorical_attributes = []
numerical_attributes = []


for attr in data.columns:
    if attr != 'target':
        if data [attr].dtypes == "object" or attr == 'max_heart_rate_achieved' :
            categorical_attributes.append(attr)
        else:
            numerical_attributes.append(attr)

non_numerical_attributes = ['target']+categorical_attributes
amount_categorical_attributes = len(categorical_attributes)
amount_numerical_attributes = len(numerical_attributes)
# Visualisierungsstil festlegen
sns.set_theme(style="whitegrid")

In [None]:
print(data['chest_pain_type'].dtypes)

### Alter der Patienten(age)

Die folgenden Visualisierungen zeigt die Verteilung des Alters der Patienten sowie das Auftreten der Herzkreislauferkrankungen in den verschiedenen Altersgruppen. Die Daten sind relativ gleichmäßig über die Altersgruppen verteilt, mit einer leichten Häufung bei den mittleren Altersgruppen (ca. 50-60 Jahre).
Die Verteilung der Patienten mit Herzerkrankung ist ähnlich verteilt mit einem Versatz des Peaks um 10 Jahre nach vorne. Die jüngeren Gruppen (ca. 30-55) haben prozentual häufiger einer Herzkreislauferkrankung im Vergleich zu den Altersgruppen mit der höchten Altersverteilung. 



In [None]:
# Altersverteilung untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.histplot(data=data, x='age', kde=True)
plt.title('Altersverteilung')
plt.xlabel('Alter in Jahren')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)
sns.histplot(data=data, x='age', hue='target', multiple='stack', kde=True)
plt.title('Verteilung der Herzerkrankungen im Alter')
plt.xlabel('Alter in Jahren')
plt.ylabel('Anzahl')
plt.show()

### Geschlecht(sex)

Die folgende Visualisierunen zeigen die Anzahl der männlichen und weiblichen Patienten und Geschlechter unterteilt nach dem Vorhandensein einer Herzkrankheit. Es gibt deutlich mehr männliche als weibliche Patienten im Datensatz.

Zudem gibt es im Vergleich zu den Männern überproportional viele Frauen mit einer Herzerkrankung.

In [None]:
# Geschlecht untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='sex')
plt.title('Geschlechtsverteilung')
plt.xlabel('Geschlechter')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)
sns.countplot(data=data, x='sex', hue='target')
plt.title('Verteilung der Herzerkrankungen in den Geschlechtern')
plt.xlabel('Geschlechter')
plt.ylabel('Anzahl')

plt.show()


### Brustschmerztyp (cp | chest_pain_type)

Die folgende Visualisierung zeigt die Verteilung der Brustschmerztypen, unterteilt nach dem Vorhandensein einer Herzkrankheit. Typische Angina und Nicht-anginöser Schmerzen sind am häufigsten vertreten.
Typische Angina hatte zudem edn geeringsten Anteil an Herzerkrankung. Bei den drei Brustschmerztypen traten Herzerkrankungen häufiger auf als keine Herzerkrankungen.

In [None]:
# Brustschmerztyp untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='chest_pain_type')
plt.title('Verteilung der Brustschmerztypen')
plt.xlabel('Brustschmerztyp')
plt.ylabel('Anzahl')
plt.xticks(rotation=45)

plt.subplot(1,2,2)
sns.countplot(data=data, x='chest_pain_type', hue='target')
plt.title('Brustschmerztypen und Herzerkrankung')
plt.xlabel('Brustschmerztyp')
plt.ylabel('Anzahl')

plt.xticks(rotation=45)
plt.show()

### Ruheblutdruck (trestbps | resting_blood_pressure)
Die folgende Visualisierung zeigt die Verteilung des Ruheblutdrucks der Patienten, unterteilt nach dem Vorhandensein einer Herzkrankheit. Die meisten Patienten haben einen Ruheblutdruck zwischen 110 und 140 mmHg.
Die Verteilung der Herzerkrankungsfälle folgt der gleichen Verteilung. In dem Bereichen 110-140 mmHg treten vermehrt Herzerkrankungen auf. Ab ca 150mmHg sinkt der Anteil von Herzerkrankungsfällen unter den Werten der Gruppe, die keine Herzerkrankung hat. 

In [None]:
# Ruheblutdruck untersuchen
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.histplot(data=data, x='resting_blood_pressure', kde=True)
plt.title('Verteilung des Ruheblutdrucks')
plt.xlabel('Ruheblutdruck in mmHg')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)
### Ruheblutdruck (trestbps | resting_blood_pressure)
sns.histplot(data=data, x='resting_blood_pressure', hue='target', kde=True)
plt.title('Ruheblutdruck nach Herzerkrankung')
plt.xlabel('Ruheblutdruck in mmHg')
plt.ylabel('Anzahl')
plt.show()


### Serumcholesterin (chol| cholesterol)
Die folgende Visualisierung zeigt die Verteilung des Serumcholesterins der Patienten. Die meisten Patienten haben Cholesterinwerte zwischen 200 und 300 mg/dl.
Die Verteilung ist leicht nach links verschoben. Bis ca. 280 mg/dl ist der Anteil von Patienten mit Herzerkrankung höher als die der Patienten ohne. Ab 400 mg/dl gibt es einzelne Ausreißer, die keinem direkten Trend folgen.


In [None]:
#Serumcholesterin untersuchen

plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.histplot(data=data, x='cholesterol', kde=True)
plt.title('Verteilung des Serumcholesterins')
plt.xlabel('Serumcholesterin in mg/dl')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)

sns.histplot(data=data, x='cholesterol', hue='target', kde=True)
plt.title('Serumcholesterin nach Herzerkrankung')
plt.xlabel('Serumcholesterin in mg/dl')
plt.ylabel('Anzahl')
plt.show()

### Nüchternblutzucker (fbs | fasting_blood_sugar)
Die folgende Visualisierung zeigt die Anzahl der Patienten mit einem Nüchternblutzucker über 120 mg/dl. Der Großteil der Patienten hat einen Nüchternblutzuckerwert unter diesem Schwellenwert.
In beiden Kategorien gibt es mehr Patienten mit einer Herzerkrankung in einem ähnlichen relativen Anteil



In [None]:
# Nüchternblutzucker untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='fasting_blood_sugar' )
plt.title('Verteilung des Nüchternblutzucker')
plt.xlabel('Nüchternblutzucker')
plt.ylabel('Anzahl')
plt.xticks(rotation=45)

plt.subplot(1,2,2)
sns.countplot(data=data, x='fasting_blood_sugar', hue='target')
plt.title('Nüchternblutzucker und Herzerkrankung')
plt.xlabel('Nüchternblutzucker')
plt.ylabel('Anzahl')

plt.xticks(rotation=45)
plt.show()

### Ruhe-EKG-Ergebnisse (restecg | resting_electrocardiogram)
Die folgende Visualisierung zeigt die Verteilung der Ruhe-EKG-Ergebnisse. Die meisten Patienten haben normale EKG-Ergebnisse oder ST-T-Wellen-Anomalien.
Patienten mit ST-T-Wellen-Anomalien hatten auch vermehrt Herzerkrankungen.


In [None]:
# Ruhe-EKG-Ergebnisse untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='resting_electrocardiogram' )
plt.title('Verteilung der Ruhe-EKG-Ergebnisse')
plt.xlabel('Ruhe-EKG-Ergebnisse')
plt.ylabel('Anzahl')
plt.xticks(rotation=45)

plt.subplot(1,2,2)
sns.countplot(data=data, x='resting_electrocardiogram', hue='target')
plt.title('Ruhe-EKG-Ergebnisse und Herzerkrankung')
plt.xlabel('NüchternRuhe-EKG-Ergebnisseblutzucker')
plt.ylabel('Anzahl')

plt.xticks(rotation=45)
plt.show()

### Maximale Herzfrequenz (thalach | max_heart_rate_achieved)
Die folgende Visualisierung zeigt die Verteilung der maximalen Herzfrequenz der Patienten. Die meisten Patienten erreichen eine maximale Herzfrequenz zwischen 140 und 180 Schlägen pro Minute.
Es ist auch eine klare Häufung der Herzerkrankung bei Patienten mit hoher Herzfrequenz


In [None]:
# Maximale Herzfrequenz untersuchen
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.histplot(data=data, x='max_heart_rate_achieved', kde=True)
plt.title('Verteilung der maximale Herzfrequenz')
plt.xlabel('Serumcholesterin in mg/dl')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)

sns.histplot(data=data, x='max_heart_rate_achieved', hue='target', kde=True)
plt.title('Maximale Herzfrequenz und Herzerkrankung')
plt.xlabel('Serumcholesterin in mg/dl')
plt.ylabel('Anzahl')
plt.show()

### Belastungsangina (exang |exercise_induced_angina)
Die folgende Visualisierung zeigt die Anzahl der Patienten, die während der Belastung Angina pectoris hatten, unterteilt nach dem Vorhandensein einer Herzkrankheit. Die Mehrheit der Patienten hatte keine Belastungsangina.
Entgegen unserer initialen Erwartungen haben von den Patienten, die während der Belastung keine Angina hatten, die Mehrheit eine Herzerkrankung.

In [None]:
# Ruhe-EKG-Ergebnisse untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='exercise_induced_angina')
plt.title('Verteilung der Belastungsangina')
plt.xlabel('Belastungsangina')
plt.ylabel('Anzahl')
plt.xticks(rotation=45)

plt.subplot(1,2,2)
sns.countplot(data=data, x='exercise_induced_angina', hue='target')
plt.title('Belastungsangina und Herzerkrankung')
plt.xlabel('Belastungsangina')
plt.ylabel('Anzahl')

plt.xticks(rotation=45)
plt.show()

### ST-Senkung (oldpeak | st_depression)
Die folgende Visualisierung zeigt die Verteilung der ST-Senkung durch Bewegung relativ zur Ruhe, unterteilt nach dem Vorhandensein einer Herzkrankheit. Die meisten Patienten haben eine ST-Senkung von weniger als 2 mm.
Es ist zu erkennen, dass mehr Herzerkrankungen auftreten, je niederiger die ST-Senkung ist.


In [None]:
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.histplot(data=data, x='st_depression', kde=True)
plt.title('Verteilung: ST-Senkung')
plt.xlabel('ST-Senkung in mm')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)

sns.histplot(data=data, x='st_depression', hue='target', kde=True)
plt.title('ST-Senkung und Herzerkrankung')
plt.xlabel('ST-Senkung in mm')
plt.ylabel('Anzahl')
plt.show()

### Steigung des ST-Segments (slope | st_slope)
Die folgende Visualisierung zeigt die Verteilung der Steigungen des ST-Segments, unterteilt nach dem Vorhandensein einer Herzkrankheit. Die häufigste Steigung ist die abfallende, gefolgt von der flachen und der ansteigenden.

Es ist zu erkennen, dass die Patienten mit einer abfallenden Steigung den höchsten Anteil von Herzerkrankungen haben.


In [None]:
# Steigung des ST-Segments untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='st_slope' )
plt.title('Verteilung der unterschiedlichen Steigungen des ST-Segments')
plt.xlabel('Arten der Steigungen des ST-Segments')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)
sns.countplot(data=data, x='st_slope', hue='target')
plt.title('Steigung des ST-Segments und Herzerkrankung')
plt.xlabel('Arten der Steigungen des ST-Segments')
plt.ylabel('Anzahl')

plt.show()


### Anzahl der großen Gefäße (ca | num_major_vessels)
Die folgende Visualisierung zeigt die Verteilung der Anzahl der großen Gefäße, die durch Fluoroskopie gefärbt wurden, unterteilt nach dem Vorhandensein einer Herzkrankheit. Die meisten Patienten haben keine oder ein großes Gefäß (0 oder 1).

Es ist zu erkennen, dass mehr Herzerkrankungen auftreten, je niederiger die Anzahl der großen Gefäße, die gefärbt wurden, ist.



In [None]:
# Anzahl der großen Gefäße  untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='num_major_vessels' )
plt.title('Verteilung der Anzahl der großen Gefäße ')
plt.xlabel('Anzahl der großen Gefäße ')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)
sns.countplot(data=data, x='num_major_vessels', hue='target')
plt.title('Anzahl der großen Gefäße  und Herzerkrankung')
plt.xlabel('Anzahl der großen Gefäße ')
plt.ylabel('Anzahl')

plt.show()


### Thalassemie (thal | thalassemia)
Die folgende Visualisierung zeigt die Verteilung der Thalassemie-Typen, unterteilt nach dem Vorhandensein einer Herzkrankheit. Die meisten Patienten haben normale Thalassemie-Werte, gefolgt von reversiblen Defekten und festen Defekten.

Patienten mit normalen Thalasemiewerten wiesen das höchste absolute und relative Vorkommen an Herzerkrankungen auf.

In [None]:
# Thalassemie untersuchen              
plt.figure(figsize=(10, 5))

plt.subplot(1,2,1)
sns.countplot(data=data, x='thalassemia' )
plt.title('Verteilung der Thalassemie-Typen')
plt.xlabel('Thalassemie-Typen')
plt.ylabel('Anzahl')

plt.subplot(1,2,2)
sns.countplot(data=data, x='thalassemia', hue='target')
plt.title('Thalassemie-Typen und Herzerkrankung')
plt.xlabel('Thalassemie-Typen')
plt.ylabel('Anzahl')

plt.show()


## Multivariate Analysen

Im folgenden werden die Zusammenhänge zwischen den einzelnen Attributen dargestellt.

### Bivariate Kategorische Analysen
Bei der Untersuchung der kategorischen Attribute wird mit Heatmaps gearbeitet, um Kombinationen zu ermitteln, die einen besonders hohen Herzerkrankungsanteil besitzen. Die Einfärbung basiert somit auf den Anteil der Herzerkrankungen in den Schnittmengen



In [None]:
#Funktion zum generieren von Boxplots
def generate_heatmap(y_cat, title):
    other_cat = [cat for cat in categorical_attributes if cat != y_cat]
    num_of_categories  =len(other_cat)
    fig, axes= plt.subplots(1,num_of_categories, figsize=(5*num_of_categories,5), sharey=True)

    fig.suptitle(f"Kategorische Analyse: {title}")
    

    
    for i,attr in enumerate(other_cat):
        heatmap_data = data.pivot_table(index =y_cat, columns=attr, values='target', aggfunc=lambda x: np.mean(x) * 100)
        ax = axes[i]
        sns.heatmap(ax = ax, data=heatmap_data,  annot=True, fmt=".1f", cmap='coolwarm')
        ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')
        if(i != 0):
            ax.set_ylabel('')
        if(i < num_of_categories-1):
            ax.collections[0].colorbar.remove()
        else:
            ax.collections[0].colorbar.ax.yaxis.set_major_formatter(PercentFormatter())
   
    return fig


In [None]:
generate_heatmap('sex', "Geschlecht").show

In [None]:
generate_heatmap('chest_pain_type', "Brustschmerztyp").show

In [None]:
generate_heatmap('fasting_blood_sugar', "Ruheblutzucker").show

In [None]:
generate_heatmap('resting_electrocardiogram', "Geschlecht").show

In [None]:
generate_heatmap('exercise_induced_angina', "Belastungsangina").show

In [None]:
generate_heatmap('st_slope', "Steigung des ST-Segments").show

In [None]:
generate_heatmap('thalassemia', "Thalasemiatyp").show

#### Bivariate gemischte Analysen
Bei der Untersuchung der kategorischen Attribute wird mit Violin Plots als Small Multiple gearbeitet, um Verteilungen für jeden Typ zu sehen und ausführen zu können. Die Einfärbung basiert somit auf den Anteil der Herzerkrankungen in den Schnittmengen

In [None]:
fig, axes = plt.subplots(amount_numerical_attributes-1, amount_categorical_attributes , figsize=(35, 15 ))

for i in range(amount_numerical_attributes-1):
    for j in range(amount_categorical_attributes):
        ax = axes[i,j]
        sns.violinplot(ax=ax, data=data, x=categorical_attributes[j], y=numerical_attributes[i], hue='target',  split=True, palette='muted')

        if(j != 0):
            ax.set_ylabel('')
        if(i < amount_numerical_attributes -2 ):
            ax.set_xlabel('')
            ax.set_xticklabels('')
        else:
            ax.set_xticklabels(ax.get_xticklabels(), rotation=45, ha='right')

fig.show

#### Bivariate numerische Analysen
Bei der Untersuchung der kategorischen Attribute wird mit Scatter als Small Multiple gearbeitet, um Verteilungen für jeden Typ zu sehen und ausführen zu können.

In [None]:

sns.pairplot(data, vars=numerical_attributes[:-1], hue='target', diag_kind='kde')
plt.suptitle('Streudiagramme für ausgewählte numerische Variablen', y=1.02)
plt.show()

fig.show

## Principal Component Analysis (PCA)

Principal Component Analysis (PCA) ist eine statistische Methode, die zur Dimensionsreduktion in Datensätzen verwendet wird. Sie zielt darauf ab, die Menge an Informationen zu verringern, die in einem Datensatz enthalten sind, indem sie die Anzahl der Variablen (Dimensionen) reduziert, während gleichzeitig der größtmögliche Anteil an Variation beibehalten wird. PCA ist geeignetsten für kontinuierliche Werte. Daher werden die numerischen Werte minimiert und an den kategorischen Werten angehängt.

Zuerst werden die Daten standardisiert, um sicherzustellen, dass jede Variable einen Mittelwert von Null und eine Standardabweichung von Eins hat. Dies ist wichtig, um sicherzustellen, dass alle Variablen auf einer vergleichbaren Skala liegen.

In [4]:
numerical_features = data[numerical_attributes[:-1]] #ohne target
numerical_mean = numerical_features.mean()
numerical_std = numerical_features.std()
numerical_features_standardized = (numerical_features - numerical_mean) / numerical_std

Als nächstes wird die Kovarianzmatrix der standardisierten Daten berechnet. Die Kovarianzmatrix gibt an, wie stark zwei Variablen zusammen variieren. Sie ist wichtig, da PCA darauf abzielt, die Hauptachsen der maximalen Variation in den Daten zu finde

In [None]:
cov_matrix = numerical_features_standardized.cov()

Die Eigenwerte werden absteigend sortiert, um die Hauptkomponenten in der Reihenfolge ihrer Bedeutung zu identifizieren. Die Hauptkomponenten mit den größten Eigenwerten tragen mehr zur Gesamtvariation der Daten bei.

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

Die Eigenwerte werden absteigend sortiert, um die Hauptkomponenten in der Reihenfolge ihrer Bedeutung zu identifizieren. Die Hauptkomponenten mit den größten Eigenwerten tragen mehr zur Gesamtvariation der Daten bei.

In [None]:
eig_pairs = [(np.abs(eigenvalues[i]), eigenvectors[:,i]) for i in range(len(eigenvalues))]
eig_pairs.sort(key=lambda x: x[0], reverse=True)

Basierend auf den sortierten Eigenwerten werden die ersten k Hauptkomponenten ausgewählt, um den Raum der Daten zu reduzieren. Dieser Schritt ermöglicht es, die Dimensionalität des Datensatzes zu reduzieren, während gleichzeitig der größtmögliche Anteil an Variation beibehalten wird.


In [None]:
k = 2  # number of principal components
selected_eigenvectors = np.array([pair[1] for pair in eig_pairs[:k]])

Schließlich werden die ursprünglichen Daten in den Raum der ausgewählten Hauptkomponenten transformiert. Dadurch entsteht ein neuer Satz von Variablen (die Hauptkomponenten), die eine Zusammenfassung der ursprünglichen Daten darstellen. Diese können verwendet werden, um die Daten für weitere Analysen zu visualisieren oder zu modellieren.

In [None]:
pca_result = np.dot(numerical_features_standardized, selected_eigenvectors.T)

categorical_features_w_target= pd.read_csv("../resources/data_dirty/heart_predictions.csv").dropna(how='any').rename(
    columns = {'cp':'chest_pain_type', 
               'trestbps':'resting_blood_pressure', 
               'chol': 'cholesterol',
               'fbs': 'fasting_blood_sugar',
               'restecg' : 'resting_electrocardiogram', 
               'thalach': 'max_heart_rate_achieved', 
               'exang': 'exercise_induced_angina',
               'oldpeak': 'st_depression', 
               'slope': 'st_slope', 
               'ca':'num_major_vessels', 
               'thal': 'thalassemia'}, 
    errors="raise")[non_numerical_attributes]
joined_features = pd.concat([categorical_features_w_target, pd.DataFrame(pca_result, columns=['pca_component1', 'pca_component2'])], axis=1)