### Skewness
Die Schiefe (Skewness) ist ein Maß dafür, wie symmetrisch oder asymmetrisch die Verteilung der Daten ist. Hier sind die Interpretationen:

1. **Rechtsschiefe (positiv schief)**:
   - Wenn die Schiefe positiv ist (z. B. **price** mit einer Schiefe von **2.18**), dann ist die Verteilung **rechtsschief** oder **positiv schief**.
   - Das bedeutet, dass die Daten einen langen „Schwanz“ nach rechts haben, also einige extrem hohe Werte, die den Mittelwert nach rechts ziehen.
   - Beispiel: Einkommensverteilung, bei der die Mehrheit der Menschen ein geringeres Einkommen hat, aber einige wenige sehr hohe Einkommen die Verteilung verzerren.

2. **Linksschiefe (negativ schief)**:
   - Wenn die Schiefe negativ ist, dann ist die Verteilung **linksschief** oder **negativ schief**.
   - Das bedeutet, dass die Verteilung einen langen „Schwanz“ nach links hat, also einige extrem niedrige Werte, die den Mittelwert nach links ziehen.
   - Linksschiefe Verteilungen sind seltener, aber man sieht sie zum Beispiel bei Daten wie Altersverteilungen in bestimmten Populationen, bei denen es viele ältere Werte gibt und sehr wenige niedrige.

3. **Symmetrisch oder Normalverteilung (Schiefe nahe 0)**:
   - Wenn die Schiefe nahe bei 0 liegt, ist die Verteilung **symmetrisch** oder **normal verteilt**.
   - In diesem Fall ist die Häufigkeit der Werte auf beiden Seiten des Mittelwerts relativ gleichmäßig verteilt.
   - Beispiel: Körpergrößen in einer homogenen Population folgen oft einer annähernd normalverteilten (symmetrischen) Verteilung.

**Zusammengefasst**:
- **Positiv schief**: Schiefe > 0, lange Verteilung rechts.
- **Negativ schief**: Schiefe < 0, lange Verteilung links.
- **Symmetrisch**: Schiefe ≈ 0, gleichmäßige Verteilung um den Mittelwert.

**Interpretation der Werte**:
- **Schiefe zwischen -0,5 und 0,5**: Fast symmetrisch.
- **Schiefe zwischen -1 und -0,5 oder zwischen 0,5 und 1**: Leicht asymmetrisch.
- **Schiefe kleiner als -1 oder größer als 1**: Stark asymmetrisch. 

Mit dieser Information lässt sich die Art der Verteilung der Daten besser verstehen und auf Verzerrungen schließen.

# Kurtosis

Die Kurtosis, oder Wölbung, misst die „Spitzigkeit“ bzw. die „Breitheit“ einer Verteilung im Vergleich zu einer Normalverteilung. Hier sind die Interpretationen für die Kurtosis-Werte der Variablen im DataFrame:

1. **Kurtosis-Wert und Interpretation**:
   - **Kurtosis nahe 3**: Die Verteilung ähnelt einer Normalverteilung. Solche Verteilungen werden als **mesokurtisch** bezeichnet.
   - **Kurtosis > 3**: Die Verteilung hat einen stärkeren Peak und „dickere“ Extremwerte (längere „Schwänze“), als es bei einer Normalverteilung zu erwarten ist. Solche Verteilungen werden als **leptokurtisch** bezeichnet.
   - **Kurtosis < 3**: Die Verteilung ist „flacher“ und breiter als eine Normalverteilung mit dünneren Extremwerten, und wird als **platykurtisch** bezeichnet.


# Korrelationsmatrix

Eine Korrelationsmatrix zeigt die Stärke und Richtung der linearen Beziehungen zwischen verschiedenen Variablen eines Datensatzes. Jeder Wert in der Matrix ist ein Korrelationskoeffizient, der von -1 bis 1 reicht.

### Interpretation der Werte in der Korrelationsmatrix

1. **Positive Korrelation (Werte > 0)**:
   - Ein positiver Wert bedeutet, dass wenn eine Variable steigt, die andere tendenziell auch steigt.
   - Je näher der Wert an 1 ist, desto stärker ist die positive Korrelation.
   - Beispiel: Wenn der Korrelationskoeffizient zwischen „Zimmer“ und „Wohnfläche“ 0,8 beträgt, zeigt dies eine starke positive Korrelation – größere Wohnungen haben in der Regel mehr Zimmer.

2. **Negative Korrelation (Werte < 0)**:
   - Ein negativer Wert zeigt, dass wenn eine Variable steigt, die andere tendenziell sinkt.
   - Je näher der Wert an -1 ist, desto stärker ist die negative Korrelation.
   - Beispiel: Ein Korrelationskoeffizient von -0,5 zwischen „Zimmer“ und „Preis pro Quadratmeter“ zeigt, dass größere Wohnungen oft einen niedrigeren Quadratmeterpreis haben.

3. **Keine Korrelation (Werte nahe 0)**:
   - Werte nahe 0 zeigen, dass es keine oder nur eine sehr schwache lineare Beziehung zwischen den beiden Variablen gibt.
   - Beispiel: Ein Wert von 0,1 deutet darauf hin, dass es keine klare lineare Beziehung zwischen den beiden Variablen gibt.

### Einordnung der Stärke der Korrelation
Hier sind allgemeine Richtlinien, um die Stärke der Korrelation zu interpretieren (wobei diese je nach Fachgebiet variieren können):

- **0 bis ±0,2**: Sehr schwache Korrelation oder keine Korrelation
- **±0,2 bis ±0,4**: Schwache Korrelation
- **±0,4 bis ±0,6**: Moderate Korrelation
- **±0,6 bis ±0,8**: Starke Korrelation
- **±0,8 bis ±1,0**: Sehr starke Korrelation

### Beispiel für die Interpretation
Angenommen, in einer Korrelationsmatrix sehen wir folgende Werte:

|                | Zimmer | Fläche | Preis  |
|----------------|--------|--------|--------|
| Zimmer         | 1.0    | 0.8    | 0.5    |
| Fläche         | 0.8    | 1.0    | 0.6    |
| Preis          | 0.5    | 0.6    | 1.0    |

- Die **Korrelation zwischen Zimmern und Fläche** beträgt 0,8, was eine starke positive Korrelation bedeutet. Größere Wohnungen haben tendenziell mehr Zimmer.
- Die **Korrelation zwischen Zimmern und Preis** beträgt 0,5, was eine moderate positive Korrelation bedeutet. Wohnungen mit mehr Zimmern sind tendenziell teurer, aber es gibt auch andere Einflüsse.
- Die **Korrelation zwischen Fläche und Preis** beträgt 0,6, was eine moderate bis starke positive Korrelation bedeutet. Größere Wohnungen haben tendenziell höhere Preise.

### Wichtig zu beachten
- **Korrelation ist nicht Kausalität**: Eine hohe Korrelation bedeutet nicht, dass die eine Variable die andere verursacht. Es zeigt nur eine Beziehung, keine Ursache-Wirkungs-Verbindung.
- **Outliers und Nicht-Linearität**: Extreme Werte (Ausreißer) und nicht-lineare Beziehungen können die Korrelation beeinflussen und sollten bei der Analyse berücksichtigt werden.
- **Interpretationskontext**: Der Kontext der Daten spielt eine wichtige Rolle. In sozialen Daten kann eine schwache Korrelation (z. B. 0,3) signifikant sein, während in der Physik eine starke Korrelation (z. B. 0,9) erwartet wird.

### Zusammengefasst
Eine Korrelationsmatrix hilft, lineare Beziehungen in einem Datensatz schnell zu erkennen. Werte nahe ±1 zeigen starke Zusammenhänge, während Werte nahe 0 auf eine schwache oder fehlende lineare Beziehung hinweisen. Die Interpretation sollte immer im Kontext des Datensatzes und der Fragestellung erfolgen.

# Co-Varianz Matrix
Eine Kovarianzmatrix zeigt die Kovarianzen zwischen allen möglichen Paaren von Variablen in einem Datensatz. Hier ist, wie man die Werte einer Kovarianzmatrix im Allgemeinen interpretiert:

### 1. **Was ist Kovarianz?**
   - Die **Kovarianz** misst, wie zwei Variablen gemeinsam variieren.
   - Ein positiver Wert bedeutet, dass die beiden Variablen tendenziell gemeinsam steigen: Wenn eine Variable zunimmt, neigt die andere dazu, ebenfalls zuzunehmen.
   - Ein negativer Wert zeigt an, dass die Variablen entgegengesetzt variieren: Wenn eine Variable zunimmt, neigt die andere dazu, abzunehmen.
   - Ein Wert nahe **0** deutet darauf hin, dass es keine klare lineare Beziehung zwischen den Variablen gibt.

### 2. **Diagonalelemente der Kovarianzmatrix (Varianzen)**
   - Die **Diagonalelemente** der Kovarianzmatrix zeigen die **Varianz** jeder einzelnen Variablen.
   - Die Varianz gibt an, wie stark die Werte einer Variablen um ihren Mittelwert streuen.
   - Höhere Varianzwerte bedeuten größere Streuung, was darauf hinweist, dass die Werte der Variablen stärker voneinander abweichen.

### 3. **Off-Diagonalelemente (Kovarianzen zwischen Variablen)**
   - Die **Off-Diagonalelemente** der Kovarianzmatrix repräsentieren die Kovarianzen zwischen den verschiedenen Variablen.
   - **Positive Kovarianz**: Zeigt eine positive lineare Beziehung an, d. h., wenn eine Variable zunimmt, neigt die andere auch dazu, zuzunehmen.
   - **Negative Kovarianz**: Zeigt eine negative lineare Beziehung an, d. h., wenn eine Variable zunimmt, neigt die andere dazu, abzunehmen.
   - **Werte nahe 0**: Deuten auf eine schwache oder nicht vorhandene lineare Beziehung zwischen den Variablen hin.

### 4. **Einheitenabhängigkeit der Kovarianz**
   - Kovarianzen sind nicht standardisiert und hängen von den Einheiten der Variablen ab.
   - Zum Beispiel, wenn die Variablen in Dollar und Quadratmetern gemessen werden, dann ist die Kovarianz ebenfalls in diesen Einheiten (Dollar \* Quadratmeter).
   - Das macht die Interpretation oft schwieriger, da Kovarianzwerte nicht leicht zwischen Datensätzen mit unterschiedlichen Einheiten vergleichbar sind.
   - Deshalb wird häufig die **Korrelationsmatrix** verwendet, da sie die Werte standardisiert (zwischen -1 und 1) und unabhängig von den Einheiten ist.

### 5. **Größe der Kovarianzwerte**
   - **Große positive Werte**: Eine starke positive lineare Beziehung zwischen den Variablen.
   - **Große negative Werte**: Eine starke negative lineare Beziehung zwischen den Variablen.
   - **Kleine Werte**: Wenig bis keine lineare Beziehung zwischen den Variablen.

### 6. **Praktische Verwendung der Kovarianzmatrix**
   - Die Kovarianzmatrix wird in der Statistik und im maschinellen Lernen oft verwendet, um die linearen Beziehungen in einem Datensatz zu analysieren.
   - Sie bildet auch die Grundlage für die **Hauptkomponentenanalyse (PCA)**, da die Eigenvektoren der Kovarianzmatrix die Hauptrichtungen der Variation im Datensatz darstellen.

### Beispiel für eine einfache Interpretation

Angenommen, wir haben eine Kovarianzmatrix für die Variablen `X` und `Y`:
```
       X        Y
X   4.0      1.5
Y   1.5      9.0
```

- Die Varianz von `X` ist **4.0**, und die Varianz von `Y` ist **9.0**.
- Die Kovarianz zwischen `X` und `Y` ist **1.5**, was eine leicht positive Beziehung zwischen `X` und `Y` anzeigt. Da der Wert nicht besonders hoch ist, ist die lineare Beziehung schwach.
- Da die Werte nicht standardisiert sind, gibt uns dieser Wert nur einen Hinweis auf die Richtung und Stärke, aber keine genauere, vergleichbare Aussage.

### Zusammenfassung

- **Positive Kovarianz**: Beide Variablen steigen oder fallen tendenziell zusammen.
- **Negative Kovarianz**: Eine Variable steigt, während die andere tendenziell fällt.
- **Null Kovarianz**: Keine lineare Beziehung.
- **Diagonale der Matrix**: Zeigt die Varianz jeder Variablen an.
- **Einheitenabhängigkeit**: Die Werte der Kovarianz hängen von den Einheiten der Variablen ab, was Vergleiche erschwert.

# Density Plot vs Hisgramm
Der **Unterschied zwischen einem Histogramm und einem Dichteplot** liegt in ihrer Darstellung und Interpretation von Datenverteilungen:

### 1. **Histogramm**:
   - Ein Histogramm teilt den Wertebereich der Daten in feste Intervalle (Bins) auf und zeigt die **Häufigkeit** der Daten in jedem Intervall als Balken an.
   - Jeder Balken im Histogramm repräsentiert die Anzahl (oder die relative Häufigkeit) der Datenpunkte, die in dieses Intervall fallen.
   - Ein Histogramm ist eine **diskrete Darstellung** der Datenverteilung und eignet sich gut, um die absolute Häufigkeit der Daten in bestimmten Intervallbereichen zu veranschaulichen.

### 2. **Dichteplot** (KDE, Kernel Density Estimate):
   - Ein Dichteplot (KDE) schätzt die **wahre Verteilung der Daten**, indem er eine glatte Kurve zeichnet, die die Verteilung der Datenpunkte annähert.
   - Der Dichteplot zeigt nicht die absolute Häufigkeit, sondern eine **Wahrscheinlichkeitsdichte**. Die Fläche unter der Kurve beträgt immer 1, was bedeutet, dass sie die relative Wahrscheinlichkeit für bestimmte Wertebereiche darstellt.
   - Ein Dichteplot bietet eine **kontinuierliche, glatte Darstellung** der Verteilung und eignet sich gut, um die allgemeine Form der Verteilung zu verstehen und mögliche Peaks oder Schiefe zu identifizieren.

### Visueller Unterschied:
   - Im Histogramm sieht man einzelne Balken, die die Anzahl der Datenpunkte in festen Intervallen anzeigen.
   - Im Dichteplot sieht man eine glatte Kurve, die die Dichte der Datenverteilung anzeigt, was oft hilft, die Verteilungstendenzen präziser zu interpretieren.

### Kombination:
   - Oft werden Histogramm und Dichteplot kombiniert, wie im Beispiel oben, um sowohl die Häufigkeit in festen Intervallen (Histogramm) als auch eine glatte Schätzung der Verteilung (Dichteplot) darzustellen. Dies ermöglicht eine umfassendere Analyse der Datenstruktur.

### Zusammenfassung:
- **Histogramm** = Diskrete Darstellung der Häufigkeit in Bins.
- **Dichteplot** = Glatte, kontinuierliche Schätzung der Wahrscheinlichkeitsdichte. 

Beide Methoden sind hilfreich für die Explorative Datenanalyse, jedoch für unterschiedliche Zwecke geeignet.

# QQ-Plot
Ein **Quantile-Quantile-Plot** (kurz **Q-Q-Plot**) ist ein grafisches Werkzeug, das verwendet wird, um die Verteilung einer Datenreihe mit einer theoretischen Verteilung (häufig der Normalverteilung) zu vergleichen. Der Q-Q-Plot zeigt, ob die Daten einer bestimmten Verteilung folgen, indem er die Quantile der Daten gegen die Quantile der theoretischen Verteilung aufträgt.

### Aufbau und Interpretation eines Q-Q-Plots

1. **Achsen des Q-Q-Plots**:
   - Die **x-Achse** zeigt die theoretischen Quantile der Vergleichsverteilung (z. B. einer Normalverteilung).
   - Die **y-Achse** zeigt die Quantile der tatsächlichen Daten.

2. **Linie des Q-Q-Plots**:
   - Eine diagonale Linie (oft bei \( y = x \)) repräsentiert den Fall, in dem die Daten exakt der theoretischen Verteilung entsprechen.
   - Liegen die Datenpunkte auf dieser Linie, ist die Datenverteilung sehr nah an der theoretischen Verteilung.

3. **Interpretation der Datenpunkte**:
   - **Datenpunkte auf der Linie**: Wenn die Punkte nahe an der Linie liegen, folgt die Verteilung der Daten in etwa der theoretischen Verteilung.
   - **Abweichungen von der Linie**: Weichen die Punkte deutlich von der Linie ab, zeigt dies, dass die Daten nicht perfekt der theoretischen Verteilung entsprechen.
     - **Nach oben gebogene Punkte (rechts)**: Dies deutet auf eine rechts-schiefe Verteilung hin (mehr hohe Werte als erwartet).
     - **Nach unten gebogene Punkte (links)**: Dies weist auf eine links-schiefe Verteilung hin (mehr niedrige Werte als erwartet).
     - **S-förmiges Muster**: Ein S-förmiges Muster deutet darauf hin, dass die Verteilung der Daten „dicker“ oder „schlanker“ ist als die theoretische Verteilung, was auf eine höhere Kurtosis hinweisen kann.

### Praktische Interpretation

- **Normalverteilung**: Wenn die Daten eine Normalverteilung haben, sollten sie ungefähr auf einer Linie liegen, die einer \( y = x \)-Linie entspricht.
- **Schiefe Verteilung**: Wenn die Punkte am oberen oder unteren Ende stark von der Linie abweichen, zeigt dies, dass die Verteilung schief ist.
- **Außergewöhnliche Werte (Ausreißer)**: Einzelne Punkte, die weit von der Linie entfernt sind, könnten auf Ausreißer hindeuten.

### Beispiel:

- **Links-Schiefe Verteilung**: Die Datenpunkte am unteren Ende weichen deutlich nach unten von der Linie ab.
- **Rechts-Schiefe Verteilung**: Die Punkte am oberen Ende weichen nach oben von der Linie ab.
- **Normalverteilung**: Die Punkte folgen im Allgemeinen der Linie, es gibt nur leichte Abweichungen an den Enden.

Ein Q-Q-Plot ist ein schnelles visuelles Mittel, um zu beurteilen, ob eine Verteilung den Annahmen (z. B. Normalität) entspricht, die für bestimmte statistische Analysen erforderlich sind.

# Bubble Plot
Ein **Bubble-Plot** ist eine Erweiterung des Scatterplots und wird verwendet, wenn man drei oder mehr Dimensionen auf einem 2D-Plot visualisieren möchte. Die zusätzliche Dimension wird durch die Größe der Blasen dargestellt. Ein Bubble-Plot kann besonders nützlich sein, wenn man Beziehungen zwischen mehreren Variablen in einer einzigen Grafik untersuchen möchte.

### Wieso ein Bubble-Plot?

1. **Zusätzliche Dimension**: Ein normaler Scatterplot zeigt zwei Variablen, meist die x- und y-Achsen. Mit einem Bubble-Plot kann man eine dritte Dimension hinzufügen, die durch die Blasengröße dargestellt wird, und manchmal sogar eine vierte Dimension, die durch die Blasenfarbe repräsentiert wird. Dies ermöglicht eine umfassendere Analyse auf einer einzigen Grafik.
   
2. **Hervorhebung wichtiger Informationen**: Die Größe der Blasen kann helfen, bedeutende oder extreme Werte (z. B. hohe Kosten oder geringe Effizienz) hervorzuheben, die in einem normalen Scatterplot nicht so auffällig wären.
   
3. **Erkennen von Mustern**: Durch die Kombination von mehreren Variablen in einem Plot lassen sich potenziell interessante Muster oder Cluster leichter erkennen.

### Generische Interpretation eines Bubble-Plots

Um einen Bubble-Plot zu interpretieren, sollte man sich folgende Aspekte anschauen:

1. **Position auf der x- und y-Achse**: Diese repräsentieren die Hauptvariablen. Beispielsweise könnte die x-Achse den Kilometerstand eines Autos darstellen und die y-Achse den Preis. Die Position jeder Blase zeigt den Wert dieser beiden Variablen für jedes Auto an.

2. **Blasengröße**: Die Größe repräsentiert eine zusätzliche Dimension, zum Beispiel den "Preis pro PS" (price per hp) in einem Autodatensatz. Große Blasen deuten dann auf einen hohen Preis pro PS hin, was auf teure und leistungsstarke Autos hinweisen könnte.

3. **Blasenfarbe** (optional): Wenn die Farben unterschiedlich sind und eine bestimmte Skala oder Gruppierung darstellen, kann das eine weitere Dimension darstellen, wie etwa die Kraftstoffart oder das Produktionsjahr. Die Farbe bietet zusätzliche visuelle Informationen und kann helfen, Cluster oder Trends besser zu verstehen.

4. **Cluster und Muster**: Man sucht nach Clustern von Blasen, die ähnliche Größen oder Farben haben, oder nach einem Trend in der Anordnung der Blasen entlang der x- und y-Achse. Diese Cluster oder Muster können Hinweise auf bestimmte Beziehungen zwischen den Variablen geben, z. B. dass Autos mit einem hohen Kilometerstand und hohem Preis pro PS oft teurer sind.

### Beispiel für eine Interpretation

Angenommen, wir haben einen Bubble-Plot, der den Preis eines Autos (y-Achse) in Abhängigkeit vom Kilometerstand (x-Achse) zeigt, wobei die Blasengröße den "Preis pro PS" darstellt und die Blasenfarbe den Kilometerstand widerspiegelt:

- Autos mit geringem Kilometerstand sind tendenziell teurer und haben oft größere Blasen (hoher Preis pro PS).
- Autos mit hohem Kilometerstand sind tendenziell günstiger, dargestellt durch kleinere Blasen.
- Ein Cluster von großen, teuren Autos mit geringen Kilometerständen könnte auf Neuwagen oder hochwertige Marken hindeuten.

Durch einen Bubble-Plot kann man solche Zusammenhänge sofort visuell erkennen, ohne dass separate Grafiken für jede Dimension erforderlich wären. Dies spart Zeit und bietet einen umfassenden Überblick auf einen Blick.


# Correlation Heatmap
Eine **Korrelations-Heatmap** ist eine grafische Darstellung, die hilft, die Stärke und Richtung der Beziehungen zwischen verschiedenen Variablen in einem Datensatz schnell und übersichtlich zu verstehen. Sie ist besonders nützlich, um Muster und Zusammenhänge in großen Datensätzen zu erkennen, die ansonsten schwer interpretierbar wären.

### Warum braucht es eine Korrelations-Heatmap?

1. **Visualisierung der Beziehungen**: Eine Korrelationsmatrix zeigt die Beziehungen zwischen Variablen numerisch, jedoch ist es oft einfacher, Zusammenhänge visuell zu erfassen. Eine Heatmap hilft, Muster und starke Beziehungen (positive oder negative) sofort zu erkennen.

2. **Identifikation relevanter Zusammenhänge**: In einer Korrelations-Heatmap sind die Korrelationen farblich kodiert, was es einfacher macht, besonders starke oder schwache Beziehungen zu erkennen. Hohe positive Korrelationen sind oft in einem Farbton dargestellt, während starke negative Korrelationen in einem anderen Farbton hervorgehoben werden.

3. **Hilft bei der Variablenauswahl**: Wenn man beispielsweise eine Regression oder ein maschinelles Lernmodell entwickeln möchte, kann die Korrelations-Heatmap helfen, stark korrelierte Variablen zu identifizieren. Dies verhindert, dass überflüssige Variablen ins Modell aufgenommen werden, was die Modellleistung und Interpretierbarkeit verbessern kann.

4. **Erkennung multikollinearer Variablen**: Wenn zwei oder mehr Variablen eine starke positive Korrelation aufweisen (z. B. > 0,8 oder < -0,8), deutet dies auf Multikollinearität hin. Dies kann ein Problem in statistischen Modellen sein, und eine Heatmap hilft, solche Variablen schnell zu identifizieren.

### Generische Interpretation einer Korrelations-Heatmap

Um eine Korrelations-Heatmap zu interpretieren, sollte man auf folgende Punkte achten:

1. **Farben und Farbskala**: 
   - Positive Korrelationen (z. B. nahe bei +1) werden meist in einer Farbe dargestellt (oft in Blau- oder Grüntönen).
   - Negative Korrelationen (z. B. nahe bei -1) erscheinen in einer anderen Farbe (oft in Rot- oder Brauntönen).
   - Null oder nahe Null bedeutet keine oder sehr geringe Korrelation und wird oft in neutralen Farben angezeigt.
   
   Die Farbintensität zeigt die Stärke der Korrelation. Je intensiver die Farbe, desto stärker die Beziehung.

2. **Interpretation der Korrelation**:
   - **Positive Korrelation (+1 bis 0)**: Ein hoher Wert einer Variablen geht mit einem hohen Wert der anderen Variablen einher. Beispielsweise könnten PS und Preis eines Autos positiv korreliert sein, da leistungsstärkere Autos oft teurer sind.
   - **Negative Korrelation (-1 bis 0)**: Ein hoher Wert einer Variablen geht mit einem niedrigen Wert der anderen Variablen einher. Zum Beispiel könnten Kilometerstand und Preis negativ korreliert sein, da ältere Autos mit höherem Kilometerstand oft günstiger sind.
   - **Keine Korrelation (0)**: Keine erkennbare Beziehung zwischen den Variablen. Ein Wert nahe 0 zeigt, dass sich die Variablen unabhängig voneinander verhalten.

3. **Auffällige Muster und Cluster**:
   - Ein Cluster starker Korrelationen in bestimmten Bereichen der Heatmap kann darauf hinweisen, dass bestimmte Variablen eng miteinander verbunden sind und eventuell gemeinsam analysiert werden sollten.
   - Untersuche Variablen mit hohen Korrelationswerten, da diese oft redundante Informationen liefern und gegebenenfalls entfernt werden können.

4. **Anwendungsbeispiele**:
   - **Verständnis von Zusammenhängen**: Die Heatmap zeigt auf einen Blick, welche Variablen eng miteinander zusammenhängen, z. B. ob ein hoher PS-Wert mit einem höheren Preis korreliert.
   - **Entscheidungen für maschinelles Lernen**: Wenn Variablen stark korreliert sind, könnte man eine der beiden Variablen aus dem Modell ausschließen, um Redundanz zu vermeiden.
   - **Risikomanagement und Investitionen**: Im Finanzbereich könnten Heatmaps dazu genutzt werden, zu verstehen, welche Aktien oder Vermögenswerte stark miteinander korrelieren, was bei der Diversifikation helfen kann.

### Zusammengefasst:

Eine Korrelations-Heatmap gibt eine schnelle Übersicht über die Beziehungen zwischen mehreren Variablen und ist hilfreich bei:
- der Auswahl relevanter Variablen,
- dem Erkennen von Mustern und Zusammenhängen,
- dem Vermeiden von Redundanzen in Modellen durch Ausschluss stark korrelierter Variablen.

Durch eine Heatmap kann man komplexe Beziehungen in großen Datensätzen leicht visualisieren und interpretieren, was Zeit spart und Einblicke in die Datenstruktur gibt.