### Voraussetzungen
Falls nicht installiert, müssen Seaborn und Matplotlib zuerst installiert werden:

In [None]:
!pip install seaborn matplotlib

### Beispiel-Daten
Wir verwenden den Iris-Datensatz von Seaborn, um die Diagramme zu demonstrieren.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd

# Beispiel-Daten laden
data = sns.load_dataset('iris')
df2 = pd.read_csv("Df2")
data.info()

Der Iris-Datensatz ist ein berühmter Datensatz, der häufig in der Statistik und im maschinellen Lernen verwendet wird. Er enthält Messungen von vier Merkmalen von 150 Iris-Blumenarten: drei verschiedene Arten (setosa, versicolor, virginica).

Merkmale:
- sepal_length: Länge des Kelchblattes (in cm)
- sepal_width: Breite des Kelchblattes (in cm)
- petal_length: Länge des Blütenblattes (in cm)
- petal_width: Breite des Blütenblattes (in cm)
- species: Die Art der Iris-Blume (kategorische Variable: setosa, versicolor, virginica)

Struktur:
- 150 Zeilen (jeweils eine Beobachtung einer Blume)
- 5 Spalten (4 numerische Merkmale und eine kategoriale Zielvariable)

Dieser Datensatz wird oft verwendet, um Modelle zu trainieren, die Klassifikationen vornehmen, z. B. um die Art einer Iris-Blume anhand ihrer Blütenmerkmale zu bestimmen.

### 1. Scatter Plot (Streudiagramm)
Ein Streudiagramm wird verwendet, um die Beziehung zwischen zwei kontinuierlichen Variablen zu zeigen.

#### `matplotlib`

In [None]:
# Scatter Plot für die Variablen 'sepal_length' und 'sepal_width'
plt.figure(figsize=(6.5, 5))
plt.scatter(data['sepal_length'], data['sepal_width'], color='blue', alpha=0.7)
plt.xlabel('Sepal Length')
plt.ylabel('Sepal Width')
plt.title('Scatter Plot von Sepal Length und Sepal Width')
plt.show()

#### `pandas` - gleiches Bild mit nur einer Code-Zeile

In [None]:
data.plot(kind="scatter",x='sepal_length', y='sepal_width', title="Scatterplot von Sepal Length und Sepal Width");

Man kann sogar 3 Werte damit darstellen:

In [None]:
# 3.Dimension durch Farbe
data.plot(kind="scatter", x="sepal_length", y="sepal_width",c="petal_length", cmap='coolwarm');

In [None]:
# 3.Dimension durch Größe
data.plot(kind="scatter", x="sepal_length", y="sepal_width",s=data["petal_length"]*50, alpha=0.5);

### 2. Balkendiagramm (Bar Plot)
Ein Balkendiagramm wird verwendet, um kategorische Daten darzustellen, indem die Häufigkeit oder der Durchschnitt einer Variablen für verschiedene Kategorien angezeigt wird.

In [None]:
data.groupby("species")["sepal_length"].mean().plot(kind='bar', title="Durchschnittliche Sepal Length pro Spezies");

Alle Spalten nebeneinander anzeigen lassen:

In [None]:
df2.plot(kind="bar")

Kann auch gesapelt dargestellt werden:

In [None]:
df2.plot(kind="bar", stacked=True)

Oder auch so:

In [None]:
df2.plot(kind="barh", stacked=True)

### 3. Histogramm
Ein Histogramm zeigt die Verteilung einer einzelnen numerischen Variablen und ordnet die Werte in Intervalle (bins) ein.

In [None]:
data["sepal_length"].plot(kind='hist', bins=20, title="Histogramm der Sepal Length");

### 4. Flächendiagramm (Area Plot)
Ein Flächendiagramm (Area Plot) wird verwendet, um die Veränderung von Daten über eine kontinuierliche Dimension darzustellen, wobei die Fläche unter der Kurve die kumulierten Werte anzeigt.

In [None]:
data.plot(kind='area', title="Flächendiagramm kummulierten Spaltenwerte");

### 5. Boxplot

In [None]:
data.plot(kind="box");

### 6.Kreisdiagramm

In [None]:
data['species'].value_counts().plot(kind='pie', autopct='%1.1f%%', title="Verteilung der Iris-Spezies", startangle=90);

### 7. histplot und kdeplot mit Seaborn
Pandas unterstützt diese Diagrammtypen direkt nicht. Dafür verwenden wir Seaborn.<br>

In [None]:
sns.histplot(data['sepal_length'],bins=20, kde=True)
plt.title("Histogramm mit KDE von Sepal Length")
plt.show()

**KDE (Kernel Density Estimation)** ist eine Methode zur Schätzung der Dichtefunktion einer Zufallsvariablen. Sie ist ein nicht-parametrisches Verfahren, das verwendet wird, um die zugrunde liegende Wahrscheinlichkeitsdichte von Daten zu schätzen, ohne eine bestimmte Verteilungsform (wie Normalverteilung) anzunehmen

#### KDE-Plot
Der KDE-Plot zeigt die Dichte einer Variablen und ist oft als Alternative zum Histogramm nützlich.

In [None]:
sns.kdeplot(data['sepal_length'])
plt.title("KDE-Plot von Sepal Length")
plt.xlim([4,8])
plt.show()

### 6. Pairplot
Der Pairplot zeigt Scatterplots für alle Variablenpaare und die Verteilung jeder Variable auf der Diagonalen.<br>
Das Argument hue in Seaborn-Visualisierungen, wie dem pairplot, wird verwendet, um die Daten nach einer kategorialen Variable zu färben. So lassen sich Unterschiede zwischen den Kategorien direkt in der Grafik erkennen.

In [None]:
# Mit KDE t in der Diagonale
sns.pairplot(data, hue='species')
plt.suptitle("Pairplot für den Iris-Datensatz", y=1.02)
plt.show()

In [None]:
# Mit Hist Plot in der Diagonale
sns.pairplot(data, hue='species', diag_kind='hist')
plt.suptitle("Pairplot für den Iris-Datensatz", y=1.02)
plt.show()

### 7. Heatmap
Eignet sich gut zur Darstellung der Korrelationsmatrix:

In [None]:
corr_m = data.corr(numeric_only=True)
sns.heatmap(corr_m, annot=True, cmap="coolwarm");