# Daten Visualisieung

Datenvisualisierung ist ein wichtiger Bestandteil der Datenanalyse, der es ermöglicht, Muster, Trends und Beziehungen in den Daten visuell darzustellen. In Python gibt es verschiedene Bibliotheken, die zur Visualisierung von Daten verwendet werden können, darunter Pandas, Matplotlib und Seaborn.

- **Pandas**: bieter einfachen Visualisierung von Daten,

- **Matplotlib**: eine umfangreiche Bibliothek zur Erstellung von Grafiken und Diagrammen in Python. Es bietet eine Vielzahl von Funktionen zur Anpassung von Grafiken und zur Erstellung verschiedener Arten von Plots, einschließlich Linienplots, Histogrammen, Scatterplots und Balkendiagrammen.

- **Seaborn**: eine weitere Bibliothek zur Datenvisualisierung, die auf Matplotlib aufbaut und die Erstellung ansprechender und komplexerer Diagramme vereinfacht. Es bietet eine höhere Abstraktionsebene und ermöglicht die Erstellung von Diagrammen mit wenigen Zeilen Code.


## 1 - Pandas

[<img src="bilder/pandas.png"  width="400" height="300"  title="Pandas Visualisierung">](https://pandas.pydata.org/docs/user_guide/visualization.html)


In [None]:
# wir wollen unseren Pickle jetzt lesen



In [None]:
# die "head" Methode erstellt ein neuen df
# die "T" transponiert


In [None]:
# Linie Abbildung von ein Teil unseres dfs


In [None]:
# Histogramm


In [None]:
df.groupby('gender')[['is_urban', 	'employed_last_year']].sum()

In [None]:
# Abbildungen von Gruppen



## 2 - Matplotlib

[<img src="bilder/matplot_title_logo.png"  width="400" height="300"  title="Matplotlib">](https://matplotlib.org/)

Pandas eignet sich gut für schnelle und standardisierte Visualisierungen. Sobald wir jedoch komplexere Grafiken benötigen, sind wir mit Matplotlib, dem Paket, das auch von Pandas verwendet wird, besser bedient. Mit Matplotlib sind wir wesentlich flexibler und können Grafiken leicht anpassen, Abbildungen nebeneinander stellen, Anmerkungen hinzufügen usw...
<br>
<br>
Der beste Weg, eine Abbildung zu erstellen, ist die [Matplotlib-Galerie](https://matplotlib.org/stable/gallery/index.html). Sie ist eine Sammlung verschiedener Diagrammtypen einschließlich des Quellcodes

In [None]:
# Eine einfache Linien Abbildung


# Eine angepasste Linien Abbildung


In [None]:
# Die Anpassung kann beliebig komplizierter werden...



<img src="bilder/einfach bar.png"  width="400" height="300"  title="Matplotlib Einfach Bar">

Es ist häufig nützlich, Diagramme **nebeneinander darzustellen**. Der beste Weg, dies zu tun, ist mit der Methode ```plt.subplots``` ([beispiel](https://matplotlib.org/stable/gallery/subplots_axes_and_figures/subplots_demo.html)). Sie gibt einen Plotbereich (```fig```) sowie ein Achsenobjekt (```axs```) mit den angegebenen Abmessungen zurück. Die Achsenabmessungen entsprechen der Platzierung der Unterdarstellungen.

Hinweis: In Matplotlib gibt es eine knifflige Namenskonvention. **Axes** bezieht sich auf ein Unterdarstellungsobjekt. **Axis** bezieht sich auf die Achse eines Diagramms.

In [None]:
fig, axs = plt.subplots(1,2,figsize=(10,5))

axs[0].plot(df['age'].loc[:60], 
         color="r", # fabre
         linestyle=':', # linientyp
         marker='s', # zeichentyp
         linewidth=3 # linienbreite
           );

axs[0].set_title('Age of the first 60 people');
axs[0].set_ylabel('years');


df.groupby('gender')[['is_urban', 	'employed_last_year']].sum().plot.bar(title = 'number of urban and employed for each gender',ax=axs[1]); 
axs[1].set_ylabel('number of people');

Matplotlib bietet eine Reihe von [vordefinierten Stilen](https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html), die uns helfen, manuelle Verschönerungen zu sparen. Sie können die vollständige Liste der verfügbaren Stile mit dem folgenden Befehl anzeigen:

In [None]:
print(plt.style.available)

<img src="bilder/kompliziert bar.png"  width="400" height="300"  title="Matplotlib Kompliziert Bar">

<span style="font-size:1.3em;">⚙️ <ins>Matplotlib</ins></span>

Versuch die Obere Abbildung zu kriegen. Tips:
- das ```axs``` Objekt wird eine Matrix 2x2 sein, d.h. es gibt  ```axs[0][0]```,  ```axs[0][1]```,  ```axs[1][0]``` und  ```axs[1][1]```
- ein [Beispiel](https://www.geeksforgeeks.org/style-plots-using-matplotlib/) für die Nutzung von plt.style.context. Damit es jeder Diagram zugreift, muss man die Variante mit ```with``` nutzen (Beispiel 4)
- das Kommentar und Pfeile kriegt man mit der [annotate](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.annotate.html) Methode

## 3 - Seaborn

[<img src="bilder/seaborn.png"  width="400" height="300"  title="Seaborn">](https://seaborn.pydata.org/)


Seaborn ist eine Python-Bibliothek, die auf Matplotlib aufbaut und speziell für die Erstellung ansprechender und aussagekräftiger statistischer Grafiken entwickelt wurde. Sie bietet eine einfach zu bedienende Schnittstelle für die Visualisierung von Daten und ermöglicht es, komplexe Diagramme mit nur wenigen Zeilen Code zu erstellen. Seaborn bietet eine Vielzahl von Diagrammtypen und Stilvorlagen, um die Darstellung Ihrer Daten schnell anzupassen und professionelle Ergebnisse zu erzielen.


In [None]:
import seaborn as sns

[sns.regplot](https://seaborn.pydata.org/generated/seaborn.regplot.html#seaborn.regplot)

[sns.histplot](https://seaborn.pydata.org/generated/seaborn.histplot.html#seaborn-histplot)

In [None]:
# in ein Histogramm, können wir sehr einfach eine "kernel density funtion" aufsetzen



[sns.catplot](https://seaborn.pydata.org/generated/seaborn.catplot.html#seaborn.catplot)

In [None]:
# verschiedene kategorisch Diagramme


In [None]:
# mit der "hue" Parameter, können wir eine Variable vergleichen



In [None]:
#  wir können die Größe eines Punktes leicht mit den Werten einer Variablen indexieren
plt.figure(figsize=(10, 7))
sns.scatterplot(x="age", y="poverty_probability", hue='gender', size="education_level",
                palette=sns.color_palette(["#2ecc71", "#e74c3c"]),
                sizes=(10, 50), data=df[:1000]);

Falls wir mehr Variablen vergleichen möchten, können wir die [FacetGrid](https://seaborn.pydata.org/generated/seaborn.FacetGrid.html#seaborn.FacetGrid) Methode verwenden

In [None]:
# wir erstellen das Gitter, und sagen explizit was kommt in die Spalten und Zeilen


# Dann können wir die Diagrammtyp wählen



In [None]:
# oder wir können ein pairplot nutzen



In [None]:
# das Heatmap bietet eine tabellarische Form mit Farben auf der Grundlage der Intensität
plt.figure(figsize = (40,40))
sns.heatmap(round(df.drop(columns = ['country',
                                     'gender',
                                     'religion' 	,
                                     'relationship_to_hh_head',
                                     'employment_category_last_year',
                                     'employment_type_last_year']).corr(),
                  2), 
            cmap = "coolwarm", 
            annot = True, 
            annot_kws = {"size":12});