# Cheat Sheet
Hier finden Sie alle Befehle und wie wir Sie in den Übungen benutzt haben

## U01 - Einführung

### Die 2 Modi einer Zelle
* <font color='blue'>Blauer Rand -> Zellenmodus</font>
* <font color='green'>Grüner Rand -> Bearbeitungmodus</font>

### Wichtige Shortcuts (Im Zellenmodus):

* **[A]** Above - Neue Zelle überhalb einfügen
* **[B]** Below - Neue Zelle unterhalb einfügen
* **[M]** Markdown - Formatiere die Zelle als Markdown Zelle
* **[Y]** Code - Formatiere die Zelle als Code Zelle
* **[Enter]** - Wechsel in den Bearbeitungsmodus 

### Wichtige Shortcuts (Im Bearbeitungsmodus):


* **[STRG+ENTER]** Ausführen einer Zelle, automatischer Wechsel in den Zellenmodus
* **[ESC]** Verlassen des Bearbeitungsmodus


Mehr Tastenkürzel findest du unter ``HELP -> KEYBOARD SHORTCUTS``


## U02 - Einführung in die Pandas Bibliothek
### Importieren einer Bibliothek
in python mit oder ohne alias:

``import pandas`` oder mit Alias ``import pandas as pd``

### Informationen über den DataFrame sammeln

| Befehl | Beschreibung |
|:----------------- |:------------------------------------|
|**pd.read_csv()** | Einlesen einer CSV Datei|
|**df.head()**| Ersten 5 Zeilen |
|**df.tail(<font color='purple'>3</font>)** | Letzten 3 Zeilen |
|**df.sample(<font color='purple'>5</font>)** | 5 zufällige Datensätze | 
|**df.info()**| Informationen über den DataFrame |

### Auswählen von Daten

| Befehl | Beschreibung |
|----------------- |:------------------------------------|
|**df [ <font color='purple'>'Spaltename'</font> ]** | Eine Spalte als Series auswählen|
|**df [ <font color='purple'>['Spalte1', 'Spalte2' ]</font> ]** | Mehrere Spalten auswählen|
|**df.loc [ <font color='purple'>'Zeilenname'</font> ]** | Eine Zeile als Series auswählen|
|**df.loc [ <font color='purple'>['Zeile1', 'Zeile2' ]</font> ]** | Mehrere Zeilen auswählen|

## U03 - Suchen, Filtern und Sortieren


### Filter mit einem Kriterium:  df [ <font color='purple'>( FILTER )</font> ]

> df[<font color='purple'> ( df[ ‘Spalte‘ ] == Kriterium )</font> ]


### Filter mit mehreren Kriterien:  df [ <font color='purple'>( FILTER )</font> <font color='orange'>&</font> <font color='green'>( FILTER )</font> ]

> df [ <font color='purple'>( df[ ‘Spalte1‘ ] == Kriterium )</font> <font color='orange'>&</font> <font color='green'>( df[ ‘Spalte2‘ ] == Kriterium )</font> ]

## Vergleichs Operatoren
Möchte ich eine Serie mit einem Wert vergleich kann ich folgende Operatoren nutzen:

| Operator | Funktion      |
|----------|---------------|
|    ==    | gleich        |
|    !=    | ungleich      |
|    >     | größer        |
|    >=    | größer/gleich |
|    <     | kleiner       |
|    <=    | kleiner/gleich|

## Logische Operatoren (Verknüpfung)
| Operator | Funktion      |
|----------|---------------|
|    &     | und           |
|  &#124;  | oder          |
|    ~     | invertieren   |


## U04 - Basic Funktionen
| Befehl | Beschreibung |
|----------------- |:------------------------------------|
|**np.where( <font color='purple'>Bedingung, Wenn-True, Wenn-False </font>)**| WENN-Funktion von Numpy |
|**s.min()\* \\ df.min()\*** | Minimalwert von einer Serie/DataFrame |
|**df.describe()** | Statistische Beschreibung des DataFrames |
|**s.round( <font color='purple'>Anzahl der Stellen</font> )** | Mehrere Zeilen auswählen |

**\*** geht auch für .min(), .max(), .mean(), .std(), .median(), .sum()

## U05 - Arbeiten mit Text

| Befehl | Beschreibung |
|----------------- |:------------------------------------|
|**df.fillna( <font color='purple'> Füllwert </font> )**| Fülle alle ungültigen Werte im DataFrame oder in der **Series mit s.fillna()** |
|**s.str.strip()** | Führende und Folgende Leerzeichen entfernen in einer Series | 
|**s1.str.cat( <font color='purple'>s2, sep=' '</font> )**| Verbinden zweier Textspalten mit Trennzeichen |
|**s.str.split( <font color='purple'>' ', expand=True</font> )**| Trennnen des Textes entlang des Trennzeichens |


### Weitere Methoden des ``.str`` Accesors:
| Befehl | Beschreibung |
|---|---|
|**.str.upper()**| Nur Großbuchstaben (Upper Case)|
|**.str.lower()**| Nur Kleinbuchstaben (Lower Case)|
|**.str.capitalize()**| Nur den Ersten Buchstaben groß schreiben (Capital)|
|**.str.title()**| - Texte immer Pascal Case schreiben (Title)|

...


## U06 - Nachschlagen und Verweisen

Befehl zum Nachlagen und Verweisen: ``pd.merge()``

### Argumente

* Verknüpungsart - how
    * **outer** - Alle Elemente
    * **inner** - Alle Datensätze für die eine Verknüpfung existiert
    * **left** - Alle Elemente des linken DataFrames mit Daten aus dem rechten falls vorhanden
    * **right** - Alle Elemente des rechten DataFrames mit Daten aus dem linken falls vorhanden
    
* linker/rechter Bezug
    * Spalten: **left_on=[<font color="red">'S1', 'S2'</font>]**
    * Index: **left_index=<font color="green">True</font>**

* Suffixes ändern mit **suffixes=('_left', '_right')**
* Anzeigen der Verknüpfungsart mit **indicator=True**


Beispiel:
``pd.merge(df_A, df_B, how='inner', left_index=True, right_index=True, suffixes=('_left', '_right'), indicator=True)``

### Weiter Befehle

| Befehl | Beschreibung |
|----------------- |:------------------------------------|
| **df.reset_index()**| Index zur Spalte machen |
| **df.rename( <font color="purple">columns={'A':'A_New'} </font> )** | Spalte 'A' umbennen in Spalte 'A_New' |

## U07 - Gruppieren
1.Schritt Gruppieren:
``df.groupby(['Ebene 1', 'Ebene 2'])``

2.Schritt Verarbeiten der Gruppen

| Befehl | Beschreibung |
|-----------------|:------------------------------------|
| **.count()**| Zählen der Einträge |
| **.size()** | Anzahl der Datensätze pro Gruppe |
| **.sum()** | Summe, aber auch alle anderen Grundfunktionen wie .mean usw. anwendbar|
| **.first() <br>.last()** | Erster/Letzter Datensatz in jeder Gruppe |
| **.head() <br>.tail()** | Ersten/Letzten X Datensätze in jeder Gruppe |

## U08 - Visualisierungen
Schritte für Grafiken

--> Daten Darstellung **auswählen** (Liniendiagram, BoxPlot, Histogram...)<br>
--> Daten **selektieren** (Welche Spalten brauch ich?)<br>
--> Daten **auswerten** (z.B. durch ``.value_counts()`` oder durch ``.groupby()``<br>
--> Daten **darstellen** (Wie möchte ich die Daten Darstellen?) <br>
--> Daten **transformieren** (z.B. mit ``.unstack()`` den letzten Index zu Spalten machen)<br>
--> **Darstellung anpassen** (Farben etc.)

Arbeiten mit der Bibliothek **matplotlib** oder mit **Pandas** (Links siehe Einheit 8)

**Beispiele**:
``df.boxplot()``
``df.plot()``
``df.hist()`` 

Graphen findest in den Packages matplotlib und seaborn

## U09 - Zeitreihen bearbeiten

## U10 - Widgets

## Sammlung Bereinigen von Daten


| Befehl | Beschreibung |
|-----------------|:------------------------------------|
| **s.isna()**| Series mit True/False Werten. Ist True, wenn in der Zeile ein NaN Eintrag steht. |
| **df.drop(<font color="purple"> columns=['Spalte']</font> )**| Entferenen von Spalten |
| **df.dropna( <font color="purple">subset=['Spalte'] </font> )**| Löschen aller Einträge mit NaN Einträgen in der entsprechenden Spalte |
|**df.fillna( <font color='purple'> Füllwert </font> )**| Fülle alle ungültigen Werte im DataFrame  |
|**s.fillna( <font color='purple'> Füllwert </font> )** | Fülle alle ungültigen Werte in der Series |



## Nach dem Kurs

* Installieren Sie sich die benötigte Software. Die Anleitung finden Sie im **doc** Ordner
* Schließen Sie alle Zusatzübungen ab
* Die Abschlussübung dient als gute Wiederholung und als kleiner Ausblick
* Vertiefen Sie ihr Wissen zum Beispiel durch Seiten wie [www.kaggle.com](https://www.kaggle.com/learn/overview)
* bung, Übung, Übung…