# Tutorial - Datenanalyse mit Pandas/Seaborn

## Herzlich Willkommen! 
<b>Du lernst heute Programmieren 🤓👍</b> <br>
<br>
<br>
Genauer gesagt: <br>
Du lernst <br>
1. Daten einlesen 👀
2. Daten manipulieren 
3. Daten plotten bzw. grafisch darstellen 📈📊

<br>
Dazu gibt es verschiedene Pakete, die dir helfen, doch bevor es los geht: noch ein paar wichtige Vorbereitungen! <br>
<br>
Um die Pakete Pandas und Seaborn nutzen zu können musst du dir einen Kernel bauen, doch wie geht das? 🧐 <br>

- Öffne ein Terminal im Browser (File >  New Launcher > Terminal) und gib folgendes ein:`export ftp_proxy="http://proxy.computational.bio.uni-giessen.de:3128" && export http_proxy="http://proxy.computational.bio.uni-giessen.de:3128" && export https_proxy="http://proxy.computational.bio.uni-giessen.de:3128"`
- Aktiviere Conda. Gib ein: `conda activate`
- Erstelle dir ein neues Conda environment `conda create --name datenanalyse`
- Aktiviere das neu erstellte Conda environment `conda activate datenanalyse`
- Installiere die folgenden Packages mit dem Befehl `conda install PACKAGENAME`: <br>
    Ersetze dabei PACKAGENAME  durch:
    1. pandas
    2. seaborn
    3. ipython
- Aufgrund von Versionsproblemen installiere eine andere Version von jedi mit `pip install jedi==0.17.2`
- Füge das erstellte Conda environment dem Jupyter-Notebook Kernel hinzu `python -m ipykernel install --user --name datenanalyse --display-name "datenanalyse"`
- Wähle für dieses Jupyter-Notebook deinen neu erstellten Kernel "datenanalyse" aus

Jetzt kann es los gehen!


<br>

Weitere Informationen findest du unter anderem hier:
+ https://pandas.pydata.org/docs/index.html (Pandas Dokumentation)
+ https://github.com/jvns/pandas-cookbook (Panas Tutorial)
+ https://seaborn.pydata.org/index.html (Seaborn Dokumentation)

Dieses Tutorial ist interaktiv, tob dich aus und probiere gerne auch Neues aus!

<br>

# Kleine Tipps und Tricks mit Jupyter-Notebook

Eine Zelle kannst du ausführen, indem du `Shift` und `Enter` drückst. <br>
Ob die Zelle gelaufen ist, erkennst du an den Eckigen Klammern links neben jeder Zelle. <br>
+ Ist die Klammer leer `[ ]`, wurde die Zelle noch nicht ausgefüht. <br>
+ Ist in der Klammer ein `*` zu sehen, läuft sie gerade <br>
+ und steht eine Nummer darin, ist die Zelle bereits gelaufen. Die Nummer gibt an, in welcher Reihenfolge, die Zellen in dem Notebook ausgeführt wurden.

In [1]:
# importieren der Packages
# mit as ... können wir später mit dem Kürzel auf die Packages und deren Funtkionen zugreifen.
import pandas as pd
import seaborn as sns

Mit `Tab` löst du die Autoverfollständigung aus. <br>
Probier es einfach mal aus!

In [None]:
pd.re

Mit `Shift` + `Tab` erhältst du eine Liste an Parametern, welche die Funktion zur verfügung stellt, sowie eine vollständige Dokumentation.

In [None]:
pd.read_csv(

Hier findest du noch weitere hilfreiche Keyboard Shortcuts für das Jupyter-Notebook: <br>
https://cheatography.com/weidadeyue/cheat-sheets/jupyter-notebook/pdf_bw/

# 1. Daten einlesen

Der benutzte Datensatz stammt von dem Zentrum für Krebsregisterdaten (https://www.krebsdaten.de/Krebs/DE/Datenbankabfrage/datenbankabfrage_stufe1_node.html): <br>
Er enthält die Krebsstatistiken für Deutschland von 1999-2019.

Da es sich bei dem Format der Daten um eine csv-Datei handelt, benutzten wir die Funktion `read_csv`. Wie du oben beim testen der Autoverfollständigung schon gesehen hast, werden noch viele weitere Formate wie zum Beispiel sql, xml oder hdf unterstützt.

In [17]:
df = pd.read_csv('/homes/ckilian/Arbeit/gitRepos/teaching_V-BI-BSA/data/Krebsdaten.csv')

ParserError: Error tokenizing data. C error: Expected 22 fields in line 22, saw 23


So lässt sich leider nichts lesen 😭 <br>
Mit den folgenden Maßnahmen lässt sich das jedoch beheben:
1. Die Fehlermeldung gibt Hinweise darauf, dass wir den falschen `delimiter` ausgewählt haben. Dieser gibt an, mittels welchem Zeichen die einzelnen Spalten von einander getrennt werden. Als default Einstellung wird der Funktion `read_csv` ein Komma `,` übergeben. In unserem Fall muss es jedoch ein Semicolon `;`  sein. 
2. Beim Herunterladen wurden die Header (Überschriften) nicht übernommen. Wir müssen sie also manuell hinzufügen.
3. Aus irgendwelchen Gründen wurde eine letzte Spalte hinzugefügt, die keine Einträge enthält. Die kann weg!


In [18]:
df = pd.read_csv('/homes/ckilian/Arbeit/gitRepos/teaching_V-BI-BSA/data/Krebsdaten.csv', sep=";", header=None)

In [24]:
# Um einen Überblick über unsere Daten zu erhalten, schauen wir uns zunächst die ersten 3 Zeilen an.
df[:3]

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,15,16,17,18,19,20,21,22,23,24
0,,,,1999,2000,2001,2002,2003,2004,2005,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,
1,0 - 4,Mundhöhle und Rachen (C00-C14),weiblich,0,1,0,1,0,0,0,...,0,1,0,0,0,0,0,0,0,
2,0 - 4,Mundhöhle und Rachen (C00-C14),männlich,0,0,0,0,0,1,0,...,0,0,0,0,0,0,1,0,0,


# 2. Daten manipulieren

Beim Einlesen der csv-Datei erhält man ein Object vom Typ `DataFrame` bestehend aus Reihen und Spalten. Die Überschriften der Spalten nennt man `header` und der Spalten `index`. Pandas liefert einen Haufen an Funktionen, die es uns erlauben dieses DataFrame schnell und mit wenig code zu manipulieren. <br>
Darunter fällt:
+ Anzeigen der Daten
+ Auswählen/ Selektieren von Daten
+ Rechenoperationen auf die Daten anwenden
+ Zusammenführen von DataFrames
+ (Plots)

In [25]:
type(df)

pandas.core.frame.DataFrame

# 3. Daten plotten

Um die vorbereiteten Daten Visuell darzustellen werde ich im Folgenden das Package Seaborn verwenden. <br>
<br>
Themen:
+ Visualisierung statistischer Beziehungen
+ Visualisierung von Verteilungen von Daten
+ Plotten mit kategorialen Daten
+ Visualisierung von Regressionsmodellen
+ Aufbau von strukturierten Multi-Plot-Gittern