# Tutorial - Datenanalyse mit Pandas/Seaborn

## Herzlich Willkommen! 
<b>Du lernst heute Programmieren 🤓👍</b> <br>
<br>
<br>
Genauer gesagt: <br>
Du lernst <br>
1. Daten einlesen 👀
2. Daten manipulieren 
3. Daten plotten bzw. grafisch darstellen 📈📊

<br>
Dazu gibt es verschiedene Pakete, die dir helfen, doch bevor es los geht: noch ein paar wichtige Vorbereitungen! <br>
<br>
Um die Pakete Pandas und Seaborn nutzen zu können musst du dir einen Kernel bauen, doch wie geht das? 🧐 <br>

- Öffne ein Terminal im Browser (File >  New Launcher > Terminal) und gib folgendes ein:`export ftp_proxy="http://proxy.computational.bio.uni-giessen.de:3128" && export http_proxy="http://proxy.computational.bio.uni-giessen.de:3128" && export https_proxy="http://proxy.computational.bio.uni-giessen.de:3128"`
- Aktiviere Conda. Gib ein: `conda activate`
- Erstelle dir ein neues Conda environment `conda create --name datenanalyse`
- Aktiviere das neu erstellte Conda environment `conda activate datenanalyse`
- Installiere die folgenden Packages mit dem Befehl `conda install PACKAGENAME`: <br>
    Ersetze dabei PACKAGENAME  durch:
    1. pandas
    2. seaborn
    3. ipython
- Aufgrund von Versionsproblemen installiere eine andere Version von jedi mit `pip install jedi==0.17.2`
- Füge das erstellte Conda environment dem Jupyter-Notebook Kernel hinzu `python -m ipykernel install --user --name datenanalyse --display-name "datenanalyse"`
- Wähle für dieses Jupyter-Notebook deinen neu erstellten Kernel "datenanalyse" aus

Jetzt kann es los gehen!


<br>

Weitere Informationen findest du unter anderem hier:
+ https://pandas.pydata.org/docs/index.html (Pandas Dokumentation)
+ https://github.com/jvns/pandas-cookbook (Panas Tutorial)
+ https://seaborn.pydata.org/index.html (Seaborn Dokumentation)

Dieses Tutorial ist interaktiv, tob dich aus und probiere gerne auch Neues aus!

<br>

# Kleine Tipps und Tricks mit Jupyter-Notebook

Eine Zelle kannst du ausführen, indem du `Shift` und `Enter` drückst. <br>
Ob die Zelle gelaufen ist, erkennst du an den Eckigen Klammern links neben jeder Zelle. <br>
+ Ist die Klammer leer `[ ]`, wurde die Zelle noch nicht ausgefüht. <br>
+ Ist in der Klammer ein `*` zu sehen, läuft sie gerade <br>
+ und steht eine Nummer darin, ist die Zelle bereits gelaufen. Die Nummer gibt an, in welcher Reihenfolge, die Zellen in dem Notebook ausgeführt wurden.

In [1]:
# importieren der Packages
# mit as ... können wir später mit dem Kürzel auf die Packages und deren Funtkionen zugreifen.
import pandas as pd
import seaborn as sns

Mit `Tab` löst du die Autoverfollständigung aus. <br>
Probier es einfach mal aus!

In [None]:
pd.re

Mit `Shift` + `Tab` erhältst du eine Liste an Parametern, welche die Funktion zur verfügung stellt, sowie eine vollständige Dokumentation.

In [None]:
pd.read_csv(

Hier findest du noch weitere hilfreiche Keyboard Shortcuts für das Jupyter-Notebook: <br>
https://cheatography.com/weidadeyue/cheat-sheets/jupyter-notebook/pdf_bw/

<br>

# 1. Daten einlesen

Der benutzte Datensatz stammt von dem Zentrum für Krebsregisterdaten (https://www.krebsdaten.de/Krebs/DE/Datenbankabfrage/datenbankabfrage_stufe1_node.html): <br>
Er enthält die Krebsstatistiken für Deutschland von 1999-2019.

Da es sich bei dem Format der Daten um eine csv-Datei handelt, benutzten wir die Funktion `read_csv`. <br> Wie du oben beim testen der Autoverfollständigung schon gesehen hast, werden noch viele weitere Formate wie zum Beispiel sql, xml oder hdf von Pandas unterstützt.

In [2]:
df = pd.read_csv("/homes/ckilian/Arbeit/gitRepos/teaching_V-BI-BSA/data/Krebsdaten.csv")

ParserError: Error tokenizing data. C error: Expected 22 fields in line 22, saw 23


So lässt sich leider nichts lesen 😭 <br>
Mit den folgenden Maßnahmen lässt sich das jedoch beheben:
1. Die Fehlermeldung gibt Hinweise darauf, dass wir den falschen `delimiter` ausgewählt haben. Dieser gibt an, mittels welchem Zeichen die einzelnen Spalten von einander getrennt werden. Als default Einstellung wird der Funktion `read_csv` ein Komma `,` übergeben. In unserem Fall muss es jedoch ein Semicolon `;`  sein. Wir ändern explizit den parameter `sep=","` zu `sep=";"`.

In [4]:
df = pd.read_csv("/homes/ckilian/Arbeit/gitRepos/teaching_V-BI-BSA/data/Krebsdaten.csv", sep=";")
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,1999,2000,2001,2002,2003,2004,2005,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,Unnamed: 24
0,0 - 4,Mundhöhle und Rachen (C00-C14),weiblich,00,01,00,01,00,00,00,...,00,01,00,00,00,00,00,00,00,
1,0 - 4,Mundhöhle und Rachen (C00-C14),männlich,00,00,00,00,00,01,00,...,00,00,00,00,00,00,01,00,00,
2,0 - 4,Verdauungsorgane (C15-C26),weiblich,03,01,01,00,02,02,01,...,00,02,01,01,02,01,00,01,01,
3,0 - 4,Verdauungsorgane (C15-C26),männlich,01,01,01,02,02,01,04,...,02,01,01,00,00,02,01,01,00,
4,0 - 4,Atmungs- und Brustorgane (C30-C39),weiblich,01,01,00,00,01,01,00,...,00,02,01,01,00,00,00,01,00,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
607,85+,Non-Hodgkin-Lymphome (C82-C88),männlich,577,611,631,603,604,704,569,...,768,906,878,909,940,912,935,959,952,
608,85+,Multiples Myelom (C90),weiblich,299,225,234,259,245,250,239,...,254,263,255,238,254,272,256,263,261,
609,85+,Multiples Myelom (C90),männlich,420,418,374,360,412,379,378,...,456,410,458,496,448,423,476,482,444,
610,85+,Leukämien (C91-C95),weiblich,662,585,565,613,621,591,646,...,611,606,648,636,652,679,680,678,661,


2. Um später keine Konflikte mit den Funktionen zu erzeugen, die wir benutzten wollen, ersetzen wir alle `,` durch `.`. <br>
Für den Fall, dass du ausschließlich Floats/Intiger (Zahlen) und keine Strings (Worte) in deinem Datensatz hast, kannst du beim Einlesen auch den Paramter `decimal: 'str' = '.'` auf Komma umsetzen -> pd.read_csv(..., decimal=",")

In [5]:
df = df.stack().str.replace(",",".").unstack()
df

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,1999,2000,2001,2002,2003,2004,2005,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,0 - 4,Mundhöhle und Rachen (C00-C14),weiblich,0.0,0.1,0.0,0.1,0.0,0.0,0.0,...,0.0,0.0,0.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0 - 4,Mundhöhle und Rachen (C00-C14),männlich,0.0,0.0,0.0,0.0,0.0,0.1,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.0,0.0
2,0 - 4,Verdauungsorgane (C15-C26),weiblich,0.3,0.1,0.1,0.0,0.2,0.2,0.1,...,0.1,0.0,0.2,0.1,0.1,0.2,0.1,0.0,0.1,0.1
3,0 - 4,Verdauungsorgane (C15-C26),männlich,0.1,0.1,0.1,0.2,0.2,0.1,0.4,...,0.1,0.2,0.1,0.1,0.0,0.0,0.2,0.1,0.1,0.0
4,0 - 4,Atmungs- und Brustorgane (C30-C39),weiblich,0.1,0.1,0.0,0.0,0.1,0.1,0.0,...,0.1,0.0,0.2,0.1,0.1,0.0,0.0,0.0,0.1,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
607,85+,Non-Hodgkin-Lymphome (C82-C88),männlich,57.7,61.1,63.1,60.3,60.4,70.4,56.9,...,74.6,76.8,90.6,87.8,90.9,94.0,91.2,93.5,95.9,95.2
608,85+,Multiples Myelom (C90),weiblich,29.9,22.5,23.4,25.9,24.5,25.0,23.9,...,23.3,25.4,26.3,25.5,23.8,25.4,27.2,25.6,26.3,26.1
609,85+,Multiples Myelom (C90),männlich,42.0,41.8,37.4,36.0,41.2,37.9,37.8,...,39.6,45.6,41.0,45.8,49.6,44.8,42.3,47.6,48.2,44.4
610,85+,Leukämien (C91-C95),weiblich,66.2,58.5,56.5,61.3,62.1,59.1,64.6,...,57.1,61.1,60.6,64.8,63.6,65.2,67.9,68.0,67.8,66.1


3. Leider wurden die Überschriften nicht übernommen, also werden wir sie manuell hinzufügen bzw. umbenennen.

In [6]:
df = df.rename(columns={"Unnamed: 0": "Alter", "Unnamed: 1": "Krebsart", "Unnamed: 2": "Geschlecht"})
df

Unnamed: 0,Alter,Krebsart,Geschlecht,1999,2000,2001,2002,2003,2004,2005,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,0 - 4,Mundhöhle und Rachen (C00-C14),weiblich,0.0,0.1,0.0,0.1,0.0,0.0,0.0,...,0.0,0.0,0.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0 - 4,Mundhöhle und Rachen (C00-C14),männlich,0.0,0.0,0.0,0.0,0.0,0.1,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.0,0.0
2,0 - 4,Verdauungsorgane (C15-C26),weiblich,0.3,0.1,0.1,0.0,0.2,0.2,0.1,...,0.1,0.0,0.2,0.1,0.1,0.2,0.1,0.0,0.1,0.1
3,0 - 4,Verdauungsorgane (C15-C26),männlich,0.1,0.1,0.1,0.2,0.2,0.1,0.4,...,0.1,0.2,0.1,0.1,0.0,0.0,0.2,0.1,0.1,0.0
4,0 - 4,Atmungs- und Brustorgane (C30-C39),weiblich,0.1,0.1,0.0,0.0,0.1,0.1,0.0,...,0.1,0.0,0.2,0.1,0.1,0.0,0.0,0.0,0.1,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
607,85+,Non-Hodgkin-Lymphome (C82-C88),männlich,57.7,61.1,63.1,60.3,60.4,70.4,56.9,...,74.6,76.8,90.6,87.8,90.9,94.0,91.2,93.5,95.9,95.2
608,85+,Multiples Myelom (C90),weiblich,29.9,22.5,23.4,25.9,24.5,25.0,23.9,...,23.3,25.4,26.3,25.5,23.8,25.4,27.2,25.6,26.3,26.1
609,85+,Multiples Myelom (C90),männlich,42.0,41.8,37.4,36.0,41.2,37.9,37.8,...,39.6,45.6,41.0,45.8,49.6,44.8,42.3,47.6,48.2,44.4
610,85+,Leukämien (C91-C95),weiblich,66.2,58.5,56.5,61.3,62.1,59.1,64.6,...,57.1,61.1,60.6,64.8,63.6,65.2,67.9,68.0,67.8,66.1


Jetzt sehen unsere Daten gut aus und sind bereit, für weitere Analyseschritte! 💪

<br>

# 2. Daten manipulieren

Beim Einlesen der csv-Datei erhält man ein Object vom Typ `DataFrame` bestehend aus Reihen und Spalten. Die Überschriften der Spalten nennt man `header` und der Spalten `index`. Pandas liefert einen Haufen an Funktionen, die es uns erlauben dieses DataFrame schnell und mit wenig code zu manipulieren. <br>
Darunter fällt:
+ Anzeigen der Daten
+ Auswählen/ Selektieren der Daten
+ Rechenoperationen auf die Daten anwenden
+ Zusammenführen von DataFrames
+ (Plots)

In [7]:
type(df)

pandas.core.frame.DataFrame

### 2.1 Anzeigen der Daten

Für einen schnellen Überblick ist es immer praktisch sich nur die erten `n` Zeilen ausgeben zu lassen. <br>
Hier exemplarisch die ersten 3 Zeilen.

In [8]:
df[:3]

Unnamed: 0,Alter,Krebsart,Geschlecht,1999,2000,2001,2002,2003,2004,2005,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,0 - 4,Mundhöhle und Rachen (C00-C14),weiblich,0.0,0.1,0.0,0.1,0.0,0.0,0.0,...,0.0,0.0,0.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0 - 4,Mundhöhle und Rachen (C00-C14),männlich,0.0,0.0,0.0,0.0,0.0,0.1,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.0,0.0
2,0 - 4,Verdauungsorgane (C15-C26),weiblich,0.3,0.1,0.1,0.0,0.2,0.2,0.1,...,0.1,0.0,0.2,0.1,0.1,0.2,0.1,0.0,0.1,0.1


In [9]:
# head macht nichts anderes, als der Aufruf in der Zelle oben drüber für die ersten 5 Zeilen
df.head()

Unnamed: 0,Alter,Krebsart,Geschlecht,1999,2000,2001,2002,2003,2004,2005,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
0,0 - 4,Mundhöhle und Rachen (C00-C14),weiblich,0.0,0.1,0.0,0.1,0.0,0.0,0.0,...,0.0,0.0,0.1,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0 - 4,Mundhöhle und Rachen (C00-C14),männlich,0.0,0.0,0.0,0.0,0.0,0.1,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.0,0.0
2,0 - 4,Verdauungsorgane (C15-C26),weiblich,0.3,0.1,0.1,0.0,0.2,0.2,0.1,...,0.1,0.0,0.2,0.1,0.1,0.2,0.1,0.0,0.1,0.1
3,0 - 4,Verdauungsorgane (C15-C26),männlich,0.1,0.1,0.1,0.2,0.2,0.1,0.4,...,0.1,0.2,0.1,0.1,0.0,0.0,0.2,0.1,0.1,0.0
4,0 - 4,Atmungs- und Brustorgane (C30-C39),weiblich,0.1,0.1,0.0,0.0,0.1,0.1,0.0,...,0.1,0.0,0.2,0.1,0.1,0.0,0.0,0.0,0.1,0.0


<ins>Aufgabe</ins>: Lass dir die ersten 10 Zeilen von `df` ausgeben.

In [10]:
# schreibe hier deine Antwort hin:


### 2.2 Auswählen/ Selectieren der Daten

Auf einzelne Spalten lässt sich ganz einfach zugreifen indem man den Spaltennamen in eckige Klammern hinter den Namen des DataFrame setzt. 

In [11]:
df["2003"]

0       0.0
1       0.0
2       0.2
3       0.2
4       0.1
       ... 
607    60.4
608    24.5
609    41.2
610    62.1
611    96.9
Name: 2003, Length: 612, dtype: object

Gleiches gilt, wenn man mehrere Spalten auswählen will. Man übergibt sie jedoch in einer Liste, deshalb benötigt es die zweiten eckigen Klammern.

In [12]:
df[["Krebsart","2003"]]

Unnamed: 0,Krebsart,2003
0,Mundhöhle und Rachen (C00-C14),0.0
1,Mundhöhle und Rachen (C00-C14),0.0
2,Verdauungsorgane (C15-C26),0.2
3,Verdauungsorgane (C15-C26),0.2
4,Atmungs- und Brustorgane (C30-C39),0.1
...,...,...
607,Non-Hodgkin-Lymphome (C82-C88),60.4
608,Multiples Myelom (C90),24.5
609,Multiples Myelom (C90),41.2
610,Leukämien (C91-C95),62.1


Das lässt sich kombinieren mit unserem ersten Befehl. 

In [13]:
df[["Krebsart","2003"]][:4]

Unnamed: 0,Krebsart,2003
0,Mundhöhle und Rachen (C00-C14),0.0
1,Mundhöhle und Rachen (C00-C14),0.0
2,Verdauungsorgane (C15-C26),0.2
3,Verdauungsorgane (C15-C26),0.2


Die Funktion `value_counts()` zählt, wie häufig `unique` also einzigartige Werte vorkommen. <br>
In diesem Fall, wie oft der String `weiblich` und wie oft der String `männlich` vorkommt. <br>
Beide kommen 306 mal vor!

In [14]:
df["Geschlecht"].value_counts()

weiblich    306
männlich    306
Name: Geschlecht, dtype: int64

Die Funktion `unique()` auf eine Spalte angewendet gibt alle einzigartigen Werte als Liste zurück.

In [15]:
df["Krebsart"].unique()

array(['Mundhöhle und Rachen (C00-C14)', 'Verdauungsorgane (C15-C26)',
       'Atmungs- und Brustorgane (C30-C39)',
       'Knochen u. Gelenkknorpel (C40-C41)',
       'Malignes Melanom der Haut (C43)',
       'Weichteile u. mesotheliales Gewebe (C45-C49)', 'Brustdrüse (C50)',
       'weibliche Geschlechtsorgane (C51-C58)',
       'männliche Geschlechtsorgane (C60-C63)', 'Harnorgane (C64-C68)',
       'Auge. Gehirn u. Zentrales Nervensystem (C69-C72)',
       'Endokrine Drüsen (C73-C75)',
       'sonstg.. ungenau u. n.bez. Lokalisationen (C76-C80)',
       'Morbus Hodgkin (C81)', 'Non-Hodgkin-Lymphome (C82-C88)',
       'Multiples Myelom (C90)', 'Leukämien (C91-C95)'], dtype=object)

Es wäre praktisch zu wissen, wie viele verschiedene Krebsarten wir denn nun gefunden haben. <br>
Du könntest jetzt anfangen zu zählen, aber WIR Programmierer sind faul! 🦥 Wir lassen für uns Zählen 😋<br>
Das ist genauer, schneller und weit weniger Fehleranfällig. <br>
Dazu kann man z.B. die Funktion `shape` verwenden. Sie gibt einem die Dimensionen des Objekts zurück, an den sie angehängt wird.

In [16]:
df["Krebsart"].unique().shape

(17,)

Wir wissen nun schon einiges über unseren Datensatz. Wir 306 Einträge für jeweils Mann und Frau, das macht 612 Einträge insgesamt mit 17 verschiedene Krankheiten.

Für spätere Plots wollen wir als nächstes schauen, wie man einzelne Untergruppen selektieren kann. 

In [17]:
df["Krebsart"]=="Harnorgane (C64-C68)"

0      False
1      False
2      False
3      False
4      False
       ...  
607    False
608    False
609    False
610    False
611    False
Name: Krebsart, Length: 612, dtype: bool

In [18]:
df[df["Krebsart"]=="Harnorgane (C64-C68)"].head()

Unnamed: 0,Alter,Krebsart,Geschlecht,1999,2000,2001,2002,2003,2004,2005,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
18,0 - 4,Harnorgane (C64-C68),weiblich,0.1,0.1,0.0,0.0,0.1,0.1,0.1,...,0.1,0.1,0.1,0.1,0.0,0.2,0.0,0.1,0.1,0.1
19,0 - 4,Harnorgane (C64-C68),männlich,0.2,0.1,0.3,0.2,0.1,0.1,0.1,...,0.1,0.1,0.0,0.1,0.2,0.1,0.1,0.0,0.0,0.2
52,5 - 9,Harnorgane (C64-C68),weiblich,0.1,0.0,0.1,0.1,0.1,0.1,0.1,...,0.2,0.2,0.0,0.2,0.0,0.1,0.1,0.1,0.0,0.1
53,5 - 9,Harnorgane (C64-C68),männlich,0.0,0.1,0.0,0.1,0.1,0.1,0.0,...,0.1,0.1,0.0,0.1,0.2,0.1,0.1,0.0,0.2,0.1
86,10 - 14,Harnorgane (C64-C68),weiblich,0.0,0.0,0.0,0.0,0.0,0.0,0.1,...,0.1,0.0,0.1,0.1,0.1,0.1,0.1,0.0,0.1,0.1


### 2.3 Rechenoperationen auf die Daten anwenden

Um die Differenz von einem Jahr zum Vorjahr berechnen zu können, so muss man zwei Spalten von einander subtrahieren, Das ist zum Glück genau so einfach, wie es sich anhört:

In [23]:
df["2001"].unique()

array(['0.0', '0.1', '0.4', '0.2', 'x', '0.3', '1.3', '1.1', '0.7', '0.9',
       '0.8', '1.0', '0.5', '1.2', '1.4', '0.6', '1.5', '2.0', '2.5',
       '1.8', '3.6', '4.9', '8.3', '4.2', '2.1', '2.4', '5.1', '8.6',
       '12.5', '6.1', '10.7', '16.8', '8.2', '2.8', '4.0', '1.9', '11.1',
       '16.6', '30.1', '15.8', '30.8', '2.3', '1.6', '27.8', '13.5',
       '1.7', '4.6', '4.3', '5.2', '3.3', '4.5', '2.9', '2.7', '3.2',
       '19.7', '34.7', '63.4', '25.5', '60.4', '2.2', '3.4', '3.1',
       '46.1', '21.4', '4.4', '9.5', '5.0', '4.8', '7.7', '2.6', '5.4',
       '3.9', '5.3', '25.3', '58.8', '118.3', '37.0', '116.9', '62.6',
       '28.4', '11.9', '19.3', '8.1', '12.9', '8.0', '14.4', '5.9', '9.1',
       '28.8', '88.1', '178.9', '42.2', '177.2', '5.8', '3.8', '73.6',
       '42.8', '29.5', '12.4', '32.0', '15.9', '10.9', '20.4', '8.5',
       '13.6', '7.4', '14.7', '26.1', '137.8', '274.7', '57.2', '269.2',
       '83.0', '57.4', '57.5', '21.0', '53.9', '15.6', '19.0', '30.5',
 

In [21]:
df["2001"]-df["2000"]

KeyError: '2001'

In [None]:
df['dif_00_01'] = df['2001'] - df['2000']

### 2.? Übung

+ Wie viele Frauen hatten 2003 Krebs in der Katheogorie Atmungs- und Brustorgane (C30-C39) im Alter von 40 - 44? (6.9)



später die folgende Zelle löschen und nur in einem extra Dokument speichern! <br>
Antworten:

In [None]:
Brustorgane = df["Krebsart"]=="Atmungs- und Brustorgane (C30-C39)"
Frauen = df["Geschlecht"]=="weiblich"
Alter = df["Alter"]=="40 - 44"
df[Brustorgane&Frauen&Alter]["2003"]

# 3. Daten plotten

Um die vorbereiteten Daten Visuell darzustellen werde ich im Folgenden das Package Seaborn verwenden. <br>
<br>
Themen:
+ Visualisierung statistischer Beziehungen
+ Visualisierung von Verteilungen von Daten
+ Plotten mit kategorialen Daten
+ Visualisierung von Regressionsmodellen
+ Aufbau von strukturierten Multi-Plot-Gittern