# 03-01 Pandas-Demo

## Hinweise zur Übung

Diese Demo schließt an die vorherige SQL-Übung an und zeigt, wie die wesentlichen Abfragemöglichkeiten statt auf eine SQL-Dataenbank auch in-memory mit Python-Dataframes und Funktionen des Pandas-Package umgesetzt werden können.

Caveat: Dataframes befinden sich komplett im Speicher ("in-memory"). Nachdem sie geladen sind, können Abfragen deshalb extrem schnell (ggf. auch schneller als auf einer Datenbank) durchgeführt werden. Allerdings können die Quelldataen ggf. größer als der verfügbare Speicher sein. In diesem Fall ist es sinnvoller, Vorselektionen auf Ebene der Datenbank durchzuführen und nur die tatsächlich benötigten Daten zu laden.

## Konfiguration des Notebooks

In [None]:
# Ggf. fehlende Pakete installieren
!pip install --quiet ipython-sql pandas

In [None]:
import os
import sys
import urllib.request
import gzip
import shutil
import pandas
%load_ext sql
%config SqlMagic.style = '_DEPRECATED_DEFAULT'

In [None]:
# Konfiguration
base_url_quellen   = "https://raw.githubusercontent.com/fau-lmi/lct-ehealth/main/08-Datenanalyse+Visualisierung/data"
base_url_reporting = "./"

In [None]:
# SQlite-Datenbanken aus Github auf den Jupyter-Server herunterladen
urllib.request.urlretrieve(base_url_quellen + "/dwh/reporting.sqlite.gz", base_url_reporting + "reporting.sqlite.gz")

# Die Sqlite-Datenbank ist aufgrund ihrer Größe gezipped und muss vor der Nutzung noch entpackt werden
with gzip.open(base_url_reporting + "reporting.sqlite.gz", "rb") as f_in:
    with open(base_url_reporting + "reporting.sqlite", "wb") as f_out:
        shutil.copyfileobj(f_in, f_out)

In [None]:
# Datenbankverbindung als Pfad (für das ETL) & iPython SQL (für die Abfragen) herstellen
db_path_reporting      = base_url_reporting + "reporting.sqlite"

db_url_reporting      = "sqlite:///" + db_path_reporting

%sql $db_url_reporting

## Laden von Daten aus der SQLite-Datenbank in Dataframes

Auch in diesem Abschnitt nutzen wir die SQLite-Datenbank mit dem Kurs-DWH. Wir laden die jeweils benötigten Daten über die bekannten SQL-Abfragen und überführen sie in einen Dataframe.

Bei Abfragen mit dem `%sql`-Kommando haben wir das Ergebnis bisher nur angezeigt. Wir ändern das hier, indem wir das Ergebnis in eine Variable speichern und anschließend mit der Methode `DataFrame()` in einen Dataframe konvertieren.

Die Überführung der Abfrageergebnisse in eine Variable kann nur bei "einzeiligen" SQL-Statements genutzt werden (`%sql`), nicht jedoch bei mehrzeiligen (`%%sql`). Wir schreiben das SQL-Statement daher zunächst in eine Variable und übergeben die Variable in ein einzeliges `%sql`-Statement. Die 3-fachen Anführungszeichen `"""` dienen in Python dazu, längere Texte mit Zeilenumbrüchen in einem Rutsch in eine Variable zu schreiben.

In [None]:
# SQL-Statement zur Abfrage der kompletten Tabelle D_PATIENT in Variable speichern
sql = """
SELECT *
  FROM d_patient
"""

# Abfrage ausführen und Ergebnis in Variable resultset speichern
resultset = %sql $db_url_reporting $sql

# Resultset in Dataframe überführen
df_patient = resultset.DataFrame()

# Erste Zeilen des Dataframe ausgeben
df_patient.head()

In [None]:
# Abfrage der Tabelle F_FAELLE und Ablage in Dataframe df_faelle
sql = """
SELECT *
  FROM f_faelle
"""
resultset = %sql $db_url_reporting $sql
df_faelle = resultset.DataFrame()
df_faelle.head()

In [None]:
# Abfrage der Tabelle D_FALLART und Ablage in Dataframe df_fallart
sql = """
SELECT *
  FROM d_fallart
"""
resultset = %sql $db_url_reporting $sql
df_fallart = resultset.DataFrame()
df_fallart.head()

In [None]:
# Abfrage der Tabelle D_DIAGNOSE und Ablage in Dataframe df_diagnose
sql = """
SELECT *
  FROM d_diagnose
"""
resultset = %sql $db_url_reporting $sql
df_diagnose = resultset.DataFrame()
df_diagnose.head()

## Einfache Abfragen auf Datafames

Dataframes können wie eine Datenbanktabelle mit verschiedenen Pandas-Methoden abgefragt werden, um z.B. nur bestimmte Spalten auszuwählen oder Zeilen nach verschiedenen Kriterien zu filtern.

### Spalten eines Dataframe selektieren

Die Spalten eines Dataframes können über die aus der Datenbank übernommenen Spaltennamen adressiert werden (entsprechend der `SELECT`-Klausel eines SQL-Statements). Die Notation ist hierbei `dataframename[['Spalte1'], ['Spalte2'], ...]`. Mit der `head()`-Methode wird wieder nur der Anfang des Ergebnissatzes ausgegeben.

In [None]:
# Nur die Spalten patient_id & patient_nachname ausgeben
df_patient[["patient_id", "patient_nachname"]].head()

### Zeilen eines Dataframe selektieren

Vergleichbar zur `WHERE`-Klausel eines SQL-Statements kann in Pandas die `query()`-Methode genutzt werden, um ein oder mehrere Kriterien zur Selektion von Zeilen eines Dataframe anzuwenden. Spalten des Dataframe können dabei über ihren Namen direkt angesprochen werden.

In den Query-Kriterien können auch Variablen und (ausgewählte) Funktionen benutzt werden. Z.B. können Teilstringvergleiche u.a. durch Anfügen von `.str.startswith('text')` oder `.str.contains('')` durchgeführt werden.

Mehrere Kriterien können mit Bool'schen Operatoren verbunden werden, und zwar sowohl als Textkommandos (and, or, not) als auch Symbole (&, |).


In [None]:
# Filterung auf männliche Patienten
df_patient.query("patient_geschlecht == 'M'").head()

In [None]:
# Patienten selektieren, deren Geburtsdatum (über einen Stringvergleich) mit dem Jahr 1984 beginnt
df_patient.query("patient_gebdat.str.startswith('1984')").head()

In [None]:
# Männliche Patienten selektieren, deren Geburtsdatum (über einen Stringvergleich) mit dem Jahr 1984 beginnt
df_patient.query("patient_geschlecht == 'M' and patient_gebdat.str.startswith('1984')").head()

### Eindeutige Datensätze auslesen

Analog zum `DISTINCT`-Keyword aus SQL gibt es in Pandas die `drop_duplicates()`-Methode, um über alle enthaltenen Spalten eindeutige Datensätze auszugeben.

Pandas erlaubt es, Methodenaufrufe hintereinander zu schreiben, so dass sie im Sinne einer Pipeline nacheinander ausgeführt werden (hier: erst `drop_duplicates()` und danach `head()`).

In [None]:
# Nur die eindeutigen Ausprägungen der Spalte patient_geschlecht ausgeben
df_patient[['patient_geschlecht']].drop_duplicates().head()

## Gruppieren und aggregieren von Tabelleninhalten

Analog zu `GROUP BY`und den verschiedenen Aggregatfunktionen in SQL stellt Pandas die `groupby()`-Methode sowie die `agg()`-Methode bereit. Die Funktionen können wie in den vorherigen Beispielen als Pipeline hintereinander verkettet werden.

In der `groupby()`-Methode kann eine einzelne Spalte in Anführungsstrichen als Argument eingetragen werden (z.B. `groupby('Spalte')`, während mehrere Spalten als Array in eckige Klammern geschrieben werden müssen (z.B. `groupby(['Spalte1', 'Spalte2'])`).

In der `agg()`-Methode können die Aggregationen auf verschiedene Weisen angegeben werden. Die folgende Form erlaubt es, für mehrere Spalten verschiedene Aggregationen anzugeben und den daraus resultierenden Spalten explizite Namen zuzuweisen: `agg(aggregierte_spalte1=("quellspalte1", "aggregatfunktion"), aggregierte_spalte2=("quellspalte2", "aggregatfunktion"))`.

Beispiel:
* `dataframe.agg(erloes_sum=("erloes", "sum"), erloes_avg=("erloes", "mean"))

### Datensätze aggregieren

In [None]:
# Patiententabelle nach Geschlecht gruppieren und die Anzahl der Datensätze zählen
df_patient.groupby("patient_geschlecht").agg(n=("patient_geschlecht", "size"))

In [None]:
# Fälletabelle nach Fallart gruppieren und die Fallzahl, den Mittelwert der Liegedauer sowie Summe der Erlöse aggregieren
df_faelle.groupby("fallart_id").agg(fallzahl=("fallart_id", "size"), liegedauer_avg=("liegedauer_tage", "mean"), erloes_sum=("erloes_fallpauschale", "sum"))

### Filterung bei Aggregatfunktionen

Zur `HAVING`-Klausel aus SQL gibt es kein eigenes Äquivalent, stattdessen kann einfach die oben beschriebene `query()`-Methode in der Pipeline hinter die Aggregation gestellt werden.

Da die Pipelines bei vielen Verarbeitungsschritten unübersichtlich werden können, ist es möglich, die Schritte auf mehrere Zeilen aufzuteilen. Ans Ende der jeweils vorherigen Zeile muss ein Backslash (`\`) gestellt werden und die fortsetzenden Zeilen müssen eingerückt werden.

In [None]:
# Fälletabelle nach Fallart gruppieren und die Fallzahl, den Mittelwert der Liegedauer sowie Summe der Erlöse aggregieren
# - Filterung nach der Aggregation auf Einträge mit mittlerer Liegedauer > 6 Tage
df_faelle.groupby("fallart_id") \
  .agg(fallzahl=("fallart_id", "size"), liegedauer_avg=("liegedauer_tage", "mean"), erloes_sum=("erloes_fallpauschale", "sum")) \
  .query("liegedauer_avg > 6")

## Zusammenführen mehrerer Dataframes

Das Gegenstück zur `JOIN`-Klausel in SQL ist die `merge()`-Methode in Pandas, die ebenfalls inner sowie left/right outer Joins über eine oder mehrere Spalten der einbezogenen Dataframes erlaubt.

Die `merge()`-Methode kann in einer Pipeline an den ersten ("linken") in den Join einbezogenen Dataframe angehängt werden und enthält als erstes Argument den "rechts" zu verbindenen Dataframe: `dataframe1.merge(dataframe2)`.

Mit dem `on´-Argument werden die Spalten festgelegt, die für die Verknüpfung der Dataframes eingesetzt werden sollen:
* `on='Spalte1'`: es soll nur über Spalte1 gejoined werden, die in beiden Dataframes identisch benannt ist
* `on=['Spalte1', 'Spalte2']`: es soll über Spalte1 und Spalte2 gejoined werden, die in beiden Dataframes identisch benannt sind
* `left_on=['LinkeSpalte1', 'LinkeSpalte2'], right_on=[: 'RechteSpalte1', 'RechteSpalte2']`: wenn die Spalten der Join-Kriterien in den beiden Dataframes unterschiedlich benannt sind, müssen sie separat in `left_on`und `right_on`-Argumenten in identischer Reihenfolge angegeben werden.

Identisch benannte Spalten, die als Join-Kriterien angegeben wurden, werden im Ergebnisdataframe zusammengeführt, während unterschiedlich benannte Spalten übernommen werden. Identisch benannte Spalten außerhalb der Join-Kriterien werden separat in den Ergebnisdataframe benommen und ggf. mit einem Suffix qualifiziert.

"Überflüssige" Spalten, die z.B. wegen Redundanzen zwischen den Tabellen im Ergebnisdataframe enthalten sind, können mit der `drop()`-Methode entfernt werden.



### INNER JOIN: Schnittmenge von Dataframes bilden



In [None]:
# Spalten für Fall-ID und Fallart-ID aus dem Dataframe df_faelle selektieren und
# den Fallartbezeichner per merge() hinzufügen
df_faelle[["fall_id", "fallart_id"]].merge(df_fallart, on="fallart_id").head()

In [None]:
# Diagnosebezeichner zu den Fällen ergänzen
df_faelle[["fall_id", "hauptdiagnose_snomed_id"]] \
  .merge(df_diagnose[["snomed_id", "snomed_name"]], left_on="hauptdiagnose_snomed_id", right_on="snomed_id") \
  .head()

In [None]:
# Pipeline für Aggregation & Zählung der Fälle nach Fallart und Ergänzung der Fallartbezeichner
df_faelle.merge(df_fallart, on="fallart_id") \
  .groupby(["fallart_id", "fallart_name"]) \
  .agg({"fallart_id": "size"})

### OUTER JOINs: Datensätze einbeziehen, für die es keine Entsprechung in beiden Dataframes gibt

Mit dem `how`-Argument kann festgelegt werden, ob ein inner (default), left oder right outer join verwendet werden soll.

In [None]:
# Fälle mit Bezeichnern für ihre Hauptdiagnosen ausgeben, aber Fälle ohne Hauptdiagnose beibehalten
df_faelle[["fall_id", "hauptdiagnose_snomed_id"]] \
  .merge(df_diagnose[["snomed_id", "snomed_name"]], left_on="hauptdiagnose_snomed_id", right_on="snomed_id", how="left") \
  .drop(columns="snomed_id") \
  .head()

### Mehrere  Dataframes "hintereinander" zusammenfügen

Neben dem "horizontalen" Verknüpfen von Dataframes mit der `merge()`-Methode können Dataframes auch mit der `concat()`-Funktion "hintereinander gestellt" werden. Die Spalten beides Datensätze müssen dafür identische Namen und Spalten haben.

Im Gegensatz zu den oben beschriebenen Methoden ist `concat()` eine eigenständige Funktion, der beide (oder auch mehrere) hintereinanderzusetzende Dataframes als Argument übergeben werden müssen, und keine Methode eines einzelnen Dataframe.

Im Gegensatz zum `UNION`-Statement in SQL werden hier beide Datensätze vollständig hintereinander gesetzt, unabhängig davon, ob es doppelte Datensätze gibt. Die `concat()`-Methode enspricht also einem `UNION ALL`-Statement in SQL. Falls eindeutige Datensätze benötigt werden, können mit der `drop_duplicates()`-Methode Zeilen mit identischen Inhalten zusammengeführt werden.

In [None]:
# Zwei Datensätze mit Teilen des Diagnosehierarchie selektieren (Bronchitis und Diabetes)
df_bronchitis = df_diagnose.query("snomed_name.str.contains('bronchitis')")
df_diabetes   = df_diagnose.query("snomed_name.str.contains('diabetes')")

# Beide Datensätze mit concat() zusammenfügen
pandas.concat([df_bronchitis, df_diabetes])

## Dataframes pivotieren: "Rechteck- & Schlauchtabellen"

Datentabellen sind häufig als "Rechtecke im Querformat"
("wide format") angelegt: ein Datensatz besteht aus wenigen identifizierenden oder charakterisierenden Merkmalen auf der linken Seite (vgl. *Dimensionen* im Data Warehouse) und vielen zugehörigen Kennzahlen auf der rechten Seite (vgl. *Fakten* im Data Warehouse). Vorteil dieser Darstellungsform ist, dass alle Merkmale zu einer Beobachtungseinheit (z.B. Behandlungsfall) in einer Zeile beieinander stehen, und dass alle Spalten explizit benannt sind und individuelle zu ihrem Inhalt passende Datentypen haben. Hieraus ergeben sich aber auch Nachteile:
* die Struktur ist fest vorgegeben und kann daher nur schlecht mit 1:n-zugeordneten Merkmalen umgehen (z.B. beliebige Anzahl von Diagnosen eines Behandlungsfalls)
* Programme, die auf diese Datenstruktur zugreifen, müssen die Spaltenbezeichner explizit kennen. Änderungen der Tabellenstruktur erfordern dann auch Anpassungen des Programms

Alternativ zu diesen "Rechtecktabellen" haben sich "Schlauchtabellen" etabliert, die quasi "hochkant" ("long format") stehen und nur aus den identifizierenden/charakterisierenden Merkmalen, einem Feld für die Bezeichnung des Merkmals und einem weiteren für dessen Ausprägung bestehen. Diese Struktur ist generisch und kann ohne Änderung der Tabelle oder des darauf zugreifenden Programms auch mit wechselnden Inhalten umgehen. Konkret kann das z.B. die Visualisierung mehrerer Kennzahlen in einem gemeinsamen Diagramm vereinfachen. Außerdem können wechselnde Kardinalitäten leicht abgebildet werden (z.B. 2 Diagnosen bei Behandlungsfall A, 20 Diagnosen bei Fall B). Auch hier ergeben sich jedoch Nachteile:
* da es nur eine Spalte für die Ausprägung der Fakten gibt, teilen sich diese einen gemeinsamen Datentyp; wenn die Fakten verschiedene Typen benötigen, muss man hier ggf. als "kleinsten gemeinsamen Nenner" ein Textfeld nutzen und Daten anschließend zurückkonvertieren.
* die Tabelle kann je nach Anzahl der Attribute sehr lang und unübersichtlich werden


### Dataframe vom "wide"- ins "long"-Format transformieren

In Pandas kann mit der Methode `melt` vom *wide*- ins *long*-Format pivotiert werden. Folgende Parameter sind dazu in der Regel anzugeben:
* `id_vars`: Array mit den identifizierenden bzw. charakterisierenden Spalen ("linker Teil" der Tabelle)
* `value_vars`: Optionales Array mit den Spalten, aus denen die Kennzahlen übernommen werden sollen; wenn es nicht angegeben wird, übernimmt `melt()` defaultmäßig alle Spalten, die nicht in `id_vars` als identifizierend angegeben wurden.* `var_name`: Name der Spalte, die die Attribute kennzeichnen soll; sie wird mit den Spaltennamen befüllt, aus denen die Kennzahlen kommen
* `value_name`: Name der Spalte, in die die Kennzahlen übertragen werden

In [None]:
# Identifizierende Spalte fall_id sowie die Kennzahlen Aufnahmealte, Liegedauer und Erlös selektieren,
# die Zeilen auf 3 Bielefelder Fälle einschränken
# und die Tabelle mit der melt()-Methode vom "wide"- ins "long"-Format pivotieren.
df_faelle_long = df_faelle[["fall_id", "aufnahmealter_jahre", "liegedauer_tage", "erloes_fallpauschale"]] \
  .query("fall_id in ['B-1', 'B-2', 'B-3']") \
  .melt(id_vars=["fall_id"], var_name="kennzahl", value_name="wert") \
  .sort_values(by="fall_id")
df_faelle_long

### Dataframes vom "long"- ins "wide"-Format transformieren

Mit der Pandas-Funktion `pivot()` kann eine "hochkant" strukturierte Tabelle im "long"-Format in das klassische "wide"-Format gekippt werden.

Folgende Parameter sind hierzu in der Regel anzugeben:
* `index`: Spalte(n), die als identifizierende/charakterisierende Spalten den linken Teil der Rechtecktabelle ausmachen (sie werden praktisch 1:1 aus der "long"-Tabelle übernommen)
* `columns`: Spalte der "long"-Tabelle, aus der die Spaltennamen für die Fakten der "wide"-Tabelle geholt werden sollen (für den rechten Teil)
* `values`: Spalte der "long"-Tabelle, aus der die Inhalte der Kennzahlen-Spalten im rechten teil geholt werden sollen


In [None]:
# "Long"-Tabelle aus dem vorherigen Abschnitt wieder in ein "wide"-Format umklappen:
# die Spalte "fall_id" ist weiterhin die identifizierende Spalte
# die zuvor für die Bezeichner & Inhalte angegebenen Spalten werden auch für die Transformation zurück genutzt
df_faelle_long.pivot(index="fall_id", columns="kennzahl", values="wert")