# Pandas Tutorial

https://pandas.pydata.org/docs/getting_started/intro_tutorials


In [None]:
import pandas as pd

Pandas ist eine Python-Bibliothek, mit der sehr leicht Daten analysiert und dargestellt werden können. Zusammen mit Jupyter ist das quasi wie Word, Excel und Powerpoint zusammen und ist besonders geeignet für Data Scientists und alle anderen Menschen, die empirische (quantitative) Analysen auf grossen Datenmengen reproduzierbar und zuverlässig durchführen müssen/wollen/können.

Tipp: öffne das Inhaltsverzeichnis auf der linken Seitenleiste - Easy Navigation!

### Die Daily-Routine des Data-Scientists
- Daten einlesen
- Daten validieren und bereinigen
- Berechnungen durchführen
  - deskriptive Statistik (min, max, mean, median, ...)
  - induktive Statistik (Hypothesen und Modelle)
  - erkundende Statistik (explorative Datenanalyse, Big Data, AI)
- Ergebnisse visualisieren
- Ergebnisse präsentieren

Ob medizinische, biolologische, soziologische, psychologische oder technische Fragestellungen quantitativ (empirisch) untersucht werden sollen - das Vorgehen ist immer ähnlich.

i.d.R. sehr zeitaufwändig: die Rohdaten besorgen, verstehen, validieren und bereinigen.

CSV-Files sind wohl der einfachste Weg, (grosse) Datenmengen sicher auszutauschen - Comma Separated Values

![01_table_dataframe.svg](img/01_table_dataframe.svg)

Wie in Excel gibt es Spalten und Zeilen.

## Daten Einlesen

### aus einer lokalen Datei

In [None]:
titanic = pd.read_csv("data/titanic.csv")

### oder direkt aus dem Netz ...

In [None]:
titanic = pd.read_csv("https://link.melzian.ch/titanic")

Dies ist ein für diese Präsentation verkürzter Link auf
https://raw.githubusercontent.com/pandas-dev/pandas/refs/heads/main/doc/data/titanic.csv

Weitere Testdaten für Pandas findest du hier: https://github.com/pandas-dev/pandas/tree/main/doc/data

Wenn möglich alle Rohdaten lokal speichern. Warum? Wegen der Reproduzierbarkeit!

## die Rohdaten anzeigen

In [None]:
titanic.describe()

alles auf einen Blick

## und dann Berechnungen anstellen

to do

### Zeilenweise

to do

### Spaltenweise

to do

### Aggregieren

to to

## aussagekräftig Plotten

Ein Bild sagt ja bekanntlich mehr als tausend Worte

### Barplots

In [None]:
img = titanic.groupby('Pclass')['Age'].mean()\
             .plot.bar(title="Durchschnittsalter pro Passagierklasse")

Manchmal müssen wir vor dem Plotten noch etwas berechnen, hier bspw. das Durchschnittsalter aller Passagiere pro Klasse.

Balkendiagramm? Wie langweilig! Geht das besser? Klar, mit [Boxplots](https://de.wikipedia.org/wiki/Box-Plot) (kommt später)

Ein Bild in einer Datei speichern

In [None]:
img.get_figure().savefig('img/barplot.svg') 

So können die Grafiken auch leicht in PowerPoint, [Prezi](https://prezi.com) u.A. Präsentationsprogrammen weiterverwendet werden. 

### Lineplots

to do

### Scatterplots

to do

### Boxplots

In [None]:
img = titanic.boxplot(column="Age", by="Pclass", ylabel="Passagierklasse", showmeans=True, vert=False)

In [None]:
img.get_figure().savefig('img/boxplot.svg')

Kinder reisen wohl hauptsächlich 3. Klasse

In [None]:
%%bash
curl --output img/Pandas_logo.svg https://upload.wikimedia.org/wikipedia/commons/e/ed/Pandas_logo.svg

## La fin
![Pandas_Logo](img/Pandas_logo.svg)

Abschluss-Slide

- Fragen?
- Anregungen?
- Meinungen

aus dem Pubklikum abholen.

## Tipps und Tricks

Code-Zellen, die mit `%%bash` beginnen, führen einen Befehl im Terminal aus.

In [None]:
%%bash
tree

Du kannst die verfügbaren Dateien links in der Seitenleiste sehen oder dir auch per Kommandozeilenbefehl `tree` übersichtlich anzeigen lassen:

Vielleicht möchtest du die Rohdaten einer Analyse herunterladen und zusammen mit dem Notebook speichern? Sicher ist sicher? Das kannst du automatisch und reproduzierbar direkt in Jupyter tun, bspw. mit dem Befehl `curl`:

In [None]:
%%bash
curl --output data/iris.csv https://raw.githubusercontent.com/pandas-dev/pandas/refs/heads/main/doc/data/iris.data

Alternativ kannst du das natürlich auch alles manuell im Browser erledigen und dann die Datei von deinem Rechner nach Jupyter hochladen.

Wenn du dieses Notizbuch in eine Reveal.js-Präsentation exportierst (`File -> Save and Export As -> Reveal.js Slides`), dann achte darauf, auch den Ordner mit deinen Bildern in den gleichen Ordner wie die .html-Datei auf deinem Rechner zu kopieren. Eine zip-Datei zum Herunterladen mit Namen `bilder.zip` aller Dateien im Ordner `img` erstellst du so:

In [None]:
%%bash
zip -r bilder.zip img/

Auch den Projektordner als Ganzes kannst du in eine zip-Datei verpacken und anschliessend auf deinen Rechner herunterladen. Das ist insbesondere nützlich, um deine Abgabe in Teams vorzubereiten oder wenn du deine Arbeit auf einen anderen Rechner übertragen willst.

In [None]:
%%bash
zip -r Pandas-Tutorial.zip .

Falls du neben einer Präsentation auch noch eine pdf-Datei aus diesem Notebook erstellen willst und dafür Grafiken im `.png`-Format anstelle von bspw. `.svg` benötigst, so kannst du mit dem Befehl `magick input.file output.file` leicht Bilder konvertieren, etwa so:

In [None]:
%%bash
# entweder convert oder magick
magick img/01_table_dataframe.svg img/01_table_dataframe.png

oder du lässt die Konvertierung aller `svg`-Bilder automatisch durchführen.

In [None]:
%%bash
# file to convert - ohne .ipynb
FILE=Pandas-Tutorial
# ipynb to LaTeX
jupyter nbconvert $FILE.ipynb --to latex &> /dev/null
# add svg package to first line of LaTeX file
sed -i '1 s/.*/&\\usepackage{svg}/' $FILE.tex
# LaTeX to pdf
xelatex --shell-escape $FILE.tex -quiet &> /dev/null
# clean up
rm -rf svg-inkscape $FILE\_files
rm $FILE.aux $FILE.log $FILE.out $FILE.tex

Vorher musst du dafür die JupyterHub-VM ggf. durch Eingabe [des hier gezeigten](https://publish.obsidian.md/mer/Unterlagen/Jupyer-Quick-Start#VM+reparieren+oder+aktualisieren) Kommandos aktualisieren. Passe dann die Zeile `FILE=...` entsprechend dem Dateinamen deines Notebooks an und führe erst dann diese Codezelle aus:

Wenn du keine `.svg` Dateien in deinem Notebook verwendet hast oder diese schon manuell nach `.png` konvertiert und eingebunden hast, dann kannst du ein .pdf-File auch einfach via `File -> Save and Export As -> PDF` erstellen.

In [None]:
%%bash
tree

In der JupyterHub-VM funktioniert der Button für den Präsentations-Modus nicht. Du musst die Ansicht bei Bedarf direkt aufrufen.

`http://127.0.0.1:8000/user/USER/rise/PATH/TO/NOTEBOOK`

Wenn du beispielsweise mit dem Nutzer `demo` eingeloggt bis und dieses Notebook (`edu-public-jupyter-notebooks/analysen/Pandas-Tutorial/Pandas-Tutorial.ipynb`) live präsentieren willst:

http://127.0.0.1:8000/user/demo/rise/edu-public-jupyter-notebooks/analysen/Pandas-Tutorial/Pandas-Tutorial.ipynb