## Einführung in Pandas

In diesem Tutorial wirst du einen Einblick in Pandas erhalten - was ist es, wofür kann es verwendet werden, und wie kannst du es verwenden. Das Tutorial enthält viele Links zur Pandas-Dokumentation. Deine Aufgabe ist es, dich durchzuarbeiten - lass einfach das Code-Skelett so, wie es ist, und ändere Code, wo ** TODO ** steht. Du kannst natürlich jederzeit eine weitere Zelle öffnen und Code ausprobieren - achte einfach darauf, nicht versehentlich eine später verwendete Variable zu überschreiben.



### Installieren und importieren

Zuerst möchten wir sicherstellen, dass die beiden Module bereits installiert sind, oder eben installiert werden. Dann werden wir sie importieren.

In [None]:
!pip3 install pandas
!pip3 install seaborn

In [None]:
# Zuerst müssen wir pandas importieren. Es ist Konvention, aber nicht strikt notwendig, es als "pd" zu importieren.
import pandas as pd

# Dann importieren wir seaborn. Dieses wird ebenfalls per Konvention als sns importiert
import seaborn as sns


### Öffnen und Einlesen von Dateien mit csv und Pandas

Mit Pandas können wir einfach eine Excel- oder eine CSV-Datei öffnen und in eine Python-lesbare Tabelle übertragen. Dafür verwenden wir die Funktion read_csv oder read_excel. Die Datei kannst du wie unten angegeben einlesen. Achte darauf, dass die Datei im selben Ordner wie deine Code-Datei ist. Wenn dies nicht der Fall ist, musst du den relativen Pfad angeben.

Kurz: Wir werden hier .csv-Dateien mit pandas öffnen. Es ist aber auch möglich, .csv-Dateien mit dem Modul csv zu öffnen. Dieses musst du nicht pip-installieren, sondern wird automatisch mit Python installiert. Dafür machst du einfach 'import csv' bei deinen Import-Statements. Weiterführende Informationenn findest du unter dem folgenden Link: https://docs.python.org/3/library/csv.html

Damit du dennoch ein ungefähres Verständnis davon erhältst, wie man mit csv arbeiten kannst, und warum Pandas so viel mehr kann, lernst du hier, wie du die Datei öffnen kannst, und wie du über ihre Informationen iterieren kannst.
In der nächsten Zelle öffnen wir mit dem Modul csv die csv-Datei. 

In [None]:
# erst importieren wir das Modul. es muss nicht pip installiert werden, darum können wir diesen Schritt überspringen.
import csv

# das with-statement kennst du aus bisherigen Lektionen - es sorgt dafür, dass die Datei wieder im Hintergrund geschlossen wird
with open('student_data.csv') as csvfile: 
    datareader = csv.reader(csvfile, delimiter=";")
    print(type(datareader)) # damit du weisst, was für einen Datentyp der datareader hat
    # Nun iterieren wir über all die Linien und printen diese.
    for row in datareader:
        print(', '.join(row))


So iteriert man also mit dem csv-Modul. Wie du sehen kannst, erstellst du mit dem datareader einfach eine Sequenz aller Linien, über die du dann iterieren kannst. Für einfache Operationen, wie beispielsweise die Daten einer .csv-Datei einzulesen und anzuschauen, leicht zu ändern, beispielsweise indem du eine Linie hinzufügst (mit csv.writer()), ist der csv-Reader sicherlich ausreichend. Sobald du aber komplexe Operationen machst, wird es schwieriger: Suchst du beispielsweise nur die Daten, welche in der Spalte 'ISCED Field' (eine der Spalten der Datei) auftauchen, musst du bei der ersten Iteration herausfinden, an welcher Position diese Spalte ist, und dann über jede Zeile iterieren und genau die richtige Spalte auswählen. Klingt kompliziert, ineffizient und/oder herausfordernd? Darum verwenden wir beim genauen Analysieren der Tabellen Pandas. Du findest unten heraus, wie du einfach auf Spalten und andere Informationen zugreifen kannst, ohne über jede Zeile iterieren zu müssen. Dafür möchten wir aber zuerst einmal die Datei öffnen. Auch das geht anders als oben: Wir schreiben einfach pd.read_csv('dateiname.format') (bei einer Excel-Datei: pd.read_excel('dateiname.format')) und ordnen es einer Variable (df, für DataFrame) zu.

Bei den Funktionen read_csv() sowie read_excel() ist es, genau wie oben, wichtig, den sogenannten "delimiter" zu berücksichtigen. .csv steht für comma-separated values, also durch Kommas getrennte Werte, doch sie können auch anders getrennt sein; beispielsweise durch ein Semikolon (wie im untenstehenden Beispiel). Hier schreibst du einfach als zweites Argument neben dem Dateinamen sep=";" und schon klappt es. Oben siehst du, dass man beim Modul csv ein anderes Argument nimmt, namentlich "delimiter".

Probier in einer neuen Zelle, den Delimiter zu ändern oder ganz wegzulassen. Noch mehr Möglichkeiten (und optionale Argumente) findest du unter dem folgenden Link: https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

Die Funktion read_excel brauchst du für diverse Excel-Dateien, die eben nicht das .csv-Format haben, beispielsweise .xls oder .xlsx. Weitere Informationen findest du in der Dokumentation: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

Sobald du die Datei geöffnet hast, inspiziere die Daten. Dafür verwendest du einfach df.head() für die ersten fünf Reihen - 5 ist der Default-Wert für wie viele Reihen angezeigt werden sollen. Du kannst aber auch mehr anzeigen, indem du beispielsweise df.head(15) notierst. Zeige hier einfach 10 Zeilen an.

In [None]:
df = pd.read_csv("student_data.csv", sep=";") 

# Anmerkung: df.head() wird nur gedruckt, weil es sich hierbei um eine Eigenart des Jupyter Notebooks handelt. Wenn ihr es mit print(df.head()) macht, geht es auch, ist aber nicht so schön (ästhetisch).
# ** TODO **
df.head()

Statt df.head() für die obersten Reihen kannst du auch df.tail() verwenden. Dies funktioniert genau gleich wie df.head(), zeigt einfach die untersten Reihen an.
Zuletzt gibt es noch df.describe(). Dies zeigt einfach Statistiken zu deinen Daten an - die Anzahl, den Durchschnitt, etc. Je nach Daten, mit welchen du arbeitest, hilft dir vielleicht die folgende, etwas mathe-orientiertere Einführung weiter: https://pandas.pydata.org/docs/user_guide/10min.html

Im Hintergrund gut zu wissen: Wie du in der obenstehenden Tabelle siehst, haben nur die Spalten Namen. Die Zeilen haben keine, sind also automatisch indexiert (von 0 bis Anzahl Zeilen). Es ist auch möglich, dass diese Zeilen Namen haben - zum Beispiel, wenn ihr genau wisst, was ihr als Index wollt, und es sich hierbei nicht um Zahlen handelt. Da dies eher Ausnahme ist, gehen wir nicht weiter darauf ein; du wirst aber einige Beispiele in der Dokumentation von Pandas finden, wo die Index-Namen beim Erstellen der Tabelle definiert werden, beispielsweise hier: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.filter.html

Wie kann man aber über die Daten iterieren? Da haben wir so einige Möglichkeiten. Eine davon ist die folgende, zu der du mehr Informationen unter dem folgenden Link findest: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iterrows.html

In [None]:
for index, row in df.iterrows():
    print(row)

# oder, wenn du nicht die ganze Zeile wissen möchtest, sondern nur die Studienfächer mit der jeweiligen Anzahl Masterstudierenden:
for index, row in df.iterrows():
    print(row["ISCED Field"], row["Master"])


### Gruppieren mit Pandas

Mit dieser Tabelle können wir nun so einiges machen. Wir können Daten gruppieren, filtern, sortieren, und all das darstellen. Für die Darstellung verwenden wir hier das Modul seaborn, es gibt aber auch einige weitere Module wie beispielsweise matplotlib (https://matplotlib.org/stable/index.html). Mehr Informationen zu seaborn findest du unter dem folgenden Link: https://seaborn.pydata.org/

Wenn du beispielsweise die verschiedenen ISCED-Felder, die es gibt, und die Anzahl Studierender pro Feld anzeigen möchtest, machst du dies mit df.groupby. Hier musst du vor allem eines berücksichtigen: df.groupby gibt ein Objekt aus, das du nicht direkt lesen kannst. Es ist sozusagen ein Zwischenspeicher, der zwar alle Infos enthält, aber einfach nicht schön anzeigbar ist. Du musst weitere Massnahmen ergreifen - beispielsweise die Summe der Gruppen sammeln - um etwas schön übersichtlich anzeigen zu können. Darum überlegst du immer am besten zuerst: Was willst du genau von den Daten, die du gruppierst?

Eine einfache Lösung ist es, einfach die Summe der jeweiligen Gruppen anzeigen zu lassen. Dies machst du, wie es unten steht.

Genau genommen nimmt der untenstehende Code die Tabelle - df -, findet heraus, welche ISCED Field-Optionen bestehen, und gruppiert die Daten miteinander. Dieser Zwischenspeicher ist sehr theoretisch, weswegen wir in diesem Fall direkt die .sum()-Funktion verwenden. Mit dieser Funktion wird aus den gruppierten Werten eine neue Tabelle gebildet, die aus den verschiedenen ISCED Fields und die Summe all dessen, was wir zählen können, besteht. Das Jahr und das Geschlecht konnten wir nicht addieren, alles andere schon. Dies ist eine Praxis, die allerdings in absehbarer Zeit nicht mehr funktionieren wird.

In [None]:

sums_by_isced = df.groupby('ISCED Field').sum()

sums_by_isced.head()

Da in der Zukunft das automatische Summieren der numerischen Werte deaktiviert wird, ist es besonders für dich als "Neuling" wichtig, dich daran zu gewöhnen, dich an die gewünschte Praxis zu gewöhnen. Beispielsweise wollen wir hier nur wissen, wie viele Studierende über die Jahre pro Feld im Bachelor waren - Zahlen zum Doktorat und Master interessieren uns nicht. In diesem Fall ergänzen wir den Code um die Kolonnen, die er berücksichtigen soll. Alles, was uns nicht interessiert, lassen wir weg. Wichtig: Wenn dich mehrere Spalten interessieren, schreibst du es wie folgt: df.groupby('ISCED Field')[['Bachelor', 'Master']].sum(), du setzt also die Spaltennamen in eine Liste, und greifst danach mit dem zweiten Paar eckiger Klammern darauf zu - du hast also auf beiden Seiten der gewünschten Spalten je zwei eckige Klammern.

In [None]:
sums_by_isced_ba = df.groupby('ISCED Field')['Bachelor'].sum()

sums_by_isced_ba.head()

### Bestimmte Informationen einer bestimmten Spalte abrufen
Manchmal wollen wir aber auch nur von einer einzigen Spalte Informationen holen, und diese nutzen. Dafür nutzen wir df.loc. Diese Funktion nimmt, ähnlich wie die .groupby Funktion, die Spalte, von der du Informationen holen willst, als Argument. Du kannst erneut mit df.head() überprüfen, welche Spalten bestehen, und welche Werte ihnen grundsätzlich zugeordnet werden. Sobald du weisst, wie die Spalte heisst, die du benötigst, verwendest du df.loc['Spaltenname']. Denk auch hier daran, dass der Spaltenname ein String ist, und entsprechend geschrieben werden muss. Du kannst aber auch mehr als nur Spaltennamen mit df.loc finden. Unter dem folgenden Link findest du mehr Informationen: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html

Wichtig: bei df.loc[] verwenden wir nicht die üblichen runden Klammern wie bei vielen anderen Funktionen. Hier verwenden wir direkt [], also die eckigen Klammern.

Beispielsweise möchten wir die Verteilung der Studierenden über das Jahr 2021/2022 über die verschiedenen Studienfelder wissen. Hier definieren wir erst einmal mit df.loc[], worauf wir zugreifen möchten.

Im untenstehenden Code möchten wir wissen, wie die Verteilung über die verschiedenen Felder im letzten erfassten Jahr (2021/2022) war. Dafür definieren wir erst, welche Spalte uns im df.loc interessiert. Mit df["Year"] greifen wir auf die korrekte Spalte - die "Year" heisst - zu. Diese muss "2021/22" exakt entsprechen. Da dies eine Kondition ist, setzen wir sie in runde Klammern. Die eingeklammerte Kondition setzen wir also in df.loc, damit diese Informationen einfach in der Tabelle gefunden werden können.

In [None]:
year_df = df.loc[(df["Year"]==("2021/22"))]
year_df

Nun haben wir oben mit df.loc die gewünschte Spalte ausgewählt und einer Variable (year_df) zugeordnet. Sobald wir die Spalte also ausgewählt haben, können wir die Summe aller Werte einfach mit der sum()-Funktion herausholen. Die sum()-Funktion hier bezieht sich auf die gewünschten Spalten, da in der Zukunft das automatische Summieren deaktiviert wird. Es werden einfach alle Werte zusammengezählt. Du gehst also wie folgt vor:

In [None]:
year_df.groupby("ISCED Field").sum()

year_df.head()

### Filtern der Spalten

Mit der df.filter()-Funktion kannst du deine Tabelle einfach nach bestimmten Werten durchfiltern. Diese können in Spalten oder Zeilen vorkommen - wobei bei den Zeilen wichtig ist: df.filter() durchsucht die Zeilennamen, welche den Index repräsentieren. Wenn du also den Index nicht überschrieben hast und dort einfach Zahlen drin hast, kannst du es zwar nach diesen Zahlen durchsuchen, ob dies aber sinnvoll ist, muss anderweitig diskutiert werden.

Die Tabellenwerte - also beispielsweise die Zahl der Studierenden - kannst du so nicht durchsuchen. 

Mehr Informationen zu dieser Funktion findest du unter dem folgenden Link: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.filter.html

Wir möchten also beispielsweise herausfinden, wie sich die - notabene: binäre - Geschlechtsverteilung über die ISCED Fields im Bezug aufs Doktorat genau verhält. Dafür definieren wir erst einmal, wonach genau wir filtern möchten. Wir möchten sowohl das ISCED Field, das Geschlecht, als auch die Anzahl Doktorierender wissen. Dann gruppieren wir nach Doktorat. In diesem Fall berücksichtigen wir die einzelnen Jahre nicht, die Zahlen beziehen sich also auf die Doktorierenden über die Jahre.

In [None]:
by_gender_df = df.filter(items=["ISCED Field", "Sex", "Doctorate"]).groupby("ISCED Field")

by_gender_df.head()

### Lernkontrolle

Überprüfe, indem du die Frames wie oben drucken lässt (Variable am Ende des Blocks schreiben), ob du die Aufgabe erfüllst.

Dich interessiert es, wie viele Masterstudierende und Doktorierende es über die Jahre gab, und wer von ihnen auf welcher Stufe (Master, Doktorat) war. Dafür gruppierst du erst mal mit der .groupby-Funktion, wonach du sortieren möchtest - in diesem Fall also das Jahr. Bedenk, zu vermerken, welche Gruppen, die dich interessieren - beispielsweise die Stufen Bachelor, Master und Doktorat. Mit df.head() konntest du den ungefähren Aufbau der Tabelle einsehen, damit du weisst, wie die jeweiligen Spalten heissen. 

Nun interessiert es dich, wie sich die Geschlechtsverteilung über die Jahre verändert hat. Hierfür filterst du nach Geschlecht und Jahr.

Als letztes möchtest du wissen, wie viele Studierende es im Jahr 2012/2013 gab.

In [None]:
# Lös die obenstehende Aufgabe hier und in folgenden, neuen Zellen.
# ** TODO **

### Visualisierung

Neben reinem Tabellen-Inspizieren können wir auch Graphen kreieren. Dafür verwenden wir seaborn (https://seaborn.pydata.org/). Dieses haben wir oben bereits - als sns - importiert.

Seaborn hat viele Plot-Optionen. Eine Übersicht findest du unter folgendem Link: https://seaborn.pydata.org/tutorial/function_overview.html. Wir werden uns hier auf den lineplot und den barplot konzentrieren. Je nach Bedürfnis und Wunsch kannst du auch weitere Plots erstellen.

Wir entscheiden also zuerst, welchen Plot wir wählen, und auf welchem Datensatz dieser basieren soll, indem wir dem Argument "data" den Namen des Datensatzes geben. Unten entscheiden wir uns erst mal für einen Lineplot (https://seaborn.pydata.org/generated/seaborn.lineplot.html). Im ersten Beispiel verwenden wir einen neuen Datensatz, der sich gut für Linienplots eignet - die Summe aller Studierenden, über die Jahre verteilt.

In [None]:
sum_df = df.groupby("Year")[["Bachelor", "Master", "Doctorate"]].sum()

sns.lineplot(data=sum_df)
sns.set(rc={'figure.figsize':(12,10)}) # diese Linie brauchen wir, um die Grösse der Grafik richtigzuschrauben. 

In [None]:
year_df = df.loc[(df["Year"]==("2021/22"))]
year_df.groupby("ISCED Field").sum()

# Damit x="sum" korrekt interpretiert werden kann, müssen wir dies klar zuordnen. Dies machen wir mit dem folgenden Befehl:
year_df = year_df.assign(sum = year_df['Bachelor'] + year_df['Master'] + year_df['Doctorate'])

sns.barplot(x="sum", y="ISCED Field", data=year_df)


Du merkst: Einen Plot zu machen und einigermassen gut aussehen zu lassen, ist mit seaborn erstaunlich einfach. Es gibt enorm viele weitere Optionen, die du anwenden kannst, um die Plots mehr nach deinem Geschmacka usrichten zu lassen. Wenn du alle Optionen vom Linienplot willst, findest du diese unter https://seaborn.pydata.org/generated/seaborn.lineplot.html. Mehr Informationen zum Barplot findest du entsprechend unter https://seaborn.pydata.org/generated/seaborn.barplot.html. Auf der Webseite von Seaborn findest du noch mehr Plots, und mehr Optionen.

### Lösung der Lernkontrolle

Überprüfe, indem du die Frames wie oben drucken lässt (Variable am Ende des Blocks schreiben), ob du die Aufgabe erfüllst.

Dich interessiert es, wie viele Masterstudierende und Doktorierende es über die Jahre gab, und wer von ihnen auf welcher Stufe (Master, Doktorat) war. Dafür gruppierst du erst mal mit der .groupby-Funktion, wonach du sortieren möchtest - in diesem Fall also das Jahr. Bedenk, zu vermerken, welche Gruppen, die dich interessieren - beispielsweise die Stufen Bachelor, Master und Doktorat. Mit df.head() konntest du den ungefähren Aufbau der Tabelle einsehen, damit du weisst, wie die jeweiligen Spalten heissen. 

Nun interessiert es dich, wie sich die Geschlechtsverteilung über die Jahre verändert hat. Hierfür filterst du nach Geschlecht und Jahr.

Als letztes möchtest du wissen, wie viele Studierende es im Jahr 2012/2013 gab.

In [None]:
df = pd.read_csv('student_data.csv', sep=";")

grp_by_year = df.groupby("Year")[['Year', 'Master', 'Doctorate']]

grp_by_year.head()

In [None]:
filtered = df.groupby(["Year", "Sex"])[['Bachelor', 'Master', 'Doctorate']].sum() # dies illustriert bereits alle Studierenden nach Stufe, Jahr und Geschlecht.

# Mit folgenden Zusatzschritten betrachten wir einfach die Gesamtsumme aller Studierenden nach Geschlecht.

filtered = filtered.assign(sum = filtered['Bachelor'] + filtered['Master'] + filtered['Doctorate'])

filtered = filtered.filter(items=['Year', 'Sex', 'sum'])

filtered

In [None]:
specific_year = df.loc[(df["Year"]=="2012/13")].sum()

specific_year.head()

Gratuliere! Du hast sowohl die Grundlagen vom Manipulieren von Tabellen als auch die Grundlagen vom graphischen Darstellen derer Inhalte gelernt. Mit den angegebenen Links kannst du auch mit deinen eigenen Daten herumexperimentieren.