**Importieren & Erstellen**

Mit **Pandas** lassen sich Daten in **Dataframes** einlesen, also in Tabellen, auf denen man bestimmte Operationen ausführen kann. Dadurch kann man Daten einfach einlesen, verändern, erweitern oder kürzen. Unten sieht man, wie Daten eingelesen werden können. Dazu wird erstmal Pandas importiert und danach eine der drei Optionen ausgewählt, um den Dataframe zu erstellen: Per Hand in Code-Form, indem eine CSV-Datei eingelesen wird oder indem man eine Excel einliest.

In [15]:
import pandas as pd

# DataFrame aus Dictionary erstellen
df = pd.DataFrame({"Name": ["Anna", "Ben", "Ben", "Chris"], "Alter": [23, 15, 30, 35]})

# DataFrame aus CSV laden
df = pd.read_csv("data.csv")

# DataFrame aus Excel laden (benötigt openpyxl)
df = pd.read_excel("data.xlsx")

**Erste Einblicke**

Es ist möglilch, sich verschiedene Daten eines Dataframes (der Tabelle) ausgeben zu lassen. Beispielsweise lassen sich die ersten oder letzten Zeilen ausgeben, oder man lässt sich andere hilfreiche Daten zur Tabelle auseben, wie Namen der Spalten (mit df.colums).

In [None]:
df.head(1)        # Erste 5 Zeilen anzeigen
df.tail(1)        # Letzte 5 Zeilen anzeigen
df.info()         # Infos zu Datentypen & fehlenden Werten
df.describe()     # Statistische Kennzahlen für numerische Spalten
df.shape          # Anzahl der Zeilen & Spalten (rows, columns)
df.columns        # Spaltennamen anzeigen
df.dtypes         # Datentypen der Spalten anzeigen
df.nunique()      # Anzahl einzigartiger Werte pro Spalte

**Auswählen von Daten**

Manchmal möchte man spezielle Spalten auswählen und die Einträge genauer betrachten. Dann kann die Tabelle aufgeteilt werden. Durch **df["Name"]** wird beispielsweise eine Ausschnitt der originalen Tabelle **df** erstellt, die nur aus der Spalte mit dem Spaltennamen **"Name"** besteht.
Mit **df.iloc** und **df.loc** lassen sich bestimmte Zeilen auswählen: Entweder nach Nummer oder gefiltert nach Bedingungen.

In [None]:
df["Name"]         # Einzelne Spalte auswählen (Serie)
df[["Name", "Alter"]] # Mehrere Spalten auswählen

df.iloc[0]         # Erste Zeile auswählen (Index-basiert)
df.iloc[0:3]       # Zeilen von 0 bis 2 auswählen
df.loc[df["Alter"] > 25]  # Zeilen mit Bedingung filtern
df.loc[df["Name"] == "Anna", "Alter"]  # Bestimmte Werte auswählen

**Bearbeiten von Daten**

Es lassen sich auch Daten verändern, indem Einträge überschrieben werden. Es können neue Spalten hinzugefügt werden, deren Inhalte sich aus den Inhalten anderer Spalten zusammensetzen, es können Spalten und Zeilen gelöscht werden oder auch sortiert werden.

In [None]:
df["Alter"] = df["Alter"] + 1    # Spalte bearbeiten
df["neue_Spalte"] = df["Alter"] * 2  # Neue Spalte hinzufügen
df.rename(columns={"Name": "Vorname"}, inplace=True)  # Spalten umbenennen
df.drop("neue_Spalte", axis=1, inplace=True)  # Spalte löschen
df.drop([0, 1], axis=0, inplace=True)  # Zeilen löschen
df.sort_values("Alter", ascending=False)  # Sortieren nach Spalte

**Fehlende Werte behandeln**

Beim Arbeiten mit großen Mengen an Daten muss man darauf achten, dass man vor allem mit fehlenden Werten richtig umgeht, weil sie die Datenanalyse anfällig für Fehler machen. Unten sind einige Funktionen aufgeliestet, mit denen man fehlende Werte analysieren, ersetzen und entfernen kann.

In [None]:
df.isnull().sum()       # Anzahl fehlender Werte pro Spalte
df.dropna(inplace=True) # Alle Zeilen mit NaN entfernen
df.fillna("Unbekannt", inplace=True)  # Fehlende Werte ersetzen
df["Alter"].fillna(df["Alter"].mean(), inplace=True)  # NaN mit Durchschnitt ersetzen

**Gruppieren & Aggregieren**

Mit den unten stehenden Funktionen, lassen sich Zeilen zusammenfügen, damit man logische Operationen auf ihnen ausführen kann. Dadurch lässt sich beispielsweise über eine Gruppe von Datenzeilen ein Mittelwert berechnen.

In [None]:
df.groupby("Name")["Alter"].mean()  # Durchschnittsalter pro Name
df.groupby("Name").agg({"Alter": ["mean", "max", "min"]})  # Mehrere Aggregationen
df.pivot_table(index="Name", values="Alter", aggfunc="mean")  # Pivot-Tabelle

**Zusammenführen von DataFrames**

Es lassen sich auch mehrere Tabellen über einen eindeutigen Wert verbinden. Dieser eindeutige Wert kann beispielsweise eine ID sein, wie die Versuchspersonennummer. Tabellen lassen sich auch ohne ID verbinden, aber dann werden die Einträge der Reihe nach miteinander verbunden und nicht über einen Wert, der sie zuweist.

In [None]:
df1 = pd.DataFrame({"ID": [1, 2], "Name": ["Anna", "Ben"]})
df2 = pd.DataFrame({"ID": [1, 2], "Alter": [23, 30]})

df_merged = pd.merge(df1, df2, on="ID")  # Daten zusammenführen
df_concat = pd.concat([df1, df2], axis=0)  # Zeilenweise verbinden

**Speichern von Daten**

Um die Daten nach der Bearbeitung zu sicher, muss eine der unten stehenden Funktionen aufgerufen werden, der die Tabelle im entsprechenden Format abspeichert.

In [None]:
df.to_csv("output.csv", index=False)   # Als CSV speichern
df.to_excel("output.xlsx", index=False)  # Als Excel speichern
df.to_json("output.json")  # Als JSON speichern