# Pandas: DataFrames


## Was sind DataFrames?

Ein DataFrame ist ein zentraler, von Pandas bereit gestellter Datentyp, der einer zweidimensionalen Tabelle entspricht. Sie können sich da so ähnlich vorstellen wir ein Excel Sheet.

## Erzeugen eines DataFrame

### Aus einem Dictionary von Listen

Es gibt mehrere Möglichkeiten ein DataFrame-Objekt zu erzeugen. Man kann beispielsweise ein zweidimensionales Dictionary in ein DataFrame-Objekt umwandeln. Hier steht jeder Key für einen Spaltennamen und jeder Value für einen Eintrag in der Spalte:

Zuerst importieren wir wieder Pandas:

In [None]:
import pandas as pd

In [None]:
students = pd.DataFrame({
    'Name': ['Anna', 'Berthold', 'Clara', 'Dieter'],
    'Studium': ['G BC', 'KG BC', 'KG MA', 'DH MA'],
    'Studienkennzahl': ['UB 033 661',  'UB 033 626', 'UB 066 646', 'UB 066 320'],
    'Semester': [5, 3, 7, 1],
    'Punkte Klausur 1': [10, 6, 4, 8],
    'Punkte Klausur 2': [7, 11, 8, None]
})
students

### Aus einer Liste von Listen

In [None]:
column_names = ['Name', 'Studium', 'Studienkennzahl', 'Semester', 'Punkte Klausur 1', 'Punkte Klausur 2']
students = pd.DataFrame([
['Anna', 'G BC', 'UB 033 661', 5, 10, 7],
['Berthold', 'KG BC', 'UB 033 626', 3, 6,	11],
['Clara', 'KG MA', 'UB 066 646', 7, 4, 8],
['Dieter', 'DH MA', 'UB 066 320', 1, 8, ]
], columns=column_names)
students

## Sich einen Überblick verschaffen

Ein `DataFrame` Objekt stellt einige Methoden bereit, über die man rasch einen Überblick über den DataFrame gewinnen kann:

### head(), tail() und sample()

`.head()` liefert die ersten 5 Zeilen eines DataFrames. Falls wie mehr oder weniger Zeilen sehen wollen, können wir die Zahl der gewünschen Zeilen an die Methode übergeben: `head(10)`. Falls Sie sich wundern, warum das hier nicht funktioniert: Unser Dataframe hat nur 4 Zeilen.


In [None]:
students.head()

`.tail()` liefert die letzen 5 Zeilen eines DataFrames. Auch hier können wir optional die Zahl der gewünschten Zeilen angeben: `tail(10)`.

In [None]:
students.tail()

Mit `.sample(<int>)` können wir uns eine anzugebende Zahl zufällig gewählter Zeilen (also ein Sample) liefern lassen:


In [None]:
students.sample(3)

### shape, colums und dtypes

Die `shape` Eigenschaft liefert die Anzahl der Zeilen und Spalten des DataFrames als Tupel:

In [None]:
students.shape

Diese Ausgabe bedeutet, dass unser DataFrame 4 Zeilen und 6 Spalten hat.

`.columns` liefert die Spaltennamen als Index-Objekt

In [None]:
students.columns

`.dtypes` liefert den Datentyp der einzelnen Spalten als Series-Objekt:

In [None]:
students.dtypes

## Zugriff auf eine Spalte

Um auf die Werte einer bestimmten Spalte zuzugreifen, kann man einfach den Namen der Spalte als Property verwenden. Zurückgeliefert wird ein `Series`-Objekt mit den Werten dieser Spalte. Als Index wird eine fortlaufende Zahl verwendet:

In [None]:
spalte = students.Name
print(spalte)
print(type(spalte))
print(spalte.index)

Die Groß- und Kleinschreibung ist hier wichtig und muss exakt der Schreibweise des Spaltennamens entsprechen.

Eine zweite Möglichkeit besteht darin, den Spaltennamen in eckigen Klammern anzugeben (so wie beim Key eines Dictionaries). 

In [None]:
students["Studium"]

Diese Art des Zugriffs hat den Vorteil, dass man sie z.B. auch für Spalten mit Leerzeichen im Spaltennamen verwenden kann. Bei der ersten Methode haben wir das Problem, dass ein Leerzeichen in einem Python-Namen nicht erlaubt sind (so wie z.B. auch Namen, die mit einer Ziffer beginnen). Geben wir den Namen in eckigen Klammern an, haben wir das Problem nicht:

In [None]:
students["Punkte Klausur 1"]

### Mehrere Spalten auswählen

Wir können auch mehr als eine Spalte auswählen:

In [None]:
students[["Name", "Punkte Klausur 1", "Punkte Klausur 2"]]

Das Ergebnis der letzten Operation war ein neues DataFrame. Wir können dieses neue DataFrame einer neuen Variable (`grades`) zuweisen: 

In [None]:
grades = students[["Name", "Punkte Klausur 1", "Punkte Klausur 2"]]
grades

Aber Vorsicht: Aus Effizienzgründen ist das kein komplette neues und unabhäniger `DataFrame`, sondern ein `View`, als eine spezielle Sichtweise auf das originale `DataFrame`. Wenn wir ein komplett unabhängiges neues DataFrame wünschen, können wir eine Kopie des Views anlegen. Auf diesem können wir dann problemlos weiterarbeiten. Die Erzeugung einer Kopie ist meist nicht notwenig und verbraucht zusätzliche Ressourcen. Manche Operationen (Pandas gibt dann eine Warnung oder Fehlermeldung aus), funktionieren aber nur auf der Kopie.

In [None]:
# make an independend DataFrame
grades = students.copy()
# Make sure no NaN values remain
grades[['Punkte Klausur 1', 'Punkte Klausur 2']] = grades[['Punkte Klausur 1', 'Punkte Klausur 2']].fillna(0)
grades

In unsere Kopie (`grades`) steht nun der Wert für die Punkte der zweiten Klausur bei Dieter nicht mehr auf `NaN`, sondern auf `0.0.` 
Im originalen DataFrame `students` ist diese Änderung nicht enthalten:

In [None]:
students

## Zugriff auf Zeilen über Index

Zeilen können über die Slicing-Methode (wie bei Listen mit Python) adressiert werden.

```
students[1:3]
```

bedeutet, dass wie an den Zeilen 2 und 3 interessiert sind. Zur Erinnerung: Der Index beginnt mit `0`, daher ist `1` die zweite Zeile. `3` (d.h. die vierte Zeile) ist die erste Zeile, die nicht mehr ausgeschnitten werden soll.

In [None]:
students[1:3]

Wenn wir auf eine bestimmte Zeile zugreifen wollen, verwenden wir die schon von Series bekannten Properties `loc` und `iloc`:

In [None]:
print(students.iloc[2])

In [None]:
print(students.iloc[2])

Zur Erinnerung: `iloc` ist schneller, `loc` ist mächtiger, weil man damit auch filtern kann. Der Vollständigkeit halber: Das Slicing funktioniert natürlich auch mit `loc` und `iloc`:

In [None]:
students.iloc[1:3]

### Zugriff über einen nicht numerischen Index

Es wäre doch schön, wenn wir, wie im Notebook zu `Series` gezeigt, über den Namen der Studierenden auf bestimmte Zeilen zugreifen könnten. Um in einem DataFrame statt der  fortlaufenden Indexwerte die Werte einer Spalte zu verwenden, rufen wir die `set_index()` Methode auf. Diese verändert nicht den aktuellen DataFrame, sondern erzeugt einen neuen:

In [None]:

test_students = students.set_index('Name')
test_students

In [None]:
test_students.loc['Clara']

Auf die eben gezeigts Art verschwindet die für den Index verwendete Spalte aus den eigentlichen Daten. Falls wir sie als normale Spalte behalten wollen, müsse wir den Index so setzen:

In [None]:
test_students = students.set_index('Name', drop=False)
test_students

## Zeilen filtern


### Nach Zahlen filtern
Wir wir schon von den Series kennen, können wir `loc` dazu verwenden, um Zeilen herauszufiltern:

In [None]:
students.loc[students["Punkte Klausur 1"] > 4]

### Filter über Stringvergleich

Wir können natürlich auf Zeilen filtern, die einen bestimmten String beinhalten:

In [None]:
students.loc[students["Studium"] == "KG BC"]

Die Filterung nach einem Teilstring ist etwas komplizierter, aber immer noch einfach:

In [None]:
students.loc[students["Studium"].str.contains("KG")]

### Mehrere Filterbedingungen

Falls nach mehr als einer Bedingung gefilter werden soll, können wir die einzelnen Bedingungen mit den Operatoren `&` (und) bzw. `|` (oder) verbinden. Zusätzlich müssen wir die einzelnen Bedingung klammern:

In [None]:
students.loc[(students["Studium"].str.contains("KG")) & (students.Semester < 5)]

## Iterieren über Zeilen

Falls wir einzelne Zeilen in einer Schleife verarbeiten wollen, bietet Pandas zwei Möglichkeiten:

  * `iterrows()`
  * `items()`

### iterrows()

`iterrows()` liefert jede Zeile als zweiwertiges Tupel, bestehend aus dem Indexwert und den einzelnen Spaltenwerten der Zeile als Series-Objekt.

In [None]:
for index, row_series in students.iterrows(): 
    print(f"{index}: {row_series.Name}: {row_series['Punkte Klausur 1'] + row_series['Punkte Klausur 2']}")

### items()

`items()` liefert jede Spalte als zweiwertiges Tupel, bestehend aus dem Spaltennamen und den einzelnen Spaltenwerten als Series-Objekt.

In [None]:
for key, col_series in students.items(): 
    print(f"{key}: {col_series.values}")

## Spaltenoperationen
<a class="anchor" id="spalten_operationen"></a>

### Spalten einfügen

Einem *DataFrame* können bei Bedarf auf einfache Weise neue Spalten hinzugefügt werden. Nehmen wir an, wir brauchen eine neue Spalte 'Gender': 

In [None]:
students['Gender'] = ["f", "m", "f", "m"]
students

Statt wie im letzten Beispiel explizite Werte anzugeben, können wir die Werte der neuen Spalte auch aus bestehenden Spalten ableiten:

In [None]:
# Make sure no NaN values remain
students['Punkte Klausur 1'] = students['Punkte Klausur 1'].fillna(0)
students['Punkte Klausur 2'] = students['Punkte Klausur 2'].fillna(0)

# add a new column 'Gesamtpunkte'
students['Gesamtpunkte'] = students['Punkte Klausur 1'] + students['Punkte Klausur 2']
students

`DataFrames` haben natürlich auch eine `apply()` Methode, die wir schon vom `Series` Objekt kennen. 

Diese könnten wir zum Beispiel nutzen, um die Spalte Studium aufzutrennen. Dies Spalte beinhaltet streng genommen 2 Werte: Eine Abkürzung für das Studium (z.B. `G` für Geschichte) und eine Abkürzung für die Art des Studiums (`BC` oder `MA`). Wir schreiben nun eine Funktion `extract_studyphase()`, die den übergebenen Wert zuerst am Leerzeichen aufsplittet und dann den Wert hinter dem Leerzeichen zu `Bachelor` bzw. `Master` auflöst.

Zusätzlich verwenden wir einen Lambda-Ausdruck, um den ersten Teil (die Abkürzung für die Studienrichtung) herauszulösen. Mit den so ermittelten Werten befüllen wir zwei neue Spalten `Studienrichtung` und `Studyphase`.

In [None]:
def extract_studyphase(row):
    "Splitte 'Studium' und löse den zweiten Teil auf."
    richtung, grad = row.Studium.split()
    if grad == 'BC':
        return 'Bachelor'
    elif grad == 'MA':
        return 'Master'
    return grad

# Demonstrate how to do it with a lambda expression
students['Studienrichtung'] = students.apply(lambda row: row.Studium.split()[0], axis=1)

# Demonstrate how to do is with calling a function
students['Studyphase'] = students.apply(extract_studyphase, axis=1)
students

### Spaltennamen ändern

#### Einzelne Spalten umbenennen

Wir können gezielt eine oder mehrere Spalten umbennen, indem wir die `rename()` Methode verwenden.

In [None]:
students.rename(columns = {"Studium": "Study"}, inplace=True)
students

Der Parameter `columns`erwartet ein Dictionary mit den zu verändernden Namen. Der *Key* ist jeweils der alte Name, der *Value* der neue Name. Das `inplace=True` bedeutet, dass der DataFrame direkt verändert werden soll, was relativ gefährlich ist, weil wir so den DataFrame kaputt machen können. Hätten wir es weggelassen, dann hätte `rename` ein neues `DataFrame` Objekt erzeugt. Probieren wir das gleich aus und ändern bei der Gelegenheit gleich mehrere Spaltennamen auf einen Schlag:

In [None]:
new_df = students.rename(columns = {"Study": "Studium", "Punkte Klausur 1": "Klausur1", "Punkte Klausur 2": "Klausur 2"})
new_df

#### Alle Spalten umbennen

Da die Spaltennamen in der Eigenschaft `columns` steht, können wir diese direkt verändern. Wir müssen nur aufpassen, dass wir gleich viele Werte übergeben, wie ursprünglich vorhanden waren.

In [None]:
new_df.columns = ["firstname", "s", "study_id", "num_of_terms", "exam1", "exam2", "sex", "total points", "study", "phase"]
new_df

### Löschen von Spalten
Über die Methode `.drop()` können Spalten gelöscht werden. Auch hier erzeugt Pandas als Ergebnis eine veränderte Kopie des `DataFrames`. Grundsätzlich kann man auch hier `inplace=True` setzen und hoffen, dass man die Spalte wirklich nicht mehr braucht.

Außerdem müssen wir die Richtung des Löschvorgangs über den Parameter `axis` angeben: `0` steht für Zeilen, `1` für Spalten. Da wir ja eine Spalte löschen wollen, verwenden wir `axis=1`.

In [None]:
new_df = students.drop('Studienkennzahl', axis=1)
new_df

Man kann auch mehrere Spalten zugleich löschen. Dazu müssen wir an die `drop()`-Methode eine Liste mit den Namen der zu löschenden Spalten übergeben.

In [None]:
new_df = students.drop(['Studienkennzahl', 'Semester'], axis=1)
new_df

## 

## Zeilenoperationen

Da wir `students` und new_df gerade ziemlich umgebaut haben, erzeugen wir die beiden DataFrame Objekt hier neu, damit wir nicht den Überblick verlieren verlieren:

In [None]:
column_names = ['Name', 'Studium', 'Studienkennzahl', 'Semester', 'Punkte Klausur 1', 'Punkte Klausur 2']
students = pd.DataFrame([
['Anna', 'G BC', 'UB 033 661', 5, 10, 7],
['Berthold', 'KG BC', 'UB 033 626', 3, 6,	11],
['Clara', 'KG MA', 'UB 066 646', 7, 4, 8],
['Dieter', 'DH MA', 'UB 066 320', 1, 8, ]
], columns=column_names)
students

In [None]:
new_df = students.copy()
new_df

### Zeilen einfügen

Eine neue Zeile kann über die `loc` Eigenschaft eingefügt werden. Man muss einen Indexwert vergeben und diesem eine Liste von Werten zuweisen. Dass die Zahl der Listenelement der Zahl der vorhandenen Spalten entsprechen soll, versteht sich von selbst. Wenn unser `DataFrame` einen fortlaufenden Zähler als Index hat, können wir einfach [`len(df)`] für den Wert des neuen Index verwenden.

In [None]:
new_df.loc[len(new_df)] = ['Elke', 'G BC', 'UB 066 6614', 5, 10, 10]
new_df

Eine andere Möglichleit besteht in der Verwendung der `concat()` Methode. Um das Beipiel so einfach wie möglich zu halten, legen wir zuerst zwei neue, minimale DataFrames an:

In [None]:
df1 = pd.DataFrame({
    "Name": ["Anna", "Berta"],
    "Alter": [25, 37]
})

df2 = pd.DataFrame({
    "Name": ["Conrad", "Detlef"],
    "Alter": [22, 55]
})
print(df1)
print('-' * 20)
print(df2)

Nun hängen wir die beiden DataFrames aneinander. Das Ergebnis ist ein neuer DataFrame:

In [None]:
combined_df = pd.concat([df1, df2])
combined_df

Wir sehen, dass die Indexwerte erhalten geblieben sind. Wenn wir lieber hätten, dass der neue `DataFrame` den Index neu aufbaut, machen wir das so:

In [None]:
combined_df = pd.concat([df1, df2], ignore_index=True)
combined_df

### Zeilenwerte und Zeilenindex verändern

Um den Wert einer ganzen Zeile zu verändern, greiffen wir via `loc` darauf zu und weisen die neuen Werte als Liste zu:

In [None]:
combined_df.loc[1] = ["Zenzi", 99]
combined_df

Um einen einzelnen Wert zu verändern, nutzen wir ebenfalls `loc`. Allerdings geben wir nun den Namen der zu ändernden Spalte als zweiten Wert mit:

In [None]:
combined_df.loc[1, 'Alter'] = 33
combined_df

### Zeilen löschen

Zum Löschen einer oder mehrerer Zeilen aus dem DataFrame setzen wir `axis=0`. Natürlich können wir jetzt keine Spaltennamen mehr verwenden, sondern wir brauchen den Index der Zeile. Wir haben ja weiter oben bereits den Index von `students` auf den Wert von `Name` gesetzt. Sicherheitshalber (möglicherweise haben Sie inzwischen den `DataFrame` neu erzeugt), setzen wir den Index erneut. Danach löschen wir die Zeile für 'Dieter' aus dem `DataFrame`. 

In [None]:
students.set_index('Name', inplace=True)
students

In [None]:
new_df = students.drop('Dieter', axis=0)
new_df

### Zeilen sortieren

Mit der Funktion `.sort_values()` kann man die Zeilen eines `DataFrame` sortieren. 

In [None]:
students.sort_values(by='Semester')

Wir können die Sortierreihenfolge natürlich auch umdrehen:

In [None]:
students.sort_values(by='Semester', ascending=False)

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>