# 13.3 Pandas `DataFrame`'s
* `DataFrame`'s sind erweiterte zweidimensionale Arrays;
* Sie können benutzerdefinierte Zeilen- und Spaltenindizes haben;
* Sie können mit fehlenden Daten umgehen;
* Jede Spalte in einem `DataFrame`ist eine `Series`.

### Inhalt
1. Ersellen eines DataFrame aus einem Dictionary
2. Benutzerdefinierte Indizes
3. Auswahl von Spalten
4. Auswahl von Zeilen
5. Slices
    * Auswsahl von Zeilen via Slices
    * Auswählen von Teilmengen der Zeilen und Spalten
6. Boolesche Indizierung
7. Zugriff auf eine Zelle
8. Deskriptive Statistik
9. Transponieren
10. Sortieren
11. Arbeiten mit lokal gespeicherten CSV-Dateien

## 1. Erstellen eines `DataFrame`

In [None]:
import pandas as pd

In [None]:
grades_dict = {'Wally': [87, 96, 70], 
               'Eva': [100, 87, 90], 
               'Sam': [94, 77, 90],
               'Katy': [100, 81, 82], 
               'Bob': [83, 65, 85]}

In [None]:
grades = pd.DataFrame(grades_dict)
grades

* Jede Spalte der Tabelle entspricht einer `Series`
* Die `Series` wurden aus den key:value Paare aus dem Dictionary gebildet
* Die erste Spalte (Indexspalte) enthält die Labels, die im Standardfall den Indizes der einzelnen Series entspricht

&nbsp;

## 2. Benutzerdefinierte Indizes

In [None]:
grades.index = ['Test1', 'Test2', 'Test3']

In [None]:
grades

## 3. Auswahl von Spalten und Zeilen

### Auswahl von Spalten

Auswahl von Eva's Noten

In [None]:
grades['Eva']

Auswahl von Sam's Noten

In [None]:
grades.Sam

### Auswahl von Zeilen

In [None]:
grades

* Die Pandas Dokumentation empfiehlt die Verwendung der Attribute `loc` und `iloc`, um auf Zeilen zuzugreifen
* `loc`: Zugriff via Label
* `iloc`: Zugriff via positionellem Index (int)

&nbsp;

Noten des Test1

In [None]:
grades.loc['Test1']

&nbsp;

Noten des Test2

In [None]:
grades.iloc[1]

## 4 Slices

### Auswahl von Zeilen mittels Slices

In [None]:
grades

Ein Slice mit String-Indizes schliesst das obere Bereichsende mit ein:

In [None]:
grades.loc['Test1':'Test2']

Ein Slice mit ganzzahligen Indizes (postitionelle Indizes) schliesst das obere Bereichsende nicht mit ein:

In [None]:
grades.iloc[0:2]

In [None]:
grades.loc[['Test1', 'Test3']]

In [None]:
grades.iloc[[0, 2]]

### Auswählen von Teilmengen der Zeilen und Spalten

In [None]:
grades

In [None]:
grades.loc['Test1':'Test2', ['Eva', 'Katy']]

In [None]:
grades.iloc[[0, 2], 0:3]

## 5. Boolesche Indizierung

Boolesche Indizierung ist eine der mächtigeren Auswahlfähigkeiten von Pandas.

In [None]:
grades

Bsp. 1: Wählen Sie alle Noten, die grösser als 90 sind.

In [None]:
grades[grades >= 90]

Noten, für die die Bedingung `False` ist, werden als `NaN` (not a number) im resultierenden `DataFrame` dargestellt.

&nbsp;

Bsp. 2: Wählen Sie alle B-Noten im Bereich 80 - 90.

In [None]:
grades[(grades >= 80) & (grades < 90)]

* Pandas Boolesche Indizes kombinieren mehrere Bedingungen mit dem `&` Operator und _nicht_ mit dem`and` Operator. 
* Für `or` Bedingungen verwenden Sie `|`

&nbsp;

## 6. Zugriff auf eine Zelle

In [None]:
grades

In [None]:
grades.at['Test2', 'Eva']

In [None]:
grades.iat[2, 0]

### Zuweisen von neuen Werten

In [None]:
grades

In [None]:
grades.at['Test2', 'Eva'] = 100
grades

In [None]:
grades.iat[1, 2] = 87
grades

## 7. Descriptive Statistik

In [None]:
grades

In [None]:
grades.describe()

In [None]:
pd.set_option('display.precision', 2)

In [None]:
grades.describe()

In [None]:
grades.mean()

In [None]:
pd.reset_option('display.precision')

In [None]:
grades.describe()

## 8. Transponieren

In [None]:
grades

In [None]:
grades.T

Wenn wir die Statistik nicht nach Schüler, sondern nach Test erhalten wollen:

In [None]:
grades.T.describe()

In [None]:
grades.T.mean()

## 9. Sortieren

In [None]:
grades

### Sortieren nach Zeilen- und Spalten-Indizes

In [None]:
grades.sort_index(ascending=False)

In [None]:
grades.sort_index(axis=1)

### Sortieren nach Zeilen und Spaltenwerten

In [None]:
grades

In [None]:
grades.sort_values(by='Test1', axis=1, ascending=False)

In [None]:
grades.T.sort_values(by='Test1', axis=0, ascending=False)

In [None]:
grades

In [None]:
grades.loc['Test1'].sort_values(ascending=False)

### Schlussbemerkung zum Sortieren
* `sort_index` und `sort_values` liefern eine _Kopie_ des ursprünglichen `DataFrame`
* Das könnte in einer grossen Datenanwendung erheblichen Speicherplatz erfordern
* Sie können _die bestehenden Werte_ sortieren, indem Sie das Schlüsselwortargument `inplace=True` übergeben 

In [None]:
grades

In [None]:
grades.sort_values(by='Test1', axis=1, inplace=True)
grades

## 10. Arbeiten mit lokal gespeicherten CSV-Dateien

In [None]:
# macOS/Linux Users: View file contents
!cat accounts.csv

# # Windows Users: View file contents
# !more accounts.csv

### Laden des CSV-Datensatzes

In [None]:
data = pd.read_csv('accounts.csv', names=['account', 'name', 'balance'])

In [None]:
data

### Schreiben eines CSV-Datansatzes

* `index=False` zeigt an, dass die Zeilennamen (0 - 4 links von der obigen Ausgabe des DataFrame's nicht in die Datei geschrieben werden
* Die Spaltennamen werden geschrieben

In [None]:
data.to_csv('accounts_from_dataframe.csv', index=False, header=True)

In [None]:
# macOS/Linux Users: View file contents
!cat accounts_from_dataframe.csv

# # Windows Users: View file contents
# !more accounts_from_dataframe.csv

####  Wieder Einlesen, Spaltenüberschriften inklusive

In [None]:
data2 = pd.read_csv('accounts_from_dataframe.csv')
data2