# DataFrames für Tabellen

## Lernziele

```{admonition} Lernziele
:class: hint
* TODO
```

## DataFrame erzeugen aus mehreren Series-Objekten

Ein DataFrame-Objekt entspricht einer Tabelle, wie man sie beispielsweise von
Excel, LibreOffice oder Numbers kennt. Sowohl Zeile als auch Spalten sind
normalerweise indiziert. Typischerweise werden die Daten in der Tabelle
zeilenweise angeordnet. Damit ist gemeint, dass jede Zeile einen Datensatz
darstellt und in den Spalten die Daten zu den Parametern sind.

Ein DataFrame kann direkt über mehrere Pandas-Series-Objekte oder verschachtelte
Listen erzeugt werden. In der Praxis am häufigsten ist jedoch der Fall, dass das
Pandas-DataFrame-Objekt aus einer Datei importiert wird. Dazu später mehr. Zunächst erzeugen wir zwei Series-Objekte. `alter` speichert das Alter der Personen, `wohnort` den aktuellen Wohnort.

In [5]:
import pandas as pd

alter = pd.Series([25, 22, 43, 30], index=["Alice", "Bob", "Charlie", "Dora"])
wohnort = pd.Series(['Frankfurt', 'Darmstadt', 'Mainz', 'Berlin'], index=["Alice", "Bob", "Charlie", "Dora"])

Danach führen wir die beiden Series-Objekte mit dem `concat`-Befehl zusammen zu
einem DataFrame. Dabei gibt es zwei verschiedene Möglichkeiten. Die beiden
Series-Objekte können vertikal or vhorizontal verkettet werden. Gesteuert wird
das mit der Option `axis=0` oder `axis=1`. In diesem Fall brauchen wir `axis=1`,
aber probieren Sie auch einmal die andere Option aus um zu sehen, was sie
bewirkt.

In [6]:
personen = pd.concat([alter, wohnort], axis=1)
print(personen)

          0          1
Alice    25  Frankfurt
Bob      22  Darmstadt
Charlie  43      Mainz
Dora     30     Berlin


Was jetzt noch fehlt ist eine Beschriftung der Spalten. Das geht am einfachsten,
wenn man den Series-Objekten Namen gibt, bevor der concatenate-Befehl ausgeführt
wird.

In [15]:
alter = pd.Series([25, 22, 43, 30, 6], index=["Alice", "Bob", "Charlie", "Dora", "Emil"], name='Alter')
wohnort = pd.Series(['Frankfurt', 'Darmstadt', 'Mainz', 'Berlin', 'Frankfurt'], index=["Alice", "Bob", "Charlie", "Dora", "Emil"], name='Wohnort')
personen = pd.concat([alter, wohnort], axis=1, keys=['Alter','Wohnort'])
print(personen)

         Alter    Wohnort
Alice       25  Frankfurt
Bob         22  Darmstadt
Charlie     43      Mainz
Dora        30     Berlin
Emil         6  Frankfurt


## Zugriff auf Zellen

Wie bei den Pandas-Serien-Objekten können wir über das Attribut `.loc[]` auf
Zellen des Pandas-DataFrame-Objektes zugreifen.

In [16]:
print( personen.loc['Charlie', 'Alter'] )

43


Auch der schreibende Zugriff erfolgt analog zu den Zugriffsmöglichkeiten bei
Pandas-Series-Objekten.

In [17]:
personen.loc['Charlie', 'Alter'] = 44
print(personen)

         Alter    Wohnort
Alice       25  Frankfurt
Bob         22  Darmstadt
Charlie     44      Mainz
Dora        30     Berlin
Emil         6  Frankfurt


Auf einen zusammenhängenden Bereich wird durch Slicing zugegriffen. Dabei kann
das Slicing für die Zeilen (index), die Spalten (columns) oder beides benutzt
werden.

In [18]:
tmp = personen.loc['Bob' : 'Dora', 'Alter']
print(tmp)

Bob        22
Charlie    44
Dora       30
Name: Alter, dtype: int64


In [19]:
tmp = personen.loc['Bob', 'Alter':'Wohnort']
print(tmp)

Alter             22
Wohnort    Darmstadt
Name: Bob, dtype: object


Beim Slicing können wir den Startwert oder den Stoppwert oder beides weglassen.
Wenn wir den  Startwert weglassen, fängt der Slice von vorne an. Lassen wir den
Stoppert weg, geht der Slice bis zum Ende. Das nutzen wir, um auf eine ganze
Spalte zuzugreifen:

In [20]:
tmp = personen.loc[ 'Bob' , :]
print(tmp)

Alter             22
Wohnort    Darmstadt
Name: Bob, dtype: object


Sollen dahingegen mehrere Zellen gleichzeitig ausgewählt werden, die nicht
zusammenhängen, benutzt man Listen. Wiederum können die Listen für den index
oder die columns oder beides gemischt spezifiziert werden.

In [21]:
tmp = personen.loc[ ['Bob', 'Dora','Emil'] , 'Alter']
print(tmp)

Bob     22
Dora    30
Emil     6
Name: Alter, dtype: int64


Als nächstes fügen wir unserer Personen-Tabelle eine neue Spalte hinzu. In der
neuen Spalte soll die Note der letzten Klausur stehen. Dazu erzeugen wir
zunächst wieder einmal ein Pandas-Series-Objekt. Danach weisen wir das
Series-Objekt dem DataFrame-Objekt spalten weise zu, indem wir den neuen Namen
dem `.loc`-Attribut mitgeben.

In [22]:
note = pd.Series({'Alice': 1.3, 'Bob': 3.7, 'Charlie': 2.0, 'Dora': 1.7, 'Emil': 5.0})
note

Alice      1.3
Bob        3.7
Charlie    2.0
Dora       1.7
Emil       5.0
dtype: float64

In [23]:
personen.loc[:, 'Note'] = note
print(personen)

         Alter    Wohnort  Note
Alice       25  Frankfurt   1.3
Bob         22  Darmstadt   3.7
Charlie     44      Mainz   2.0
Dora        30     Berlin   1.7
Emil         6  Frankfurt   5.0
