In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Einführung

In unserer kurzen Betrachtung von *NumPy* im ersten Kapitel sahen wir, dass auch mit NumPy Matrizen aus unterschiedlichen Objekten (Zahlen, Strings, Datumsobjekten, usw.) bilden kann. So könnten wir Daten in tabellarischer Form abbilden.

```
date1 = datetime(2022, 6, 22)
date2 = datetime(1980, 10, 29)

test = np.array([[date1, date2],
                [1, 2],
                ['a', 'b']])
```

Jedoch sind wir es gewohnt, dass Daten in tabellarischer Form oft anders "daherkommen". Dies hat vor allem mit dem Begriff *tidy data* zu tun. Tabellarische Daten sind dann *tidy*, wenn sie
  - für jede Messung/jedes Individuum *genau eine* Zeile,
  - für jede Zeile genau einen einzigartigen Schlüssel,
  - für jede Variable *genau eine* Spalte und
  - für jede Spalte genau einen Datentyp (String, Number, Datetime, usw.)
  
haben.
  
Das obige Beispiel müsste also tabellarisch so aussehen:

Index  | Date       | Number | String
-------|------------|--------|-------
0      | 2022-06-22 | 1      | a
1      | 1980-10-29 | 2      | b

Genau zu diesem Zweck der einfachen *Erzeugung* und *Manipulation* von tabellarischen Daten gibt es seit 2010 für Python das Modul [**Pandas**](https://pandas.pydata.org).

Tabellarische Daten werden in *Pandas* in einem sog. *DataFrame* gespeichert. Dieser enthält die einzelnen Variablen/Spalten als Pandas *Series Objekte* und einen *Index*.

Wir wollen also zuerst auf die Grundlagen solch eines DataFrames eingehen und zwar die Pandas Series Objects.

## pd.Series()

Es ist in der Data Science Community Usus, das Modul *Pandas* mit der Abkürzung *pd* zu importieren (siehe auch oben die Import Befehle).

So können wir nun ein *Series Objekt* erzeugen. Dazu übergeben wir der Klasse `Series` eine Liste an Werten und rufen das Objekt auf.

In [17]:
obj = pd.Series([10, 20, -30, 99])

obj

0    10
1    20
2   -30
3    99
dtype: int64

Wie wir sehen, hat Pandas ein Objekt erzeugt, und jedem Wert dabei einen eindeutigen Index gegeben. Ausserdem hat Pandas allen Werten den Typ `<int64>` zugewiesen. Hier gilt das gleiche, was schon zum Thema "erweiterte Typen" im Kapitel zu *NumPy* erwähnt wurde.

Mit dem Attribut `.values` können wir uns die einzelnen Werte ausgeben lassen.

In [18]:
obj.values

array([ 10,  20, -30,  99])

Einzelne Werte lassen sich leicht über den Index ansprechen. Die Syntax dazu ist die selbe, wie in Python üblich, bei Listen und auch NumPy Arrays, nämlich über den `[]` Operator.

In [4]:
obj[2]

-30

Man kann natürlich auch mehrere Zeilen des Index aufrufen, indem man dem `[]` Operator eine Liste an Indices übergibt. Allerdings ist hier der Rückgabewert kein Einzelwert wie oben, sondern wieder eine Pandas Series Objekt.

In [5]:
obj[[1, 3]]

1    20
3    99
dtype: int64

Wie schon bei NumPy lässt sich auch ein *boolsches* Objekt erzeugen.

In [6]:
obj > 10

0    False
1     True
2    False
3     True
dtype: bool

Dieses boolsche Objekt kann dann wieder dem `[]` Operator übergeben und damit das eigentliche Objekt gefiltert werden.

In [7]:
obj[obj > 10]

1    20
3    99
dtype: int64

Natürlich kann man auch einen eigenen und nicht von Pandas erstellten Index für das Series Objekt nutzen.

In [8]:
obj.index = ['a', 'b', 'c', 'd']

obj

a    10
b    20
c   -30
d    99
dtype: int64

In [9]:
obj['d']

99

Zuletzt gibt es, genau wie bei NumPy viele zu erwartende Funktionen, bzw. Methoden, mit denen man mit Sreies Objekten arbeiten kann.

In [10]:
obj2 = [2, 3, 4, np.NaN]

In [11]:
obj3 = obj * obj2

obj3

a     20.0
b     60.0
c   -120.0
d      NaN
dtype: float64

In [12]:
obj3.isna()

a    False
b    False
c    False
d     True
dtype: bool

In [13]:
np.exp(obj3)

a    4.851652e+08
b    1.142007e+26
c    7.667648e-53
d             NaN
dtype: float64

In [14]:
obj.mean()

24.75

In [15]:
obj.sum()

99

Auch aus einem Dictionary lässt sich ein Pandas Series Objekt erstellen. Allerdings sind die so erzeugten Objekte besser in einem *DataFrame* aufgehoben, den wir uns gleich ansehen wollen.

In [16]:
koerpergroessen = {'Stefan': 172, 'Andrea': 168, 'Mike': 192, 'Melanie': 165}

obj4 = pd.Series(koerpergroessen)

obj4

Stefan     172
Andrea     168
Mike       192
Melanie    165
dtype: int64

Hier hat Pandas aus den Schlüsselwerten einen Index erzeugt. Wir hätten aber lieber die Namen als Variablen und den Index von Pandas erzeugt. Hier kommen wir an die Grenzen des Series Objektes und wir müssen uns der mächtigeren Datenstruktur, dem *DataFrame* zuwenden.

## pd.DataFrame()

Ein DataFrame ist eine tabellarische zweidimensionale Datenstruktur, die aus einzelnen Pandas Serien Objekten und einem Index aufgebaut sind.

Am leichtesten lässt sich ein DataFrame aus einem Python Dictionary erstellen, also aus einer Datenstruktur mit Key-Value-Paaren: `dict = {"key": "value"}`.

In [44]:
data = {
    "Name": ["Stefan", "Andrea", "Mike", "Melanie"],
    "Geschlecht": ["m", "w", "d", "w"],
    "Koerpergroesse_cm": [172, 168, 192, 165],
    "Datum": ["2022-02-23", "2022-02-24", pd.NA, "2022-02-28"],
    "Score": [134.7, 162.1, 156.33, 117.9]
}

frame = pd.DataFrame(data)

frame

Unnamed: 0,Name,Geschlecht,Koerpergroesse_cm,Datum,Score
0,Stefan,m,172,2022-02-23,134.7
1,Andrea,w,168,2022-02-24,162.1
2,Mike,d,192,,156.33
3,Melanie,w,165,2022-02-28,117.9


Wir sehen, wie die einzelnen Schlüsselwerte (Keys) als Variablen Bezeichnungen (Spalten) und die Listenwerte als Individualausprägungen (Zeilen) genommen wurden. Dabei muss man aber beachten, dass alle Werte, also alle Listen die gleiche Länge haben müssen. Bei einer Person wurde z.B. das Datum nicht notiert; so musste stattdessen der Wert `pd.NA` gesetzt werden, um wieder auf die gleiche Länge zu kommen. **NA** ist für Pandas ein **fehlender Wert**. Wäre dies nicht so gesetz worden, wäre der Fehler `ValueError: All arrays must be of the same length` gekommen. (Man könnte auch den Wert `np.NaN` aus dem NumPy Modul setzen.)

Mit der Methode `.info()` können wir uns mehr Informationen zum DateFrame anzeigen lassen.

In [41]:
frame.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Name               4 non-null      object 
 1   Geschlecht         4 non-null      object 
 2   Koerpergroesse_cm  4 non-null      int64  
 3   Datum              3 non-null      object 
 4   Score              4 non-null      float64
dtypes: float64(1), int64(1), object(3)
memory usage: 288.0+ bytes


`pd.DataFrame.info()` zeigt uns wichtige Informationen. So sehen wir, dass die Tabelle aus 5 Variablen (Spalten 0-4) und aus 4 Zeilen (RangeIndex: 4) besteht. Darüber bekommen wir Informationen zu jeder Variablen: Index, Name, wie viele Einträge nicht-null sind, also nicht fehlend und welchen *Dtype* die Variable besitzt. Den Dtype haben wir im Zuge von NumPys schon kurz erwähnt. Er besagt, welcher Datentyp den Werten der Spalte zugeordnet wurden und damit aber auch, welche Operationen mit diesen einzelnen Werten möglich sind.

Dabei fällt sofort auf, dass den drei Variablen "Name", "Geschlecht" und "Datum" jeweils des Dtype "object" zugeordnet wurde. Dieser Typ wird immer dann zugeordnet, wenn Pandas auf einen String, oder jedes andere Python Objekt "trifft". Dies ist für unsere weitere praktische Arbeit mit diesen Daten etwas unbefriedigend und wir müssen Pandas sagen, welchen Typ wir eigentlich haben wollen: "Geschlecht" sollte ein *kategorialer* Datentyp sein, "Name" ein String und "Datum" natürlich ein Datumswert.

Dazu müssen wir die Einzelwerte als `pd.Series` Objekt deklarieren und können dann mit `dtype=` den zu verwendenden Datentyp angeben. Welche Datentypen Pandas grundlegend verwendet, und welche String-Werte sie hier für `dtype=` einsetzen können, sehen Sie in der [Dokumentation](https://pandas.pydata.org/docs/user_guide/basics.html#basics-dtypes).

In [42]:
dataframe = pd.DataFrame(
    {
    "Name": pd.Series(["Stefan", "Andrea", "Mike", "Melanie"], dtype="string"),
    "Geschlecht": pd.Series(["m", "w", "d", "w"], dtype="category"),
    "Koerpergroesse_cm": [172, 168, 192, 165],
    "Datum": pd.Series(["2022-02-23", "2022-02-24", pd.NA, "2022-02-28"], dtype="datetime64[ns]"),
    "Score": [134.7, 162.1, 156.33, 117.9]
    }
)

dataframe

Unnamed: 0,Name,Geschlecht,Koerpergroesse_cm,Datum,Score
0,Stefan,m,172,2022-02-23,134.7
1,Andrea,w,168,2022-02-24,162.1
2,Mike,d,192,NaT,156.33
3,Melanie,w,165,2022-02-28,117.9


Die tabellarische Ausgabe hat sich zu oben hin nicht verändert. (Nun gut, sagen wir "fast nicht". Aus dem fehlenden Wert bei Datum wurde aus `<NA>` ein `NaT`. Dies ist ein spezieller "fehlender Wert" für Zeit- und Datumsangaben.) Mit `.info()` sehen wir aber besser, was sich alles verändert hat.

In [43]:
dataframe.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype         
---  ------             --------------  -----         
 0   Name               4 non-null      string        
 1   Geschlecht         4 non-null      category      
 2   Koerpergroesse_cm  4 non-null      int64         
 3   Datum              3 non-null      datetime64[ns]
 4   Score              4 non-null      float64       
dtypes: category(1), datetime64[ns](1), float64(1), int64(1), string(1)
memory usage: 392.0 bytes


Unser Dataframe hat also nun die richtigen Typen und wir können mit ihm weiter arbeiten.

### Zugriff auf Werte

Wie kann man nun auf die Werte eines DateFrames zugreifen?

Auf einzelne Variablen (Spalten) kann man als `pd.Series` Objekt entweder über den `[]` oder den `.` Operator zugreifen:

In [45]:
dataframe["Datum"]

0   2022-02-23
1   2022-02-24
2          NaT
3   2022-02-28
Name: Datum, dtype: datetime64[ns]

In [46]:
dataframe.Datum

0   2022-02-23
1   2022-02-24
2          NaT
3   2022-02-28
Name: Datum, dtype: datetime64[ns]

Der `.` Operator lässt sich wie beim Aufruf von Methoden oder Attribute von Python Objekten verwenden und hat Dank seiner Möglichkeit für die Autovervollständigung in vielen Editoren und auch im Jupyter-Notebook einen großen Charm. Auch ist `data.col_name.sum()` etwas besser lesbar als `data['col_name'].sum()`. Manche halten den `.` Operator aber für nicht "pythonesque" genug. Das Problem ist auch, dass der `[]` Operator wirklich **immer** funktioniert, der `.` Operator in manchen Situationen nicht. Trotz seines Charms würde ich also gerade am Anfang eher davon abraten; oder, wenn mal etwas einmal nicht so funktioniert, wie es sollte, denken Sie daran, vielleicht den `[]` Operator zu benutzen.

Der `.` Operator funktioniert in folgenden Situation nicht:
- Wenn der Spaltenname ein Leerzeichen enthält: `data['col name']`.
- Wenn der Spaltenname wie eine Pandas-Funktion lautet: `data['sum']`.
- Wenn der Spaltenname wie ein Python Schlüsselwort lautet: `data['if']`.
- Wenn der Spaltenname als Variable gespeichert ist: `var = 'col_name'; data[var]`.
- Wenn der Spaltenname ein Integer sein sollte: `data[11]`.
- Wenn eine neue Spalte über den Zuweisungsoperator erzeugt wird: `data['new_col'] = 25`. --> Sehen wir uns gleich noch an.

In [47]:
dataframe.Geschlecht

0    m
1    w
2    d
3    w
Name: Geschlecht, dtype: category
Categories (3, object): ['d', 'm', 'w']