In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Einführung

In unserer kurzen Betrachtung von *NumPy* im ersten Kapitel sahen wir, dass auch mit NumPy Matrizen aus unterschiedlichen Objekten (Zahlen, Strings, Datumsobjekten, usw.) bilden kann. So könnten wir Daten in tabellarischer Form abbilden.

```
date1 = datetime(2022, 6, 22)
date2 = datetime(1980, 10, 29)

test = np.array([[date1, date2],
                [1, 2],
                ['a', 'b']])
```

Jedoch sind wir es gewohnt, dass Daten in tabellarischer Form oft anders "daherkommen". Dies hat vor allem mit dem Begriff *tidy data* zu tun. Tabellarische Daten sind dann *tidy*, wenn sie
  - für jede Messung/jedes Individuum *genau eine* Zeile,
  - für jede Zeile genau einen einzigartigen Schlüssel,
  - für jede Variable *genau eine* Spalte und
  - für jede Spalte genau einen Datentyp (String, Number, Datetime, usw.)
  
haben.
  
Das obige Beispiel müsste also tabellarisch so aussehen:

Index  | Date       | Number | String
-------|------------|--------|-------
0      | 2022-06-22 | 1      | a
1      | 1980-10-29 | 2      | b

Genau zu diesem Zweck der einfachen *Erzeugung* und *Manipulation* von tabellarischen Daten gibt es seit 2010 für Python das Modul [**Pandas**](https://pandas.pydata.org).

Tabellarische Daten werden in *Pandas* in einem sog. *DataFrame* gespeichert. Dieser enthält die einzelnen Variablen/Spalten als Pandas *Series Objekte* und einen *Index*.

Wir wollen also zuerst auf die Grundlagen solch eines DataFrames eingehen und zwar die Pandas Series Objects.

## pd.Series()

Es ist in der Data Science Community Usus, das Modul *Pandas* mit der Abkürzung *pd* zu importieren (siehe auch oben die Import Befehle).

So können wir nun ein *Series Objekt* erzeugen. Dazu übergeben wir der Klasse `Series` eine Liste an Werten und rufen das Objekt auf.

In [2]:
obj = pd.Series([10, 20, -30, 99])

obj

0    10
1    20
2   -30
3    99
dtype: int64

Wie wir sehen, hat Pandas ein Objekt erzeugt, und jedem Wert dabei einen eindeutigen Index gegeben. Ausserdem hat Pandas allen Werten den Typ `<int64>` zugewiesen. Hier gilt das gleiche, was schon zum Thema "erweiterte Typen" im Kapitel zu *NumPy* erwähnt wurde.

Mit dem Attribut `.values` können wir uns die einzelnen Werte ausgeben lassen.

In [3]:
obj.values

array([ 10,  20, -30,  99])

Einzelne Werte lassen sich leicht über den Index ansprechen. Die Syntax dazu ist die selbe, wie in Python üblich, bei Listen und auch NumPy Arrays, nämlich über den `[]` Operator.

In [4]:
obj[2]

-30

Man kann natürlich auch mehrere Zeilen des Index aufrufen, indem man dem `[]` Operator eine Liste an Indices übergibt. Allerdings ist hier der Rückgabewert kein Einzelwert wie oben, sondern wieder eine Pandas Series Objekt.

In [5]:
obj[[1, 3]]

1    20
3    99
dtype: int64

Wie schon bei NumPy lässt sich auch ein *boolsches* Objekt erzeugen.

In [6]:
obj > 10

0    False
1     True
2    False
3     True
dtype: bool

Dieses boolsche Objekt kann dann wieder dem `[]` Operator übergeben und damit das eigentliche Objekt gefiltert werden.

In [7]:
obj[obj > 10]

1    20
3    99
dtype: int64

Natürlich kann man auch einen eigenen und nicht von Pandas erstellten Index für das Series Objekt nutzen.

In [8]:
obj.index = ['a', 'b', 'c', 'd']

obj

a    10
b    20
c   -30
d    99
dtype: int64

In [9]:
obj['d']

99

Zuletzt gibt es, genau wie bei NumPy viele zu erwartende Funktionen, bzw. Methoden, mit denen man mit Sreies Objekten arbeiten kann.

In [12]:
obj2 = [2, 3, 4, np.NaN]

In [14]:
obj3 = obj * obj2

obj3

a     20.0
b     60.0
c   -120.0
d      NaN
dtype: float64

In [15]:
obj3.isna()

a    False
b    False
c    False
d     True
dtype: bool

In [16]:
np.exp(obj3)

a    4.851652e+08
b    1.142007e+26
c    7.667648e-53
d             NaN
dtype: float64

In [17]:
obj.mean()

24.75

In [18]:
obj.sum()

99

Auch aus einem Dictionary lässt sich ein Pandas Series Objekt erstellen. Allerdings sind die so erzeugten Objekte besser in einem *DataFrame* aufgehoben, den wir uns gleich ansehen wollen.

In [28]:
koerpergroessen = {'Stefan': 172, 'Andrea': 168, 'Mike': 192, 'Melanie': 165}

obj4 = pd.Series(koerpergroessen)

obj4

Stefan     172
Andrea     168
Mike       192
Melanie    165
dtype: int64

Hier hat Pandas aus den Schlüsselwerten einen Index erzeugt. Wir hätten aber lieber die Namen als Variablen und den Index von Pandas erzeugt. Hier kommen wir an die Grenzen des Series Objektes und wir müssen uns der mächtigeren Datenstruktur, dem *DataFrame* zuwenden.

## pd.Dataframe()