In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# Einführung

In unserer kurzen Betrachtung von *NumPy* im ersten Kapitel sahen wir, dass auch mit NumPy Matrizen aus unterschiedlichen Objekten (Zahlen, Strings, Datumsobjekten, usw.) bilden kann. So könnten wir Daten in tabellarischer Form abbilden.

```
date1 = datetime(2022, 6, 22)
date2 = datetime(1980, 10, 29)

test = np.array([[date1, date2],
                [1, 2],
                ['a', 'b']])
```

Jedoch sind wir es gewohnt, dass Daten in tabellarischer Form oft anders "daherkommen". Dies hat vor allem mit dem Begriff *tidy data* zu tun. Tabellarische Daten sind dann *tidy*, wenn sie
  - für jede Messung/jedes Individuum *genau eine* Zeile,
  - für jede Zeile genau einen einzigartigen Schlüssel,
  - für jede Variable *genau eine* Spalte und
  - für jede Spalte genau einen Datentyp (String, Number, Datetime, usw.)
  
haben.
  
Das obige Beispiel müsste also tabellarisch so aussehen:

Index  | Date       | Number | String
-------|------------|--------|-------
0      | 2022-06-22 | 1      | a
1      | 1980-10-29 | 2      | b

Genau zu diesem Zweck der einfachen *Erzeugung* und *Manipulation* von tabellarischen Daten gibt es seit 2010 für Python das Modul [**Pandas**](https://pandas.pydata.org).

Tabellarische Daten werden in *Pandas* in einem sog. *DataFrame* gespeichert. Dieser enthält die einzelnen Variablen/Spalten als Pandas *Series Objekte* und einen *Index*.

Wir wollen also zuerst auf die Grundlagen solch eines DataFrames eingehen und zwar die Pandas Series Objects.

## pd.Series()

Es ist in der Data Science Community Usus, das Modul *Pandas* mit der Abkürzung *pd* zu importieren (siehe auch oben die Import Befehle).

So können wir nun ein *Series Objekt* erzeugen. Dazu übergeben wir der Klasse `Series` eine Liste an Werten und rufen das Objekt auf.

In [17]:
obj = pd.Series([10, 20, -30, 99])

obj

0    10
1    20
2   -30
3    99
dtype: int64

Wie wir sehen, hat Pandas ein Objekt erzeugt, und jedem Wert dabei einen eindeutigen Index gegeben. Ausserdem hat Pandas allen Werten den Typ `<int64>` zugewiesen. Hier gilt das gleiche, was schon zum Thema "erweiterte Typen" im Kapitel zu *NumPy* erwähnt wurde.

Mit dem Attribut `.values` können wir uns die einzelnen Werte ausgeben lassen.

In [18]:
obj.values

array([ 10,  20, -30,  99])

Einzelne Werte lassen sich leicht über den Index ansprechen. Die Syntax dazu ist die selbe, wie in Python üblich, bei Listen und auch NumPy Arrays, nämlich über den `[]` Operator.

In [20]:
obj[2]

-30

Man kann natürlich auch mehrere Zeilen des Index aufrufen, indem man dem `[]` Operator eine Liste an Indices übergibt. Allerdings ist hier der Rückgabewert kein Einzelwert wie oben, sondern wieder eine Pandas Series Objekt.

In [22]:
obj[[1, 3]]

1    20
3    99
dtype: int64

Wie schon bei NumPy lässt sich auch ein *boolsches* Objekt erzeugen.

In [27]:
obj > 10

0    False
1     True
2    False
3     True
dtype: bool

Dieses boolsche Objekt kann dann wieder dem `[]` Operator übergeben und damit das eigentliche Objekt gefiltert werden.

In [29]:
obj[obj > 10]

1    20
3    99
dtype: int64

Natürlich kann man auch einen eigenen und nicht von Pandas erstellten Index für das Series Objekt nutzen.

In [31]:
obj.index = ['a', 'b', 'c', 'd']

obj

a    10
b    20
c   -30
d    99
dtype: int64

In [33]:
obj['d']

99