# Series für Datenreihen

## Lernziele

```{admonition} Lernziele
:class: hint
* Sie können **Pandas** mit der üblichen Abkürzung pd importieren.
* Sie können aus einer Liste das Datenobjekt **Series** erzeugen.
* Sie können auf Elemente eines Series-Objektes lesend und schreibend zugreifen:
  * Zugriff auf eine einzelne Zeile, indem ein Index spezifiziert wird
  * Zugriff auf mehrere Zeilen, indem eine Liste von Indizes übergeben wird
  * Zugriff auf mehrere zusammenhängende Zeilen, indem ein Slice von Indizes
    übergeben wird
* Sie können ein Series-Objekt nach einer Eigenschaft filtern.
```

## Import von pandas

Pandas ist eine Bibliothek zur Verarbeitung und Analyse von Daten in Form von
Datenreihen und Tabellen. Die beiden grundlegenden Datenstrukturen sind
**Series** und **DataFrame**. Dabei wird Series für Datenreihen genommen, also
sozusagen die Verallgemeinerung von Vektoren bzw. eindimensionalen Arrays. Der
Datentyp DataFrame repräsentiert Tabllen, also sozusagen Matrizen bzw.
verallgemeinerte zweidimensionale Arrays. 

Um das Modul pandas benutzen zu können, müssen wir es zunächst importieren. Es
ist üblich, dabei dem Modul die Abkürzung **pd** zu geben, damit wir nicht immer
pandas schreiben müssen, wenn wir eine Funktion aus dem pandas-Modul benutzen.

In [1]:
import pandas as pd # kürze das Modul pandas als pd ab, um Schreibarbeit zu sparen

## Series aus Liste erzeugen

Erzeugt werden kann ein Series-Objekt beispielsweise direkt aus einer Liste. Im
folgenden Beispiel haben wir Altersangaben in einer Liste, also `[25, 22, 43,
37]` und initialisieren über `Series` die Variable `alter`:

In [2]:
alter = pd.Series([25, 22, 43, 37])
print(alter)

0    25
1    22
2    43
3    37
dtype: int64


Was ist aber jetzt der Vorteil von Pandas? Warum nicht einfach bei der Liste
bleiben oder aber, wenn Performance wichtig sein sollte, ein eindimensionales
Numpy-Array nehmen? Der wichtigste Unterschied ist der **Index**.

Bei einer Liste oder einem Numpy-Array ist der Index implizit definiert. Damit
ist gemeint, dass bei der Initialisierung automatisch ein Index 0, 1, 2, 3, ...
angelegt wird. Wenn bei einer Liste `l = [25, 22, 43, 37]` auf das zweite
Element zugegriffen werden soll, dann verwenden wir den Index 1 (zur Erinnerung:
Python zählt ab 0) und schreiben

In [3]:
l = [25, 22, 43, 37]
print("2. Element der Liste: ", l[1])

2. Element der Liste:  22


Die Datenstruktur Series ermöglich es aber, einen *expliziten Index* zu setzen.
Über den optionalen Parameter `index=` speichern wir als Zusatzinformation noch
ab, von welcher Person das Alter abgefragt wurde. In dem Fall sind es die vier
Personen Alice, Bob, Charlie und Dora.

In [4]:
alter = pd.Series([25, 22, 43, 30], index=["Alice", "Bob", "Charlie", "Dora"])
print(alter)

Alice      25
Bob        22
Charlie    43
Dora       30
dtype: int64


Jetzt ist auch klar, warum beim ersten Mal, als wir `print(alter)` ausgeführt
haben, die Zahlen 0, 1, 2, 3 ausgegeben wurden. Zu dem Zeitpunkt hatte das
Series-Objekt noch einen impliziten Index wie eine Liste. Was noch an
Informationen ausgegeben wird, ist das Attribut `dtype`. Darin gespeichert ist
der Datentyp der gespeicherten Werte. Auf dieses Attribut kann auch direkt mit
dem Punktoperator zugegegriffen werden.

In [5]:
print(alter.dtype)

int64


Offensichtlich sind die gespeicherten Werte Integer.

```{admonition} Mini-Übung
:class: miniexercise 
Erzeugen Sie ein Series-Objekt mit den Wochentagen als Index und der Anzahl der
Vorlesungs/Übungs-Stunden an diesem Wochentag.
```

In [6]:
# Hier Ihr Code:


## Zugriff auf Zellen mit loc

Im Folgenden betrachten wir verschiedene Möglichkeiten, um auf die Werte in
einer Zelle zuzugreifen. Wir werden uns vier Möglichkeiten ansehen:
* Zugriff auf eine einzelne Zeile, indem ein Index spezifiziert wird
* Zugriff auf mehrere Zeilen, indem eine Liste von Indizes übergeben wird
* Zugriff auf mehrere zusammenhängende Zeilen, indem ein Slice von Indizes
  übergeben wird
* Zugriff auf mehrere Zeilen, indem eine Liste mit True/False übergeben wird.

In [7]:
alter = pd.Series([25, 22, 43, 30], index=["Alice", "Bob", "Charlie", "Dora"])
alter

Alice      25
Bob        22
Charlie    43
Dora       30
dtype: int64

Zunächst greifen wir eine einzelne Zeile heraus. Dazu benutzen wir das Attribut
``.loc`` und spezifizieren mit eckigen Klammern den Index der Zeile, also
``.loc[index]``. Anders als bei den folgenden drei Zugriffsmöglichkeiten, wird
nur der Wert der Daten in der Zeile zurückgeliefert, nicht aber der dazugehörige
Index.

In [8]:
alter.loc['Alice']

25

In [9]:
alter.loc['Dora']

30

Nun erzeugen wir eine Liste von Indizes. Danach können wir aus dem
Pandas-Series-Objekt per ``.loc[liste]`` auf mehrere Zeilen zugreifen.

In [10]:
frauen  = ['Alice', 'Dora']
alter.loc[frauen]

Alice    25
Dora     30
dtype: int64

```{admonition} Mini-Übung
:class: miniexercise 
Erzeugen Sie analog zu dem obigen Beispiel eine Liste der Männer und geben Sie
das Alter der Männer aus.
```

In [11]:
# Hier Ihr Code


Als dritte Möglichkeit betrachten wir einen Slice, also das Herausschneiden
eines zusammenhängenden Stückes aus dem Pandas-Series-Objekt. Dazu spezifizieren
wir den Start- und den stoppindex mit einem Doppelpunkt dazwischen, also
``.loc[startindex : stoppindex]``. Das Herausschneiden von zusammenhängenden
Teilobjekten wird auch als **Slicing** bezeichnet.

In [12]:
alter.loc['Bob': 'Dora']

Bob        22
Charlie    43
Dora       30
dtype: int64

Als letzte Möglichkeit, um auf Zeilen in dem Pandas-Series-Objekt zuzugreifen,
betrachten wir die Übergabe eine Liste mit True/False-Werten.

In [13]:
filter = [True, False, False, True]
alter.loc[filter]

Alice    25
Dora     30
dtype: int64

Letztere Möglichkeit wird vor allem dazu genutzt, Daten nach Eigenschaften zu
filtern. Ein simpler Vergleich des Pandas-Series-Objektes beispielsweie erzeugt
solche True/False-Objekte, die dann in einem zweiten Schritt genutzt werden
können, um das Pandas-Series-Objekt zu filtern.

In [14]:
filter = alter < 28
alter.loc[filter]

Alice    25
Bob      22
dtype: int64

Nachdem wir nun gelernt haben, wie auf einzelne Element des
Pandas-Series-Objektes zugegriffen wird, können wir Daten auch manipulieren.
Beispielsweise ist Charlie gar nicht 43 Jahre alt, sondern nur 42. Wir weisen
dem Objekt ``alter`` für den Index ``'Charlie'``einen neuen Wert zu:

In [15]:
alter.loc['Charlie'] = 42
alter

Alice      25
Bob        22
Charlie    42
Dora       30
dtype: int64

Oder wir wählen alle Frauen aus und machen sie drei Jahre jünger ;-)

In [16]:
print('Alter vor der Verjüngung: \n', alter)
alter.loc[ ['Alice', 'Dora']] = alter.loc[ ['Alice', 'Dora']] - 3
print('Alter danach: \n', alter)

Alter vor der Verjüngung: 
 Alice      25
Bob        22
Charlie    42
Dora       30
dtype: int64
Alter danach: 
 Alice      22
Bob        22
Charlie    42
Dora       27
dtype: int64
