# Pandas: Series

Eine *Serie* ist eine eindimensionale Abfolge von Werten (ähnlich einem Array oder einer Liste). Allerdings kann man für ein Series Objekt bei Bedarf eigene Indexwerte vergeben, über die man wie bei einem Dictionary auf die Werte zugreifen kann.

## Ein Series Objekt erzeugen

Beginnen wir mit der einfachsten Möglichkeit, ein Series Objekt zu erstellen: Wir wandeln eine Python Liste in ein Series Objekt um:

In [None]:
import pandas as pd
ser = pd.Series([1, 4, 2, 6, 8])

Lassen wir uns das eben erzeugte Objekt ausgeben:

In [None]:
ser

Wir sehen, dass jeder Eintrag einen Indexwert hat, gefolgt vom eigentlichen Wert. Diese Indexwerte, werden, wenn nicht anders angeordnet, einfach mit 0 beginnend hochgezählt. Das entspricht der Verwendung des Index in einer Python Liste.

Interessant ist noch die letzte Zeile:

```
dtype: int64
```

### Kleiner Exkurs: Pandas verwendet eigene Datentypen

Pandas kan zwar mit Python Werten umgehen, verwendet aber aus Performancegründen meist eigene Datentypen (die es wiederum von Numpy übernimmt).

Der Datentyp der numerischen Einträge im eben angelegten Series Objekt ist nicht `int`, sondern `int64`. Pandas kennt mehrere Typen für Integers (aber z.B. auch für Floats): 

| Typ    | Bereich                             |
| ------ | ----------------------------------- | 
| int8   | -128 bis 127 |
| uint8  | 0 bis 265 |
| int16  | -32768 bis 32767 |
| uint16 | 0 bis 64535 |
| int32  | -2147483648 bis 2147483647 |
| uint32 | 0 bis 4294967295                    |
| int64  | -9223372036854775808 bis 9223372036854775807 |        
| uint64 | 0 bis 18 446 744 073 709 551 615 |



Je nach Typ wird eine unterschiedliche Menge an Speicher gebraucht. Standardmässig wird der Typ `int64` verwendet, der sehr große Zahlen aufnehmen kann. Wenn wir bereits beim Anlegen wissen, dass wir es nur mit klein(er)en Zahl zu tun haben, können wir einen anderen Typ festlegen, und so etwas Speicher sparen. Wenn wir schon zuvor wissen, dass wir keine negativen Zahlen benötigen können wir einen uint (unsigned int) Wert verwenden. Als Anfänger:in sollten Sie sich darüber aber nicht zu viele Gedanken machen und einfach den Defaulttyp verwenden.


In [None]:
small_numbers = pd.Series([1, 4, 2, 6, 8], dtype=pd.Int8Dtype())
small_numbers

Neben der eben gezeigten Art, eine `Series` aus einer Liste zu erzeugen, gibt es noch eine Reihe weiterer Möglichkeiten. Man kann etwa Daten aus einer Datei einlesen oder ein Series Objekt aus einem anderen Objekt erzeugen. Wir werden einige davon noch kennen lernen.

Will man nachträglich einen Wert in ein bestehendes Series-Objekt einfügen (was erfahrungsgemäß eher selten gebraucht wird und auch nicht empfehlenswert ist, weil langsam), kan man `at[]` bzw. `loc[]` verwenden:


In [None]:
ser.at[5] = 2
ser

Eine generische Lösung, um einen Eintrag am Ende einzufügen wäre das:

In [None]:
ser.at[len(ser)] = 11
ser

## Zugriff auf einen Wert

### Zugriff über Index

Über den Indexwert können wir, wie wir das z.B. von Listen gewohnt sind, auf einen Wert zugreifen. Wir schreiben den gesuchten Indexwert in eckige Klammern: 

In [None]:
value_of_index_3 = ser[3]
print(value_of_index_3)
print(type(value_of_index_3))

#### Zugriff über mehrere Indexwerte

Anders als bei einer Liste kann der Wert innerhalb der eckigen Klammern auch eine Liste sein. Wir können damit also mehrere gesuchte Indexwerte zugleich angeben:

In [None]:
filtered_ser = ser[[1, 3, 4]]
print(filtered_ser)
print(type(filtered_ser))

Als Ergebnis bekommen wir nun nicht einen einzelnen Wert, sondern ein neu erzeugtes Series Objekt. Beachten Sie, dass die originalen Indexwerte im neuen Series-Objekt erhalten geblieben sind. Das ist besonders nützlich, wenn wir statt des standardmässigen hochzählenden Indexwerts eigene Indexwerte vergeben möchten.

### Zugriff über selbst vergebene Indexwerte

Bei Bedarf können wir statt der automatisch vergebenen, fortlaufenden Indexwerte auch eigene vergeben. Wir können also den einzelnen Werten "Namen" geben. Im nächsten Beispiel verwenden wir den Vornamen von Studierenden als Index:

In [None]:
grade_index = ['Anna', 'Berthold', 'Clara', 'Dieter']
grades = pd.Series([2,1,3,5], index=grade_index)
grades

Unsere Serie verwendet nun keine fortlaufenden Zahlen, sondern Vornamen als Indexwerte. Damit können wir gezielt auf die Note einer bestimmten Person zugreifen:

In [None]:
print(grades['Clara'])

Das ist jetzt nicht sonderlich spektakulär, weil wir das z.B. mit einem Dictionary genauso hätten lösen können. Series und Dictionaries sind sich so ähnlich, dass man sogar ein Series-Objekt aus einem Dictionary Objekt erzeugen kann. Wir hätten das letzte Beispiel also auch so schreiben können:

In [None]:
grade_index = pd.Series({"Anna": 2, "Berthold": 1, "Clara": 3, "Dieter": 5})
print(grade_index)

Damit haben wir eine weitere Möglichkeit kennen gelernt, wie man ein Series Objekt erzeugen kann.

#### Mehrfach vorkommende Indexwerte

Was allerdings mit einem Dictionary nicht funktioniert, ist, dass in einem Series Objekt mehrere Einträge mit demselben Index existieren können. Im folgenden Beispiel leben wir einen zweiten Wert für `Anna` an:

In [None]:
grades = pd.Series([2,1,3,5, 4], index=['Anna', 'Berthold', 'Clara', 'Dieter', "Anna"])
grades

Wir sehen, dass der Indexwert `Anna` zweimal vorkommt. Entsprechend erhalten wir, wenn wir auf Werte mit `Anna` als Index zugreifen, zwei Werte:

In [None]:
grades["Anna"]

#### Zugriff über mehrere Namen

Genau wie oben beim Zugriff über mehrere Indexwerte, können wir bei selbst vergebenen Indexnamen auch mehrere Werte als Liste in die eckigen Klammern schreiben:

In [None]:
print(grades[['Clara', 'Dieter']])

#### loc

Die eben gezeigte Art des Zugriffs lässt sich auch über die Eigenschaft `loc` des Series-Objekt realisieren:

In [None]:
grades.loc[['Clara', 'Dieter']]

Wir können sogar eine Bedingung angeben, um die Rückgabewerte zu filtern:

In [None]:
grades.loc[grades < 3]

Das würde übrigens auch ohne `loc` funktionieren:

In [None]:
grades[grades < 3]

#### loc und at

Die Ergebnisse dieser beiden Zugriffmöglichkeiten sehen auf den ersten Blick sehr ähnlich aus: 

In [None]:
print(grades.at["Clara"])
print(grades.loc["Clara"])

Der Unterschied ist, dass `at` nur mit konkreten Indexwerten umgehen kann und deshalb in der Regel schneller ist, während `loc`, wie wir schon gesehen haben, auch Bedingungen (in Form einer Indexmaske) erlaubt:

In [None]:
print(grades.loc[(grades > 1) & (grades < 4)])

#### iat und iloc

Wir sollten hier noch erwähnen, dass die Vergabe von selbst gewählten Indexnamen nicht dazu führt, dass Pandas die ursprüngliche Reihenfolge der Einträge vergisst. Diese bleibt in den Eigenschaften `iat` und `iloc` weiter verfügbar. 

Wenn wir wissen wollen, was der erste Eintrag in der Serie ist, können wir so darauf zugreifen:

In [None]:
print(grades.iat[0])

Wenn wir auf mehr als ein Element zugreifen wollen, müssen wir statt `iat` `iloc`verwenden, weil `iat` immer nur einen Indexwert erlaubt:

In [None]:
print(grades.iloc[[0,1]])

Man kann hier auch einen Range angeben. Das folgende Beispiel gibt den zweiten, dritten und vierten Wert der Serie aus.

In [None]:
print(grades)
print('-' * 20)
print(grades.iloc[1:4])

## Mit Series rechnen

Wir können ganz einfach Rechenoperationen auf alle Element einer Serie anwenden. Wenn wir z.B. alle Bewertungen um eine Note verbessern möchten, reicht ein `- 1`:

In [None]:
grades - 1

Wenn wir mehrere gleich aufgebaute Serien haben, dann können wir diese direkt in die Rechnung einbeziehen.
Stellen wir uns vor, wir hätten ein eigenes Series Objekt für jede Teilleistung. Um die Gesamtnote auszurechnen, addieren wir die beiden Series Objekt und dividieren das Ergebnis durch 2:

In [None]:
exam1 = pd.Series({"Anna": 2, "Berthold": 1, "Clara": 3, "Dieter": 5})
exam2 = pd.Series({"Anna": 1, "Berthold": 4, "Clara": 3, "Dieter": 3})
print((exam1 + exam2) / 2)

Wie wir an der Ausgabe sehen, ist das Ergebnis wiederum ein Series Objekt.

## Fehlende Werte

Wenn Dieter bei der zweiten Klausur gefehlt hätte, würde diese Teilleistung fehlen. `exam2` hätte also nur 3 Einträge und das Berechnen der Gesamtnote würde deshalb ebenfalls unvollständig sein:

In [None]:
exam2 = pd.Series({"Anna": 1, "Berthold": 4, "Clara": 3})
print((exam1 + exam2) / 2)

`NaN` steht für `not a number` und taucht überall dort auf, wo wir auf einem nicht als Zahl interpretierbaren Wert, also z.B. einem fehlenden Wert operieren. Dasselbe Ergebnis bekommen wir übrigens auch, wenn wir den Wert auf `None` setzen:

In [None]:
exam2 = pd.Series({"Anna": 1, "Berthold": 4, "Clara": 3, "Dieter": None})
print((exam1 + exam2) / 2)

Es ist gut, dass Pandas so reagiert, weil wir dadurch auf mögliche Probleme aufmerksam gemacht werden. Wir können sogar im Vorfeld auf solche problematische Werte filtern:

### NaN Werte suchen: isna()

Die Methode `isna()` gibt für jeden Wert aus, ob er als Zahl auswertbar ist oder nicht. Steht ein Wert also auf `NaN`, so liefert `isna()` `True`.

In [None]:
exam2 = pd.Series({"Anna": 1, "Berthold": 4, "Clara": 3, "Dieter": None})
exam2.isna()

### Fehlende Werte suchen: isnull()

`isnull()` funktioniert sehr ähnlich, prüft aber auf fehlende Werte und ist somit allgemeiner verwendbar.

In [None]:
print(exam2.isnull())

Wenn wir nur an den unsauberen Werte interessiert sind, können wir diese herausfiltern:

In [None]:
print(exam2.loc[exam2.isnull()])

### Fehlende Werte entfernen mit dropna()

Wie gehen wir nun mit solchen Werten um? Die einfachste Möglichkeit ist, Zeilen mit fehlenden Werten einfach zu entfernen. Das geht mit der `dropna()` Methode:

In [None]:
clean_exam2 = exam2.dropna()
print(clean_exam2)

Das Verwerfen des `None`-Wertes löst, wie wir weiter oben schon gesehen haben nicht unser Problem beim Berechnen des Endnote, weil diese nur funktioniert, wenn alle Indexnamen und Werte in beiden Series-Objekten vorhanden sind. Das soll hier jetzt aber nicht bedeuten, dass `dropna()` nicht für andere Zwecke sehr nützlich ist!

### Fehlende Werte ergänzen mit fillna()
Wir können aber festlegen, dass nicht erbrachte Leistungen automatisch mit der Note 5 gerechnet werden sollen. Pandas macht das einfach, indem wir die `fillna()` Methode einsetzen:

In [None]:
clean_exam1 = exam1.fillna(5)  # not strictly necessary, because contains all grades
clean_exam2 = exam2.fillna(5)
print(clean_exam2)

Wir sehen, dass Dieter jetzt die Note 5 hat. Da wir nun wieder alle Noten haben, können wir endlich die Gesamtnote berechnen:

In [None]:
print((clean_exam1 + clean_exam2) / 2)

## Werte verändern mit apply()

Wenn es darum geht, alle Werte einer Serie auf eine beliebig komplexe Art zu modifizieren, ist die `apply()` Methode sehr nützlich. Sie erwartet als Parameter den Namen einer Funktion, die auf jeden Wert der Series angewendet werden soll. Stellen wir uns vor, wär hätten eine lange Liste mit Temperaturangaben in Fahrenheit und brauchen diese Werte in Celsius. Wir könnten eine Funktion `fahrenheit2celsius` schreiben, und diese mit `apply()` auf alle Werte anwenden:

In [None]:
def fahrenheit2celsius(val):
    "Compute Celsius for Fahrenheit values."
    return (val - 32) * 5 / 9
    
fahrenheit_temperatures = pd.Series([17.6, 24.44, 23.0, 33.9, 26.4])
celsius_temperatures = fahrenheit_temperatures.apply(fahrenheit2celsius)
print(celsius_temperatures)

Statt mit einer Funktion hätten wir das natürlich auch mit einem Lambda-Ausdruck lösen können und hätten uns so die Funktion erspart:

In [None]:
celsius_temperatures = fahrenheit_temperatures.apply(lambda x: (x - 32) * 5 / 9)
print(celsius_temperatures)

## Zusammenführen von Series-Objekten

Wollen wir die Werte von zwei oder mehr `Series` Objekten aneinanderhängen, benötigen wir die von Pandas bereit gestellte `concat()` Funktion:


In [None]:
combined_exams = pd.concat([exam1, exam2])
print(combined_exams)

Um hier wieder die Gesamtnote zu berechnen, ersetzten wir alle `NaN` Werte zuerst wieder durch `5`. 

In [None]:
combined_exams = pd.concat([exam1, exam2]).fillna(5)

## Serien gruppieren

Danach gruppieren wir die Noten nach dem Namen im Index. `groupby()` ist eine so genannte *Aggregatfunktion*, die Gruppen von Werten bildet. Der Parameter `level` legt bei einem mehrwertigen Index fest, welcher Wert für die Gruppierung verwendet werden soll. Da wir nur einen Wert haben, verwenden wir (`level=0`). Die `groupby()`-Methode liefert ein `SeriesGroupBy` Objekt.  Über die `groups` Eigenschaft können wir uns die Gruppen (jeweils mit den enthaltenen Indexwerten ansehen):

In [None]:
combined_exams.groupby(level=0).groups

Alle Werte mit demselben Indexwert sind also in einer gleichnamigen Gruppe versammelt. Wir können in eine solche Gruppe mit der `get_group()`Methode hineinschauen:

In [None]:
combined_exams.groupby(level=0).get_group('Dieter')

Mit `sum()` bilden wir die Summe für jede Gruppe und dividieren diese dann durch 2: 

In [None]:
combined_exams.groupby(level=0).sum() / 2

Flexibler ist, wenn wir nicht das fixe `2` verwenden, sondern die Zahl der Einträge für jede Gruppe ermitteln lassen. Dazu weisen wir der Gruppe eine neue Variable zu:

In [None]:
group = combined_exams.groupby(level=0)
group.sum() / group.count()

## Lizenz

This notebook ist part of the course [Grundlagen der Programmierung](https://github.com/gvasold/gdp) held by [Gunter Vasold](https://online.uni-graz.at/kfu_online/wbForschungsportal.cbShowPortal?pPersonNr=51488) at Graz University 2017&thinsp;ff. 

<p>
    It is licensed under <a href="https://creativecommons.org/licenses/by-nc-sa/4.0">CC BY-NC-SA 4.0</a>
</p>

<table>
    <tr>
    <td>
        <img style="height:22px" 
             src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"/></li>
    </td>
    <td>
    <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
         src="https://mirrors.creativecommons.org/presskit/icons/nc.svg?ref=chooser-v1" /></li>
    </td>
    <td>
        <img style="height:22px;"
             src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1" /></li>
    </td>
</tr>
</table>