# 13.2 Pandas Series
* `Series` sind erweiterte eindimensionale Arrays;
* Sie unterstützen benuterdefinierte Indexierung;
* Sie können mit fehlenden Daten umgehen.

### Inhalt
1. Erstellen und Zugriff auf eine `Series` mit Standardindizes
2. Erstellen und Zugriff auf eine `Series` mit benutzerdefinierten Indizes
3. Slices
4. `loc` und `iloc` Properties
5. Erstellen einer `Series`, wo alle Elemente den gleichen Wert haben
6. Erstellen deskriptiver Statistiken für eine `Series`
7. `Series` Attribute
8. `Series` `str`-Accessor
9. Boolesche Indizierung
10. Benutzerdefinierte Index-Duplikate

&nbsp;

In [None]:
import pandas as pd

## 1. Erstellen und Zugriff auf eine `Series` mit Satandardindizes

### Erstellen einer `Series` mit Standardindizes

Standardmässig hat eine `Series` ganzzahlige Indizes, die mit 0 starten und fortlaufend sind.

In [None]:
grades = pd.Series([87, 100, 94])

In [None]:
grades

### Zugriff auf ein `Series` Element mittels Index

In [None]:
grades[0]  # Achtung: das ist nicht der Zugriff auf den positionellen Index, sondern auf das Label 0 

In [None]:
grades[1]

## 2. Erstellen und Zugriff auf eine `Series` mit benutzerdefinierten Indizes

### Erstellen einer `Series` mit benutzerdefinierten Indizes

Sie können benutzerdefinierte Indizes mit dem `index`-Schlüsselwortargument erstellen.

In [None]:
grades = pd.Series([87, 100, 94], index=['Wally', 'Eva', 'Sam'])

In [None]:
grades

In [None]:
pd.Series([87, 100, 94], index='Wally Eva Sam'.split())

In [None]:
pd.Series({'Wally': 87, 'Eva':100, 'Sam': 94})

### Zugriff auf ein `Series` Element mittels benutzerdefinierter Index

In [None]:
grades['Wally']

In [None]:
grades['Sam']

### Zugriff auf ein `Series` Element mittels Attribute
Wenn benuterdefinierte Indizes vom Typ `String` sind, die gültige Python Bezeichner darstellen, dann fügt Pandas sie automatisch der `Series` als Attribut hinzu. Sie können dann auf die Werte über die Attribute zugreifen.

In [None]:
grades.Wally

In [None]:
grades.Eva

In [None]:
test = pd.Series([1, 2, 3], index='_a b 1c'.split())
test

In [None]:
test._a

In [None]:
test.b

In [None]:
test.1c


### Zugriff auf ein `Series` Element mittels positionellem Index
Zugriff auf die Elemente kann neben benutzerdefiniertem Index auch über einen positionellen Index (0, 1, 2, ...) erfolgen.

In [None]:
grades

In [None]:
grades[0] #  Wenn alle Label (benutzerdefinierte Indizes) Strings sind, dann wird 0 als positioneller Index verstanden

In [None]:
grades[2]

In [None]:
grades[-1]

In [None]:
s1 = pd.Series([100, 200, 300], index=['a', 1 , 2]) # Benutzerdef Indizes bestehen aus str und int
s1

In [None]:
s1['a']

In [None]:
s1[0]

In [None]:
s1[1]

In [None]:
s1[-1]

In [None]:
s2 = pd.Series([100, 200, 300], index='a 1 2'.split())  # alle benutzerdef. Indizes sind Strings
s2

In [None]:
s2['a']

In [None]:
s2['1']

In [None]:
s2[0]

In [None]:
s2[1]

In [None]:
s2[-1]

## 3. Slices

In [None]:
import numpy as np

In [None]:
s = pd.Series(np.random.randint(0, 100, 5))  # Achtung: Bei np.random.randint ist die Obergrenze exklusiv
s

In [None]:
s[:3]

In [None]:
s[2:]

In [None]:
s[[0, 2]]

In [None]:
s[-1] # -1 wird als Label (und nicht als positioneller Index) verstanden. Label -1 gibt es aber nicht

In [None]:
s

In [None]:
s.index = list('abcde')

In [None]:
s

In [None]:
s['a':'c']  # 'c' ist inklusive!

In [None]:
s['d':'b':-1]

In [None]:
s[['b', 'd']]

In [None]:
s[-1] # Hier wird -1 nicht als Label sondern als positioneller Index verstanden

## 4. `loc` und `iloc` Properties
* Das ist die empfohlene Art auf Indizes zuzugreifen.
* `loc` - Zugriff auf ein Element mittels Label (z.B. benutzerdefinierte Indizes)
* `iloc` - Zugriff auf ein Element via positioneller Index (int)


In [None]:
s

In [None]:
s.loc['b']

In [None]:
s.loc['c':'d']

In [None]:
s.iloc[0]

In [None]:
s.iloc[-1]

In [None]:
s.index = range(5)
s

In [None]:
s.loc[4]

In [None]:
s.iloc[-1]

## 5. Erstellen einer `Series`, wo alle Elemente den gleichen Wert haben

In [None]:
pd.Series(90.7, index=range(3))

In [None]:
pd.Series('Test', index='A B C D'.split())

## 6. Erstellung deskriptiver Statistiken für eine Series

In [None]:
s = pd.Series([10, 20 , np.NaN , 30])
s

In [None]:
s.size

In [None]:
s.count()

In [None]:
s.sum()

In [None]:
s.sum() / s.count()  # Arithmetisches Mittel

In [None]:
s.mean()

In [None]:
s.min()

In [None]:
s.max()

In [None]:
s.std()

In [None]:
s.describe()

<br> 

Quartile:
   * 50% stellt den Median der Sortierten Werte dar
   * 25% stellt den Median der ersten Hälfte der Sortierten Werte dar
   * 75% stelle den Median der zweiten Hälfte der sortierten Werte dar
   * NB: Wenn es für die Quartile zwei mittlere Elemente gibt, dann ist ihr Durchschnitt der Median dieses Quartils

## 7. `Series` Attribute

In [None]:
grades

Das `dtype` Attribut gibt den Elementtyp des zugrunde liegenden Arrays zurück

In [None]:
grades.dtype

Das `values` Attribut gibt den zugrunde liegende Array zurück

In [None]:
grades.values

In [None]:
grades.index

In [None]:
grades.size

## 8. `Series` `str`-Accessor
In einer Series von Strings können Sie den `str`-Accessor verwenden, um String-Methoden auf jedem Elementen aufzurufen.
Sie erhalten eine `Series` zurück, die das entsprechende Resultat enthält.


In [None]:
s = pd.Series('Alpha Bravo Charlie Delta'.split())
s

In [None]:
s.str

In [None]:
s.str.contains('a')

In [None]:
s.str.upper()

In [None]:
s.str.len()

#### Verkettung von String Operationen

In [None]:
s.str.lower().str.startswith('a')

## 9. Boolesche Indizierung

In [None]:
s = pd.Series([100, 200, 200, 400])
s

In [None]:
s[s == 200]

In [None]:
s[s < 250]

In [None]:
s[s % 2 == 1]

In [None]:
s[s > 200]

In [None]:
s[(s < 200) | (s > 200)]

## 10. Benutzerdefinierte Index-Duplikate sind möglich

In [None]:
s = pd.Series([10, 20 , 30, 40, 50], index=list('abcab'))
s

In [None]:
s.index

In [None]:
s.loc['c']

In [None]:
s.loc['a']

In [None]:
s.loc['a':'c']  # Das geht aufgrund der Duplikate nicht