# Kapitel 5: Einführung in Pandas


McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. 2. Auflage. Sebastopol, CA [u. a.]: O’Reilly.

Überarbeitet: armin.baenziger@zhaw.ch, 10. März 2020

- **Pandas** wird im weiteren Verlauf des Kurses die zentrale Bibliothek sein. 
- Pandas enthält Datenstrukturen und Tools zur Datenbearbeitung, die in Python für eine schnelle und einfache Datenbereinigung und -analyse sorgen.  
- Pandas verwendet wesentliche Teile von NumPys idiomatischem array-based Computing, insbesondere Array-basierte Funktionen und eine *Präferenz für die Datenverarbeitung ohne `for`-Schleifen*. 
- Während Pandas viele Codierungs-Idiome von NumPy verwendet, ist der grösste Unterschied, dass Pandas für die Arbeit mit *tabellarischen* oder *heterogenen* Daten entwickelt wurde. 
- Seit dem Open-Source-Projekt im Jahr 2010 ist Pandas zu einer grossen Bibliothek gereift, die in einer Vielzahl von Anwendungsfällen in der Praxis anwendbar ist.
- Pandas leitet sich überigens aus dem Wort "panel data" ab (https://de.wikipedia.org/wiki/Paneldaten). 

In [None]:
%autosave 0

In [None]:
# Wichtige Bibliotheken mit üblichen Abkürzungen laden:
import numpy as np
import pandas as pd   # Usanz ist, pandas mit pd abzukürzen

## Einführung Pandas-Datenstrukturen
Die zwei wichtigsten Datenstrukturen in Pandas sind **Series** und **DataFrames**.

### Series
Eine *Series* setzt sich aus einem eindimensionalen *Werte-Array* und einem *Index* zusammen. Wenn man den Index nicht explizit bestimmt, ist dieser wie `range(n)`.

In [None]:
obj = pd.Series([4, 7, -5, 3])
obj

Man kann Werte-Array und Index mit den Attributen `values` und `index` separat erhalten.

In [None]:
obj.values        # Werte-NumPy-Array der Series obj

In [None]:
obj.index        #  Index der Series obj (Sequenz)

In [None]:
list(obj.index)  # Mit der Funktion list() erhält man die explizite Liste

Die Auswahl von Objekten in einer *Series* geschieht über den Index.

In [None]:
obj[0]

In [None]:
obj[2] 

In [None]:
obj[1:3]    
# Slicing-Regel obj[Start:Stop] 
# Ab Start bis zum letzten Wert vor Stop

In [None]:
obj[:2]   # Erste zwei Werte.

In [None]:
obj[2:]   # Ab Posisiton 2 (dritter Wert) bis Ende.

**Kontrollfrage:**

In [None]:
# Aufgabe: Slicen Sie die ersten drei Werte aus der Series `obj`.


#### Labels
Oft möchte man die Werte einer *Series* mit einem *Label* identifizieren.

In [None]:
obj2 = pd.Series([4, 7, -5], index=['Anna', 'Berta', 'Claudia'])
obj2

In [None]:
obj2['Berta']         # Wert, der zu "Berta" gehört.

In [None]:
obj2['Berta'] = 6    # Wert zuweisen
obj2

In [None]:
# Mehrere Werte (in gewünschter Reihenfolge) ausgeben:
obj2[['Berta', 'Anna']]

In [None]:
# Welche Werte sind positiv?
obj2 > 0

In [None]:
# Positive Werte auswählen:
obj2[obj2 > 0]

In [None]:
# Alle Werte verdoppeln:
obj2 * 2    # Wie bei NumPy. Index-Link bleibt bestehen.

In [None]:
# Man kann auch NumPy-Funktion auf Series anwenden:
np.exp(obj2)    # Exponentialfunktion aus NumPy-Bibliohek

In [None]:
'Anna' in obj2   # Prüfen, ob ein Index-Wert existiert.

In [None]:
'Anne' in obj2

**Kontrollfragen:**

In [None]:
# Gegeben:
obj2

In [None]:
# Frage 1: Was ist der Output?
obj2['Claudia']

In [None]:
# Frage 2: Was ist der Output?
np.abs(obj2['Claudia'])

In [None]:
# Frage 3: Was ist der Output?
obj2[obj2!=6]

Ein *Dict* kann man sehr einfach in eine *Series* umwandeln. 

In [None]:
flaeche_dict = {'GR': 7105, 'BE': 5959, 
                'VS': 5225, 'VD': 3212}
flaeche_dict

In [None]:
flaeche = pd.Series(flaeche_dict)
flaeche    # Dict-Key wird zu Index

In [None]:
# Eigene Anordnung von Index mit entsprechenden Werten, falls
# diese im Dict vorhanden sind (Fehlwert, wenn der Index nicht 
# im Dict ist):
flaeche2 = pd.Series(flaeche_dict, 
                     index=['BE', 'GR', 'TI', 'VD', 'ZH'])
flaeche2

- Falls vorhanden, werden die Werte den Indizes zugeordnet. Ansonsten gibt es Fehldaten (missing data), welche mit `NaN` gekennzeichnet sind. 
- Die Funktionen/Methoden `isnull` und `notnull` werden in Pandas verwendet, um Fehldaten aufzuspüren.

In [None]:
flaeche2.isnull()

In [None]:
flaeche2.notnull()

In [None]:
# Wie viele Fehlwerte gibt es in flaeche2?
flaeche2.isnull().sum()

**Kontrollfrage:**

In [None]:
# Frage: Was ist wohl der Output?
flaeche2[flaeche2.notnull()]

Fehldaten werden in Kapitel 7 ausführlicher behandelt.

**Matching**

Eine sehr nützliche Eigenschaft von *Series* ist, dass bei arithmetischen Operationen ein Matching bezüglich dem Index geschieht. Beispiel:

In [None]:
# Erste Series für Beispiel:
bevoelkerung2017 = {'BE': 1031126, 'GR': 197888, 'TI':  353709,
                    'VD':  793129, 'VS': 341463, 'ZH': 1504346}
bevoelkerung2017 = pd.Series(bevoelkerung2017)
bevoelkerung2017

In [None]:
# Zweite Series für Beispiel:
bevoelkerung2018 = {'VD': 799145, 'BE': 1034977, 'VS': 343955,
                    'TI': 353343, 'ZH': 1520968, 'GR': 198379}
bevoelkerung2018 = pd.Series(bevoelkerung2018)
bevoelkerung2018

Beachten Sie, dass die *Reihenfolge* der Kantone in den zwei Series unterschiedlich ist!

In [None]:
delta = bevoelkerung2018 - bevoelkerung2017  
delta
# Werte mit gleichem Index werden verrechnet! Sehr gut!

In [None]:
# Relative Veränderung:
delta / bevoelkerung2017

Die ständige Wohnbevölkerung hat beispielsweise im Kanton Zürich um 1.1% zugenommen zwischen 2017 und 2018.

Der Series-Index kann verändert werden:

In [None]:
# Gegeben:
s = delta[:3].copy()
s.index = ['Bern', 'Graubünden', 'Tessin']
s

Wir werden "sicherere" Verfahren kennenlernen, den Index zu verändern!

### DataFrame
- Ein *DataFrame* ist eine Datentabelle, welche eine Sammlung von Spalten (Variablen) aufweist, bei der im Gegensatz zu einem Numpy-Array jede Spalte einen *unterschiedlichen Datentypen* aufweisen kann. Innerhalb einer Spalte ist der Datentyp aber homogen. 
- Das DataFrame hat sowohl einen *Zeilen-* als auch einen *Spaltenindex*. 
- Es gibt viele Möglichkeiten, ein DataFrame zu erstellen. Häufig verwendet man einen Dict von *gleichlangen* Listen oder NumPy-Arrays. Im Lehrmittel finden Sie eine komplette Liste mit möglichen Inputs für den DataFrame-Konstruktor.
- *Üblicherweise werden DataFrames aber aus importieren Daten erzeugt, wie wir noch sehen werden.*

In [None]:
daten = {'Stadt': ['Biel', 'Biel', 'Biel', 
                   'Thun', 'Thun', 'Thun'],
        'Jahr': [2016, 2017, 2018]*2,
        'ALQ': [5.1, 5.0, 3.9, 2.6, 2.6, 2.0]}
daten   # ein Dict

In [None]:
df = pd.DataFrame(daten)  # df ist unser erstes DataFrame
df

Ein DataFrame kann mit einer Excel-Tabelle verglichen werden.

In [None]:
df.head()   # Anzeige der ersten 5 Zeilen (Default).
# Hier nicht sehr nützlich, da der Datensatz nur 6 Zeilen enthält.

In [None]:
df.head(3)  # Anzeige der ersten 3 Zeilen.

In [None]:
df[:3]      # So ginge es auch.

In [None]:
df.tail()   # Anzeige der letzten 5 Zeilen (Default).

In [None]:
df[-5:]     # So ginge es auch.

**Wichtig:** Wie wählen wir Spalten (Variablen) aus?

In [None]:
df['Stadt']   # Ausgabe einer Spalte mit der "Dict-Notation"

In [None]:
df.Stadt # Ausgabe einer Spalte durch Attribut (Tab-Ergänzung möglich!)
# Manchmal praktisch, aber mit eingeschränkter Funktionalität (siehe
# weiter unten).

**Kontrollfragen:**

In [None]:
# Gegeben:
df

In [None]:
# Aufgabe 1: Wählen Sie die ALQ aus df aus.


In [None]:
# Aufgabe 2: Was ist der Output?
df.tail(1)

Das Attribut `columns` liefert die Spaltenüberschriften im DataFrame:

In [None]:
df.columns

Die Spaltenüberschriften können nachträglich verändert werden.

In [None]:
# Spaltennamen (Variablennamen) ändern: Möglichkeit 1
df.columns = ['Stadt', 'Jahr', 'Arbeitslosenquote']
df

In [None]:
# Spaltennamen (Variablennamen) ändern: Möglichkeit 2
df.rename(columns = {'Arbeitslosenquote': 'ALQ'}, inplace=True)  
# mit inplace=True sind die Änderungen permament
df

Die zweite Möglichkeit ist der ersten vorzuziehen. Warum?

In [None]:
# Zeilenindex ändern:
df.index = df.Jahr
df

Die Variable `Jahr` ist nun redundant und kann gelöscht werden. (Wir werden später eine elegantere Möglichkeit kennenlernen, einen Index zu setzen.)

In [None]:
del df['Jahr']    # Löschen der Spalte Jahr. 
# del df.Jahr ginge übrigens nicht!

- Das Jahr ist nun keine Spalte (Variable) mehr und wird mit `df.index` angesprochen.
- Wir werden später eine bessere Möglichkeit kennenlernen, Spalten (und Zeilen) zu löschen.    

Zeilen können mit `loc` über den Index*label* und mit `iloc` über die Index*position* angesprochen werden. Beispiele:

In [None]:
df.loc[2016]          # Auswahl über ZeilenLABEL

In [None]:
# Mehrere Labels können als Liste übergeben werden:
df.loc[[2016, 2018]]

In [None]:
df.iloc[0]            # Auswahl über ZeilenPOSITION

In [None]:
df.iloc[[0, 3]]

**Kontrollfragen:**

In [None]:
# Gegeben:
df

In [None]:
# Frage 1: Was ist der Output?
df.loc[2018]

In [None]:
# Frage 2: Was ist der Output?
df.iloc[[2, 5]]

In [None]:
# Frage 3: Was ist wohl der Output?
df.loc[2018, 'ALQ']

**Spalten/Variblen hinzufügen:**

In [None]:
# Ausgangslage:
df

In [None]:
df['Bevoelkerung'] = [54456, 54640, None, 43568, 43743, None] 
# Länge muss konform sein (korrekte Länge haben)
df

In [None]:
# Generierung einer Variablen aus einer anderen:
df['ALQhoch'] = df.ALQ >= 5
df

Beachten Sie, dass für die Erstellung einer neuen Spalte/Variable auf der rechten Seite die Dict-Notation stehen muss (`df.ALQhoch = df.ALQ >= 5` hätte nicht funktioniert).

**Kontrollfrage:**

In [None]:
# Aufgabe: Generieren Sie die Variable ALQtief, welche True
# ist, falls die ALQ höchstens 3 Prozent ist.


***Exkurs***: Es ist auch möglich, dem Index und den Spalten eine Überschrift zu geben:

In [None]:
df.index.name = 'Jahr'        # existiert hier so schon
df.columns.name = 'Variablen'
df

### Achsen (Zeilen oder Spalten) löschen: `drop`-Methode
#### Series

In [None]:
serie = flaeche.copy()   # Kopie erstellen
serie

In [None]:
serie.drop('BE')

In [None]:
serie       # BE wurde nicht permanent gelöscht!

In [None]:
serie.drop('BE', inplace=True) # Jetzt ist BE permanent gelöscht!
serie    

In [None]:
serie.drop(['GR', 'VD'])      # mehrere Einträge löschen

#### DataFrame

In [None]:
# Ausgangslage
df

In [None]:
df.drop([2017]) # Zeilen löschen (mit inplace=True permanent)

In [None]:
df.drop('Bevoelkerung', axis=1)

Mit `axis=0` (Default) sind Zeilen gemeint und mit `axis=1` Spalten. Alternativ kann man statt `axis=1` auch `axis='columns'` verwenden.

In [None]:
df.drop(['ALQtief'], axis='columns') # Alternative zu axis=1

Alternativ kann man eine Spalte mit `del` (permanent) löschen. Wie wir weiter oben gesehen haben.

**Kontrollfragen:**

In [None]:
# Aufgabe 1: Fügen Sie df die Spalte "i" mit den Werten 
# 1 bis 6 hinzu.


In [None]:
# Aufgabe 2: Löschen Sie die Variable "i" wieder mit der 
# `drop`-Methode permanent.


### (Nochmals) Indexierung, Selektion und Filtering
#### Series

In [None]:
flaeche       # gegeben

In [None]:
flaeche[1:3]  # slicen

##### *Slicing* mit Labels funktioniert anders als das übliche Python-Slicing: *Endpunkte sind inklusiv*.

In [None]:
flaeche['BE':'VS']

#### DataFrames

In [None]:
df  # gegeben

In [None]:
df[:2]    # Erste zwei Zeilen wählen.

In [None]:
df[df.Stadt=='Thun']  # Nur Daten von Thun selektieren

Beachten Sie, dass in der eckigen Klammer nochmals angegeben werden muss, aus welchem Dataframe die Variable "Stadt" stammt. 

**Exkurs**: Alternativ könnte man die Methode `query` verwenden.

In [None]:
df.query("Stadt=='Thun'")

#### Selektion mit loc und iloc
Für die Selektion von Zeilen und Spalten aus DataFrames stehen in Pandas die zwei Methoden `loc` (Achsenlabels) und `iloc` (Position in Achse) zur Verfügung.

In [None]:
# Ausgangslage:
df

In [None]:
df.loc[2016]   # wie zuvor gesehen

In [None]:
# Auswahl von Zeilen und Spalten über Label:
df.loc[2016, 'ALQ']

In [None]:
df.loc[2016, ['Stadt', 'ALQ']]

In [None]:
# Lösung über Positionen in den Indizes:
df.iloc[[0,3], [0,1]]

In [None]:
df.iloc[2]      # Ergebnis ist eine Series

In [None]:
df.iloc[[2]]   # Ergebnis ist ein DataFrame

**`loc` und `iloc` funktionieren auch mit Slices:**

In [None]:
df  # zur Erinnerung

In [None]:
df.iloc[3:, :2] 
# df ab Zeilenposition 3 und Spalten bis unter Position 2.

**Kontrollfragen:**

In [None]:
# Gegeben:
df

In [None]:
# Frage 1: Was ist der Output?
df.loc[2016, 'Stadt':'ALQ']

In [None]:
# Frage 2: Was ist der Output?
df.iloc[3:, :2]

### Funktionen auf Spalten, Zeilen oder alle Elemente anwenden
NumPy ufuncs (element-wise array methods) funktionieren auch mit Pandas-Objekten. 

In [None]:
# Beispieldaten:
df2 = pd.DataFrame({'X': [-4, 3, 0],
                    'Y': [2, -1, 5]}, 
                    index=list('abc'))
df2

In [None]:
df2.max(axis=0) # Maximum pro Spalte (entlang Zeilen)

In [None]:
df2.max()       # axis=0 ist der Default, es geht also ohne!

In [None]:
# Exkurs:
df2.max(axis=1) # Maximum pro Zeile (entlang Spalten)

In [None]:
df2.mean()     # Arithmetisches Mittel pro Spalte

In [None]:
df2.std()     # Standardabweichung pro Spalte

Es ist auch möglich, NumPy-Funktionen auf Spalten anzuwenden:

In [None]:
np.abs(df2)   # Absolutwerte/Beträge

**Kontrollfragen:**

In [None]:
# Gegeben:
df2

In [None]:
# Frage 1: Was ist der Output?
df2.median()

In [None]:
# Frage 2: Was ist der Output?
df2['Y'].sum()

#### Mit der Methode `apply` kann man eine (eigene) *Funktion* auf jede Spalte (oder Zeile) anwenden.

In [None]:
# Definition einer eigenen Funktion:
def spannweite(x): 
    return x.max() - x.min()

In [None]:
# Mit apply eigene Funktion auf DataFrame-Spalten anwenden:
df2.apply(spannweite) 

**Kontrollfragen:**

In [None]:
# Aufgabe 1: Schreiben Sie die Funktion schiefemass(werte), 
# welche die Differenz  mean(werte) - median(werte)  zurückgibt. 


In [None]:
# Aufgabe 2: Wenden Sie die eben definierte Funktion schiefemass()
# auf die Spalten von df2 an.


### Sortieren
Indizes werden mit der Methode `sort_index` sortiert.

In [None]:
flaeche   # Beispiel einer Series

In [None]:
flaeche.sort_index()    # permanent mit inplace=True

In [None]:
# Beispiel eines DataFrame:
df.sort_index()   # Zeilenindex sortieren (Default)

In [None]:
df.sort_index(axis=1)  # Spaltenüberschriften sortieren

In [None]:
df.sort_index(ascending=False)  # Index absteigend sortieren

**Werte** werden mit **`sort_values`** sortiert.

Bei Series:

In [None]:
flaeche.sort_values()

Bei DataFrames:

In [None]:
# DataFrame nach Werten der Spalte "Bevoelkerung" sortieren:
df.sort_values(by='Bevoelkerung') 
# Fehlwerte (NaN) werden ans Ende sortiert.

In [None]:
# Zuerst nach Spalte "Stadt", dann "ALQ" sortieren
df.sort_values(by=['Stadt', 'ALQ'])

**Kontrollfrage:**

In [None]:
# Gegeben:
df2

In [None]:
# Aufgabe: Sortieren Sie das DataFrame df2 nach der Variable Y.


## Daten zusammenfassen / deskriptive Statistiken
Pandas-Objekte sind mit vielen **mathematischen und statistischen Methoden** versehen. Die meisten davon sind sogenannte "Reductions" bzw. zusammenfassende Statistiken, welche aus einer Series oder Spalte/Zeile eines DataFrame einen einzigen Wert extrahieren. Wir haben bereits einige davon oben gesehen, z. B. `sum()` oder `max()`.  

In [None]:
# Ausgangslage: Beispieldaten erstellen
np.random.seed(777)
data = np.random.randint(-2, 3, size=(4,3))
df3 = pd.DataFrame(data, columns=list('ABC'))
df3['D'] = df3.A >= 0
df3['E'] = list('cbba') 
df3

In [None]:
df3.sum()

Hinweise: 
- Die Summe in Spalte `D` entspricht der Anzahl `True`.
- Die Summe in Spalte `E` ist hier nicht sinnvoll!

Eine Stärke von Pandas ist der Umgang mit Fehlwerten (`NaN`). Um dies zu demonstrieren, setzen wir zwei Fehlwerte in den Datensatz.

In [None]:
# Zwei Fehlwerte (NaN) erzeugen:
df3.iloc[1,2] = None    # entweder None
df3.iloc[2,3] = np.nan  # oder mit np.nan
df3

- Beachten Sie, dass durch das Einsetzen eines Fehlwertes in Spalte `D` `True` zu 1 und `False` zu 0 wurde.
- `NaN` werden bei Berechnungen "übersprungen" (skipped), ausser alle Werte in der Spalte (oder Zeile) sind `NaN`. Mit der Option `skipna = False` kann man diesen Default übersteuern. Beispiele:

In [None]:
df3.mean()     # Spaltenmittelwerte, NaN nicht berücksichtigen

In [None]:
df3.mean(skipna=False)  # NaN, falls mind. 1 NaN in der Spalte

Des Weiteren gibt es Methoden, welche akkumulieren.

In [None]:
df3.cumsum()   # Die Spaltenwerte werden aufkummuliert.

Schliesslich gibt es Methoden, die mehrere Statistiken liefern. Eine wichtige ist `describe`.

In [None]:
# Output der Methode describe bei metrischen Daten:
df3.describe()

**Eläuterungen:**  
`count`: Anzahl Werte pro Spalte (ohne NaN)  
`mean`: Arithmetische Mittelwerte pro Spalte  
`std`: Standardabweichungen pro Spalte  
`min`: Minimum pro Spalte  
`25%`: Erstes Quartil  
`50%`: Zweites Quartil = Median  
`75%`: Drittes Quartil  
`max`: Maximum pro Spalte  

In [None]:
# Output der Methode describe bei nicht metrischen Daten:
df3['E'].describe()  

**Eläuterungen:**  
`count`: Anzahl Werte (ohne NaN)  
`unique`: Anzahl unterschiedlicher Werte  
`top`: Modus  
`freq`: Häufigkeit des Modus

### Kovarianz und Korrelation
Kovarianz und Korrelation werden aus Daten*paaren* berechnet.

In [None]:
# Beispieldaten mit Aktienkursen aus dem Verzeichnis examples laden 
# (Genauere Erklärungen dazu folgen im nächsten Kapitel):
price = pd.read_pickle('../examples/yahoo_price.pkl')
price.head()

Falls die Daten nicht geladen werden, stimmt der Pfad oben nicht.  
`../examples/yahoo_price.pkl` bedeutet, dass Python zuerst ein Verzeichnis höher geht (..) und dann in das Verzeichnis `examples` wechselt, in dem die Datei `yahoo_price.pkl` liegen sollte. Details folgen später ...

**Methode `pct_change`:**  
Mit der Methode (Abkürzung für *percentage change*) können relative Veränderungen pro Spalte berechnet werden.

In [None]:
returns = price.pct_change()
returns.head()
# In der ersten Zeile stehen NaN, da die Renditen zum Vortag nicht 
# berechnet werden können.

In [None]:
# Kovarianz der Renditen zwischen Microsoft (MSFT) und IBM:
returns['MSFT'].cov(returns['IBM'])   

In [None]:
# Korrelation der Renditen zwischen Microsoft (MSFT) und IBM:
returns['MSFT'].corr(returns['IBM'])  

In [None]:
returns.MSFT.corr(returns.IBM)   # alternative Schreibweise

Mit den DataFrame-Methoden `cov` und `corr` erhält man die ganze Kovarianz- bzw. Korrelationsmatrix.

In [None]:
returns.corr()

**Erläuterung:**
Die Korrelation der Renditen zwischen Google (`GOOG`) und Microsoft (`MSFT`) beträgt 0.465919. Die anderen Werte sind gleich zu lesen.

In [None]:
# Nur Korrelationen aller Aktien mit GOOG berechnen:
returns.corrwith(returns.GOOG)

Die Korrelation von Google (GOOG) mit sich selber ist natürlich 1.

**Kontrollfragen:**

In [None]:
# Gegeben:
returns.corr()

In [None]:
# Frage 1: Was ist der Output?
returns.AAPL.corr(returns.IBM)

In [None]:
# Gegeben:
Kurse = pd.DataFrame({'KursA': [100, 120, 150],
                      'KursB': [100, 90, 100]},
                     index = [2016, 2017, 2018])
Kurse

In [None]:
# Frage: Was ist der Output?
Kurse.pct_change()

### Unikate, Häufigkeiten und Zugehörigkeiten

In [None]:
obj = pd.Series(list('abbcbac'))
obj

In [None]:
obj.unique()          # unterschiedliche Werte

In [None]:
len(obj.unique())    # Anzahl unterschiedlicher Werte

In [None]:
obj.nunique()        # einfacher mit Pandas nunique()

In [None]:
obj.value_counts()    # Häufigkeitsverteilung: WICHTIGE Funktion!

In [None]:
obj.value_counts(normalize=True)   # relative Häufigkeitsverteilung

Per Default sortiert Pandas nach absteigender Häufigkeit. Manchmal möchte man aber nach dem Index sortieren. Zwei mögliche Lösungen dafür:

In [None]:
# Möglichkeit 1: Argument sort=False setzen
obj.value_counts(sort=False)

In [None]:
# Möglichkeit 2: Nachträglich den Index sortieren
obj.value_counts().sort_index()

**Kontrollfragen:**

In [None]:
# Gegeben: 
np.random.seed(543)
# 100 Würfe mit fairem Würfel simulieren:
augen = pd.Series(np.random.randint(1,7,100))
augen.head()  # die ersten 5 Realisationen

In [None]:
# Aufgabe 1: Erstellen Sie die absolute Häufigkeitsverteilung von "augen".


In [None]:
# Aufgabe 2: Erstellen Sie die relative Häufigkeitsverteilung von "augen". 
# Sortieren Sie nach dem Index (nicht nach der Häufigkeit).


## Fazit
- In diesem Kapitel haben wir einige Grundlagen von Pandas erarbeitet, die wir im Verlauf des Kurses immer wieder nutzen werden.
- Im nächsten Kapitel diskutieren wir Tools zum Lesen und Schreiben von Daten in Pandas.