# Hierarchische Indizierung

Die hierarchische Indizierung ist eine wichtige Funktion von pandas, die euch ermöglicht, mehrere Indexebenen auf einer Achse zu haben. Dies bietet euch die Möglichkeit, mit höherdimensionalen Daten in einer niedrigdimensionalen Form zu arbeiten.

Beginnen wir mit einem einfachen Beispiel: Erstellen wir eine Reihe Liste von Listen als Index:

In [1]:
import pandas as pd
import numpy as np

In [2]:
hits = pd.Series([83080,20336,11376,1228,468],
                 index=[['Jupyter Tutorial',
                         'Jupyter Tutorial',
                         'PyViz Tutorial',
                         'Python Basics',
                         'Python Basics'],
                        ['de', 'en', 'de', 'de', 'en']])

hits

Jupyter Tutorial  de    83080
                  en    20336
PyViz Tutorial    de    11376
Python Basics     de     1228
                  en      468
dtype: int64

Was ihr seht, ist eine graphische Ansicht einer Serie mit einem [pandas.MultiIndex](https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.html). Die „Lücken“ in der Indexanzeige bedeuten, dass die Beschriftung darüber verwendet werden soll.

In [3]:
hits.index

MultiIndex([('Jupyter Tutorial', 'de'),
            ('Jupyter Tutorial', 'en'),
            (  'PyViz Tutorial', 'de'),
            (   'Python Basics', 'de'),
            (   'Python Basics', 'en')],
           )

Bei einem hierarchisch indizierten Objekt ist eine so genannte partielle Indizierung möglich, mit der ihr Teilmengen der Daten gezielt auswählen könnt:

In [4]:
hits['Jupyter Tutorial']

de    83080
en    20336
dtype: int64

In [5]:
hits['Jupyter Tutorial':'Python Basics']

Jupyter Tutorial  de    83080
                  en    20336
PyViz Tutorial    de    11376
Python Basics     de     1228
                  en      468
dtype: int64

In [6]:
hits.loc[['Jupyter Tutorial', 'Python Basics']]

Jupyter Tutorial  de    83080
                  en    20336
Python Basics     de     1228
                  en      468
dtype: int64

Die Auswahl ist sogar von einer „inneren“ Ebene aus möglich. Im folgenden wähle ich alle Werte mit dem Wert `1` aus der zweiten Indexebene aus:

In [7]:
hits.loc[:, 'de']

Jupyter Tutorial    83080
PyViz Tutorial      11376
Python Basics        1228
dtype: int64

Die hierarchische Indizierung spielt eine wichtige Rolle bei der Umformung von Daten und gruppenbasierten Operationen wie der Bildung einer [Pivot-Tabelle](https://de.wikipedia.org/wiki/Pivot-Tabelle). Zum Beispiel könnt ihr diese Daten mit der [pandas.Series.unstack](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.unstack.html)-Methode in einen DataFrame umordnen:

In [8]:
hits.unstack()

Unnamed: 0,de,en
Jupyter Tutorial,83080.0,20336.0
PyViz Tutorial,11376.0,
Python Basics,1228.0,468.0


Die umgekehrte Operation von unstack ist [stack](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.stack.html):

In [9]:
hits.unstack().stack()

Jupyter Tutorial  de    83080.0
                  en    20336.0
PyViz Tutorial    de    11376.0
Python Basics     de     1228.0
                  en      468.0
dtype: float64

`stack` und `unstack` wird im Kapitel [Reshaping und Pivoting](reshaping-pivoting.ipynb) ausführlicher behandelt.

Bei einem DataFrame kann jede Achse einen hierarchischen Index haben:

In [10]:
version_hits = [[19651,0,30134,0,33295,0],
                [ 2573,0,4873,0,3930,0],
                [4722,1825,3497,2576,4009,3707],
                [525,0,427,0,276,0],
                [157,0,85,0,226,0]]

frame = pd.DataFrame(version_hits,
                     index=[['Jupyter Tutorial',
                             'Jupyter Tutorial',
                             'PyViz Tutorial',
                             'Python Basics',
                             'Python Basics'],
                            ['de', 'en', 'de', 'de', 'en']],
                     columns=[['12/2021', '12/2021',
                               '01/2022', '01/2022', 
                               '02/2022', '02/2022'],
                              ['latest', 'stable',
                               'latest', 'stable',
                               'latest', 'stable']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,12/2021,12/2021,01/2022,01/2022,02/2022,02/2022
Unnamed: 0_level_1,Unnamed: 1_level_1,latest,stable,latest,stable,latest,stable
Jupyter Tutorial,de,19651,0,30134,0,33295,0
Jupyter Tutorial,en,2573,0,4873,0,3930,0
PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
Python Basics,de,525,0,427,0,276,0
Python Basics,en,157,0,85,0,226,0


Die Hierarchieebenen können Namen haben (als Zeichenketten oder beliebige Python-Objekte). Wenn dies der Fall ist, werden diese in der Konsolenausgabe angezeigt:

In [11]:
frame.index.names = ['Title', 'Language']

In [12]:
frame.columns.names = ['Month', 'Version']

In [13]:
frame

Unnamed: 0_level_0,Month,12/2021,12/2021,01/2022,01/2022,02/2022,02/2022
Unnamed: 0_level_1,Version,latest,stable,latest,stable,latest,stable
Title,Language,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Jupyter Tutorial,de,19651,0,30134,0,33295,0
Jupyter Tutorial,en,2573,0,4873,0,3930,0
PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
Python Basics,de,525,0,427,0,276,0
Python Basics,en,157,0,85,0,226,0


> **Warnung:**
> 
> Achtet darauf, dass die Indexnamen `Month` und `Version` nicht Teil der Zeilenbezeichnungen (der `frame.index`-Werte) sind.

Mit der Teilspaltenindizierung könnt ihr auf ähnliche Weise Spaltengruppen auswählen:

In [14]:
frame['12/2021']

Unnamed: 0_level_0,Version,latest,stable
Title,Language,Unnamed: 2_level_1,Unnamed: 3_level_1
Jupyter Tutorial,de,19651,0
Jupyter Tutorial,en,2573,0
PyViz Tutorial,de,4722,1825
Python Basics,de,525,0
Python Basics,en,157,0


Mit [pandas.MultiIndex.from_arrays](https://pandas.pydata.org/docs/reference/api/pandas.MultiIndex.from_arrays.html) kann selbst ein `MultiIndex` erstellt und dann wiederverwendet werden; die Spalten im vorangehenden DataFrame mit Ebenennamen könnten so erstellt werden:

In [15]:
pd.MultiIndex.from_arrays([['Jupyter Tutorial',
                            'Jupyter Tutorial',
                            'PyViz Tutorial',
                            'Python Basics',
                            'Python Basics'],
                           ['de', 'en', 'de', 'de', 'en']],
                          names=['Title', 'Language'])

MultiIndex([('Jupyter Tutorial', 'de'),
            ('Jupyter Tutorial', 'en'),
            (  'PyViz Tutorial', 'de'),
            (   'Python Basics', 'de'),
            (   'Python Basics', 'en')],
           names=['Title', 'Language'])

## Umordnen und Sortieren von Ebenen

Es kann vorkommen, dass ihr die Reihenfolge der Ebenen auf einer Achse neu anordnen oder die Daten nach den Werten in einer bestimmten Ebene sortieren wollt. Die Funktion [pandas.DataFrame.swaplevel](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.swaplevel.html) nimmt zwei Ebenennummern oder -namen entgegen und gibt ein neues Objekt zurück, in dem die Ebenen vertauscht sind (die Daten bleiben jedoch unverändert):

In [16]:
frame.swaplevel('Language', 'Title')

Unnamed: 0_level_0,Month,12/2021,12/2021,01/2022,01/2022,02/2022,02/2022
Unnamed: 0_level_1,Version,latest,stable,latest,stable,latest,stable
Language,Title,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
de,Jupyter Tutorial,19651,0,30134,0,33295,0
en,Jupyter Tutorial,2573,0,4873,0,3930,0
de,PyViz Tutorial,4722,1825,3497,2576,4009,3707
de,Python Basics,525,0,427,0,276,0
en,Python Basics,157,0,85,0,226,0


[pandas.DataFrame.sort_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html) hingegen sortiert die Daten nur nach den Werten in einer einzigen Ebene. Beim Vertauschen von Ebenen ist es nicht unüblich, auch `sort_index` zu verwenden, damit das Ergebnis lexikografisch nach der angegebenen Ebene sortiert wird:

In [17]:
frame.sort_index(level=0)

Unnamed: 0_level_0,Month,12/2021,12/2021,01/2022,01/2022,02/2022,02/2022
Unnamed: 0_level_1,Version,latest,stable,latest,stable,latest,stable
Title,Language,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Jupyter Tutorial,de,19651,0,30134,0,33295,0
Jupyter Tutorial,en,2573,0,4873,0,3930,0
PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
Python Basics,de,525,0,427,0,276,0
Python Basics,en,157,0,85,0,226,0


In [18]:
frame.swaplevel(0, 1).sort_index(level=0)

Unnamed: 0_level_0,Month,12/2021,12/2021,01/2022,01/2022,02/2022,02/2022
Unnamed: 0_level_1,Version,latest,stable,latest,stable,latest,stable
Language,Title,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
de,Jupyter Tutorial,19651,0,30134,0,33295,0
de,PyViz Tutorial,4722,1825,3497,2576,4009,3707
de,Python Basics,525,0,427,0,276,0
en,Jupyter Tutorial,2573,0,4873,0,3930,0
en,Python Basics,157,0,85,0,226,0


> **Hinweis:**
> 
> Die Leistung der Datenauswahl ist bei hierarchisch indizierten Objekten wesentlich besser, wenn der Index lexikografisch sortiert ist, beginnend mit der äußersten Ebene, d.h. dem Ergebnis des Aufrufs von `sort_index(level=0)` oder `sort_index()`.

## Zusammenfassende Statistiken nach Ebene

Viele deskriptive und zusammenfassende Statistiken für `DataFrame` und `Series` verfügen über eine Ebenenoption, mit der die Ebene angeben können, nach der ihr auf einer bestimmten Achse aggregieren könnt. Betrachtet den obigen `DataFrame`; wir können entweder die Zeilen oder die Spalten nach der Ebene aggregieren wie folgt:

In [19]:
frame.groupby(level='Language').sum()

Month,12/2021,12/2021,01/2022,01/2022,02/2022,02/2022
Version,latest,stable,latest,stable,latest,stable
Language,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
de,24898,1825,34058,2576,37580,3707
en,2730,0,4958,0,4156,0


In [20]:
frame.groupby(level='Month', axis=1).sum()

Unnamed: 0_level_0,Month,01/2022,02/2022,12/2021
Title,Language,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Jupyter Tutorial,de,30134,33295,19651
Jupyter Tutorial,en,4873,3930,2573
PyViz Tutorial,de,6073,7716,6547
Python Basics,de,427,276,525
Python Basics,en,85,226,157


Intern wird dazu die [pandas.DataFrame.groupby](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html)-Maschinerie von Pandas verwendet, die in [Gruppenoperationen](group-operations.ipynb) näher erläutert wird.

## Indizierung mit den Spalten eines DataFrame

Es ist nicht ungewöhnlich, eine oder mehrere Spalten eines DataFrame als Zeilenindex zu verwenden; alternativ könnt ihr den Zeilenindex auch in die Spalten des DataFrame verschieben. Hier ist ein Beispiel-DataFrame:

In [21]:
data = [['Jupyter Tutorial', 'de', 19651,0,30134,0,33295,0],
        ['Jupyter Tutorial', 'en', 2573,0,4873,0,3930,0],
        ['PyViz Tutorial', 'de', 4722,1825,3497,2576,4009,3707],
        ['Python Basics', 'de', 525,0,427,0,276,0],
        ['Python Basics', 'en', 157,0,85,0,226,0]]
    
frame = pd.DataFrame(data)

frame

Unnamed: 0,0,1,2,3,4,5,6,7
0,Jupyter Tutorial,de,19651,0,30134,0,33295,0
1,Jupyter Tutorial,en,2573,0,4873,0,3930,0
2,PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
3,Python Basics,de,525,0,427,0,276,0
4,Python Basics,en,157,0,85,0,226,0


Die Funktion [pandas.DataFrame.set_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html) erstellt einen neuen DataFrame, der eine oder mehrere seiner Spalten als Index verwendet:

In [22]:
frame2 = frame.set_index([0,1])

frame2

Unnamed: 0_level_0,Unnamed: 1_level_0,2,3,4,5,6,7
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Jupyter Tutorial,de,19651,0,30134,0,33295,0
Jupyter Tutorial,en,2573,0,4873,0,3930,0
PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
Python Basics,de,525,0,427,0,276,0
Python Basics,en,157,0,85,0,226,0


Standardmäßig werden die Spalten aus dem DataFrame entfernt, Ihr könnt sie aber auch drin lassen, indem ihr `drop=False` an `set_index` übergebt:

In [23]:
frame.set_index([0,1], drop=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,0,1,2,3,4,5,6,7
0,1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Jupyter Tutorial,de,Jupyter Tutorial,de,19651,0,30134,0,33295,0
Jupyter Tutorial,en,Jupyter Tutorial,en,2573,0,4873,0,3930,0
PyViz Tutorial,de,PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
Python Basics,de,Python Basics,de,525,0,427,0,276,0
Python Basics,en,Python Basics,en,157,0,85,0,226,0


[pandas.DataFrame.reset_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.reset_index.html) hingegen bewirkt das Gegenteil von `set_index`; die hierarchischen Indexebenen werden in die Spalten verschoben:

In [24]:
frame2.reset_index()

Unnamed: 0,0,1,2,3,4,5,6,7
0,Jupyter Tutorial,de,19651,0,30134,0,33295,0
1,Jupyter Tutorial,en,2573,0,4873,0,3930,0
2,PyViz Tutorial,de,4722,1825,3497,2576,4009,3707
3,Python Basics,de,525,0,427,0,276,0
4,Python Basics,en,157,0,85,0,226,0
