# Multi-Index

Die `set_index`-Methode in Pandas ermöglicht es, eine oder mehrere Spalten eines DataFrames als Index festzulegen, wodurch diese Spalten nicht mehr als Daten, sondern als Zeilenlabels im DataFrame erscheinen. Diese Methode kann besonders nützlich sein, um Daten nach bestimmten Schlüsseln effizienter zu sortieren und zu suchen.

### Syntax

```python
DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
```

### Parameter

- **`keys`**: (str oder list) Die Spalte oder Liste von Spalten, die als neuer Index verwendet werden sollen.
- **`drop`**: (bool, Standard: True) Gibt an, ob die Originalspalten, die als Index gesetzt werden, aus den Daten gelöscht werden sollen.
- **`append`**: (bool, Standard: False) Falls `True`, werden die neuen Index-Spalten an den bestehenden Index angehängt, anstatt ihn zu ersetzen.
- **`inplace`**: (bool, Standard: False) Wenn `True`, wird der DataFrame direkt geändert, anstatt eine Kopie zurückzugeben.
- **`verify_integrity`**: (bool, Standard: False) Falls `True`, wird geprüft, ob der neue Index eindeutige Werte hat, was hilfreich ist, um doppelte Einträge zu vermeiden.

### Beispiel

In diesem Beispiel erstellen wir zwei Pandas-DataFrames `df1` und `df2`, die beide Informationen zu deutschen Städten enthalten, aber unterschiedliche Datenfelder haben: `df1` enthält die Bevölkerungszahl und `df2` die Fläche der Städte für die Jahre 2020 und 2021. Beide DataFrames verwenden einen MultiIndex bestehend aus den Spalten "Stadt" und "Jahr", und wir kombinieren sie mit einem `join()`-Befehl.

In [9]:
import pandas as pd

# DataFrame df10 mit Bevölkerung
df1 = pd.DataFrame({
    'Stadt': ['Berlin', 'Berlin', 'Hamburg', 'Hamburg'],
    'Jahr': [2020, 2021, 2020, 2021],
    'Bevölkerung': [3.5, 3.6, 1.8, 1.85]
}).set_index(['Stadt', 'Jahr'])

df1

Unnamed: 0_level_0,Unnamed: 1_level_0,Bevölkerung
Stadt,Jahr,Unnamed: 2_level_1
Berlin,2020,3.5
Berlin,2021,3.6
Hamburg,2020,1.8
Hamburg,2021,1.85


In [10]:
# DataFrame df11 mit Fläche
df2 = pd.DataFrame({
    'Stadt': ['Berlin', 'Berlin', 'Hamburg', 'Hamburg'],
    'Jahr': [2020, 2021, 2020, 2021],
    'Fläche': [891.8, 891.8, 755.2, 755.2]
}).set_index(['Stadt', 'Jahr'])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Fläche
Stadt,Jahr,Unnamed: 2_level_1
Berlin,2020,891.8
Berlin,2021,891.8
Hamburg,2020,755.2
Hamburg,2021,755.2


Hier verwenden wir `set_index(['Stadt', 'Jahr'])`, um aus den Spalten "Stadt" und "Jahr" einen MultiIndex zu machen. Das heißt, `df10` und `df11` haben jetzt die Kombination aus "Stadt" und "Jahr" als Index.

### Anwendung von `join()` auf MultiIndex

Nun kombinieren wir beide DataFrames mit `join()`:

In [11]:
# Join basierend auf MultiIndex
joined_df_b = df1.join(df2)
joined_df_b

Unnamed: 0_level_0,Unnamed: 1_level_0,Bevölkerung,Fläche
Stadt,Jahr,Unnamed: 2_level_1,Unnamed: 3_level_1
Berlin,2020,3.5,891.8
Berlin,2021,3.6,891.8
Hamburg,2020,1.8,755.2
Hamburg,2021,1.85,755.2


In diesem Schritt werden die beiden DataFrames anhand ihres MultiIndex ("Stadt" und "Jahr") zusammengeführt. Der `join()`-Befehl verbindet die Daten dabei standardmäßig mit einem *left join*, bei dem alle Einträge von `df1` übernommen werden und passende Einträge von `df2` hinzugefügt werden.

### Erklärung des Ergebnisses

- `join()` hat die beiden DataFrames basierend auf dem gemeinsamen MultiIndex "Stadt" und "Jahr" kombiniert.
- Die Spalte `Bevölkerung` von `df1` wurde mit der Spalte `Fläche` von `df2` in einem neuen DataFrame `joined_df_b` zusammengeführt.
- Jede Kombination aus "Stadt" und "Jahr" ist nur einmal vorhanden, da der Index beider DataFrames identisch ist.

### Fazit
Mit `join()` und einem MultiIndex kann man Daten effektiv zusammenführen, wenn beide DataFrames dieselbe Kombination von Indexwerten besitzen. Das ist nützlich, um eine klare und zusammenhängende Darstellung von Daten zu schaffen, z. B. zur Analyse von Stadt- und Zeitreihen.