# Sortieren und Ranking

Das Sortieren eines Datensatzes nach einem Kriterium ist eine weitere wichtige eingebaute Funktion. Um lexikografisch nach Zeilen- oder Spaltenindex zu sortieren, verwendet die Methoden [pandas.Series.sort_index](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html) oder [pandas.DataFrame.sort_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html), die ein neues, sortiertes Objekt zurückgibt. Mit `ascending=False` wird die Sortierreihenfolge umgekehrt:

In [1]:
import numpy as np
import pandas as pd

rng = np.random.default_rng()
s = pd.Series(rng.normal(size=7))

s.sort_index(ascending=False)

6   -0.685319
5    0.870628
4   -0.543632
3   -1.133117
2    0.656864
1    0.819724
0   -1.607773
dtype: float64

Um eine Serie nach ihren Werten zu sortieren, könnt ihr die `sort_values`-Methode verwenden:

In [2]:
s.sort_values()

0   -1.607773
3   -1.133117
6   -0.685319
4   -0.543632
2    0.656864
1    0.819724
5    0.870628
dtype: float64

Alle fehlenden Werte werden standardmäßig an das Ende der Reihe sortiert:

In [3]:
s = pd.Series(rng.normal(size=7))
s[s < 0] = np.nan

s.sort_values()

2    0.125073
0    0.218986
3    0.227046
1    0.313185
4         NaN
5         NaN
6         NaN
dtype: float64

Mit einem DataFrame können ihr auf beiden Achsen nach Index sortieren:

In [4]:
df = pd.DataFrame(rng.normal(size=(7, 3)))

df

Unnamed: 0,0,1,2
0,0.739653,1.338406,0.369409
1,1.595977,0.525056,1.886388
2,3.202391,0.340682,-1.170983
3,-0.917511,-0.708083,-1.354343
4,0.918787,0.960765,-0.852099
5,-0.331725,-0.949663,0.376149
6,0.786126,0.4629,1.580045


In [5]:
df.sort_index(ascending=False)

Unnamed: 0,0,1,2
6,0.786126,0.4629,1.580045
5,-0.331725,-0.949663,0.376149
4,0.918787,0.960765,-0.852099
3,-0.917511,-0.708083,-1.354343
2,3.202391,0.340682,-1.170983
1,1.595977,0.525056,1.886388
0,0.739653,1.338406,0.369409


In [6]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,2,1,0
0,0.369409,1.338406,0.739653
1,1.886388,0.525056,1.595977
2,-1.170983,0.340682,3.202391
3,-1.354343,-0.708083,-0.917511
4,-0.852099,0.960765,0.918787
5,0.376149,-0.949663,-0.331725
6,1.580045,0.4629,0.786126


Beim Sortieren eines DataFrame könnt ihr die Daten in einer oder mehreren Spalten als Sortierschlüssel verwenden. Dazu übergebt ihr eine oder mehrere Spaltennamen an die Option `by` von `sort_values`:

In [7]:
df.sort_values(by=2)

Unnamed: 0,0,1,2
3,-0.917511,-0.708083,-1.354343
2,3.202391,0.340682,-1.170983
4,0.918787,0.960765,-0.852099
0,0.739653,1.338406,0.369409
5,-0.331725,-0.949663,0.376149
6,0.786126,0.4629,1.580045
1,1.595977,0.525056,1.886388


Um nach mehreren Spalten zu sortieren, könnt ihr eine Liste von Namen übergeben.

Ranking weist Ränge von eins bis zur Anzahl der gültigen Datenpunkte in einem Array zu:

In [8]:
df.rank()

Unnamed: 0,0,1,2
0,3.0,7.0,4.0
1,6.0,5.0,7.0
2,7.0,3.0,2.0
3,1.0,2.0,1.0
4,5.0,6.0,3.0
5,2.0,1.0,5.0
6,4.0,4.0,6.0


Wenn beim Ranking Gleichstände auftauchen, weist `rank` jeder Gruppe den mittleren Rang zu.

In [9]:
df.rank(method='max')

Unnamed: 0,0,1,2
0,3.0,7.0,4.0
1,6.0,5.0,7.0
2,7.0,3.0,2.0
3,1.0,2.0,1.0
4,5.0,6.0,3.0
5,2.0,1.0,5.0
6,4.0,4.0,6.0


## Weitere Verfahren mit `rank`

Methode | Beschreibung
:------ | :-----------
`average` | Standard: jedem Eintrag in der gleichen Gruppe den durchschnittlichen Rang zuweisen
`min` | verwendet den minimalen Rang für die gesamte Gruppe
`max` | verwendet den maximalen Rang für die gesamte Gruppe
`first` | weist die Ränge in der Reihenfolge zu, in der die Werte in den Daten erscheinen
`dense` | wie `method='min'`, aber die Ränge erhöhen sich zwischen den Gruppen immer um 1 und nicht nach der Anzahl der gleichen Elemente in einer Gruppe