# Sortieren und Ranking

Das Sortieren eines Datensatzes nach einem Kriterium ist eine weitere wichtige eingebaute Funktion. Um lexikografisch nach Zeilen- oder Spaltenindex zu sortieren, verwendet die Methoden [pandas.Series.sort_index](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_index.html) oder [pandas.DataFrame.sort_index](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_index.html), die ein neues, sortiertes Objekt zurückgibt. Mit `ascending=False` wird die Sortierreihenfolge umgekehrt:

In [1]:
import numpy as np
import pandas as pd


s = pd.Series(np.random.randn(7))

s.sort_index(ascending=False)

6   -0.812727
5   -0.176446
4   -0.945075
3   -0.042649
2   -1.534402
1    0.458117
0    2.507295
dtype: float64

Um eine Serie nach ihren Werten zu sortieren, könnt ihr die `sort_values`-Methode verwenden:

In [2]:
s.sort_values()

2   -1.534402
4   -0.945075
6   -0.812727
5   -0.176446
3   -0.042649
1    0.458117
0    2.507295
dtype: float64

Alle fehlenden Werte werden standardmäßig an das Ende der Reihe sortiert:

In [3]:
s = pd.Series(np.random.randn(7))
s[s < 0] = np.nan

s.sort_values()

5    0.543597
2    0.568217
0    0.646056
1    0.972950
6    1.170667
3    1.503745
4         NaN
dtype: float64

Mit einem DataFrame können ihr auf beiden Achsen nach Index sortieren:

In [4]:
df = pd.DataFrame(np.random.randn(7, 3))

df

Unnamed: 0,0,1,2
0,2.059276,-0.01525,0.954257
1,1.118414,1.454937,0.018611
2,0.5827,-1.397815,0.814612
3,-0.25399,0.974213,0.288499
4,-0.229618,-0.157874,0.413474
5,-1.205758,0.04267,-0.857743
6,-0.392417,0.416205,0.618373


In [5]:
df.sort_index(ascending=False)

Unnamed: 0,0,1,2
6,-0.392417,0.416205,0.618373
5,-1.205758,0.04267,-0.857743
4,-0.229618,-0.157874,0.413474
3,-0.25399,0.974213,0.288499
2,0.5827,-1.397815,0.814612
1,1.118414,1.454937,0.018611
0,2.059276,-0.01525,0.954257


In [6]:
df.sort_index(axis=1, ascending=False)

Unnamed: 0,2,1,0
0,0.954257,-0.01525,2.059276
1,0.018611,1.454937,1.118414
2,0.814612,-1.397815,0.5827
3,0.288499,0.974213,-0.25399
4,0.413474,-0.157874,-0.229618
5,-0.857743,0.04267,-1.205758
6,0.618373,0.416205,-0.392417


Beim Sortieren eines DataFrame könnt ihr die Daten in einer oder mehreren Spalten als Sortierschlüssel verwenden. Dazu übergebt ihr eine oder mehrere Spaltennamen an die Option `by` von `sort_values`:

In [7]:
df.sort_values(by=2)

Unnamed: 0,0,1,2
5,-1.205758,0.04267,-0.857743
1,1.118414,1.454937,0.018611
3,-0.25399,0.974213,0.288499
4,-0.229618,-0.157874,0.413474
6,-0.392417,0.416205,0.618373
2,0.5827,-1.397815,0.814612
0,2.059276,-0.01525,0.954257


Um nach mehreren Spalten zu sortieren, könnt ihr eine Liste von Namen übergeben.

Ranking weist Ränge von eins bis zur Anzahl der gültigen Datenpunkte in einem Array zu:

In [8]:
df.rank()

Unnamed: 0,0,1,2
0,7.0,3.0,7.0
1,6.0,7.0,2.0
2,5.0,1.0,6.0
3,3.0,6.0,3.0
4,4.0,2.0,4.0
5,1.0,4.0,1.0
6,2.0,5.0,5.0


Wenn beim Ranking Gleichstände auftauchen, weist `rank` jeder Gruppe den mittleren Rang zu.

In [9]:
df.rank(method="max")

Unnamed: 0,0,1,2
0,7.0,3.0,7.0
1,6.0,7.0,2.0
2,5.0,1.0,6.0
3,3.0,6.0,3.0
4,4.0,2.0,4.0
5,1.0,4.0,1.0
6,2.0,5.0,5.0


## Weitere Verfahren mit `rank`

Methode | Beschreibung
:------ | :-----------
`average` | Standard: jedem Eintrag in der gleichen Gruppe den durchschnittlichen Rang zuweisen
`min` | verwendet den minimalen Rang für die gesamte Gruppe
`max` | verwendet den maximalen Rang für die gesamte Gruppe
`first` | weist die Ränge in der Reihenfolge zu, in der die Werte in den Daten erscheinen
`dense` | wie `method='min'`, aber die Ränge erhöhen sich zwischen den Gruppen immer um 1 und nicht nach der Anzahl der gleichen Elemente in einer Gruppe