# Sortierung und Ranking

## Sortierung

Das Sortieren eines Datensatzes nach einem Kriterium ist eine weitere wichtige eingebaute Funktion. Die lexikografisch Sortierung nach Zeilen- oder Spaltenindex ist bereits im Abschnitt [Umordnen und Sortieren von Ebenen](indexing.ipynb#Umordnen-und-Sortieren-von-Ebenen) beschrieben. Im folgenden schauen wir uns das Sortieren der Werte mit [DataFrame.sort_values](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) und [Series.sort_values](https://pandas.pydata.org/docs/reference/api/pandas.Series.sort_values.html) an:

In [1]:
import numpy as np
import pandas as pd

rng = np.random.default_rng()
s = pd.Series(rng.normal(size=7))

s.sort_values(ascending=False)

3    1.246961
2    0.110026
0    0.069969
5   -0.496005
4   -0.929130
6   -1.070176
1   -1.835034
dtype: float64

Alle fehlenden Werte werden standardmäßig an das Ende der Reihe sortiert:

In [2]:
s = pd.Series(rng.normal(size=7))
s[s < 0] = np.nan

s.sort_values()

1    0.510741
6    0.611437
0         NaN
2         NaN
3         NaN
4         NaN
5         NaN
dtype: float64

Mit einem DataFrame könnt ihr auf beiden Achsen sortieren. Mit `by` gebt ihr dabei an, welche Spalte oder Zeile sortiert werden soll:

In [3]:
df = pd.DataFrame(rng.normal(size=(7, 3)))

df.sort_values(by=2, ascending=False)

Unnamed: 0,0,1,2
5,1.610572,-1.017753,0.284589
6,-1.690047,2.317737,0.283082
4,0.260035,0.811425,-0.086206
1,-2.514986,-1.293696,-0.953747
2,0.410459,-0.623034,-0.992117
0,-0.086971,0.927506,-2.299808
3,0.131152,-1.49755,-2.693376


Mit `axis=1` und `by` könnt ihr auch Zeilen sortieren:

In [4]:
df.sort_values(axis=1, by=[0,1], ascending=False)

Unnamed: 0,1,0,2
0,0.927506,-0.086971,-2.299808
1,-1.293696,-2.514986,-0.953747
2,-0.623034,0.410459,-0.992117
3,-1.49755,0.131152,-2.693376
4,0.811425,0.260035,-0.086206
5,-1.017753,1.610572,0.284589
6,2.317737,-1.690047,0.283082


## Ranking

[DataFrame.rank](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html) und [Series.rank](https://pandas.pydata.org/docs/reference/api/pandas.Series.rank.html) weisen Ränge von eins bis zur Anzahl der gültigen Datenpunkte in einem Array zu:

In [5]:
df.rank()

Unnamed: 0,0,1,2
0,3.0,6.0,2.0
1,1.0,2.0,4.0
2,6.0,4.0,3.0
3,4.0,1.0,1.0
4,5.0,5.0,5.0
5,7.0,3.0,7.0
6,2.0,7.0,6.0


Wenn beim Ranking Gleichstände auftauchen, wird üblicherweise in jeder Gruppe der mittleren Rang zugewiesen.

In [6]:
df2 = df.append(df[5:])
df2.rank()

Unnamed: 0,0,1,2
0,4.0,7.0,2.0
1,1.0,2.0,4.0
2,7.0,5.0,3.0
3,5.0,1.0,1.0
4,6.0,6.0,5.0
5,8.5,3.5,8.5
6,2.5,8.5,6.5
5,8.5,3.5,8.5
6,2.5,8.5,6.5


Mit dem Parameter `min` wird hingegen der kleinste Rang in der Gruppe zugewiesen:

In [7]:
df2.rank(method='min')

Unnamed: 0,0,1,2
0,4.0,7.0,2.0
1,1.0,2.0,4.0
2,7.0,5.0,3.0
3,5.0,1.0,1.0
4,6.0,6.0,5.0
5,8.0,3.0,8.0
6,2.0,8.0,6.0
5,8.0,3.0,8.0
6,2.0,8.0,6.0


## Weitere Verfahren mit `rank`

Methode | Beschreibung
:------ | :-----------
`average` | Standard: jedem Eintrag in der gleichen Gruppe den durchschnittlichen Rang zuweisen
`min` | verwendet den minimalen Rang für die gesamte Gruppe
`max` | verwendet den maximalen Rang für die gesamte Gruppe
`first` | weist die Ränge in der Reihenfolge zu, in der die Werte in den Daten erscheinen
`dense` | wie `method='min'`, aber die Ränge erhöhen sich zwischen den Gruppen immer um 1 und nicht nach der Anzahl der gleichen Elemente in einer Gruppe