## Perzentile und Perzentilrang
----------------------------------------

In [1]:
import numpy as np
import pandas as pd

**Perzentile** unterteilen einen geordneten Datensatz in $100$ gleiche Teile. Jeder (geordnete) Datensatz hat $99$ Perzentile, die ihn in $100$ gleiche Teile unterteilen. Das **k-te** Perzentil wird mit $P_k$ bezeichnet, wobei $k$ eine ganze Zahl im Bereich von $1$ bis $99$ ist. Das $25$-te Perzentil wird zum Beispiel mit $P_{25}$ bezeichnet.

So kann das **k-te** Perzentil, $P_k$, als ein Wert in einem Datensatz definiert werden, bei dem etwa $k\%$ der Messungen kleiner als der Wert von $P_k$ und etwa $(100-k)$ der Messungen größer als der Wert von $P_k$ sind

.

Der ungefähre Wert des **k-ten**.
Perzentils, bezeichnet mit $P_k$, ist 

$$ P_k = \frac{kn}{100} $$

wobei **k** die Nummer des Perzentils bezeichnet und **n** den Stichprobenumfang darstellt.

Als Übung berechnen wir das 38-te, das 50-te und das 73-te Perzentil der Variablen `nc.score` in Python. Zunächst berechnen wir das 38. Perzentil gemäß der oben angegebenen Gleichung. Dann wenden wir die `np.percentile()`-Funktion von Python an, um das 38-te, 50-te und 73-te Perzentil der Variablen `nc.score` zu ermitteln.

In [13]:
# Lese Datei students.csv als Dataframe ein; Indexspalte wird übersprungen
df = pd.read_csv('students.csv', index_col=0)

nc_score = df['nc.score'].sort_values()

# Berechne 38-te Perzentile
k=38
n = len(nc_score)
print('Die 38-te Perzentile ist :', round((k*n)/100))

Die 38-te Perzentile ist : 3131


In [15]:
nc_score

6616    1.0
4488    1.0
4813    1.0
2131    1.0
2407    1.0
       ... 
8156    4.0
36      4.0
3784    4.0
6290    4.0
3868    4.0
Name: nc.score, Length: 8239, dtype: float64

Wir wählen den Wert anhand dieser Zahl in der geordneten Liste `nc_score` aus und vergleichen ihn mit den Perzentilwerten.

In [19]:
nc_score.iloc[3131]

1.74

In [20]:
quartiles = np.percentile(nc_score, [38, 50, 73])
print(quartiles)

[1.74 2.04 2.71]


Das hat gut funktioniert! Sie können prüfen, ob der Median der Variablen `nc.score` dem $50$-te Perzentil $(2,04)$ entspricht, wie oben berechnet.

Wir können auch den **Perzentilrang** für einen bestimmten Wert $x_i$
eines Datensatzes mit der folgenden Gleichung berechnen: 

$$ \text{Perzentil Rang für} \   x_i = \frac{ \text{Werte kleiner als} \ x_i}{ \text{Gesamtanzahl der Werte im Datensatz}} $$

Der Perzentilrang von $x_i$ gibt den Prozentsatz der Werte im Datensatz an, die kleiner als $x_i$ sind.

In Python gibt es keine eingebaute Funktion zur Berechnung des Perzentilrangs. Es ist jedoch relativ einfach, eine solche Funktion selbst zu schreiben.

In [67]:
# Definiere Funktion my_percentile_rank
def my_percentile_rank(x,data):
    percentile_rank = 0
    indx=[]
    for i in range(len(nc_score)):
        if  x <= nc_score.iloc[i]:
            indx = i
            
            break
    else:
        print('Wert nicht gefunden')
    return print(round((indx/len(nc_score)),5)*100) 

Jetzt berechnen wir zum Beispiel den Perzentilrang für einen Numerus clausus von 2,5.

In [68]:
my_percentile_rank(2.5,nc_score)

66.27


Wenn wir das Ergebnis auf den nächsten ganzzahligen Wert runden, können wir feststellen, dass etwa $66 \%$ der Studenten in unserem Datensatz einen Numerus clausus von mehr als $2,5$ hatten.