## Der Bereich
----------------------------------------

In [1]:
import pandas as pd

Der **Bereich** als Maß für die Streuung ist einfach zu berechnen. Sie ergibt sich aus der Differenz zwischen dem größten und dem kleinsten Wert in einem Datensatz.
$$\text{Range} = \text{kleinster Wert} - \text{größter Wert}  $$

Betrachten wir unseren `students` Datensatz. Wir unterteilen den Datensatz so, dass er nur numerische Daten enthält.

In [4]:
students = pd.read_csv('students.csv', index_col=0)
preview = students.head(10)
preview

Unnamed: 0,stud.id,name,gender,age,height,weight,religion,nc.score,semester,major,minor,score1,score2,online.tutorial,graduated,salary
1,833917,"Gonzales, Christina",Female,19,160,64.8,Muslim,1.91,1st,Political Science,Social Sciences,,,0,0,
2,898539,"Lozano, T'Hani",Female,19,172,73.0,Other,1.56,2nd,Social Sciences,Mathematics and Statistics,,,0,0,
3,379678,"Williams, Hanh",Female,22,168,70.6,Protestant,1.24,3rd,Social Sciences,Mathematics and Statistics,45.0,46.0,0,0,
4,807564,"Nem, Denzel",Male,19,183,79.7,Other,1.37,2nd,Environmental Sciences,Mathematics and Statistics,,,0,0,
5,383291,"Powell, Heather",Female,21,175,71.4,Catholic,1.46,1st,Environmental Sciences,Mathematics and Statistics,,,0,0,
6,256074,"Perez, Jadrian",Male,19,189,85.8,Catholic,1.34,2nd,Political Science,Mathematics and Statistics,,,0,0,
7,754591,"Clardy, Anita",Female,21,156,65.9,Protestant,1.11,2nd,Political Science,Social Sciences,,,0,0,
8,146494,"Allen, Rebecca Marie",Female,21,167,65.7,Other,2.03,3rd,Political Science,Economics and Finance,58.0,62.0,0,0,
9,723584,"Tracy, Robert",Male,18,195,94.4,Other,1.29,3rd,Economics and Finance,Environmental Sciences,57.0,67.0,0,0,
10,314281,"Nimmons, Laura",Female,18,165,66.0,Orthodox,1.19,2nd,Environmental Sciences,Mathematics and Statistics,,,0,0,


Wir sind also an den Kategorien `age`, `height`, `weight` und `nc.score` interessiert.

In [9]:
# Lese numerische Daten aus students Dataframe in students_num ein
students_num = pd.DataFrame({'age':students['age'] ,
                   'height':students['height'] ,
                   'weight':students['weight'],
                   'nc.score':students['nc.score']})

Wir verwenden die Methoden `min()` und `max()`, die jeweils den minimalen bzw. maximalen Wert aller angegebenen Argumente einer Spalte zurückgibt, um das Minimum und Maximum für jede einzelne Variable bzw. Spalte des Datensatzes zu berechnen.

In [11]:
print('minimales Alter:',students_num['age'].min())
print('maximales Alter:',students_num['age'].max())
print('minimale Größe:',students_num['height'].min())
print('maximale Größe:',students_num['height'].max())
print('minimales Gewicht:',students_num['weight'].min())
print('maximales Gewicht:',students_num['weight'].max())
print('minimaler nc.score:',students_num['nc.score'].min())
print('maximaler nc.score:',students_num['nc.score'].max())

minimales Alter: 18
maximales Alter: 64
minimale Größe: 135
maximale Größe: 206
minimales Gewicht: 51.4
maximales Gewicht: 116.0
minimaler nc.score: 1.0
maximaler nc.score: 4.0


Um nun den Bereich für jede Variable zu berechnen, müssen wir nur eine Zeile von der anderen abziehen.

In [12]:
print('Bereich Alter:',students_num['age'].max() - students_num['age'].min())
print('Bereich Größe:',students_num['height'].max() - students_num['height'].min())
print('Bereich Gewicht:',students_num['weight'].max() - students_num['weight'].min())
print('Bereich nc.score:',students_num['nc.score'].max() - students_num['nc.score'].min())

Bereich Alter: 46
Bereich Größe: 71
Bereich Gewicht: 64.6
Bereich nc.score: 3.0


Der Bereich hat wie der Mittelwert den Nachteil, dass er durch Ausreißer beeinflusst wird. Daher ist der Bereich kein gutes Streuungsmaß für einen Datensatz, der Ausreißer enthält. Ein weiterer Nachteil der Verwendung des Bereichs als Streuungsmaß ist, dass seine Berechnung nur auf zwei Werten basiert: dem größten und dem kleinsten. Alle anderen Werte in einem Datensatz werden bei der Berechnung der Spanne ignoriert. Daher ist der Bereich kein sehr zufriedenstellendes Maß für die Streuung (Mann 2012).