##### Streuungsmaße

Zentralität einer Verteilung (die durch Lagemaße beschrieben wird) ist nur eine wichtige Kennzahl. 
Streuungsmaße geben zusätzlich an, wie stark die Daten einer Messreihe schwanken. 
Die Streuung einer Variable ist entscheidend z.B. bei der Beurteilung mit welcher Wahrscheinlichkeit extreme Werte vorkommen können.
Die bekanntesten Streuungsmaße sind die Varianz, die Standardabweichung und der Variantionskoeffizient.

##### Varianz

Die Distanz einer Beobachtung vom Mittelwert der zugrundeliegenden Variable wird Abweichung genannt. 
Der Mittelwert über die quadrierten Abweichungen wird als Varianz definiert

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("../data/Library_Usage.csv",low_memory=False)

In [3]:
df.columns

Index(['Patron Type Definition', 'Total Checkouts', 'Total Renewals',
       'Age Range', 'Home Library Definition', 'Circulation Active Month',
       'Circulation Active Year', 'Notice Preference Definition',
       'Provided Email Address', 'Year Patron Registered',
       'Within San Francisco County'],
      dtype='object')

In [4]:
df['Total Checkouts'].var()

276931.23963427445

##### Standardabweichung

Die Standardabweichung ist die Wurzel der Varianz

In [9]:
# Standardabweichung Total Checkouts
df['Total Checkouts'].std()

526.2425672959899

##### Variationskoeffizient

Möchte man die Streuung verschiedener Variablen vergleichen, macht es Sinn, eine normalisierte Größe, den Variationskoeffizienten zu betrachten.

##### Aufgabe 3.4 - Varianz 

Welche Variable streut mehr: 'Total Checkouts' oder 'Total Renewals'? 
Vergleiche die Standardabweichungen und den Variationskoeffizienten miteinander.

In [10]:
# Standardabweichung Total Renewals
df['Total Renewals'].std()

305.91523273880455

In [14]:
# Mittelwert Total Checkouts
df['Total Checkouts'].mean()

np.float64(155.218052709061)

In [15]:
# Mittelwert Total Renewals
df['Total Renewals'].mean()

np.float64(78.96892923201268)

In [16]:
# Variationskoeffizient Total Checkouts
cv_checkouts = df['Total Checkouts'].std() / df['Total Checkouts'].mean()

In [17]:
cv_checkouts

np.float64(3.390343829930486)

In [18]:
# Variationskoeffizient Total Renewals
cv_renewals = df['Total Renewals'].std() / df['Total Renewals'].mean()

In [19]:
cv_renewals

np.float64(3.873868313954441)

###### Standardabweichung Total Checkouts: 526.2425672959899
###### Standardabweichung Total Renewals: 305.91523273880455
###### Variationskoeffizient Total Checkouts: 3.390343829930486
###### Variationskoeffizient Total Renewals: 3.873868313954441
Die Variable "Total Renewals" streut stärker als "Total Checkouts"

##### Spannweite

In [20]:
# Spannweite ist die Differenz zwischen dem maximalen und minmalem Wert
df['Total Checkouts'].max() - df['Total Checkouts'].min()

39743

##### Interquartilsabstand 

In [21]:
# Interquartilsabstand ist ein robustes Streuungsmaß
# Er ergibt sich aus der Differenz des 75%- zum 25%-Quantil: xIQR=x0.75−x0.25
df['Total Checkouts'].quantile(q=0.75) - df['Total Checkouts'].quantile(q=0.25)

np.float64(74.0)

##### Aufgabe 3.5 Ausreißerentfernung II

1. Identifiziere positive Ausreißer in der Spalte Total Checkouts. Ausreißer werden jetzt als Beobachtungen xi
 definiert, für die gilt:
xi > x0.75 + 1.5xIQR
Das heißt, eine Beobachtung gilt als Ausreißer, wenn sie größer als die Summe aus dem 75% Quantil und dem 1.5-fachen des Interquartilsabstands ist.

In [31]:
# 75% Quantil für Total Checkouts
df['Total Checkouts'].quantile(q=0.75)

np.float64(74.0)

In [32]:
# Interquartilsabstand für Total Checkouts
df['Total Checkouts'].quantile(q=0.75) - df['Total Checkouts'].quantile(q=0.25)

np.float64(74.0)

In [33]:
# Berechnung 1.5-fach des Interquartilsabstands
(df['Total Checkouts'].quantile(q=0.75) - df['Total Checkouts'].quantile(q=0.25)) * 1.5

np.float64(111.0)

In [34]:
# Berechnung Summe aus dem 75% Quantil und dem 1.5-fachen des Interquartilsabstands
ausreisser = df['Total Checkouts'].quantile(q=0.75) + ((df['Total Checkouts'].quantile(q=0.75) - df['Total Checkouts'].quantile(q=0.25)) * 1.5)

In [35]:
ausreisser

np.float64(185.0)

2. Wie viel Prozent der Beobachtungen im Datensatz werden mit dieser Methode als Ausreißer markiert?

In [36]:
df_ausreisser = df.loc[df['Total Checkouts'] > ausreisser]

In [37]:
df_ausreisser

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
24,Teacher Card,628,82,45 to 54 years,Mission,Mar,2024,Email,True,2014,False
25,Teacher Card,2005,1436,35 to 44 years,Glen Park,Mar,2024,Email,True,2003,False
43,Senior,375,1,65 to 74 years,Main,Jul,2023,Email,True,2003,False
46,Senior,535,338,65 to 74 years,Main,Mar,2024,Email,True,2003,False
60,Senior,279,232,65 to 74 years,Main,Mar,2024,Email,True,2003,False
...,...,...,...,...,...,...,...,...,...,...,...
450176,Adult,1290,112,20 to 24 years,Mission,Dec,2022,Phone,False,2003,Null
450179,Adult,976,1463,45 to 54 years,Bernal Heights,Apr,2021,Print,False,2008,Null
450189,Adult,427,115,35 to 44 years,Bayview,Jun,2021,Phone,False,2008,Null
450256,Teen,1288,109,10 to 19 years,Richmond,Aug,2023,Email,True,2009,Null


In [39]:
len(df['Total Checkouts'])

450359

In [40]:
len(df_ausreisser)

72206

In [42]:
# Prozent der Beobachtungen, die als Ausreißer gelten
len(df_ausreisser) / len(df['Total Checkouts'])

0.16032987017024197