# Projektaufgabe: Deskriptive Statistik und Visualisierungen

Für den Online-Artikel zum Kundenstamm der Bibliothek braucht die Pressestelle einige interessanten Zahlen zum Thema Alter und Bibliotheksnutzung. Außerdem möchte sie die Daten in einer Info-Graphik zusammenstellen.

Für eine erste Demo bist Du verantwortlich:

- Berechne 2-3 Statistiken und erstelle 2-3 Visualisierungen basierend auf den Informationen im [Datensatz](https://zbmed.github.io/2021-2022-ZK_Data_Librarian_Modul_3/organisation/dataset/).
- Nutze **pandas** zur Berechnung der Statistiken und **seaborn** für die Visualisierungen.
- Lade bis spätestens **25.03.21** Deinen Report in Form eines Jupyter Notebooks in der Dateiablage in Moodle hoch.
---

## Beispielfragen, die Du mit dem Datensatz beantworten und visualisieren kannst:

- Wie viele Senioren und Kinder sind Kunden der San Francisco Public Library?
***44291 Senioren im Alter ab 65 Jahren***
***38242 Kinder im Alter zwischen 0 und 9 Jahren***


- Wie viele Nutzer möchten per Mail informiert werden?



- Wie alt sind diese Nutzer durchschnittlich im Vergleich zu Nutzern, die per Post informiert werden möchten?
- Wie viele Ausleihen werden im Mittel pro Altersgruppe und pro Jahr getätigt? Ist die Streuung zwischen den Gruppen gleich?

In [46]:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv", na_values="None")
df['Circulation Active Year'] = pd.to_numeric(df['Circulation Active Year'], errors='coerce')
df['Circulation Active Year']

0            NaN
1         2016.0
2            NaN
3            NaN
4         2016.0
           ...  
423443    2015.0
423444    2016.0
423445    2016.0
423446    2015.0
423447       NaN
Name: Circulation Active Year, Length: 423448, dtype: float64

### 3.1 Häufigkeiten

1. Erstelle eine Häufigkeitsverteilung für die Variable 'Year Patron Registered'.
- Wieviel Prozent der Kunden wurden 2013 im System registriert?

   ***Es wurden ca. 11,4% neu registriert.***
   

- Wie viele in den kommenden Jahren?

    ***2014-12,3% , 2015-12,7%, 2016-0,06%***
    

- Was fällt Dir auf?

    ***Die Neu-Registrierungen nehmen ab 2013 kontinuierlich zu bis sie 2016 wieder auf durchschnittlich 0,62% zurückfallen. Zur öffentlichen Bibliothek in San Francisco gehören viele Zweigbibliotheken. Eine davon ist die "Bayview Library", welche am 23. Februar 2013 eröffnet wurde. Das erklärt vermutlich die überdurchschnittlich vielen Anmeldungen.***

In [36]:
df['Year Patron Registered'].value_counts(normalize=True)

2003    0.163555
2015    0.127409
2014    0.122570
2013    0.113948
2012    0.088311
2011    0.062655
2016    0.062081
2010    0.057436
2009    0.052679
2008    0.048455
2007    0.031383
2006    0.025448
2005    0.022832
2004    0.021240
Name: Year Patron Registered, dtype: float64

2. Wieviel Prozent der Kunden sind zwischen 25 und 34 Jahren?

   ***ca. 21,5%***

In [37]:
df['Age Range'].value_counts(normalize=True)

25 to 34 years       0.215208
35 to 44 years       0.159227
10 to 19 years       0.139271
45 to 54 years       0.124026
0 to 9 years         0.090357
65 to 74 years       0.071216
20 to 24 years       0.070318
55 to 59 years       0.050161
60 to 64 years       0.046783
75 years and over    0.033433
Name: Age Range, dtype: float64

In [38]:
kinder=df.loc[df['Age Range'] == "0 to 9 years"]

In [39]:
len(kinder)

38242

In [40]:
senioren=df.loc[
    (df['Age Range'] == "65 to 74 years") | 
    (df['Age Range'] == "75 years and over")
]

In [41]:
len(senioren)

44291

3. Ersetze die fehlenden Werte in der Spalte **Age Range** durch den Modus dieser Spalte. Nutze dazu die Funktion **DataFrame.fillna** (siehe [hier](https://devdocs.io/pandas~0.25/reference/api/pandas.dataframe.fillna) für die Dokumentation).



***Filter***
Die Funktionen isna (notna) geben eine boolesche Series zurück, die True (False) ist,
wenn an der Stelle ein fehlender Wert steht. Damit pandas fehlende Werte korrekt erkennt,
müssen diese vorher erst in das interne Format NaN umgewandelt werden.

In [42]:
df[df['Age Range'].isna()]
df[df['Age Range'].notna()]

Unnamed: 0,Patron Type Code,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Code,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Code,Notice Preference Definition,Provided Email Address,Year Patron Registered,Outside of County,Supervisor District
0,0,ADULT,0,0,20 to 24 years,P1,Park,,,z,email,True,2014,False,5.0
1,0,ADULT,31,22,25 to 34 years,S7,Sunset,April,2016.0,z,email,True,2010,False,4.0
2,0,ADULT,0,0,45 to 54 years,P1,Park,,,a,print,False,2016,True,
3,0,ADULT,0,0,25 to 34 years,X,Main Library,,,z,email,True,2015,False,3.0
4,0,ADULT,126,11,45 to 54 years,M2,Marina,January,2016.0,z,email,True,2003,False,2.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
423443,0,ADULT,291,13,10 to 19 years,P5,Portola,March,2015.0,p,phone,False,2009,False,9.0
423444,0,ADULT,15,11,60 to 64 years,M8,Mission Bay,July,2016.0,z,email,True,2016,False,6.0
423445,5,STAFF,208,58,0 to 9 years,B4,Bernal Heights,July,2016.0,z,email,True,2014,False,9.0
423446,0,ADULT,26,0,10 to 19 years,M6,Mission,April,2015.0,z,email,True,2003,False,9.0


In [43]:
df.notna().sum()

Patron Type Code                423448
Patron Type Definition          423448
Total Checkouts                 423448
Total Renewals                  423448
Age Range                       423233
Home Library Code               423408
Home Library Definition         423448
Circulation Active Month        355544
Circulation Active Year         355544
Notice Preference Code          423448
Notice Preference Definition    423448
Provided Email Address          423448
Year Patron Registered          423448
Outside of County               423448
Supervisor District             313138
dtype: int64

In [44]:
df.isna().sum()

Patron Type Code                     0
Patron Type Definition               0
Total Checkouts                      0
Total Renewals                       0
Age Range                          215
Home Library Code                   40
Home Library Definition              0
Circulation Active Month         67904
Circulation Active Year          67904
Notice Preference Code               0
Notice Preference Definition         0
Provided Email Address               0
Year Patron Registered               0
Outside of County                    0
Supervisor District             110310
dtype: int64

In [45]:
# drops all rows that contain at least one missing values
df.dropna()
# drops all missing values in this series
df['Age Range'].dropna()

0         20 to 24 years
1         25 to 34 years
2         45 to 54 years
3         25 to 34 years
4         45 to 54 years
               ...      
423443    10 to 19 years
423444    60 to 64 years
423445      0 to 9 years
423446    10 to 19 years
423447      0 to 9 years
Name: Age Range, Length: 423233, dtype: object

In [32]:
df['Age Range'].fillna("keine Angabe")

0         20 to 24 years
1         25 to 34 years
2         45 to 54 years
3         25 to 34 years
4         45 to 54 years
               ...      
423443    10 to 19 years
423444    60 to 64 years
423445      0 to 9 years
423446    10 to 19 years
423447      0 to 9 years
Name: Age Range, Length: 423448, dtype: object

In [33]:
age_mode = df['Age Range'].mode()
age_mode[0]

'25 to 34 years'

In [34]:
source : ["age_range_mode = df['Age Range'].mode()[0]\n",
    "df['Age Range'].fillna(age_range_mode, inplace=True)"]

4. Denkst Du, es handelt sich dabei um eine gute Methode, fehlende Werte zu ersetzen?
   Welche anderen Strategien fallen Dir ein?


## Lagemasse
### 3.2 Mittelwert und Median (20 Min)

Schau Dir den Mittelwert und den Median der Variable Total Checkouts an.
- Warum sind die beiden Werte so unterschiedlich?

- Was ziehst Du daraus für Schlüsse für weitere statistische Analysen und Reports?


In [47]:
df = pd.read_csv("../data/Library_Usage.csv")
df['Total Checkouts'].mean()

161.98209697530748

In [48]:
df['Total Checkouts'].median()

19.0

## 3.3 Exkurs: Ausreißerentfernung I (30 Min)
**Quantile**

- Identifziere jeweils die 1.5% größten Werte in der Spalte Total Checkouts.
- Definiere diese Werte als Ausreißer.
- Erstelle einen Datensatz, für den diese Ausreißer entfernt sind.
- Handelt es sich hierbei um eine gute Methode, Ausreißer zu identifizieren und zu behandeln?
- Welche anderen Strategien kennst Du?

In [49]:
df['Total Checkouts'].quantile(q=[0.25, 0.5, 0.75])

0.25      2.0
0.50     19.0
0.75    113.0
Name: Total Checkouts, dtype: float64