# Grundbegriffe 

Beantworte und diskutiere die folgenden Fragen konkret für den in Einheit 1 heruntergeladenen San Francisco Library Usage Datensatz. Notiere Deine Ergebnisse in Stichpunkte.

In [50]:
import pandas as pd
import numpy as np

In [51]:
df = pd.read_csv("/home/katja/2024-2025-Data_Lirbrarian_Katja_Gödde/Modul_3/data/Library_Usage.csv", dtype={"Within San Francisco County": str}, na_values=['Null', 'NA', ''], low_memory=False)  

In [52]:
df

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
0,Senior,5,0,75 years and over,Main,Nov,2022.0,Email,True,2015,False
1,Adult,0,0,45 to 54 years,Main,Jul,2023.0,Email,True,2019,False
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024.0,Email,True,2022,False
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022.0,Email,True,2022,False
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024.0,Print,False,2023,False
...,...,...,...,...,...,...,...,...,...,...,...
450354,Digital Access Card,0,0,35 to 44 years,Ingleside,,,Email,False,2023,
450355,Digital Access Card,0,0,45 to 54 years,Ingleside,Aug,2022.0,Print,False,2022,
450356,Digital Access Card,0,0,25 to 34 years,Ingleside,Aug,2022.0,Print,False,2022,
450357,Digital Access Card,0,0,35 to 44 years,Ingleside,Apr,2022.0,Print,False,2022,


Wie viele Merkmale besitzt der Datensatz?
Der Datensatz besitzt 11 Merkmale, die hier durch die Spaltennamen repräsentiert werden.

Wie groß ist die Stichprobengröße des Datensatzes? 450359 (= die Anzahl der Zeilen)

Wer oder was sind die Merkmalsträger? Die Merkmalsträger sind die Bibliotheksnutzer*innen an denen die Ausprägungen gemessen werden.

Von wann bis wann wurden die Daten erhoben? Vom 02. Dezember 2016 bis zum 25. März 2024 (einsehbar in den Metadaten unter https://data.sfgov.org/Culture-and-Recreation/Library-Usage/qzz6-2jup/about_data)

Wie lässt sich die Grundgesamtheit beschreiben? Handelt es sich um eine Vollerhebung? Es handelt sich nicht um eine Vollerhebung, da nicht alle Kunden, sondern nur aktive Kunden mit einbezogen wurden. Aktive Kunden sind Kunden mit noch nicht abgelaufenen Bibliotheksausweisen und Kunden, die innerhalb der letzten drei Jahre eine Ausleihtätigkeit ausgeübt haben.

Welche Merkmale sind stetig? Welche diskret?
- Patron Type Definition: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Total Checkouts: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Total Reneweals: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Age Range: Diskret, da es sich um abzählbar viele Gruppierungen von Altersklassen handelt. Wenn es keine Gruppierung gäbe, wäre das Merkmal dagegen stetig.
- Home Library Definition: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Circulation Active Month: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Circulation Active Year: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Notice Preference Definition: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Provided Email Address: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Year Patron Registered: Diskret, da nur abzählbar viele Werte angenommen werden können.
- Within San Francisco County: Diskret, da nur abzählbar viele Werte angenommen werden können.

Welchem Skalenniveau entsprechen die einzelnen Merkmale (Nominal-, Ordinal- oder Metrische Skala)?
- Patron Type Definition: Nominalskala
- Total Checkouts: Metrische Skala
- Total Reneweals: Metrische Skala
- Age Range: Ordinalskala
- Home Library Definition: Nominalskala
- Circulation Active Month: Ordinalskala
- Circulation Active Year: Metrische Skala
- Notice Preference Definition: Nominalskala
- Provided Email Address: Nominalskala
- Year Patron Registered: Metrische Skala
- Within San Francisco County: Nominalskala

Enthält der Datensatz fehlende Werte? Ja, in den Spalten Age Range, Home Library Definition, Circulation Active Month, Circulation Active Year, Notice Preference Definition und Within San Francisco County

In [61]:
fehlende_werte = df.isnull().sum()
print(fehlende_werte)

Patron Type Definition              0
Total Checkouts                     0
Total Renewals                      0
Age Range                         510
Home Library Definition            30
Circulation Active Month        40317
Circulation Active Year         40317
Notice Preference Definition     3315
Provided Email Address              0
Year Patron Registered              0
Within San Francisco County       221
dtype: int64


Handelt es sich um Querschnitts-, Längsschnitss- oder Paneldaten? Es handelt sich um Paneldaten, da Beobachtungen von denselben Einheiten (Bibliotheksnutzer*innen) zu verschiedenen Zeitpunkten erhoben werden. 

# 2.5 Fallstudie: Feature Engineering

In [64]:
df.columns

Index(['Patron Type Definition', 'Total Checkouts', 'Total Renewals',
       'Age Range', 'Home Library Definition', 'Circulation Active Month',
       'Circulation Active Year', 'Notice Preference Definition',
       'Provided Email Address', 'Year Patron Registered',
       'Within San Francisco County'],
      dtype='object')

In [65]:
df['Total Checkouts']

0         5
1         0
2         0
3         1
4         0
         ..
450354    0
450355    0
450356    0
450357    0
450358    0
Name: Total Checkouts, Length: 450359, dtype: int64

In [66]:
df[['Total Checkouts', 'Total Renewals']]

Unnamed: 0,Total Checkouts,Total Renewals
0,5,0
1,0,0
2,0,0
3,1,1
4,0,0
...,...,...
450354,0,0
450355,0,0
450356,0,0
450357,0,0


In [75]:
df['is_adult'] = df['Patron Type Definition'] == 'Adult'
df['log_renewals'] = np.log(df['Total Renewals'] + 1)

In [77]:
df['is_adult']

0         False
1          True
2          True
3         False
4         False
          ...  
450354    False
450355    False
450356    False
450357    False
450358    False
Name: is_adult, Length: 450359, dtype: bool

In [79]:
df['log_renewals']

0         0.000000
1         0.000000
2         0.000000
3         0.693147
4         0.000000
            ...   
450354    0.000000
450355    0.000000
450356    0.000000
450357    0.000000
450358    0.000000
Name: log_renewals, Length: 450359, dtype: float64

In [81]:
df

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County,is_adult,log_renewals
0,Senior,5,0,75 years and over,Main,Nov,2022.0,Email,True,2015,False,False,0.000000
1,Adult,0,0,45 to 54 years,Main,Jul,2023.0,Email,True,2019,False,True,0.000000
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024.0,Email,True,2022,False,True,0.000000
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022.0,Email,True,2022,False,False,0.693147
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024.0,Print,False,2023,False,False,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...
450354,Digital Access Card,0,0,35 to 44 years,Ingleside,,,Email,False,2023,,False,0.000000
450355,Digital Access Card,0,0,45 to 54 years,Ingleside,Aug,2022.0,Print,False,2022,,False,0.000000
450356,Digital Access Card,0,0,25 to 34 years,Ingleside,Aug,2022.0,Print,False,2022,,False,0.000000
450357,Digital Access Card,0,0,35 to 44 years,Ingleside,Apr,2022.0,Print,False,2022,,False,0.000000


In [85]:
df['Membership Duration'] = ('Circulation Active Year' - 'Year Patron Registered')*12 + 'Circulation Active Month'

TypeError: unsupported operand type(s) for -: 'str' and 'str'

In [87]:
pd.to_numeric(
  df['Circulation Active Year'], errors='coerce'
)

0         2022.0
1         2023.0
2         2024.0
3         2022.0
4         2024.0
           ...  
450354       NaN
450355    2022.0
450356    2022.0
450357    2022.0
450358    2023.0
Name: Circulation Active Year, Length: 450359, dtype: float64

In [91]:
pd.to_datetime(
    df['Circulation Active Month'],
    errors='coerce',
    format="%b"
)


0        1900-11-01
1        1900-07-01
2        1900-03-01
3        1900-08-01
4        1900-03-01
            ...    
450354          NaT
450355   1900-08-01
450356   1900-08-01
450357   1900-04-01
450358   1900-04-01
Name: Circulation Active Month, Length: 450359, dtype: datetime64[ns]

In [93]:
df['Circulation Active Month'].dt.month

AttributeError: Can only use .dt accessor with datetimelike values

In [95]:
df['Circulation Active Month'].head() 

0    Nov
1    Jul
2    Mar
3    Aug
4    Mar
Name: Circulation Active Month, dtype: object

In [97]:
df['Circulation Active Month'].unique()

array(['Nov', 'Jul', 'Mar', 'Aug', 'Apr', 'Feb', 'Jan', nan, 'May', 'Oct',
       'Sep', 'Jun', 'Dec'], dtype=object)

In [99]:
df['Membership Duration'] = ('Circulation Active Year' - 'Year Patron Registered')*12 + 'Circulation Active Month'


TypeError: unsupported operand type(s) for -: 'str' and 'str'

In [101]:
df['Membership Duration'].fillna(0)

KeyError: 'Membership Duration'