In [14]:
import pandas as pd

##### Exkurs: Fehlende Werte

In [15]:
df = pd.read_csv("../data/Library_Usage.csv", low_memory=False)

In [16]:
df.columns

Index(['Patron Type Definition', 'Total Checkouts', 'Total Renewals',
       'Age Range', 'Home Library Definition', 'Circulation Active Month',
       'Circulation Active Year', 'Notice Preference Definition',
       'Provided Email Address', 'Year Patron Registered',
       'Within San Francisco County'],
      dtype='object')

In [17]:
df['Circulation Active Year'].isna()

0         False
1         False
2         False
3         False
4         False
          ...  
450354    False
450355    False
450356    False
450357    False
450358    False
Name: Circulation Active Year, Length: 450359, dtype: bool

In [18]:
df['Circulation Active Year'].unique()
# Fehlende Werte als 'Null' gekennzeichnet; pandas erkennt 'Null' nicht als Zahl, 
# deshalb werden die Werte in dieser Spalte als Text abgespeichert

array(['2022', '2023', '2024', '2021', 'Null', '2012', '2020', '2018',
       '2019', '2013', '2015', '2017', '2016', '2011', '2009', '2014',
       '2010', '2006', '2007', '2008', '2004', '2005'], dtype=object)

In [19]:
# Problembehebung - Variante 1: Bereits beim Einlesen die Kodierung für fehlende Werte mit angeben
df = pd.read_csv("../data/Library_Usage.csv", low_memory=False, na_values="Null")
df['Circulation Active Year']

0         2022.0
1         2023.0
2         2024.0
3         2022.0
4         2024.0
           ...  
450354       NaN
450355    2022.0
450356    2022.0
450357    2022.0
450358    2023.0
Name: Circulation Active Year, Length: 450359, dtype: float64

In [20]:
# Problembehebung - Variante 2: Nach dem Einlesen des Datensets eine explizite Umwandlung des Datentyps durchführen
df = pd.read_csv("../data/Library_Usage.csv", low_memory=False)
df['Circulation Active Year'] = pd.to_numeric(df['Circulation Active Year'], errors='coerce')
df['Circulation Active Year']

0         2022.0
1         2023.0
2         2024.0
3         2022.0
4         2024.0
           ...  
450354       NaN
450355    2022.0
450356    2022.0
450357    2022.0
450358    2023.0
Name: Circulation Active Year, Length: 450359, dtype: float64

##### Aufgabe 2.7 - Datentypen

Was unterscheidet den Wert None vom Wert "None"? 
"None" ist vom Typ String
None ist ein spezieller Datentyp in Python der fehlende Objekte oder Variablen bezeichnet (eine Codierung für einen fehlenden Wert)

Was den Wert 5 vom Wert "5"? 
"5" ist vom Typ String, 5 ist eine Ganzzahl (integer)

Was den Wert "NaN" vom Wert NaN? 
"NaN" ist vom Typ String, NaN ist ein von pandas genutzter Wert zur Repräsentation von fehlenden Daten (Typ: float)

In [None]:
Ist True und "True" das gleiche? 
True ist ein boolscher Wert, "True" ist ein String
True ist eine binäre Zahl vom Typ boolean

Die entsprechenden Ausdrücke in "" repräsentieren jeweils einen Text vom Typ str (oder object in pandas)

##### Behandlung von fehlenden Werten

In [21]:
# Funktion isna() gibt eine boolsche Series zurück mit True an den Stellen mit fehlenden Werten
# pandas erkennt fehlende Werte korrekt, wenn diese vorher in das interne Format NaN umgewandelt wurden

df[df['Age Range'].isna()]

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County


In [22]:
# Funktion notna() gibt eine boolsche Series zurück mit False an den Stellen mit fehlenden Werten
df[df['Age Range'].notna()]

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
0,Senior,5,0,75 years and over,Main,Nov,2022.0,Email,True,2015,False
1,Adult,0,0,45 to 54 years,Main,Jul,2023.0,Email,True,2019,False
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024.0,Email,True,2022,False
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022.0,Email,True,2022,False
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024.0,Print,False,2023,False
...,...,...,...,...,...,...,...,...,...,...,...
450354,Digital Access Card,0,0,35 to 44 years,Ingleside,Null,,Email,False,2023,Null
450355,Digital Access Card,0,0,45 to 54 years,Ingleside,Aug,2022.0,Print,False,2022,Null
450356,Digital Access Card,0,0,25 to 34 years,Ingleside,Aug,2022.0,Print,False,2022,Null
450357,Digital Access Card,0,0,35 to 44 years,Ingleside,Apr,2022.0,Print,False,2022,Null


In [23]:
# Anzahl fehlender Werte in jeder Spalte ausgeben lassen
df.isna().sum()

Patron Type Definition              0
Total Checkouts                     0
Total Renewals                      0
Age Range                           0
Home Library Definition             0
Circulation Active Month            0
Circulation Active Year         40317
Notice Preference Definition        0
Provided Email Address              0
Year Patron Registered              0
Within San Francisco County         0
dtype: int64

##### Entfernen aller fehlenden Werten

In [24]:
# drops all missing values in this series
df['Age Range'].dropna()

0         75 years and over
1            45 to 54 years
2            55 to 59 years
3            20 to 24 years
4            65 to 74 years
                ...        
450354       35 to 44 years
450355       45 to 54 years
450356       25 to 34 years
450357       35 to 44 years
450358       65 to 74 years
Name: Age Range, Length: 450359, dtype: object

In [26]:
df['Age Range'].isna().sum()

np.int64(0)

In [29]:
# Alternative: drops all rows that contain at least one missing values
# df.dropna()

In [28]:
df[df['Circulation Active Year'].isna()]

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
14,Teacher Card,0,0,0 to 9 years,Main,Null,,Email,True,2023,False
17,Teacher Card,0,0,45 to 54 years,Main,Null,,Email,True,2020,False
36,Senior,0,0,65 to 74 years,Main,Null,,Email,True,2023,False
93,Senior,0,0,65 to 74 years,Main,Null,,Email,True,2023,False
127,Senior,0,0,65 to 74 years,Main,Null,,Email,True,2018,False
...,...,...,...,...,...,...,...,...,...,...,...
450321,Digital Access Card,0,0,60 to 64 years,Glen Park,Null,,Email,False,2023,Null
450324,Digital Access Card,0,0,45 to 54 years,Glen Park,Null,,Email,False,2023,Null
450339,Digital Access Card,0,0,75 years and over,Marina,Null,,Email,True,2022,Null
450340,Digital Access Card,0,0,45 to 54 years,Marina,Null,,Email,True,2022,Null


##### Ersetzen

In [30]:
df['Circulation Active Year'].fillna("unbekannt")

0            2022.0
1            2023.0
2            2024.0
3            2022.0
4            2024.0
            ...    
450354    unbekannt
450355       2022.0
450356       2022.0
450357       2022.0
450358       2023.0
Name: Circulation Active Year, Length: 450359, dtype: object

##### Aufgabe 2.8 Fehlende Werte

1. Welche Spalten enthalten alles fehlende Werte?

In [34]:
df = pd.read_csv("../data/Library_Usage.csv", low_memory=False, na_values="Null")

In [35]:
df

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
0,Senior,5,0,75 years and over,Main,Nov,2022.0,Email,True,2015,False
1,Adult,0,0,45 to 54 years,Main,Jul,2023.0,Email,True,2019,False
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024.0,Email,True,2022,False
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022.0,Email,True,2022,False
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024.0,Print,False,2023,False
...,...,...,...,...,...,...,...,...,...,...,...
450354,Digital Access Card,0,0,35 to 44 years,Ingleside,,,Email,False,2023,
450355,Digital Access Card,0,0,45 to 54 years,Ingleside,Aug,2022.0,Print,False,2022,
450356,Digital Access Card,0,0,25 to 34 years,Ingleside,Aug,2022.0,Print,False,2022,
450357,Digital Access Card,0,0,35 to 44 years,Ingleside,Apr,2022.0,Print,False,2022,


In [None]:
len(df) - df.count()

In [36]:
# Anzahl fehlender Werte in jeder Spalte ausgeben lassen
df.isna().sum()

Patron Type Definition              0
Total Checkouts                     0
Total Renewals                      0
Age Range                         510
Home Library Definition            30
Circulation Active Month        40317
Circulation Active Year         40317
Notice Preference Definition     3315
Provided Email Address              0
Year Patron Registered              0
Within San Francisco County       221
dtype: int64

Folgende Spalten enthalten fehlende Werte: 
Age Range == 510
Home Library Definition == 30
Circulation Active Month == 40317
Circulation Active Year == 40317
Notice Preference Definition == 3315
Within San Francisco County == 221

2. Lies den Datensatz ein und erstelle einen DataFrame der keine Beobachtungen mit fehlenden Werten mehr enthält.

In [37]:
df.dropna(inplace=True)

In [39]:
df.isna().sum()

Patron Type Definition          0
Total Checkouts                 0
Total Renewals                  0
Age Range                       0
Home Library Definition         0
Circulation Active Month        0
Circulation Active Year         0
Notice Preference Definition    0
Provided Email Address          0
Year Patron Registered          0
Within San Francisco County     0
dtype: int64

In [40]:
df

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
0,Senior,5,0,75 years and over,Main,Nov,2022.0,Email,True,2015,False
1,Adult,0,0,45 to 54 years,Main,Jul,2023.0,Email,True,2019,False
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024.0,Email,True,2022,False
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022.0,Email,True,2022,False
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024.0,Print,False,2023,False
...,...,...,...,...,...,...,...,...,...,...,...
450133,Adult,0,0,35 to 44 years,Main,Jan,2020.0,Phone,False,2020,False
450134,Adult,0,0,45 to 54 years,Main,Mar,2024.0,Email,True,2017,False
450135,Adult,0,0,60 to 64 years,Main,Dec,2023.0,Email,True,2019,False
450136,Adult,0,0,25 to 34 years,Main,Jan,2021.0,Email,True,2019,False


3. Wie viele Beobachtungen wurden dabei entfernt?

In [41]:
450359 - 406993

43366

In [42]:
# Speichere Dataframe unter dem Namen Library_Usage_Clean.csv ab
df.to_csv("../data/Library_Usage_Clean.csv", index=False)