### Series und DataFrames 

Series und DataFrames sind die zentralen Datenstrukturen in Pandas. Series sind wie standardmäßige Listen in Python, mit dem wichtigen Unterschied, dass Series nur Werte eines einzelnen Datentyps enthalten können.

Ein Datentyp ist die grundlegende Einheit, in der einzelne Werte in einer Programmiersprache vom Computer gespeichert und verarbeitet werden können. Beispiele für Datentypen in pandas sind: float für Gleitkommazahlen, int für Ganzzahlen, bool für binäre True, False Werte oder datetime für Datumswerte. Text wird im pandas-spezifischen Format object abgespeichert. Für einen DataFrame der beispielsweise in einer Variable mit dem Namen df gepeichert ist, kannst Du Dir die Datentypen jeder Spalte mit df.dtypes ausgeben lassen.

In [1]:
import pandas as pd
x = pd.Series([34, 12, 23, 45])
print(x)
x.dtype

0    34
1    12
2    23
3    45
dtype: int64


dtype('int64')

In [3]:
import pandas as pd
data = {'month': ['Jan', 'Feb', 'Mar'],
        'temp': [-5, 2, 3],
         'below_zero': [True, False, False]}
df = pd.DataFrame(data)
print(df)

  month  temp  below_zero
0   Jan    -5        True
1   Feb     2       False
2   Mar     3       False


### Welches Skalennivelau liegt jeweils vor?
month: ordinal
temp: metrisch
below_zero: nominal

### sind die Variablen stetig oder diskret?
month: diskret
temp: hier diskret, können aber auch stetig sein bei genauerer Messung zb im Kommabereich
below_zero: diskret

### was ist jeweils der Datentyp?
month: object, Strings oder Textdaten
temp: int64, ganzzahlige Werte
below_zeor: bool, binäre Werte (True/False)

siehe nächste Zeilen

In [10]:
print(df.dtypes)

month         object
temp           int64
below_zero      bool
dtype: object


### Erweiterung des Datensatzes
1) neue Zeile einfügen
2) neue Spalte einfügen

In [14]:
data = {'month': ['Jan', 'Feb', 'Mar', 'Apr'],
        'temp': [-5, 2, 3, 5],
         'below_zero': [True, False, False, False]}
df = pd.DataFrame(data)
print(df)

  month  temp  below_zero
0   Jan    -5        True
1   Feb     2       False
2   Mar     3       False
3   Apr     5       False


In [20]:
data = {'month': ['Jan', 'Feb', 'Mar', 'Apr'],
        'temp': [-5, 2, 3, 5],
         'below_zero': [True, False, False, False]}
df = pd.DataFrame(data)
df['year'] = 2020
print(df)


# alternative: 
# data = {'month': ['Jan', 'Feb', 'Mar', 'Apr'],
#         'year': ['2020','2020', '2020', '2020'],
#         'temp': [-5, 2, 3, 5],
#         'below_zero': [True, False, False, False]}
# df = pd.DataFrame(data)
# print(df)

  month  temp  below_zero  year
0   Jan    -5        True  2020
1   Feb     2       False  2020
2   Mar     3       False  2020
3   Apr     5       False  2020


### Ein- und Ausgabe
Die Funktionen zur Ein- und Ausgabe von Daten in pandas sind umfangreich aber systematisch organisiert. Um beispielsweise eine .csv Datei einzulesen und in einer Variable zu speichern verwendet man die Funktion read_csv.
Um einen eingelesenen Datensatz beispielsweise im .json Textformat zu speichern verwendet man die Funktion to_json

Manche Funktion aus dem pandas Paket sind statische Funktionen: Sie sind an kein konkretes Objekt gebunden, sondern werden über den Bibliotheksnamen pd aufgerufen. Beispiele: pd.read_csv, pd.to_numeric, pd.crosstab.

Andere Funktionen sind an ein bestimmtes Objekt, welches mit einer Variable referenziert wird, gebunden. In der Regel ist dies ein DataFrame oder eine Series. Beispiele: df.to_csv, df.corr, df.head, x.mean.

In [23]:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv")
df.head()

  df = pd.read_csv("../data/Library_Usage.csv")


Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County
0,Senior,5,0,75 years and over,Main,Nov,2022,Email,True,2015,False
1,Adult,0,0,45 to 54 years,Main,Jul,2023,Email,True,2019,False
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024,Email,True,2022,False
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022,Email,True,2022,False
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024,Print,False,2023,False


In [25]:
df.to_json("../data/Library_Usage.json")

### Auswahl und Erstellung von Spalten
Die Spalten eines DataFrames werden über einen Spaltenindex referenziert. Üblicherweise besteht der Spaltenindex aus Spaltennamen in Textform.

Einzelne Series können wie bei einem Python Dictionary mit df[<name>] extrahiert werden. Mehre Spalten mit df[[name1, name2]]. Wenn Du Spalten mit der doppelten Liste [[...]] auswählst, erhältst Du in jedem Fall wieder einen DataFrame zurück. Das Ergebnis der Auswahl kannst Du bei Bedarf wieder in einer Variablen abspeichern.

Spalten können mit einer Zuweisung (=) überschrieben oder neu erstellt werden

In [29]:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv",low_memory=False)
df.columns

Index(['Patron Type Definition', 'Total Checkouts', 'Total Renewals',
       'Age Range', 'Home Library Definition', 'Circulation Active Month',
       'Circulation Active Year', 'Notice Preference Definition',
       'Provided Email Address', 'Year Patron Registered',
       'Within San Francisco County'],
      dtype='object')

In [33]:
subset_1 = df['Total Renewals']
print(subset_1)
subset_2 = df[['Total Renewals', 'Total Checkouts']]
print(subset_2)

0         0
1         0
2         0
3         1
4         0
         ..
450354    0
450355    0
450356    0
450357    0
450358    0
Name: Total Renewals, Length: 450359, dtype: int64
        Total Renewals  Total Checkouts
0                    0                5
1                    0                0
2                    0                0
3                    1                1
4                    0                0
...                ...              ...
450354               0                0
450355               0                0
450356               0                0
450357               0                0
450358               0                0

[450359 rows x 2 columns]


In [35]:
df['dummy_variable'] = 5

Berechnungen auf schon bestehenden Variablen können auch direkt einer neuen Spalte zugeordnet werden.

Im ersten Beispiel wird zuerst die Anweisung df['Patron Type Definition'] == 'Adult' durchgeführt. Das implizite Ergebnis dieser Anweisung ist eine Series mit booleschen Werten True oder False. Die neu erstellte Series wird dann in einer neuen Spalte is_adult dem DataFrame angehängt.

Im zweiten Beispiel wird der Logarithmus auf den Werten der Spalte Total Renewals berechnet und einer neuen Spalte log_renewals zugewiesen.

In [38]:
import numpy as np

df['is_adult'] = df['Patron Type Definition'] == 'Adult'
df['log_renewals'] = np.log(df['Total Renewals'] + 1)

In [40]:
df

Unnamed: 0,Patron Type Definition,Total Checkouts,Total Renewals,Age Range,Home Library Definition,Circulation Active Month,Circulation Active Year,Notice Preference Definition,Provided Email Address,Year Patron Registered,Within San Francisco County,dummy_variable,is_adult,log_renewals
0,Senior,5,0,75 years and over,Main,Nov,2022,Email,True,2015,False,5,False,0.000000
1,Adult,0,0,45 to 54 years,Main,Jul,2023,Email,True,2019,False,5,True,0.000000
2,Adult,0,0,55 to 59 years,Western Addition,Mar,2024,Email,True,2022,False,5,True,0.000000
3,Welcome,1,1,20 to 24 years,Richmond,Aug,2022,Email,True,2022,False,5,False,0.693147
4,Senior,0,0,65 to 74 years,Sunset,Mar,2024,Print,False,2023,False,5,False,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
450354,Digital Access Card,0,0,35 to 44 years,Ingleside,Null,Null,Email,False,2023,Null,5,False,0.000000
450355,Digital Access Card,0,0,45 to 54 years,Ingleside,Aug,2022,Print,False,2022,Null,5,False,0.000000
450356,Digital Access Card,0,0,25 to 34 years,Ingleside,Aug,2022,Print,False,2022,Null,5,False,0.000000
450357,Digital Access Card,0,0,35 to 44 years,Ingleside,Apr,2022,Print,False,2022,Null,5,False,0.000000


## Aufgabe 2.5 Fallstudie: Feature Engineering

Ziel ist es, eine neue Variable Membership Duration zu erstellen, die für jeden Kunden die aktive Mitgliedschaft in Monaten seit der Registrierung misst. Die aktive Mitgliedschaft wird definiert als:
'Membership Duration' = ('Circulation Active Year' - 'Year Patron Registered')*12 + 'Circulation Active Month'

In [44]:
# Spalte Circulation Active Year ist als Text und nicht als Zahl abgespeichert
# Konvertiere die Spalte in ein numerisches Format
# Überschreibe die ursprüngliche Variable mit den neuen Werten
pd.to_numeric(
  df['Circulation Active Year'], errors='coerce'
)

0         2022.0
1         2023.0
2         2024.0
3         2022.0
4         2024.0
           ...  
450354       NaN
450355    2022.0
450356    2022.0
450357    2022.0
450358    2023.0
Name: Circulation Active Year, Length: 450359, dtype: float64

In [68]:
# Spalte Circulation Active Month enthält die Monatsnamen als Text
# Für die Berechnung muss diese in ein numerisches Format konvertiert werden.

# Zuerst konvertieren wir die Spalte in ein Datumsformat. Das geht mit der Funktion pd.to_datetime
# Überschreibe wieder die ursprüngliche Variable mit den neuen Werten

df['Circulation Active Month'] = pd.to_datetime(
    df['Circulation Active Month'],
    errors='coerce',
    format="%b"
)

In [72]:
# jetzt extrahieren wir den Monat als Zahl aus der Spalte 

df['Month'] = df['Circulation Active Month'].dt.month

In [98]:
print(df.dtypes)

Patron Type Definition                  object
Total Checkouts                          int64
Total Renewals                           int64
Age Range                               object
Home Library Definition                 object
Circulation Active Month        datetime64[ns]
Circulation Active Year                float64
Notice Preference Definition            object
Provided Email Address                    bool
Year Patron Registered                   int64
Within San Francisco County             object
dummy_variable                           int64
is_adult                                  bool
log_renewals                           float64
Month                                  float64
dtype: object


In [80]:
df['Month'].unique()

array([11.,  7.,  3.,  8.,  4.,  2.,  1., nan,  5., 10.,  9.,  6., 12.])

In [88]:
df['Circulation Active Year'].unique()

array(['2022', '2023', '2024', '2021', 'Null', '2012', '2020', '2018',
       '2019', '2013', '2015', '2017', '2016', '2011', '2009', '2014',
       '2010', '2006', '2007', '2008', '2004', '2005'], dtype=object)

In [92]:
# umwandlung von active year von object zu integer
# erst null durch nan ersetzen
df['Circulation Active Year'] = df['Circulation Active Year'].replace('Null', np.nan)

In [94]:
# umwandlung von active year von object zu float da integeer nicht mit nan kompatibel
df['Circulation Active Year'] = df['Circulation Active Year'].astype(float)

In [110]:
# Berechne nun die aktive Mitgliedschaftsdauer in Monaten wie oben definiert
# weise das Ergebnis der Spalte Membership Duration zu
df['Membership Duration'] = (df['Circulation Active Year'] - df['Year Patron Registered'])*12 + df['Month']

In [100]:
df['Month'].fillna(0)

0         11.0
1          7.0
2          3.0
3          8.0
4          3.0
          ... 
450354     0.0
450355     8.0
450356     8.0
450357     4.0
450358     4.0
Name: Month, Length: 450359, dtype: float64

In [102]:
df['Circulation Active Year'].fillna(0)

0         2022.0
1         2023.0
2         2024.0
3         2022.0
4         2024.0
           ...  
450354       0.0
450355    2022.0
450356    2022.0
450357    2022.0
450358    2023.0
Name: Circulation Active Year, Length: 450359, dtype: float64

In [104]:
df['Year Patron Registered'].fillna(0)

0         2015
1         2019
2         2022
3         2022
4         2023
          ... 
450354    2023
450355    2022
450356    2022
450357    2022
450358    2023
Name: Year Patron Registered, Length: 450359, dtype: int64

In [112]:
df['Membership Duration'].fillna(0)

0         95.0
1         55.0
2         27.0
3          8.0
4         15.0
          ... 
450354     0.0
450355     8.0
450356     8.0
450357     4.0
450358     4.0
Name: Membership Duration, Length: 450359, dtype: float64

## Auswahl von Zeilen 
Die Zeilen eines DataFrames können über drei verschiedene Arten ausgewählt werden. Das System kann am Anfang etwas verwirrend sein. Wir betrachten hier nur den wichtigsten Fall der Zeilenauswahl: Die Auswahl über logische Ausdrücke mittels loc[]

In [None]:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv",low_memory=False)
df.loc[df['Total Checkouts'] > 10000]


Der Ausdruck df['Total Checkouts'] > 10000 wird zuerst ausgewertet und ergibt eine boolesche Series mit Einträgen True wenn die Beobachtung mehr als 1000 Ausleihen getätigt hat und False sonst.

Mit einer booleschen Series lassen sich dann die Zeilen des DataFrame auswählen: Es werden genau die Zeilen zurückgegeben, bei denen die Series True Werte enthält.

Anstatt alles in einer Zeile zu schreiben, können wir auch eine Hilfsvariable erstellen, die den booleschen Vektor zwischenspeichert

In [None]:
row_filter = df['Total Checkouts'] > 10000
df.loc[row_filter]

Für den booleschen Zeilenfilter können komplexe logische Ausdrücke unter Zuhilfenahme der Operatoren <, >, &, |, == u.s.w. gebildet werden. Welche Zeilen werden hier gefiltert?

In [None]:
row_filter = (df['Patron Type Definition'] == 'Senior') & (df['Notice Preference Definition'] == 'Email')
df.loc[row_filter]

Nützlich ist auch die Funktion Series.between(left, right), mit der eine boolesche Series erstellt wird, die True ist wenn der Wert der ursprünglichen Series zwischen oder auf den Werten left und right liegt. Im folgenden Beispiel wird gezeigt, dass die beiden Filter das gleiche Ergebnis liefern

In [None]:
filter1 = (df['Total Checkouts'] >= 20) & (df['Total Checkouts'] <= 80)
filter2 =  df['Total Checkouts'].between(20, 80)
all(filter1 == filter2)

In [None]:
# Filtere den Datensatz nach Kindern unter 10 Jahren. Wie viele Einträge erhältst Du?

In [None]:
# Gibt es Personen mit mehr als 20000 Ausleihen?

In [None]:
# Wie viele Personen stammen aus dem Stadtteil (Richmond)?

In [None]:
# Wie viele Prozent der Beobachtungen haben eine Membership Duration von Null Monaten?

## Fehlende Werte 
Real erhobene Daten sind meistens unsauber und fehlerhaft. Ein häufiges Problem dabei sind fehlende Werte, also Beobachtungen für die manche Merkmale nicht erhoben wurden. In jedem Datensatz werden fehlende Werte anders gekennzeichnet, aber man findet oft diese Kodierungen wieder: "-999", "NA", " ", "None", "NULL", "#N/A".

Wenn beispielsweise der Mittelwert einer statistischen Variable berechnet wird, so muss entschieden werden, wie mit fehlenden Werten umgegangen werden soll: Sollen die Werte entfernt werden? Sollen die fehlenden Werte durch einen bestimmten Wert ersetzt werden?

In DataFrames werden fehlende Werte durch das Schlüsselwort NaN ("Not a Number") angezeigt. Beim Einlesen von Daten (siehe z.B. die read_csv Funktion) können mit dem Argument na_values zusätzliche Kodierungen für fehlerhafte Werte mit angegeben werden.

Fallbeispiel

Der Library Usage Datensatz enthält die Kodierung "Null" für fehlende Werte (Statt "Null" könnte auch ein beliebiger anderer Textwert stehen). Diese werden von pandas beim Einlesen von numerischen Spalten nicht richtig erkannt

In [None]:
import pandas as pd

df = pd.read_csv("../data/Library_Usage.csv",low_memory=False)
df['Circulation Active Year']

Obwohl die Spalte 'Circulation Active Year' numerisch ist, wird Sie von pandas als Text abgespeichert, da "Null" nicht als Zahl erkannt wird. Möchtest Du z.B. 2019 - df['Circulation Active Year'] berechnen, so wirst Du eine Fehlermeldung erhalten, da für Text-Werte keine Substraktionen durchgeführt werden können.

Um das Problem zu beheben kannst Du auf zwei Arten vorgehen. Du kannst bereits beim Einlesen die Kodierung für fehlende Werte mit angeben

In [None]:
df = pd.read_csv("../data/Library_Usage.csv", low_memory=False, na_values="Null")
df['Circulation Active Year']

# Oder Du führst nach dem Einlesen eine explizite Umwandlung des Datentyps aus:

df = pd.read_csv("../data/Library_Usage.csv", low_memory=False)
df['Circulation Active Year'] = pd.to_numeric(df['Circulation Active Year'], errors='coerce')
df['Circulation Active Year']


#### Behandlung von fehlenden Werten
Pandas bietet für Series und DataFrames die nützlichen Funktionen isna(), notna(), dropna() und fillna() an um fehlende Werte zu identifizieren, zu entfernen oder mit anderen Werten zu ersetzen.
Filter

Die Funktionen isna (notna) geben eine boolesche Series zurück, die True (False) ist, wenn an der Stelle ein fehlender Wert steht. Damit pandas fehlende Werte korrekt erkennt, müssen diese vorher erst in das interne Format NaN umgewandelt werden (siehe oben).

In [None]:
df[df['Age Range'].isna()]
df[df['Age Range'].notna()]

#oder:
df.isna().sum()

In [None]:
# entfernen
# drops all rows that contain at least one missing values
df.dropna()
# drops all missing values in this series
df['Age Range'].dropna()

In [None]:
# ersetzen 
df['Age Range'].fillna("keine Angabe")

Standardmäßig werden bei den Operationen fillna oder dropna neue Series oder DataFrames zurückgegeben. Die originale Variable bleibt dabei unangetastet. Mit dem Argument inplace=True werden die originalen Objekte direkt überschrieben.

In [None]:
# Welche Spalten enthalten alles fehlende Werte?
# Lies den Datensatz ein und erstelle einen DataFrame der keine Beobachtungen mit fehlenden Werten mehr enthält.
# Speichere diesen unter dem Namen Library_Usage_Clean.csv ab.
# Wie viele Beobachtungen wurden dabei entfernt?

## Nützliche Funktionen in Pandas
Mit df.head() kannst Du Dir die ersten n Zeilen eines DataFrames anzeigen lassen
Analog dazu funktioniert die Funktion df.tail()

In [None]:
import pandas as pd
df = pd.read_csv("../data/Library_Usage.csv",low_memory=False)
df.head()

Mit df.info() erhältst Du speicherbezogene Informationen über das Objekt. Mit df.describe() werden nützliche deskriptive Statistiken für alle numerischen Spalten eines Datensatzes ausgegeben. Um alle Spalten miteinzubeziehen nutze das Funktionsargument include='all'

In [None]:
df.describe(include='all')

In [None]:
# viele Funktionen funktionieren für DataFrames und Series gleichermaßen:

print(df.min())
print(df['Total Renewals'].min())

In [None]:
# Mit der Funktion sum() werden die Werte einer Spalte aufaddiert:

df['Total Renewals'].sum()
df['Total Renewals'].between(100, 200).sum()


In [None]:
# DataFrames besitzen drei wichtige Attribute, die Informationen über die Spalten, die Datentypen und die Anzahl der Elemente geben:

df.columns
df.dtypes
df.shape