# Kapitel 7: Datenaufbereitung - Säubern und Transformieren

McKinney, W. (2017). *Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython*. 2. Auflage. Sebastopol, CA [u. a.]: O’Reilly.

Überarbeitet: armin.baenziger@zhaw.ch, 30. Juli 2021

- Bei der Datenanalyse macht das Aufbereiten der Daten oft einen erheblichen Teil des Zeitaufwands aus.
- In diesem Kapitel behandlen wir Werkzeuge für fehlende Werte, doppelte Werte, String-Manipulationen und einige andere analytische Datentransformationen. 
- Im nächsten Kapitel konzentrieren wir uns darauf, Datensätze auf verschiedene Arten zu kombinieren und neu anzuordnen.

In [None]:
%autosave 0

In [1]:
# Wichtige Bibliotheken mit üblichen Abkürzungen laden:
import numpy as np
import pandas as pd

## Behandlung fehlender Daten
- Fehlende Werte treten häufig in Datensätzen auf. 
- Eines der Ziele von Pandas ist es, das Arbeiten mit Fehlwerten so einfach wie möglich zu gestalten. 
- *Zum Beispiel schliessen alle deskriptiven Statistiken zu Pandas-Objekten standardmässig fehlende Werte aus.*

In [None]:
# Series mit Fehlwert generieren:
ser = pd.Series([1.4e6, 2.5e6, np.nan, -1.3e5])
ser

In [None]:
# Welche Werte sind NaN?
ser.isnull()

In [None]:
ser.sum()  
# Fehlwerte werden ausgeschlossen. sum() funktioniert.

### Fehlwerte filtern
Wie können wir Fehlwerte filtern?
- Erste Möglichkeit:

In [None]:
# Nur Werte wählen, für die Elemente in ser nicht NaN sind:
ser[ser.notnull()]

- Zweite Möglichkeit: Methode `dropna()` verwenden

In [None]:
ser.dropna()    # einfachere Variante

- Mit DataFrame-Objekten sind die Dinge etwas komplexer. 
- Möglicherweise möchten man Zeilen oder Spalten löschen, bei denen mindestens ein NA auftritt oder nur diejenigen, bei denen alle Felder NAs enthalten. 
- `dropna` löscht standardmässig jede Zeile, die *mindestens einen* fehlenden Wert enthält:

In [None]:
# Pythons None ist auch NaN:
df = pd.DataFrame({'A': [1.0, 2.1, None, None], 
                   'B': [6.5, None, None, 3.2],
                   'C': [8.7, None, None, 0.5]})
df

In [None]:
df.dropna(how='any')  # Wenn mind. ein Wert in einer Zeile NaN ist, 
                      # wird sie weggelassen.

In [None]:
df.dropna()  # 'any' ist der Default und kann somit weggelassen werden.

In [None]:
df.dropna(how='all') # Nur Zeilen weglassen, bei denen alle Werte NaN sind.

**Kontrollfragen:**

In [None]:
# Gegeben:
df

In [None]:
# Frage 1: Was ist der Output?
df.A.isnull().sum()

In [None]:
# Frage 2: Was ist der Output?
df.B.dropna()

### Fehlende Daten mit Füllwerten besetzen

In [None]:
# Ausgangslage:
df

In [None]:
df.sum()   # Fehlwerte werden nicht berücksichtigt.

In [None]:
df.cumsum()    # kumulierte Summen

In [None]:
df.fillna(0) # Fehlwerte durch 0 ersetzen

In [None]:
df.fillna(0).cumsum()  
# Vergleichen mit df.cumsum() oben!

`fillna` gibt ein *neues* Objekt zurück, aber man kann das vorhandene Objekt auch direkt bzw. permanent verändern:  
Dazu müsste man `fillna(0, inplace=True)` schreiben.

Fehlwerte können auch mit berechneten Grössen ersetzt werden:

In [None]:
df.fillna(df.median())  # NaN mit Median füllen.

Wiederum müsste man das Argument `inplace=True` verwenden, um das Objekt *permanent* zu verändern.

**Kontrollfragen:**

In [None]:
# Gegeben:
np.random.seed(37)
daten = np.random.choice([1, 2, np.nan], (4, 3))
df = pd.DataFrame(daten, columns=list('XYZ'),
                         index=list('abcd'))
df

In [None]:
# Frage 1: Was ist der Output?
df.dropna()

In [None]:
# Frage 2: Was ist der Output?
df.dropna(how='all')

In [None]:
# Frage 3: Was ist der Output?
df.sum()

In [None]:
# Frage 4: Was ist der Output?
df.fillna(df.median()).sum()

Statt Fälle (Zeilen), kann man auch Variablen (Spalten) weglassen, die NaN enthalten. Im folgenden Beispiel werden Spalten (`axis=1`) weggelassen, welche mindestens 3 (`thresh=3`) *nicht*-NaN-Werte enthalten.

In [None]:
df.dropna(thresh=3, axis=1)

**Kontrollfragen:**

In [None]:
# Gegeben:
df.loc['b', 'Y'] = 2
df

In [None]:
# Frage 1: Was ist der Output?
df.dropna(axis=1)

In [None]:
# Frage 2: Was ist der Output?
df.dropna()

## Daten-Transformation

### Entfernen von Duplikaten 
Doppelte Zeilen können aus verschiedenen Gründen in einem Dataframe gefunden werden.  
Der folgende Datensatz ist ein Beispiel:

In [None]:
df2 = pd.DataFrame({'Vorname' : ['Anna', 'Anna', 'Ken', 'Anna', 'Peter'],
                    'Nachname': ['Aboli', 'Meier', 'Smith', 'Meier', 'Muster']})
df2

Beachten Sie, dass lediglich die Zeilen mit Index 1 und 3 identisch sind (`Vorname` und `Nachname` sind gleich).

In [None]:
df2.duplicated()  
# Genau eine Zeile ist zweimal vorhanden!

In [None]:
df2.drop_duplicates()  # Duplikate löschen, mit inplace=True dauerhaft

Man kann auch nur in einer Teilmenge der Spalten Duplikate aufspüren:

In [None]:
df2.drop_duplicates(['Vorname'])  # Nur noch die erste "Anna"

### Ersetzen von Werten
- Das Ausfüllen fehlender Daten mit der `fillna`-Methode ist ein Sonderfall eines allgemeineren Ersatzwerts. 
- Die Methode `map` kann verwendet werden, um eine Teilmenge von Werten in einem Objekt zu ändern (siehe Lehrmittel). 
- `replace` bietet eine *einfachere und flexiblere Möglichkeit*, dies zu tun. 
- Betrachten wir hierzu eine Series:

In [None]:
ser = pd.Series([1., -99., 2., -99., -999., 3.])
ser

In [None]:
ser.replace(-99, np.nan)    # -99 mit NaN ersetzen

In [None]:
ser.replace([-99, -999], np.nan)   # -99 und -999 mit NaN ersetzen

In [None]:
ser.replace([-99, -999], [np.nan, 0])  # -99 mit NaN und -999 mit 0 ersetzen.

In [None]:
# Statt mit Listen mit Dicts (noch etwas übersichtlicher):
ser.replace({-99: np.nan, -999: 0})   

In [None]:
# Nun ein Beispiel mit einem DataFrame:
ratings = pd.DataFrame({'Fitch': ['A', 'AA+', 'A', 'A-'],
                        'S&P': ['A-', 'AA+', 'A', 'BBB+'],
                        'Moody\'s': ['A2', 'Aa2', 'A3', 'Baa1'],
                        'Rendite': [3.5, 3, 3.3, 4.1]},
                        index=['a', 'b', 'c', 'd'])
ratings.index.name = 'Asset'
ratings.columns.name = 'Rating Agentur'
ratings

In [None]:
ratings.replace('A', 'A-')   # Achtung, in allen Spalten verändert.

In [None]:
# Ersetze bei Fitch A mit A+ (permanent):
ratings['Fitch'].replace('A', 'A+', inplace=True)  
ratings

**Kontrollfrage:**

In [None]:
# Gegeben:
staedte = pd.Series(['Basel', 'Chur', 'Zug'])
staedte

In [None]:
# Frage: Was ist der Output?
staedte.replace({'Basel': 'Biel', 'Zug': 'Zürich'})

### Achsenindex umbenennen
Wie Werte in einer Serie können Achsenbeschriftungen (Labels) in ähnlicher Weise durch eine Funktion/Mapping transformiert werden, um neue, unterschiedlich markierte Objekte zu erzeugen.

In [None]:
# Beispieldaten:
ratings

#### Die `rename`-Methode

In [None]:
# Variablennamen mit Grossbuchstaben:
ratings.rename(columns=str.upper)
# nur mit inplace=True permanent!

In [None]:
# Indexnamen ändern:
ratings.rename(index={'a': 'Wells 5.95 01.12.86', 
                      'b': 'Austria 1.5 02.11.86'})
# nur mit inplace=True permanent!

In [None]:
# Variablennamen ändern:
ratings.rename(columns={'S&P': 'Standard & Poor'})

***Kontrollfrage:***

In [None]:
# Ändern Sie den Indexnamen "c" im DataFrame "ratings" in 
# "Italy 4.75 28.05.63".


### Diskretisierung und Klassierung
Kontinuierliche Daten werden oft diskretisiert oder auf andere Weise in "Bins" (Klassen) zur Analyse getrennt. Angenommen, Sie haben Daten über eine Gruppe von Personen in einer Studie und möchten diese in diskrete Altersgruppen gruppieren:

In [None]:
alter = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]

In [None]:
klassen = [18, 25, 35, 60, 100]
alter_klassiert = pd.cut(alter, klassen)
alter_klassiert
# Erster Wert (20) in Klasse (18, 25], zweiter Wert (22) in (18, 25] usw.

In [None]:
# Klassierte Häufigkeitsverteilung:
alter_klassiert.value_counts()    

Es ist möglich, die Klassen zu benennen:

In [None]:
alter_klassiert = pd.cut(alter, klassen, 
                       labels = ['Jugentliche', 'junge Erwarchsene', 
                                 'mittleres Lebensalter', 'Senioren'])
alter_klassiert.value_counts()

**Exkurs:** Die eng verwandte Funktion `qcut` teilt die Werte anhand von Quantilen ein.

In [None]:
alters_gruppen = pd.qcut(alter, 4)  # in Quartile einteilen
alters_gruppen.value_counts()

**Kontrollfrage:**

In [None]:
# Gegeben:
np.random.seed(3)
x = np.random.randint(1,11,10)
sorted(x)

In [None]:
# Was ist der Output?
klassiert = pd.cut(x, [0, 5, 7, 10])
klassiert.value_counts()

### Aussergewöhnliche Werte erkennen und filtern

In [None]:
# Beispieldaten:
np.random.seed(242)
n = 1000 # Anzahl Zeilen
data = pd.DataFrame({'V1': np.random.randn(n),
                     'V2': np.random.randint(0,2,n)})
data.head()

In [None]:
data.describe()   # Deskriptive Statistiken

In [None]:
# Zeilen, wo Beträge in Spalte V1 grösser als 3 sind:
data[np.abs(data.V1) > 3]

### Zufallsauswahlen
Zufallsauswahlen sind in verschiedenen Anwendungen wichtig. Z. B. teilt man im maschinellen Lernen die Daten zufällig in ein Trainigs- und Test-Set auf. Oder man nutzt Zufallsauswahlen bei Monte-Carlo-Simulationen.

In [None]:
ser = pd.Series(range(6))+1
ser   # z. B. Würfelaugen

Um eine zufällige Teilmenge (mit und ohne Zurücklegen) auszuwählen, kann die `sample`-Methode für Series und DataFrames verwendet werden:

In [None]:
# Bei Series:
np.random.seed(11)
ser.sample(n=5, replace=True)    # mit Zurücklegen

In [None]:
# Man kann den Seed auch direkt der Methode sample übergeben:
ser.sample(n=5, replace=True, random_state=11)

In [None]:
# Bei 6000 Würfen liegen je etwa 1000 Ausprägungen vor:
ser.sample(n=6000, replace=True).value_counts(sort=False)

Bei DataFrames weden ganze Zeilen zufällig gezogen.

In [None]:
# Zur Erinnerung:
ratings

In [None]:
# Ziehen ohne Zurücklegen:
np.random.seed(1221)
ratings.sample(n=2, replace=False)  
# replace = False ist der Default und kann weggelassen werden.

In [None]:
# Ziehen mit Zurücklegen:
np.random.seed(331)
ratings.sample(n=4, replace=True)  # Ziehen mit Zurücklegen

In [None]:
# Nicht Anzahl sondern Anteil, welcher gesampelt wird (hier 50%):
np.random.seed(7)
ratings.sample(frac=0.5)   # 50% der Daten ziehen (ohne Zurücklegen)

Manchmal möchte man den Datensatz zufällig aufteilen. Z. B. möchte man für die Modellfindung (beim maschinellen Lernen) ein Trainings- und ein Testset erstellen. Eine mögliche Lösung wäre die folgende:

In [None]:
np.random.seed(55)
train = ratings.sample(frac=0.75)
train

In [None]:
test = ratings.drop(train.index)
test

Randbemerkung: Da diese Aufteilung der Daten so häufig gebraucht wird, gibt es hierzu Funktionen, z. B. in der Bibliothek **scikit-learn**, welche für das maschinelle Lernen entwickelt wurde (`sklearn.model_selection.train_test_split()`).

### Indikator- bzw. Dummy-Variablen erstellen
Eine andere Art der Transformation für statistische Modellierungs- oder maschinelle Lernanwendungen besteht darin, eine kategoriale Variable in eine **Indikator-** bzw. **Dummy-Matrix** umzuwandeln, um solche Variablen beispielsweise in Regressionen verwenden zu können.

In [2]:
dflohn = pd.read_pickle('../weitere_Daten/dflohn.pkl')  
dflohn.head()

Unnamed: 0_level_0,Lohn,Geschlecht,Alter,Zivilstand
Person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,4107.0,m,40,g
2,5454.0,m,47,vw
3,3719.0,m,41,g
4,6194.0,m,18,v
5,,m,27,v


In [3]:
pd.get_dummies(dflohn['Geschlecht']).tail()
# Dummy-Variable für Mann (m) und Frau (w).
# Z. B. ist Person 96 kein Mann (m=0) sondern eine 
# Frau (w=1). Eigentlich ist nur eine Variable nötig!

Unnamed: 0_level_0,m,w
Person,Unnamed: 1_level_1,Unnamed: 2_level_1
96,0,1
97,1,0
98,1,0
99,0,1
100,1,0


In [None]:
pd.get_dummies(dflohn['Zivilstand']).head()  
# Vier Ausprägungen: Für jede Person genau einmal eine 1!

In [6]:
dflohn.Geschlecht.replace({'m': 'Mann', 'w': 'Frau'}, inplace=True)
dflohn

Unnamed: 0_level_0,Lohn,Geschlecht,Alter,Zivilstand
Person,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,4107.0,Mann,40,g
2,5454.0,Mann,47,vw
3,3719.0,Mann,41,g
4,6194.0,Mann,18,v
5,,Mann,27,v
...,...,...,...,...
96,7959.0,Frau,55,v
97,2673.0,Mann,18,g
98,4430.0,Mann,19,v
99,6366.0,Frau,21,g


In der folgenden Zelle werden die Dummie-Variablen (nicht permanent) dem Dataframe hinzugefügt. Die ursprüngliche Variable (`Zivilstand`) wird entfernt.

In [None]:
pd.get_dummies(dflohn, columns=['Zivilstand']).head()

## Manipulation von Strings
Python ist eine mächtige Sprache im Umgang mit Zeichenketten (Strings).

### Methoden für Strings

Strings können mit der Methode `split` in eine Liste separiert werden.

In [None]:
text = 'dies ist ein Test'
text.split(' ')  # bei Leerschlag trennen

In [None]:
text.split()     # Trennung bei Leerschlag ist der Default!

In [None]:
a, b, c, d = text.split()
print(a)
print(d)

Strings zusammenfügen (concatenate):

In [None]:
b + ' ' + a + ' ' + c + ' ' + d

In [None]:
# Mit join() geht es eleganter:
' '.join([b, a, c, d])

Strings in Gross- oder Kleinbuchstaben umwandeln:

In [None]:
text.upper()    # alles in Grossbuchstaben

In [None]:
text.lower()    # alles in Kleinbuchstaben

In [None]:
text.title()    # jedes Wort mit Grossbuchstaben beginnen

Andere Methoden befassen sich mit der Ortung von Teilstrings:

In [None]:
'ei' in text    # True, da "ei" in "ein" enthalten ist.

In [None]:
'test' in text  # Case-sensitiv

In [None]:
'test' in text.lower()  # Test kleingeschrieben ist in text

In [None]:
text.find('s')  # Index des ersten Auftretens von s.

In [None]:
text.find('c')  # -1, falls nicht vorhanden.

In [None]:
text.count('i') # wie viele i sind in text

In [None]:
text.startswith('dies')

In [None]:
text.endswith('.')

Mit `replace` können wir einen String mit einem anderen ersetzen:

In [None]:
text

In [None]:
text.replace('dies', 'das')

In [None]:
# replace kann auch zum Löschen verwendet werden:
'Py th  on'.replace(' ', '')

Eleganter können Leerschläge (und Zeilenumbrüche) mit `strip` beseitigt werden.

In [None]:
'  dies ist noch ein Test.  \n'.strip()

**Kontrollfragen:**

In [None]:
# Gegeben:
text

In [None]:
# Frage 1: Was ist der Output?
text.split()[2]

In [None]:
# Frage 2: Was ist der Output?
text.upper().count('T')

### Vektorisierte String-Methoden in Pandas
- Das Bereinigen eines unordentlichen Datasets für die Analyse erfordert oft viel String-Munging und -Regularisierung. 
- Um die Sache zu komplizieren, fehlen in einer Spalte mit Strings manchmal Daten:

In [None]:
# Beispieldaten:
data = {'Tom': 'tom121@yahoo.com', 'Anna': 'Anna.Müller@gmail.com',
        'Robert': 'robert_bucher@yahoo.de', 'Wes': np.nan, 'Wanda': 'WandaWu@mail.ch'}
ser = pd.Series(data)
ser

In [None]:
ser.isnull()

- Series verfügen über Array-basierte Methoden für *String-Operationen, die NA-Werte überspringen*. 
- Auf diese wird mittels **`str`-Attribut der Series** zugegriffen. 
- Im ersten Beispiel werden *je* die letzten drei Zeichen aus den Zeichenketten der Series gewählt. 

In [None]:
ser.str[-3:]  # Letzte drei Buchstaben in Email-Adressen

Betrachten wir weitere Beispiele:

In [None]:
# Länge der Strings in einer Series ermitteln:
ser.str.len()

In [None]:
# Prüfen, ob eine Zeichenkette (hier 'yahoo') im String enthalten ist:
ser.str.contains('yahoo') 

In [None]:
# Prüfen, ob Zeichenketten in Series mit bestimmtem Ausdruck enden:
ser.str.endswith('.de')
# startswith() funktioniert entsprechend.

In [None]:
# Strings in Kleinbuchstaben umwandeln:
ser.str.lower()   # .upper() für Grossbuchstaben

In [None]:
# Suchen und ersetzen:
ser.str.replace('.de', '.com')

In [None]:
# Die Änderung mit replace ist nicht permanent:
ser

In [None]:
ser = ser.str.replace('.de', '.com')
ser   # jetzt permanent

In [None]:
# An welcher Position steht je das erste mal der String 'om'.
ser.str.find('om')
# Falls der String nicht vorkommt, wird -1 zurückgegeben.

Eine weitere sehr nützliche Methode ist `split`:

In [None]:
# Eine weitere sehr nützliche Methode:
ser.str.split('@')

Man kann auch mehrfach `str` verwenden:

In [None]:
# Wie oft kommt der Buchstabe "a" bzw. "A" je vor?
ser.str.lower().str.count('a')

**Kontrollfrage:**

In [None]:
# Gegeben:
np.random.seed(43)
df = pd.read_csv('../weitere_Daten/College.csv', 
                      index_col=0, usecols=range(5)).sample(5)
df

In [None]:
# Frage 1: Was ist der Output?
df.index.str.endswith('University')

In [None]:
# Frage 2: Was ist der Output?
df.index.str.lower().str.contains('uni')

In [None]:
# Frage 3: Was ist der Output?
df.index.str.lower().str.contains('uni').sum()

## Fazit
- Eine effektive Aufbereitung der Daten kann die Produktivität erheblich steigern, da dadurch mehr Zeit für die Analyse von Daten zur Verfügung steht. 
- Wir haben in diesem Kapitel eine Reihe von Werkzeugen untersucht, aber die Abdeckung ist hier keineswegs umfassend. 
- Im nächsten Kapitel werden wir Pandas-Funktionalitäten zum Umformen und Verknüpfen von Datensätzen kennenlernen.