# Python Grundlagen 11
## Pandas
***
In diesem Notebook wird behandelt:
- Bereinigen eines Datensatzes
- Umgang mit fehlenden Werten
***

## Einleitung

 **Datenbereinigung** und der **Umgang mit fehlenden Werten** (genannt **NaN** oder **NA**) sind zwei wesentliche Schritte vor jeder Datenanalyse. <br>

 Ziel dieser Lektion ist es, jeden dieser Schritte zu vertiefen, um einen sauberen und direkt nutzbaren `DataFrame` zu erstellen. Dies ist besonders wichtig, da reale Daten oft sehr unordentlich sind! <br>

 Dafür werden wir den `DataFrame` **`transactions`** aus der vorherigen Übung verwenden. <br>

#### Aufgaben:
> (a) Importiere das `pandas`-Modul unter dem Namen `pd` und lade die Datei `"transactions.csv"` in einen `DataFrame` namens **`transactions`**. Die Werte in der CSV-Datei sind durch **Kommas** getrennt und die Spalte mit den Kennungen ist **`'transaction_id'`**. <br>
>
> (b) Zeige die ersten 10 Zeilen von `transactions.csv` mit der `head`-Methode an. <br>

## 1. Bereinigung eines Datensatzes

 In diesem Teil stellen wir die Methoden der `DataFrame`-Klasse vor, die für die Bereinigung eines Datensatzes wesentlich sind. Diese Methoden können in drei verschiedene Kategorien eingeteilt werden: <br>

 * **Verwaltung von Duplikaten** (`duplicated`- und `drop_duplicates`-Methoden) <br>
 * **Modifikation der Elemente** eines `DataFrame` (`replace`-, `rename`- und `astype`-Methoden) <br>
 * **Operationen** auf den Werten eines `DataFrame` (`apply`-Methode und `lambda`-Funktionen) <br>

### Verwaltung von Duplikaten (`duplicated`- und `drop_duplicates`-Methoden)

 **Duplikate** sind identische Einträge, die **mehr als einmal** in einem Datensatz vorkommen. <br>

 Wenn wir zum ersten Mal mit einem Datensatz arbeiten, ist es sehr wichtig, **vorab zu prüfen**, dass keine Duplikate vorhanden sind. Das Vorhandensein von Duplikaten führt zu **Fehlern** bei der Berechnung von Statistiken oder der Erstellung von Grafiken. <br>

 Sei **`df`** der folgende `DataFrame`: <br>

  |          | Age  |Gender|  Height|
  |----------|------|------|--------|
  |**Robert**|  56  |   M  |   174  |
  |**Mark**  |  23  |   M  |   182  |
  |**Alina** |  32  |   F  |   169  |
  |**Mark**  |  23  |   M  |   182  |

 Das Vorhandensein von Duplikaten kann mit der **`duplicated`**-Methode eines `DataFrame` überprüft werden: <br>

```python
# Wir identifizieren die Zeilen, die Duplikate enthalten
df.duplicated()

>>> 0 False
>>> 1 False
>>> 2 False
>>> 3 True
```

 Diese Methode liefert ein `Series`-Objekt von `pandas`, analog zu einer Spalte in einem `DataFrame`. Das `Series`-Objekt gibt für jede Zeile an, ob es sich um ein Duplikat handelt oder nicht. <br>

 In diesem Beispiel informiert uns das Ergebnis der `duplicated`-Methode, dass **die Zeile mit Index 3 ein Duplikat ist**. Es ist die **exakte Kopie** der Zeile mit Index 1. <br>

 Da die `duplicated`-Methode ein Objekt der `Series`-Klasse zurückgibt, können wir die **`sum`**-Methode darauf anwenden, um die Anzahl der Duplikate zu zählen: <br>

```python
# Um die Summe der booleschen Werte zu berechnen, betrachten wir True als 1 und False als 0.
print(df.duplicated().sum())
>>> 1
```

 Du kannst die **`drop_duplicates()`**-Methode verwenden, um Duplikate zu entfernen. Ihr Header sieht wie folgt aus: <br>

```python
drop_duplicates(subset, keep, inplace)
```

 * Der `subset`-Parameter gibt die Spalte(n) an, die bei der Identifizierung und Entfernung von Duplikaten berücksichtigt werden sollen. Standardmäßig ist **`subset = None`**, was bedeutet, dass Duplikate in **allen** Spalten des `DataFrame` geprüft werden. <br>

 * Der `keep`-Parameter gibt an, welcher Eintrag behalten werden soll: <br>
   * **`'first'`**: Wir behalten das **erste** Vorkommen. <br>
   * **`'last'`**: Wir behalten das **letzte** Vorkommen. <br>
   * **`False`**: Wir behalten **kein** Vorkommen. <br>
   * Standardmäßig ist **`keep = 'first'`**. <br>

 * Der **`inplace`**-Parameter (sehr häufig in den Methoden der `DataFrame`-Klasse) gibt an, ob du den `DataFrame` **direkt** modifizierst (in diesem Fall `inplace = True`) oder ob die Methode eine **Kopie** des `DataFrame` zurückgibt (`inplace = False`). Standardmäßig ist `inplace = False`. <br>
<div class="alert alert-danger">
    <i class="fa fa-info-circle"></i>
 ACHTUNG: Du musst beim Verwenden des `inplace`-Parameters sehr vorsichtig sein. Die Anwendung von `inplace = True` ist unumkehrbar. Eine gute Praxis ist es, diesen Parameter zu vergessen und den von der Methode zurückgegebenen `DataFrame` einem neuen `DataFrame` zuzuweisen. 
 </div>
 
Der `keep`-Parameter ist derjenige, der am häufigsten angegeben wird. Tatsächlich kann eine Datenbank Duplikate haben, die an verschiedenen Daten erstellt wurden. Wir geben dann den Wert des `keep`-Arguments an, um zum Beispiel nur die neuesten Einträge zu behalten. <br>

 Kommen wir zurück zum `DataFrame` `df`: <br>

  |          | Age  |Gender|  Height|
  |----------|------|------|--------|
  |**Robert**|  56  |   M  |   174  |
  |**Mark**  |  23  |   M  |   182  |
  |**Alina** |  32  |   F  |   169  |
  |**Mark**  |  23  |   M  |   182  |

 Wir veranschaulichen `df` mit der folgenden Abbildung: <br>

 <img src="../imgs/duplicates_en.png" style="width:400px"> <br>

 Wir zeigen in den folgenden Beispielen die Einträge, die von der `drop_duplicates()`-Methode je nach Wert des `keep`-Parameters **gelöscht** werden: <br>

```python
# Wir behalten nur das erste Vorkommen des Duplikats
df_first = df.drop_duplicates(keep='first')
```

 <img src="../imgs/duplicates_first_en.png" style="width:400px"> <br>

```python
# Wir behalten nur das letzte Vorkommen des Duplikats
df_last = df.drop_duplicates(keep='last')
```

 <img src="../imgs/duplicates_last_en.png" width="400"> <br>

```python
# Wir behalten keine Duplikate
df_false = df.drop_duplicates(keep=False)
```

 <img src="../imgs/duplicates_false_en.png" width="400"> <br>

#### Aufgaben:
> (a) Wie viele Duplikate gibt es im `transactions` `DataFrame`? <br>

> Die Transaktionen wurden in umgekehrter chronologischer Reihenfolge aufgezeichnet, d.h. die **ersten Zeilen** enthalten die **neuesten** Transaktionen und die letzten Zeilen die ältesten Transaktionen. <br>


In [1]:
# Deine Lösung:





#### Lösung:

In [None]:
# Counting the number of duplicates
duplicates = transactions.duplicated().sum()

print ("There are", duplicates, "duplicates in transactions.")

####
> (b) Eliminiere Duplikate aus den Daten, indem du nur das erste Vorkommen behältst, d.h. die neueste Transaktion. <br>
>
> (c) Zeige mit den Parametern **`subset`** und **`keep`** der `drop_duplicates`-Methode von `transactions` die **neueste** Transaktion für **jede Kategorie von `prod_cat_code`** an. Dazu kannst du alle Duplikate aus der Spalte `prod_cat_code` entfernen, indem du nur das erste Vorkommen behältst. <br>

In [2]:
# Deine Lösung:





#### Lösung:

In [None]:
transactions = transactions.drop_duplicates(keep = 'first')


transactions.drop_duplicates(subset = ['prod_cat_code'], keep = 'first')

### Modifikation der Elemente eines `DataFrame` (`replace`-, `rename`- und `astype`-Methoden)

 Die **`replace()`**-Methode **ersetzt** einen oder mehrere Werte einer Spalte eines `DataFrame`. <br>

 Ihr Header sieht wie folgt aus: <br>

```python
replace(to_replace, value, ...)
```

 * Der `to_replace`-Parameter enthält den Wert oder die Liste der Werte, die **ersetzt werden sollen**. Es kann eine Liste von Ganzzahlen, Zeichenketten, Booleans usw. sein. <br>
 * Der `value`-Parameter enthält den Wert oder die Liste der **Ersatzwerte**. Es kann auch eine Liste von Ganzzahlen, Zeichenketten, Booleans usw. sein. <br>

 <img src="../imgs/replace_en.png" height="400px"> <br>

 Zusätzlich zur Änderung der Elemente innerhalb eines `DataFrame` kannst du auch Spalten mit der **`rename`**-Methode **umbenennen**, die ein **Dictionary** als Argument nimmt. Die **Schlüssel** in diesem Dictionary stellen die **alten** Namen dar, während die entsprechenden **Werte** die **neuen** Namen sind. Zusätzlich musst du auch das Argument **`axis = 1`** angeben, um anzuzeigen, dass die zu aktualisierenden Namen zu den Spalten gehören. <br>

```python
# Erstellen des Dictionary, das die alten Namen mit den neuen Spaltennamen verknüpft
dictionary = {'alter_name1': 'neuer_name1',
              'alter_name2': 'neuer_name2'}

# Wir benennen die Variablen mit der rename-Methode um
df = df.rename(dictionary, axis=1)
```

Es gibt Fälle, in denen es notwendig wird, den **Datentyp** einer Spalte mit der **`astype()`**-Methode zu ändern. <br>

 Zum Beispiel kann während des Datenimports eine Variable fälschlicherweise als String erkannt werden, wenn sie eigentlich eine numerische Variable sein sollte. In Fällen, in denen auch nur ein einziger Eintrag in der Spalte falsch interpretiert wird, wird `pandas` die gesamte Spalte als String-Typ kategorisieren. <br>

 Die Typen, die wir am häufigsten sehen werden, sind: <br>

 * `str`: Zeichenkette (`'Hello'`) <br>
 * `float`: Gleitkommazahl (`1.0`, `1.14123`) <br>
 * `int`: Ganzzahl (`1`, `1231`) <br>

 Wie die **`rename()`**-Methode kann **`astype()`** als Argument ein Dictionary nehmen, dessen **Schlüssel** die **Namen der Spalten sind, deren Typ geändert werden soll**, und die **Werte** sind die **neuen zuzuweisenden Typen**. Dies ist nützlich, wenn du den Typ mehrerer Spalten gleichzeitig ändern möchtest. <br>

 In den meisten Fällen ist es der bevorzugte Ansatz, direkt die Spalte auszuwählen, deren Typ geändert werden soll, und dann die **`astype()`**-Methode darauf anzuwenden, wobei die ursprüngliche Spalte überschrieben wird. <br>

```python
# Methode 1: Erstellen eines Dictionary und dann Aufruf der astype-Methode des DataFrame
dictionary = {'col_1': 'int',
              'col_2': 'float'}
df = df.astype(dictionary)

# Methode 2: Auswahl der Spalte und dann Aufruf der astype-Methode einer Series
df['col_1'] = df['col_1'].astype('int')
```
<div class='alert alert-success'>
<i class='fa fa-exclamation-circle'></i>
Hinweis: Diese Methoden bieten auch den `inplace`-Parameter, der es ermöglicht, die Operation direkt am `DataFrame` durchzuführen. Dies sollte jedoch mit Vorsicht verwendet werden. <br>
</div>

- Falls dir bei der nächsten Aufgabe ein Fehler passiert, kannst du die folgene Zelle ausführen, um die Daten neu zu importieren und die Duplikate entfernen:


In [None]:
# Data import
transactions = pd.read_csv("transactions.csv", sep = ',', index_col = "transaction_id")

# Duplikate entfernen
transactions = transactions.drop_duplicates(keep = 'first')

#### Aufgaben:
> (d) Importiere das `numpy`-Modul unter dem Namen `np`. <br>
>
> (e) Ersetze die Kategorien **`['e-Shop', 'TeleShop', 'MBR', 'Flagship store', np.nan]`** der Spalte **`Store_type`** durch die Kategorien **`[1, 2, 3, 4, 0]`**. <br>
> Der `np.nan`-Wert ist derjenige, der einen fehlenden Wert kodiert. Wir werden diesen Wert durch `0` ersetzen. <br>
>
> (f) Konvertiere die Typen der Spalten **`Store_type`** und **`prod_subcat_code`** in den Typ **`'int'`**. <br>
>
> (g) Benenne die Spalten `'Store_type'`, `'Qty'`, `'Rate'` und `'Tax'` um in `'store_type'`, `'qty'`, `'rate'` und `'tax'`. <br>

In [3]:
# Deine Lösung:





#### Lösung:

In [None]:
# Data import
transactions = pd.read_csv("transactions.csv", sep = ',', index_col = "transaction_id")

# Duplikate entfernen
transactions = transactions.drop_duplicates(keep = 'first')

## Aufgabe

import numpy as np

# Werte ersetzen
transactions = transactions.replace(to_replace = ['e-Shop', 'TeleShop', 'MBR', 'Flagship store', np.nan],
                                    value = [1, 2, 3, 4, 0])

# Spaltentypen konvertieren
new_types = {'Store_type'       : 'int',
             'prod_subcat_code' : 'int'}

transactions = transactions.astype(new_types)

# Spalten umbenennen
new_names = {'Store_type'   : 'store_type',
              'Qty'         : 'qty',
              'Rate'        : 'rate',
              'Tax'         : 'tax'}

transactions = transactions.rename(new_names, axis = 1)

# Ausgabe der ersten 5 Zeilen
transactions.head()

### Operationen auf den Werten eines `DataFrame` (`apply`-Methode und `lambda`-Funktionen)

 Die Modifikation oder Aggregation von Informationen innerhalb der Spalten eines `DataFrame` mithilfe von Operationen oder Funktionen ist eine häufige und nützliche Aufgabe. <br>

 Diese Operationen können jede Funktion umfassen, **die eine Spalte** als Argument nimmt. Folglich ist das **numpy-Modul besonders gut geeignet** für die Ausführung von Operationen auf diesem Objekttyp. <br>

 Die Methode, die für solche Operationen auf einer Spalte verwendet wird, ist die **`apply`**-Methode eines `DataFrame`, die folgende Signatur hat: <br>

```python
apply(func, axis, ...)
```


 wobei: <br>
 * **`func`** die Funktion ist, die auf die Spalte angewendet werden soll. <br>
 * **`axis`** die Dimension ist, auf der die Operation ausgeführt werden muss. <br>

 **Beispiel:** `apply` und `np.sum` <br>

 Für jede Spalte mit numerischen Werten möchten wir die **Summe aller Zeilen** berechnen. Die `sum`-Funktion von `numpy` macht dies, also können wir sie mit der `apply`-Methode verwenden. <br>

 Da wir eine Operation auf den **Zeilen** ausführen werden, müssen wir das Argument **`axis = 0`** in der `apply`-Methode angeben. <br>

```python
# Summe der ZEILEN für jede Spalte von df
df_lines = df.apply(np.sum, axis=0)
```

Das Ergebnis ist das folgende: <br>

 <img src="../imgs/apply_sum_lines_en.png" style='height:300px'> <br>

 Nun möchten wir für jede Zeile die **Summe aller Spalten** berechnen. <br>

 Um diese Operation auf den Spalten auszuführen, müssen wir das Argument **`axis = 1`** in der `apply`-Methode angeben. <br>

```python
# Summe der Spalten für jede ZEILE von df
df_columns = df.apply(np.sum, axis=1)
```

 Das Ergebnis ist das folgende: <br>
 <img src="../imgs/apply_sum_columns_en.png" style="height:280px"> <br>

 Diese Beispiele dienen der Demonstration der Verwendung der `apply`-Methode. Für die tatsächliche Berechnung von Zeilen- oder Spaltensummen ist es jedoch effizienter, die **`sum`**-Methode eines `DataFrame` oder einer `Series` zu verwenden, da sie genau wie die `sum`-Methode eines numpy-Arrays funktioniert. <br>

 In dem `transactions`-Datensatz enthält die Spalte `tran_date` Transaktionsdaten im Format **`('Tag-Monat-Jahr')`** (z.B. `'28-02-2014'`). Diese Daten sind derzeit vom Typ String, was uns daran hindert, statistische Operationen mit dieser Variable durchzuführen. <br>

 Es wäre vorteilhafter, **drei separate Spalten** für den Tag, Monat und das Jahr jeder Transaktion zu haben. Dies würde es uns zum Beispiel ermöglichen, Trends in den Transaktionsdaten zu analysieren und zu identifizieren. <br>

 Das Datum `'28-02-2014'` wird als String dargestellt. Tag, Monat und Jahr sind durch Bindestriche **`'-'`** getrennt. Die String-Klasse bietet die **`split`**-Methode, um einen String basierend auf einem bestimmten Zeichen zu teilen: <br>

```python
date = '28-02-2014'

# Teilen des Strings am '-' Zeichen
print(date.split('-'))
>>> ['28', '02', '2014']
```

 Diese Methode erzeugt eine **Liste** mit den Teilen des Strings, getrennt durch das angegebene Zeichen. Um den Tag zu extrahieren, muss man also einfach das **erste** Element der Teilung wählen. Für den Monat wählt man das zweite Element und für das Jahr das dritte Element. <br>

#### Aufgaben:
> (h) Definiere eine Funktion namens **`get_day`**, die einen String als Argument nimmt und das erste Element zurückgibt, das durch Teilen des Strings mit dem Zeichen `'-'` erhalten wird. <br>
>
> (i) Definiere zwei Funktionen namens **`get_month`** und **`get_year`**. Diese Funktionen führen ähnliche Operationen durch, wobei sie jeweils das zweite und dritte Element des geteilten Strings zurückgeben. <br>
>
> (j) Speichere die Ergebnisse der **`apply`**-Methode auf der Spalte **`tran_date`** mit den Funktionen `get_day`, `get_month` und `get_year` in drei Variablen namens **`days`**, **`months`** und **`years`**. Da diese Funktionen elementweise arbeiten, muss das **`axis`**-Argument in der `apply`-Methode nicht angegeben werden. <br>
>
> (k) Erstelle neue Spalten **`'day'`**, **`'month'`** und **`'year'`** im `transactions` `DataFrame` und weise ihnen die Werte der Variablen `days`, `months` und `years` zu. Das Erstellen einer neuen Spalte erfolgt einfach durch Deklaration: <br>
>
>```python
># Eine neue Spalte 'day' mit den Werten aus days erstellen
>transactions['day'] = days
>```
>
> (l) Zeige die ersten 5 Zeilen von `transactions` an. <br>


In [4]:
# Deine Lösung:





#### Lösung:

In [None]:
# Definition der Funktionen
def get_day(date):
    """
    Takes a date as a string argument.
    
    The date must have the format 'DD-MM-YYYY'.
    
    This function returns the day (DD).
    """
    
    # Wir splitten den String an jeden "-"
    splits = date.split('-')
    
    # Und geben den ersten Teil zurück
    day = splits[0]
    return day

def get_month(date):
    return date.split('-')[1]

def get_year(date):
    return date.split('-')[2]
    
    
# Extraktion des Kaufatums
days = transactions['tran_date'].apply(get_day)
months = transactions['tran_date'].apply(get_month)
years = transactions['tran_date'].apply(get_year)

# Erstellen neuer Spalten
transactions['day'] = days
transactions['month'] = months
transactions['year'] = years

# Ausgabe der ersten 5 Zeilen
transactions.head()


#### 
Die **`apply`**-Methode ist sehr leistungsfähig in Kombination mit einer **`lambda`**-Funktion. <br>

 In Python wird das Schlüsselwort **`lambda`** verwendet, um eine **anonyme** Funktion zu definieren: eine Funktion, die ohne Namen deklariert wird. <br>

 Eine **`lambda`**-Funktion kann beliebig viele Argumente haben, aber nur einen Ausdruck. <br>

 Hier ist ihre Syntax: <br>

```python
lambda argumente: ausdruck
```

 `Lambda`-Funktionen ermöglichen es dir, Funktionen mit einer sehr kurzen Syntax zu definieren: <br>

```python
# Beispiel 1
x = lambda a: a + 2
print(x(3))
>>> 5
```
```python
# Beispiel 2
x = lambda a, b: a * b
print(x(2, 3))
>>> 6
```
```python
# Beispiel 3
x = lambda a, b, c: a - b + c
print(x(1, 2, 3))
>>> 2
```

 Obwohl syntaktisch unterschiedlich, verhalten sich **`lambda`**-Funktionen genauso wie reguläre Funktionen, die mit dem Schlüsselwort **`def`** deklariert werden. <br>

 Die klassische Definition einer Funktion erfolgt mit dem Schlüsselwort **`def`**: <br>
```python
def increment(x):
    return x + 1
```

 Es ist auch möglich, eine Funktion mit dem Schlüsselwort **`lambda`** zu definieren: <br>
```python
increment = lambda x: x + 1
```

 Die erste Methode ist sehr klar, aber der Vorteil der zweiten ist ihre Fähigkeit, direkt **innerhalb** der **`apply`**-Methode on-the-fly definiert zu werden. <br>

 Daher kann die vorherige Übung mit einer prägnanten Syntax durchgeführt werden: <br>

```python
transactions['day'] = transactions['tran_date'].apply(lambda date: date.split('-')[0])
```

 Diese Art von Syntax ist sehr praktisch und wird häufig für die Datenbereinigung in Datenbanken verwendet. <br>

 Die Spalte `prod_subcat_code` in `transactions` hängt mit der Spalte `prod_cat_code` zusammen, da sie eine **Unterkategorie** des Produkts identifiziert. Es wäre logischer, sowohl die Kategorie als auch die Unterkategorie eines Produkts innerhalb derselben Variable zu haben. <br>

 Um dies zu erreichen, werden wir die Werte dieser beiden Spalten zusammenführen: <br>

 * Zuerst werden wir die Werte dieser beiden Spalten mit der **`astype`**-Methode in Strings umwandeln. <br>
 * Dann werden wir diese Strings verketten, um einen eindeutigen Code zu erhalten, der sowohl die Kategorie als auch die Unterkategorie repräsentiert. Dies kann wie folgt erreicht werden: <br>

```python
string1 = "Ich denke"
string2 = "also bin ich."

# Verkettung der beiden Strings durch Trennung mit einem Leerzeichen
print(string1 + " " + string2)
>>> Ich denke also bin ich.
```

 Um eine Lambda-Funktion auf eine gesamte Zeile anzuwenden, musst du das Argument **`axis = 1`** in der `apply`-Methode angeben. In der Funktion selbst kann auf die Spalten der Zeile wie auf einen `DataFrame` zugegriffen werden: <br>

```python
# Berechnung des Stückpreises eines Produkts
transactions.apply(lambda row: row['total_amt']/row['qty'], axis=1)
```

#### Aufgaben:
> (m) Erstelle mit einer `lambda`-Funktion, die auf `transactions` angewendet wird, eine Spalte **`'prod_cat'`** in `transactions`, die die Verkettung der Werte von `prod_cat_code` und `prod_subcat_code` enthält, getrennt durch einen Bindestrich `'-'`. Denk daran, die Werte in Strings umzuwandeln. <br>

 Die Anzeige dieser Spalte sollte folgendes ergeben: <br>

```
transaction_id
80712190438     1-1
29258453508     3-5
51750724947     5-6
93274880719     6-11
51750724947     5-6
                ...
94340757522     5-12
89780862956     1-4
85115299378     6-2
72870271171     5-11
77960931771     5-11
```


In [5]:
# Deine Lösung:





#### Lösung:

In [None]:
transactions['prod_cat'] = transactions.astype('str').apply(lambda row: row['prod_cat_code']+'-'+row['prod_subcat_code'],
                                                            axis = 1)

print(transactions['prod_cat'])

## 2. Umgang mit fehlenden Werten

 Ein **fehlender Wert** ist entweder: <br>
 * Ein nicht spezifizierter Wert. <br>
 * Ein Wert, der nicht existiert. Im Allgemeinen resultieren sie aus mathematischen Berechnungen, die keine Lösung haben (zum Beispiel eine Division durch Null). <br>

 Ein fehlender Wert erscheint unter dem Namen **NaN** ("**N**ot **a** **N**umber") in einem `DataFrame`. <br>

 In diesem Teil werden wir mehrere Methoden sehen, um: <br>
 * Fehlende Werte zu **erkennen** (`isna`- und `any`-Methoden) <br>
 * Diese Werte zu **ersetzen** (`fillna`-Methode) <br>
 * Fehlende Werte zu **löschen** (`dropna`-Methode) <br>

 In einer der vorherigen Übungen haben wir die `replace()`-Methode von `transactions` verwendet, um fehlende Werte durch `0` zu ersetzen. Dieser Ansatz ist nicht sorgfältig und sollte in der Praxis nicht angewendet werden. <br>

 Aus diesem Grund werden wir die Rohversion von `transactions` erneut importieren, um die Schritte rückgängig zu machen, die wir in den vorherigen Übungen durchgeführt haben. <br>

> (a) Führe die flgende Zelle aus, um ```transactions```neu zu importieren, Duplikate zu entfernen und die Spalten neu zu bennen:


In [None]:
# Data import
transactions = pd.read_csv("transactions.csv", sep = ',', index_col = "transaction_id")

# Duplicates removal
transactions = transactions.drop_duplicates(keep = 'first')

# Renaming the columns
new_names = {'Store_type'  : 'store_type',
              'Qty'        : 'qty',
              'Rate'       : 'rate',
              'Tax'        : 'tax'}

transactions = transactions.rename(new_names, axis = 1)

transactions.head()

### Erkennen fehlender Werte (`isna`- und `any`-Methoden)

 Die **`isna`**-Methode eines `DataFrame` erkennt seine fehlenden Werte. Diese Methode nimmt keine Argumente. <br>

 Diese Methode gibt den gleichen `DataFrame` zurück, dessen Werte sind: <br>
 * **`True`**, wenn die ursprüngliche Tabellenzelle ein fehlender Wert ist (`np.nan`) <br>
 * **`False`** andernfalls <br>

 <img src="../imgs/is_null_en.png" width="750"> <br>

 Da die `isna`-Methode einen `DataFrame` zurückgibt, kann sie in Kombination mit anderen Methoden der `DataFrame`-Klasse verwendet werden, um detailliertere Informationen zu erhalten: <br>

 * Die **`any`**-Methode kann mit Hilfe ihres `axis`-Arguments verwendet werden, um zu bestimmen, welche Spalten (`axis = 0`) oder welche Zeilen (`axis = 1`) mindestens einen fehlenden Wert enthalten. <br>

 * Die **`sum`**-Methode zählt die Anzahl der fehlenden Werte pro Spalte oder Zeile (abhängig vom `axis`-Argument). Es ist auch möglich, andere statistische Methoden wie `mean`, `max`, `argmax` usw. zu verwenden. <br>

 Hier sind viele Beispiele für die Verwendung der `any`- und `sum`-Methoden mit `isna`: <br>

 Wir verwenden den `DataFrame` **`df`** aus den vorherigen Illustrationen: <br>

  |    | Name    | Country   |   Age |
  |---:|:--------|:----------|------:|
  |  0 | NaN     | Australia |   NaN |
  |  1 | Duchamp | France    |    25 |
  |  2 | Hana    | Japan     |    54 |

 Die Anweisung `df.isna()` gibt zurück: <br>

  |    |   Name  |Country |   Age |
  |---:|--------:|-------:|------:|
  |  0 |   True  | False  | True  |
  |  1 |   False | False  | False |
  |  2 |   False | False  | False |

```python
# SPALTEN, die mindestens einen fehlenden Wert enthalten, werden erkannt
df.isna().any(axis=0)
```
```python
>>> Name     True
>>> Country  False
>>> Age      True
```

```python
# ZEILEN, die mindestens einen fehlenden Wert enthalten, werden erkannt
df.isna().any(axis=1)
```
```python
>>> 0    True
>>> 1    False
>>> 2    False
```

```python
# Verwendung der bedingten Indizierung zur Anzeige von Einträgen
# die fehlende Werte enthalten
df[df.isna().any(axis=1)]
```

 Dies gibt den folgenden `DataFrame` zurück: <br>

  |    |   Name| Country   |   Age |
  |---:|------:|:----------|------:|
  |  0 |   NaN | Australia |   NaN |

```python
# Wir zählen die Anzahl der fehlenden Werte für jede SPALTE
df.isnull().sum(axis=0)
```
```
>>> Name     1
>>> Country  0
>>> Age      1
```

```python
# Zählen der Anzahl der fehlenden Werte für jede ZEILE
df.isnull().sum(axis=1)
```
```
>>> 0   2
>>> 1   0
>>> 2   0
```

 Die Methoden `isna` und `isnull` haben exakt das gleiche Verhalten. <br>

#### Aufgaben:
> (b) Wie viele Spalten des `transactions` `DataFrame` enthalten fehlende Werte? <br>
>
> (c) Wie viele Einträge von `transactions` enthalten fehlende Werte? Du kannst die `any`-Methode zusammen mit der `sum`-Methode verwenden. <br>
>
> (d) Welche Spalte von `transactions` enthält die **meisten** fehlenden Werte? Du kannst die `idxmax`-Methode verwenden, die den Index des ersten Vorkommens des Maximums über die angeforderte Achse zurückgibt. <br>
>
> (e) Zeige die `transactions`-Einträge an, die mindestens einen fehlenden Wert in den Spalten `'rate'`, `'tax'` und `'total_amt'` enthalten. Was fällt dir auf? <br>

In [7]:
# Deine Lösung:





#### Lösung:

In [None]:
# Welche Spalten beinhalten NaNs
columns_na = transactions.isna().any(axis = 0)

print(columns_na.sum(), "columns of transactions contain NaNs. \n")

# Welche Zeilen beinhalten NaNs
rows_na = transactions.isna().any(axis = 1)

print(rows_na.sum(), "rows of transactions contain NaNs. \n")

# Anzahl der NaNs pro Spalte
columns_nbna = transactions.isna().sum(axis = 0)

print ("The column containing the most NaNs is:",  columns_nbna.idxmax())

# Ausgabe der ersten 10 Einträge mit mindestens einem NaN in 'rate', 'tax' oder 'total_amt'
transactions[transactions[['rate', 'tax', 'total_amt']].isna().any(axis = 1)].head(10)

# Die drei variablen fehlen

### Ersetzen fehlender Werte (`fillna`-Methode)

 Die `fillna`-Methode ermöglicht es dir, die fehlenden Werte eines `DataFrame` durch **Werte deiner Wahl** zu ersetzen. <br>

```python
# Wir ersetzen alle NaNs des DataFrame durch Nullen
df.fillna(0)

# Wir ersetzen die NaNs jeder numerischen Spalte durch den Durchschnitt dieser Spalte
df.fillna(df.mean()) # df.mean() kann durch jede statistische Methode ersetzt werden
```

 Es ist üblich, fehlende Werte einer Spalte, die **numerische** Werte enthält, durch **Statistiken** zu ersetzen wie: <br>
 * Den **Mittelwert**: `.mean` <br>
 * Den **Median**: `.median` <br>
 * Das **Minimum/Maximum**: `.min` / `.max` <br>

 Für Spalten vom Typ kategorial werden die fehlenden Werte ersetzt durch: <br>
 * Den **Modus**, d.h. die häufigste Modalität: `.mode` <br>
 * Eine **Konstante** oder beliebige Kategorie: `0`, `-1` <br>

 Um Ersetzungsfehler zu vermeiden, ist es sehr wichtig, die **richtigen Spalten** auszuwählen, bevor die `fillna`-Methode verwendet wird. <br>

- Führe die flgende Zelle aus, um ```transactions```neu zu importieren, Duplikate zu entfernen und die Spalten neu zu bennen:

In [None]:
# Data import
transactions = pd.read_csv("transactions.csv", sep = ',', index_col = "transaction_id")

# Duplicates removal
transactions = transactions.drop_duplicates(keep = 'first')

# Renaming the columns
new_names = {'Store_type'  : 'store_type',
              'Qty'        : 'qty',
              'Rate'       : 'rate',
              'Tax'        : 'tax'}

transactions = transactions.rename(new_names, axis = 1)

#### Aufgaben:
> (f) Ersetze die fehlenden Werte in der Spalte **`prod_subcat_code`** von `transactions` durch `-1`. <br>
>
> (g) Ermittle **die häufigste Kategorie** (den Modus) der Spalte **`store_type`** von `transactions`. <br>
>
> (h) Ersetze die fehlenden Werte der Spalte `store_type` durch diese Kategorie. Der Wert dieser Kategorie wird **am Index 0** der von `mode` zurückgegebenen `Series` abgerufen. <br>
>
> (i) Prüfe, ob die Spalten `prod_subcat_code` und `store_type` von `transactions` keine fehlenden Werte mehr enthalten. <br>


In [8]:
# Deine Lösung:





#### Lösung:

In [None]:
# Ersetze die NaNs in 'prod_subcat_code' mit -1
transactions['prod_subcat_code'] = transactions['prod_subcat_code'].fillna(-1)

# Ermittle den Modus von 'store_type'
store_type_mode = transactions['store_type'].mode()
print ("The most frequent mode of 'store_type' is:", store_type_mode[0])

# Ersetze die NaNs in 'store_type' mit deren Modus
transactions['store_type'] = transactions['store_type'].fillna(transactions['store_type'].mode()[0])

# Überprüfe, ob die beiden Spalten noch NaNs enthalten
transactions[['prod_subcat_code', 'store_type']].isna().sum()


### Entfernen fehlender Werte (`dropna`-Methode)

 Die `dropna`-Methode ermöglicht es dir, Zeilen oder Spalten zu entfernen, die fehlende Werte enthalten. <br>

 Der Header der Methode sieht wie folgt aus: <br>

```python
dropna(axis, how, subset, ..)
```

 * Der **`axis`**-Parameter gibt an, ob Zeilen oder Spalten gelöscht werden sollen (**`0`** für Zeilen, **`1`** für Spalten). <br>

 * Der **`how`**-Parameter lässt dich festlegen, wie die Zeilen (oder Spalten) gelöscht werden: <br>
   * **`how = 'any'`**: Wir löschen die Zeile (oder Spalte), wenn sie **mindestens einen** fehlenden Wert enthält. <br>
   * **`how = 'all'`**: Wir löschen die Zeile (oder Spalte), wenn sie **nur** fehlende Werte enthält. <br>

 * Der **`subset`**-Parameter wird verwendet, um die Spalten/Zeilen anzugeben, in denen nach fehlenden Werten gesucht werden soll. <br>

 **Beispiel:** <br>

```python
# Wir löschen alle Zeilen, die mindestens einen fehlenden Wert enthalten
df = df.dropna(axis=0, how='any')

# Wir löschen die leeren Spalten
df = df.dropna(axis=1, how='all')

# Wir entfernen die Zeilen mit fehlenden Werten in den 3 Spalten 'col2', 'col3' und 'col4'
df.dropna(axis=0, how='all', subset=['col2', 'col3', 'col4'])
```

 Wie bei den anderen Methoden zum Ersetzen von Werten eines `DataFrame` kann das `inplace`-Argument mit großer Vorsicht verwendet werden, um die Änderung direkt ohne Neuzuweisung durchzuführen. <br>

 Transaktionsdaten, bei denen der Transaktionsbetrag nicht angegeben ist, sind für uns nicht von Interesse. Aus diesem Grund: <br>

#### Aufgaben:
> (j) Lösche die `transactions`-Einträge, bei denen die Spalten **`rate`**, **`tax`** und **`total_amt`** **alle** leer sind. <br>
>
> (k) Prüfe, ob die Spalten von `transactions` **keine fehlenden Werte mehr enthalten**. <br>



In [9]:
# Deine Lösung:





#### Lösung:

In [None]:
transactions = transactions.dropna(axis = 0, how = 'all', subset = ['rate', 'tax', 'total_amt'])

transactions.isna().sum(axis = 0)

## Fazit und Zusammenfassung

 In dieser Lektion haben wir die wesentlichen Methoden des `pandas`-Moduls kennengelernt, um einen Datensatz zu bereinigen und fehlende Werte (`NaN`) zu verwalten. <br>

 Dieser Schritt der Datenvorbereitung ist **immer** der erste Schritt eines Datenprojekts. <br>

 In Bezug auf die **Datenbereinigung** haben wir gelernt, wie man: <br>

 * Duplikate eines `DataFrame` mit den Methoden **`duplicated`** und **`drop_duplicates`** identifiziert und löscht. <br>
 * Die Elemente eines `DataFrame` und ihren Typ mit den Methoden **`replace`**, **`rename`** und **`astype`** modifiziert. <br>
 * Eine Funktion auf einen `DataFrame` mit der **`apply`**-Methode und der **`lambda`**-Klausel anwendet. <br>

 In Bezug auf die **Verwaltung fehlender Werte** haben wir gelernt, wie man: <br>

 * Sie mit der **`isna`**-Methode gefolgt von den Methoden **`any`** und **`sum`** **erkennt**. <br>
 * Sie mit der **`fillna`**-Methode und den **statistischen Methoden** **ersetzt**. <br>
 * Sie mit der **`dropna`**-Methode **löscht**. <br>

 In der nächsten Lektion wirst du weitere Manipulationen von `DataFrames` für eine fortgeschrittenere **Exploration** von Daten kennenlernen. <br>