# Daten einlesen und reinigen
Modul 2 | Kapitel 2 | Notebook 2

***
Wir haben im letzten Kapitel gelernt, wie man mit dem Pythonmodul *pandas* Daten auslesen und verarbeiten kann. Zudem haben wir uns angeschaut, wie man erste Visualisierungen der Daten erzeugen kann. In dieser Praxisübung schauen wir uns Marketing-Daten an und machen sie fit für die Verarbeitung in der nächsten Lektion. Am Ende der Übung kannst du:
* mit `my_df.describe()` einen schnellen Überblick über die Daten bekommen
* mit `my_series.unique()` kategorische Spalten zusammenfassen
***

## Die Marketing-Kampagne

**Szenario:**
Eine portugiesische Bank kommt auf dich zu, weil sie besser verstehen will, wie eine Marketing-Kampagne gelaufen ist. Kunden wurden angerufen, um sie zu überzeugen, ein Festgeldkonto zu eröffnen. Du willigst ein und fragst, ob dein Auftraggeber vielleicht noch eine konkretere Frage hat. Dir wird gesagt, dass sie einen Überblick über die Marketing-Kampagne haben möchten.

Die Daten wurden dir in der Datei *marketing_data.csv* gegeben. Die Datei liegt im Heimatordner. 

Im letzten Kapitel *[Daten einlesen mit pandas](../chapter-01-solutions/04-solution.ipynb) (Modul 2, Kapitel 1)* haben wir erlebt, dass `pandas` die englische Formatierung von Zahlen und *csv*-Dateien als Standard hat. Sind die Daten im deutschen Standard (z.B. Spalten-Separator ist `;`, Dezimalzeichen ist `,`), muss man die Einlesefunktion `pandas.read_csv()` um die lokalen Formateigenschaften anpassen. 

Wir würden an dieser Stelle empfehlen, sich zunächst einmal einen groben Überblick über *marketing_data.csv* als einen langen `str` mit Hilfe der `open()`-Funktion zu verschaffen. So erhalten wir einen ersten Eindruck der Datei und können Folgeschritte besser planen. Speichere die eingelesenen Daten in der Variable `dat_str`.

**Tipp:** Nutze die `with`-Routine, die du in *[Dateien einlesen und schreiben](../../module-01/chapter-03-solutions/08-solution.ipynb) (Modul 1, Kapitel 3)* kennengelernt hast. Denke daran, die Datei nur im Lesemodus zu öffnen.

In [24]:
import os
os.listdir()

with open('marketing_data.csv', 'r') as f:
    dat_str = f.read()

Drucke jetzt die ersten 500 Zeichen von `dat_str`.

In [6]:
print(dat_str[0:500])

Age,Job,Marital Status,Education,Has credit in default,Avg. credit balance,Has housing loan,Has personal loan,Contact type,Last contact day,Last contact month,Last contact duration (sec),Number of contacts,Days passed,Previous contacts,Outcome previous campaign,Subscribed deposit
30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
35,management,single,tertiary,no,1350,yes,no,cellular


Auf den ersten Blick scheint es, dass jemand bei der Bank die Daten für uns bereits aufbereitet hat. Erinnern wir uns, dass `\n` einen Zeilenumbruch darstellt. Die Kopfzeile, also alle Zeichen bis zum ersten `\n`, sind in Englisch. Spalten scheinen durch Kommas getrennt zu werden. Danach kommen kategorische Einträge und `int`-Zahlen ohne Tausendertrennzeichen. `pandas.read_csv()` sollte demnach problemlos funktionieren.

Lesen wir die Daten in *marketing_data.csv* jetzt als `DataFrame` ein. Speichere die Daten in der Variablen `df`.

**Tipp:** Importiere vor dem Einlesen das `pandas`-Modul und gib ihm den üblichen Spitznamen `pd`.

In [25]:
import pandas as pd

df = pd.read_csv('marketing_data.csv')

Um einen ersten Eindruck eines Datensets zu bekommen, kann man die `my_df.head()`-Methode ohne Argumente benutzen. Sie gibt alle Spalten und die ersten fünf Zeilen eines Datensets aus.

In [26]:
df.head()

Unnamed: 0,Age,Job,Marital Status,Education,Has credit in default,Avg. credit balance,Has housing loan,Has personal loan,Contact type,Last contact day,Last contact month,Last contact duration (sec),Number of contacts,Days passed,Previous contacts,Outcome previous campaign,Subscribed deposit
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no


Wie kann man die letzten Einträge eines `DataFrame` anzeigen lassen? Hierfür bietet sich die Methode `my_df.tail()` ohne Angabe von Argumenten an. Sie gibt standardmäßig die letzten fünf Zeilen inklusive aller Spalten eines Datensets aus.

In [3]:
df.tail()

Unnamed: 0,Age,Job,Marital Status,Education,Has credit in default,Avg. credit balance,Has housing loan,Has personal loan,Contact type,Last contact day,Last contact month,Last contact duration (sec),Number of contacts,Days passed,Previous contacts,Outcome previous campaign,Subscribed deposit
4516,33,services,married,secondary,no,-333,yes,no,cellular,30,jul,329,5,-1,0,unknown,no
4517,57,self-employed,married,tertiary,yes,-3313,yes,yes,unknown,9,may,153,1,-1,0,unknown,no
4518,57,technician,married,secondary,no,295,no,no,cellular,19,aug,151,11,-1,0,unknown,no
4519,28,blue-collar,married,secondary,no,1137,no,no,cellular,6,feb,129,4,211,3,other,no
4520,44,entrepreneur,single,tertiary,no,1136,yes,yes,cellular,3,apr,345,2,249,7,other,no


Mit einer `int`-Zahl in den Klammer von `my_df.head)` oder `my_df.tail()` kann man bestimmen, wie viele Zeile ausgegeben werden sollen. Üben wir das an einem Beispiel: Gib die ersten 6 Zeilen von `df` wieder.

In [4]:
df.head(6)

Unnamed: 0,Age,Job,Marital Status,Education,Has credit in default,Avg. credit balance,Has housing loan,Has personal loan,Contact type,Last contact day,Last contact month,Last contact duration (sec),Number of contacts,Days passed,Previous contacts,Outcome previous campaign,Subscribed deposit
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no
5,35,management,single,tertiary,no,747,no,no,cellular,23,feb,141,2,176,3,failure,no


Lass dir nun die letzten 2 Zeilen von `df` ausgeben.

In [5]:
df.tail(2)

Unnamed: 0,Age,Job,Marital Status,Education,Has credit in default,Avg. credit balance,Has housing loan,Has personal loan,Contact type,Last contact day,Last contact month,Last contact duration (sec),Number of contacts,Days passed,Previous contacts,Outcome previous campaign,Subscribed deposit
4519,28,blue-collar,married,secondary,no,1137,no,no,cellular,6,feb,129,4,211,3,other,no
4520,44,entrepreneur,single,tertiary,no,1136,yes,yes,cellular,3,apr,345,2,249,7,other,no


Wie groß ist `df`? Wie viele Zeilen und Spalten hat dieser `DataFrame`? Speichere die Werte in den Variablen `df_row_count` und `df_col_count` und drucke die Variablen danach.

**Tipp:** Erinnere dich an den Grundsatz **Zeile vor Spalten** vom `my_df.shape`-Attribut.

In [6]:
df_row_count = df.shape[0]
df_col_count = df.shape[1]


print('Zeilen:',(3*' '),df_row_count)
print('Spalten:',(3*' '),df_col_count)
df.shape


Zeilen:     4521
Spalten:     17


(4521, 17)

Anscheinend gibt es 4521 Zeilen und 17 Spalten. Welche Datentypen haben die Einträge der 17 Spalten?

In [7]:
df.dtypes

Age                             int64
Job                            object
Marital Status                 object
Education                      object
Has credit in default          object
Avg. credit balance             int64
Has housing loan               object
Has personal loan              object
Contact type                   object
Last contact day                int64
Last contact month             object
Last contact duration (sec)     int64
Number of contacts              int64
Days passed                     int64
Previous contacts               int64
Outcome previous campaign      object
Subscribed deposit             object
dtype: object

Es scheint hier zwei verschiedene Arten von Spalten zu geben. Spalten mit `object`-Einträgen, also `str` oder gemischte Datentypen, und `int64`-Einträgen, also ganzen Zahlen gespeichert mit 64 Bit. 

Schau genau nach, ob auch wirklich Spalten, die nur Zahlen enthalten sollten, nur Zahlendatentypen enthalten. Die numerischen Spalten 
* `'Age'`
* `'Avg. credit balance'`
* `'Last contact day'`
* `'Last contact duration (sec)'`
* `'Number of contacts'`
* `'Days passed'`
* `'Previous contacts'`

haben alle den Datentypen `int64`.

**Glückwunsch:** Du hast eine grobe Prüfung der Daten vorgenommen und sie erfolgreich eingelesen. Als Nächstes schauen wir genauer in die Daten, um zu sehen, ob man sie noch reinigen sollte. 

## Die Marketing-Daten mit einer for-Schleife reinigen

Bevor wir uns der eigentlich Datenanalyse zuwenden, würden wir empfehlen, vorher immer zu schauen, ob sie gereinigt werden müssen. Dazu solltest du wissen, wofür die 17 Spalten eigentlich stehen. Du kontaktierst wieder die Bank, die dir das folgende **Datenwörterbuch** in einer E-Mail schickt:

Spaltennummer | Spaltenname | Datentyp | Beschreibung
---|---|---|---
0 | `'Age'` | numerisch | Kundenalter
1 | `'Job'` | kategorisch | Kundenberuf
2 | `'Marital Status'` | kategorisch | Kunden-Familienstand
3 | `'Education'` | kategorisch | Kunden-Bildungsstand
4 | `'Has credit in default'` | kategorisch | Ob Kunde in Zahlungsverzug ist
5 | `'Avg. credit balance'` | numerisch | Durchschnittlicher Kontostand während der Marketing-Kampagne
6 | `'Has housing loan'` | kategorisch | Ob Kunde Hauskredit hat
7 | `'Has personal loan'` | kategorisch | Ob Kunde persönliches Darlehen hat
8 | `'Contact type'` | kategorisch | Wie mit dem Kunden kommuniziert wurde
9 | `'Last contact day'` | numerisch | An welchem Tag des Monats der letzte Kundenkontakt im Rahmen der Marketing-Kampagne stattgefunden hat
10 | `'Last contact month'` | kategorisch | In welchem Monat der letzte Kundenkontakt im Rahmen der Marketing-Kampagne stattgefunden hat
11 | `'Last contact duration (sec)'` | numerisch | Wie lang der letzte Kundenkontakt im Rahmen der Marketing-Kampagne war (in Sekunden)
12 | `'Number of contacts'` | numerisch | Wie oft der Kunde im Rahmen der Kampagne kontaktiert wurde (inklusive letztem Kontakt)
13 | `'Days passed'` | numerisch | Zeit zwischen letztem Kontakt im Rahmen der vorherigen Kampagne und dem ersten Kontakt der derzeitigen Kampagne
14 | `'Previous contacts'` | numerisch | Wie oft der Kunde vor dieser Kampagne kontaktiert wurde
15 | `'Outcome previous campaign'` | kategorisch | Ob der Kunde während einer vorherigen Kampagne erfolgreich überzeugt wurde
16 | `'Subscribed deposit'` | kategorisch | War diese Kampagne bei diesem Kunden erfolgreich, hat der Kunde also ein Festgeldkonto eröffnet?

In der E-Mail wird dir außerdem gesagt, dass 
* in der dritten Spalte (`'Marital Status'`) das Label `'divorced'` sowohl *geschieden* als auch *verwitwet* bedeutet
* `-1` in der vierzehnten Spalte (`'Days passed'`) bedeutet, dass dieser Kunde nicht während der vorherigen Kampagne kontaktiert wurde

**Vertiefung:** Im Datenwörterbuch in der Spalte `Spaltenname` wird das jeweilige *Datenniveau* einer Skala beschrieben. Es gibt Auskunft über die Eigenschaft von Merkmalen der Variablen.

Grundsätzlich lassen sich folgende Skalenniveaus voneinander unterscheiden:
* Nominalskala (z.B. Geschlecht)
* Ordinalskala (z.b. Schulnoten von 1 "sehr gut" bis 6 "ungenügend") 
* Intervallskala (z.B. Temperatur in Grad Celsius)
* Verhältnisskala (z.B. Alter in Jahren)

Nominal- und Ordinalskalen werden dabei als *kategorisch* bezeichnet, Intervall- und Verhältsnisskalen hingegen sind *metrisch*, also numerisch. Schau dir hierzu gerne folgende <a href="https://de.wikipedia.org/wiki/Skalenniveau#Systematik_der_Skalen">Übersicht</a>  an.

In unserem Training geben wir anhand eines Datenwörterbuchs immer an, welche Art von Skala jeweils eine Spalte im Datenset abbildet. Wir berücksichtigen hierbei auch, mit welchem Datentyp die Skala hinterlegt werden soll. So wird z.B. das Alter von Personen immer numerisch und in der Regel als Ganzzahl (*integer*) erfasst, also als ***numerisch (`int`)***. 

In deiner Tätigkeit als Data Analyst musst du jedoch das Skalenniveau der Variablen in deinen Datensets selbst interpretieren und ggf. umwandeln können, z.B. die Temperatur in  Kelvin (Verhältnisskala) oder in Grad Celsius (Intervallskala).

Wir schlagen vor, dass wir Schritt für Schritt durch die Spalten gehen und schauen, ob sie Sinn machen. 

Die erste Spalte (`'Age'`) sollte nur realistische Erwachsenenalter enthalten. Speichere den Minimal- und Maximalwert der `'Age'`-Spalte in den Variablen `age_min` und `age_max`. Drucke die beiden Variablen danach.

In [8]:
age_min = df.loc[:,'Age'].min()
age_max = df.loc[:,'Age'].max()

print(age_min)
print(age_max)

19
87


Die `'Age'`-Spalte enthält also nur Zahlen (`dtype` ist `int64`) und diese liegen in einem realistischen Intervall (`19` und `87`) - es scheint, als bräuchten wir diese Spalte nicht noch reinigen. 

Diesen Kontrollansatz können wir jetzt auch auf die anderen numerischen Spalten ausweiten. Speichere den Minimal- und Maximalwert der `'Avg. credit balance'`-Spalte in den Variablen `credit_balance_min` und `credit_balance_max`. Drucke die beiden Variablen danach. 

In [9]:
credit_balance_min = df.loc[:,'Avg. credit balance'].min()
credit_balance_max = df.loc[:,'Avg. credit balance'].max()

print(credit_balance_max)
print(credit_balance_min)

71188
-3313


Auch wir erhalten hier realitische Werte: ein verschuldetes Konto (`-3313`) und ein vermögendes Konto (`71188`).

Wir sollten auch noch die Spalten
* `'Last contact day'`
* `'Last contact duration (sec)'`
* `'Number of contacts'`
* `'Days passed'`
* `'Previous contacts'`

ähnlich prüfen. Anstatt jetzt aber die `min()`- und `max()`-Funktionen jeweils fünf Mal auszuschreiben, kannst du auch die `my_df.describe()`-Methode benutzen. Diese gibt für alle numerischen Spalten eines `DataFrames` acht Übersichtswerte aus. 

Schreibe einfach `df.describe()` ohne Argument zwischen den Klammern in die folgende Codezelle, um eine schnelle Übersicht über **alle** numerischen Spalten zu bekommen.

In [10]:
df.describe()

Unnamed: 0,Age,Avg. credit balance,Last contact day,Last contact duration (sec),Number of contacts,Days passed,Previous contacts
count,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0
mean,41.170095,1422.657819,15.915284,263.961292,2.79363,39.766645,0.542579
std,10.576211,3009.638142,8.247667,259.856633,3.109807,100.121124,1.693562
min,19.0,-3313.0,1.0,4.0,1.0,-1.0,0.0
25%,33.0,69.0,9.0,104.0,1.0,-1.0,0.0
50%,39.0,444.0,16.0,185.0,2.0,-1.0,0.0
75%,49.0,1480.0,21.0,329.0,3.0,-1.0,0.0
max,87.0,71188.0,31.0,3025.0,50.0,871.0,25.0


`my_df.describe()` gibt einen `DataFrame` mit acht Zeilen aus. Dies wäre das Datenwörterbuch des Outputs:

Zeilennummer | Zeilenname | Datentyp | Beschreibung
---|---|---|---
0 | `'count'`| numerisch | Wie viele Datenpunkte in der Spalte sind (`NaN` ausgeschlossen)
1 | `'mean'` | numerisch | Arithmetisches Mittel der Spalte
2 | `'std'` | numerisch | Standardabweichung der Spalte, ein Streuungsmaß
3 | `'min'` | numerisch  | Kleinster Wert der Spalte
4 | `'25%'` | numerisch | 25. Perzentil. 25% der Werte dieser Spalte sind kleiner als dieser Wert und 75% sind größer.
5 | `'50%'` | numerisch | Medianwert der Spalte. Die Hälfte der Werte dieser Spalte sind kleiner als dieser Wert und die andere Hälfte ist größer.
6 | `'75%'` | numerisch | 75. Perzentil. 75% der Werte dieser Spalte sind kleiner als dieser Wert und 25% sind größer.
7 | `'max'` | numerisch | Größter Wert der Spalte

Findest du numerische Spalten, die man eventuell reinigen sollte? 

Dir sollte die `'Days passed'`-Spalte aufgefallen sein. Sie gibt die Zeit zwischen dem letztem Kontakt im Rahmen der vorherigen Kampagne und dem ersten Kontakt der derzeitigen Kampagne an. Wir schlagen vor, alle `-1`-Werte, die keine vorherige Kontaktierung bedeuten, mit `NaN` zu ersetzen. 

In *[Daten aufbereiten mit pandas](../chapter-01-solutions/05-solution.ipynb) (Modul 2, Kapitel 1)* haben wir gelernt, dass die Darstellung von fehlenden Werten als *Not a Number* die ganze Bandbreite der `NaN`-Funktionalitäten von `numpy` und `pandas` eröffnet. `my_df.describe()` zum Beispiel ignoriert `NaN`. Würde man also die `-1`-Werte in der `'Days passed'`-Spalte mit `NaN` ersetzen, würden fehlende Werte nicht mehr die Zusammenfassung, die `my_df.describe()` ausgibt, beeinflussen. Zur Zeit zeigt `my_df.describe()` noch einen unrealistisch niedrigen Mittelwert für die `'Days passed'`-Spalte an, weil `-1` noch als richtiger Wert angenommen wird.

Am besten nutzen wir eine `for`-Schleife, um durch die Einträge der `'Days passed'`-Spalte zu wandern und jedes Mal, wenn ein Eintrag gleich `-1` ist, wird ihm `NaN` zugewiesen.

Um unser Vorgehen zu verdeutlichen, führen wir an dieser Stelle einen neuen beispielhaften `DataFrame` namens `example_df` ein.

In [24]:
example_df = pd.DataFrame([[0, -1, 2,], 
                           [3, -1, -1], 
                           [-1, 7, 8], 
                           [9, 10, -1]], 
                          columns = ['col_A', 'col_B', 'col_C'], 
                          index = ['row_A', 'row_B', 'row_C', 'row_D'])

example_df

Unnamed: 0,col_A,col_B,col_C
row_A,0,-1,2
row_B,3,-1,-1
row_C,-1,7,8
row_D,9,10,-1


`example_df` hat drei Spalten: `'col_A'`, `'col_B'` und `'col_C'`. Sie beinhalten jeweils `-1`-Einträge, die wir mit Hilfe einer `for`-Schleife in `NaN`-Einträge verändern wollen.

Wie schreibt man jetzt eine `for`-Schleife, die durch alle Einträge von `'col_A'` wandert? 

Es gibt verschiedene Wege. Wir empfehlen, mit der `for`-Schleife durch die Zeilenpositionsnummern zu wandern, die die `range()`-Funktion ausgibt, wenn wir ihr als Argument die Zeilenanzahl geben. Bei jeder Zeilenpositionsnummer könnte man dann mit `my_df.iloc[]` den Wert in dieser Zeile und einer gegebenen Spalte anzeigen. Das würde dann so aussehen:

In [25]:
row_count = example_df.shape[0]

for row in range(row_count):
    print('At index {}: {}'.format(row, example_df.iloc[row, 0]))

At index 0: 0
At index 1: 3
At index 2: -1
At index 3: 9


Kopiere jetzt den Code der vorherigen Codezelle und prüfe mit einem `if`-*statement*, ob der Eintrag an Zeilenpositionsnummer `row` gleich `-1` ist. Drucke erstmal für den Fall, dass der Eintrag an Zeilenpositionsnummer `row` gleich `-1` den `str` *Replace entry with NaN here.*.

In [26]:
row_count = example_df.shape[0]

for row in range(row_count):
    if example_df.iloc[row,0] == -1:
        print('At index {}: Replace entry with NaN here!')
    else:
        print('At index {}: {}'.format(row, example_df.iloc[row, 0]))

At index 0: 0
At index 1: 3
At index {}: Replace entry with NaN here!
At index 3: 9


Jetzt müssen wir nur noch den `str` unter dem `if`-*statement* mit der eigentlichen Zuweisung von `NaN` ersetzen. Kopiere also zunächst den Code der vorherigen Codezelle. Importiere als Erstes in der Codezelle das `numpy`-Modul und gib ihm den üblichen Spitznamen `np`. Ein `NaN` kannst du ab dem `import` so aufrufen: `np.nan`. Ersetze den `print()`-Befehl unter dem `if`-*statement* mit der Zuweisung des Eintrags an dieser Position mit `NaN`. Drucke `example_df` am Ende. Sind jetzt alle `-1`-Einträge der ersten Spalte `NaN`?

In [27]:
import numpy as np

row_count = example_df.shape[0]

for row in range(row_count):
    if example_df.iloc[row,0] == -1:
        example_df.iloc[row,0] = np.nan
    else:
        print('At index {}: {}'.format(row, example_df.iloc[row, 0]))
        
example_df

NameError: name 'example_df' is not defined

Ersetze jetzt mit einer ähnlichen `for`-Schleife auch die `-1`-Einträge in der `'col_B'`-Spalte mit `NaN`. Drucke `example_df` am Ende. Sind jetzt alle `-1`-Einträge der zweiten Spalte `NaN`?

In [29]:
for row in range(row_count):
    if example_df.iloc[row,1] == -1:
        example_df.iloc[row,1] = np.nan

example_df

Unnamed: 0,col_A,col_B,col_C
row_A,0.0,,2
row_B,3.0,,-1
row_C,,7.0,8
row_D,9.0,10.0,-1


Ersetze jetzt auch alle Werte der `'col_C'`-Spalte, die `-1` sind, durch `NaN`. Drucke danach `example_df`. Sind jetzt auch wirklich alle `-1`-Werte weg und wurden ersetzt durch `NaN`?

In [30]:
for row in range(row_count):
    if example_df.iloc[row,2] == -1:
        example_df.iloc[row,2] = np.nan

example_df        

Unnamed: 0,col_A,col_B,col_C
row_A,0.0,,2.0
row_B,3.0,,
row_C,,7.0,8.0
row_D,9.0,10.0,


Zurück zur `'Days passed'`-Spalte von `df` - schauen wir uns noch einmal kurz die Zusammenfassung der Spalte an:

In [31]:
df.loc[:, 'Days passed'].describe()

count    4521.000000
mean       39.766645
std       100.121124
min        -1.000000
25%        -1.000000
50%        -1.000000
75%        -1.000000
max       871.000000
Name: Days passed, dtype: float64

Ersetze alle `-1`-Werte in der `'Days passed'`-Spalte mit `NaN`. Schau dir danach mit `df.loc[:, 'Days passed'].describe()` die Zusammenfassung der Spalte wieder an. Tauchen die `NaN`-Werte in der Zusammenfassung auf?

In [46]:
row_count = df.shape[0]

for row in range(row_count):
    if df.loc[row,'Days passed'] == -1:
        df.loc[row,'Days passed'] = np.nan


df.loc[:,'Days passed'].describe()




count    816.000000
mean     224.865196
std      117.200417
min        1.000000
25%      136.000000
50%      189.000000
75%      330.000000
max      871.000000
Name: Days passed, dtype: float64

Vergleiche die alte Zusammenfassung der `'Days passed'`-Spalte mit der neuen. Alle Werte außer dem `'max'`-Wert sind jetzt anders. Die vielen `-1`-Werte werden jetzt korrekt als `NaN` wiedergegeben und durch `my_series.describe()` ignoriert.

**Vertiefung:** Was genau sind eine `Series` und ein `DataFrame`? 

Eine *Series* ist eindimensionale Datenreihe, die beliebige Elemente mit Achsenbeschriftungen aufnehmen kann, siehe auch <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html">hier</a>. In einem DataFrame ist z.B. jede einzelne Spalte eine eigene `Series`. Ein *DataFrame* ist immer zweidimensional (Zeilen und Spalten), welcher *Series* in einer Art Container als *dictionary* behandelt, siehe auch <a href="https://pandas.pydata.org/pandas-docs/version/0.13.1/generated/pandas.DataFrame.html">hier</a>.

**Glückwunsch:** Du hast die numerischen Spalten des DataFrames gereinigt. Als Nächstes schauen wir uns noch an, wie man die Repräsentierung der kategorischen Spalten verbessern kann.

## Die kategorischen Marketing-Daten

Nachdem wir uns die numerischen Spalten näher angeschaut haben, kommen wir jetzt zu den kategorischen Spalten. Die erste kategorische Spalte ist die `'Job'`-Spalte. Die Einträge kategorischer Spalten können wir uns gut mit der `my_series.unique()`-Methode näher anschauen. `my_series.unique()` listet alle Einträge einer Spalte ohne Mehrfachnennung auf. Siehst du einen `'Job'`-Eintrag, der dir nicht realistisch erscheint?

In [11]:
df.loc[:, 'Job'].unique()

array(['unemployed', 'services', 'management', 'blue-collar',
       'self-employed', 'technician', 'entrepreneur', 'admin.', 'student',
       'housemaid', 'retired', 'unknown'], dtype=object)

Auch hier scheinen alle Einträge gut auszusehen. Die `my_series.describe()`-Methode funktioniert auch mit solchen Spalten. Sie gibt aus, um wie viele Einträge es sich insgesamt handelt, wie viele verschiedene Einträge es sind, welcher Eintrag am häufigsten vorkommt und wie oft dieser häufigste Eintrag vorkommt.

In [12]:
df.loc[:, 'Job'].describe()

count           4521
unique            12
top       management
freq             969
Name: Job, dtype: object

Machen wir weiter mit den Spalten

* `'Marital Status'`
* `'Education'`
* `'Has credit in default'`
* `'Has housing loan'`
* `'Has personal loan'`
* `'Contact type'`
* `'Last contact month'`
* `'Outcome previous campaign'`
* `'Subscribed deposit'`

Diese Spalten haben übrigens die Spaltenpositionsnummern `[2, 3, 4, 6, 7, 8, 10, 15, 16]`.

Schaue dir für jede Spalte mithilfe der `my_series.unique()`-Methode die Einträge ohne Mehrfachnennung an.

In [14]:
col_count = [2,3,4,6,7,8,10,15,16]

for elem in col_count:
    print(df.iloc[:,elem].unique())

['married' 'single' 'divorced']
['primary' 'secondary' 'tertiary' 'unknown']
['no' 'yes']
['no' 'yes']
['no' 'yes']
['cellular' 'unknown' 'telephone']
['oct' 'may' 'apr' 'jun' 'feb' 'aug' 'jan' 'jul' 'nov' 'sep' 'mar' 'dec']
['unknown' 'failure' 'other' 'success']
['no' 'yes']


Die kategorischen Variablen scheinen soweit sehr gut auszusehen.

Du kannst jetzt den Datentypen der kategorischen Spalten von `object` nach `category` ändern. Der Datentyp `category` hat den Vorteil, dass im Gegensatz zu `object` eine feste Anzahl von Werten hat und damit endlich ist. Dies spart Speicherplatz, da dann für jeden Eintrag nur noch gespeichert wird, welche Kategorie er hat, nicht mehr, was seine individuelle Zeichenfolge ist.

Schauen wir uns als Beispiel zunächst an, wie viele <a href="https://en.wikipedia.org/wiki/Byte">Bytes</a> die Spalte `'Marital Status'` verbraucht. Wie macht man das? Folgen wir dem Ansatz aus *[Hilfe](../chapter-01-solutions/03-solution.ipynb) (Modul 2, Kapitel 1)* und nutzen die Tabulatortaste.

Wir vermuten, dass die Entwickler von `pandas` für den Speicherplatz einer Variable eine Methode entwickelt haben. Wahrscheinlich beginnt sie mit `mem`. Also schreiben wir `df.mem` und hoffe, dass beim Drücken der Tabulatortaste eine Methode auftaucht, die so klingt, als ob sie den Speicherplatz der Spalten wiedergibt.

In [15]:
df.memory_usage?

[0;31mSignature:[0m [0mdf[0m[0;34m.[0m[0mmemory_usage[0m[0;34m([0m[0mindex[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mdeep[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m [0;34m->[0m [0mpandas[0m[0;34m.[0m[0mcore[0m[0;34m.[0m[0mseries[0m[0;34m.[0m[0mSeries[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return the memory usage of each column in bytes.

The memory usage can optionally include the contribution of
the index and elements of `object` dtype.

This value is displayed in `DataFrame.info` by default. This can be
suppressed by setting ``pandas.options.display.memory_usage`` to False.

Parameters
----------
index : bool, default True
    Specifies whether to include the memory usage of the DataFrame's
    index in returned Series. If ``index=True``, the memory usage of
    the index is the first item in the output.
deep : bool, default False
    If True, introspect the data deeply by interrogating
    `object` dtypes for system-level memory consumpti

Tatsächlich gibt es die `my_df.memory_usage()`-Methode. Was tut sie? Schreibe `df.memory_usage?` in die folgende Codezelle, um eine Antwort zu erhalten.

In [16]:
df.memory_usage?

[0;31mSignature:[0m [0mdf[0m[0;34m.[0m[0mmemory_usage[0m[0;34m([0m[0mindex[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mdeep[0m[0;34m=[0m[0;32mFalse[0m[0;34m)[0m [0;34m->[0m [0mpandas[0m[0;34m.[0m[0mcore[0m[0;34m.[0m[0mseries[0m[0;34m.[0m[0mSeries[0m[0;34m[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Return the memory usage of each column in bytes.

The memory usage can optionally include the contribution of
the index and elements of `object` dtype.

This value is displayed in `DataFrame.info` by default. This can be
suppressed by setting ``pandas.options.display.memory_usage`` to False.

Parameters
----------
index : bool, default True
    Specifies whether to include the memory usage of the DataFrame's
    index in returned Series. If ``index=True``, the memory usage of
    the index is the first item in the output.
deep : bool, default False
    If True, introspect the data deeply by interrogating
    `object` dtypes for system-level memory consumpti

Da steht jetzt sehr viel im *docstring*. Vor allem steht da aber:
```python
Returns
-------
Series
    A Series whose index is the original column names and whose values
    is the memory usage of each column in bytes.
```

`my_df.memory_usage()` gibt uns also genau die Informationen, die wir brauchen. Führe die Methode jetzt entweder für den ganzen `DataFrame` (`df.memory_usage()`) oder nur für die relevante Spalte (`df.loc[:, 'Marital Status'].memory_usage()`) aus, um zu erfahren, wie viel Speicherplatz die `'Marital Status'`-Spalte in Bytes verbraucht.

In [18]:
df.memory_usage()

Index                            128
Age                            36168
Job                            36168
Marital Status                 36168
Education                      36168
Has credit in default          36168
Avg. credit balance            36168
Has housing loan               36168
Has personal loan              36168
Contact type                   36168
Last contact day               36168
Last contact month             36168
Last contact duration (sec)    36168
Number of contacts             36168
Days passed                    36168
Previous contacts              36168
Outcome previous campaign      36168
Subscribed deposit             36168
dtype: int64

Bevor wir den Datentypen der Einträge der `'Marital Status'`-Spalte ändern, schau dir noch mal an, was er zur Zeit ist.

In [29]:
df.loc[:,'Marital Status'].dtype

dtype('O')

`dtype('O')` bedeutet, dass es der `object` Datentyp ist. 

Ändern wir jetzt den Datentypen der Spalte von `object` nach `category`. Dafür nutzen wir die Methode `my_series.astype()` und geben ihr das Argument `'category'`.

In [30]:
df.loc[:, 'Marital Status'] = df.loc[:, 'Marital Status'].astype('category')

Was ist jetzt der Datentyp der Einträge der `'Marital Status'`-Spalte?

In [31]:
df.loc[:,'Marital Status'].dtype

CategoricalDtype(categories=['divorced', 'married', 'single'], ordered=False)

Wie viele Bytes verbraucht die Spalte `'Marital Status'` jetzt?

In [32]:
df.loc[:, 'Marital Status'].memory_usage()

4753

Der Speicherplatz, den die `'Marital Status'`-Spalte verbraucht, hat sich von ca. 36KB auf ungefähr 5KB verringert. Dies zeigt, wie effizient der `category`-Datentyp für die Repräsentierung von kategorischen Daten ist. Solche Effizienz-Überlegungen werden immer wichtiger, je größer die Datensets sind und je komplizierter die Analysen werden. Jedes gesparte Byte pro Zeile kann dir dann sehr viel Zeit ersparen.

Ändere nun auch den Datentypen der Einträge der anderen kategorischen Spalten hin zu `category`:
* `'Job'`
* `'Education'`
* `'Has credit in default'`
* `'Has housing loan'`
* `'Has personal loan'`
* `'Contact type'`
* `'Last contact month'`
* `'Outcome previous campaign'`
* `'Subscribed deposit'`

In [35]:
col_names = ['Job','Education','Has credit in default','Has housing loan','Has personal loan','Contact type','Last contact month','Outcome previous campaign','Subscribed deposit']

for elem in col_names:
    df.loc[:,elem] = df.loc[:,elem].astype('category')
    print(df.loc[:,elem].dtype)

category
category
category
category
category
category
category
category
category


Zusammengefasst können wir die Einleseroutine für *marketing_data.csv* so schreiben:

In [36]:
import pandas as pd
import numpy as np

df = pd.read_csv('marketing_data.csv')

# replace all -1 values in "Days passed" by NaN
for row in range(df.shape[0]):
    if df.iloc[row, 13] == -1:
        df.iloc[row, 13] = np.nan

# change categorical columns to data type 'category'
cat_cols = ['Job',
            'Marital Status',
            'Education',
            'Has credit in default',
            'Has housing loan',
            'Has personal loan',
            'Contact type',
            'Last contact month',
            'Outcome previous campaign',
            'Subscribed deposit']

for cat_col in cat_cols:
    df.loc[:, cat_col] = df.loc[:, cat_col].astype('category')

**Glückwunsch:** Du hast gelernt, wie du mit Hilfe der `my_df.unique()`-Methode die Einträge in einer Spalte prüfen kannst. Außerdem hast du sehr viel Speicherplatz gespart durch das Speichern kategorischer Spalten als `category`-Datentyp. Damit haben wir die Daten jetzt in einem Format, das ihre Exploration erlaubt. Dies hilft, die Daten kennenzulernen und darum üben wir das als nächstes.

**Merke:**
* Eine *Series* ist eindimensionale Serie, die beliebige Elemente mit Achsenbeschriftungen aufnehmen kann
* Schnellen Überblick über die numerischen Spalten eines `DataFrame` verschaffen mit
```python
my_df.describe()
```
* Einzigartige Werte von Spalten explorieren mit 
```python
my_series.unique()
```
* Die ersten Zeilen eines `DataFrame` ausgeben mit
```python
my_df.head()
```
* Die letzten Zeilen eines `DataFrame` ausgeben mit
```python
my_df.tail()
```
* Datentyp einer kategorischen Spalte immer zu `category` ändern:  
```python
my_df.loc[:, 'col_name'] = my_df.loc[:, 'col_name'].astype('category')
```

***
Hast du eine Frage zu dieser Übung? Schau ins [Forum](https://datalab.stackfuel.com/forums), ob sie bereits gestellt und beantwortet wurde.
***
Fehler gefunden? Kontaktiere den Support unter support@stackfuel.com .
***