# Daten mit Pandas einlesen, bereinigen, exportieren

In [1]:
import pandas as pd

## Das Einlesen

Wir wollen die csv-Datei einlesen in der die Transaktionsdaten einer Bank liegen und verwenden dazu die fertige Funktion von Pandas "read_csv"

In [2]:
file_name = 'data/bs140513_032310.csv'
data = pd.read_csv(file_name) 

### Wie sehen die Daten aus?

In [3]:
data.head()

Unnamed: 0,step,customer,age,gender,zipcodeOri,merchant,zipMerchant,category,amount,fraud
0,0,'C1093826151','4','M','28007','M348934600','28007','es_transportation',4.55,0
1,0,'C352968107','2','M','28007','M348934600','28007','es_transportation',39.68,0
2,0,'C2054744914','4','F','28007','M1823072687','28007','es_transportation',26.89,0
3,0,'C1760612790','3','M','28007','M348934600','28007','es_transportation',17.25,0
4,0,'C757503768','5','M','28007','M348934600','28007','es_transportation',35.72,0


Zu erkennen ist, dass die Werte in den Spalten 'gender', 'age', 'customer', 'merchant', 'zipMerchant', 'category', 'zipcodeOri' in einfachen Anführungszeichen '' eingeschlossen sind. Diese wollen wir entfernen.

Eine Lösung ist die apply-Funktion auf einem DataFrame aufzurufen und mit einer lambda-Funktion die String-Werte zu bearbeiten. Für die Bearbeitung nehmen wir die strip-Funktion. Beim Aufruf von strip wird ein String übergeben welcher entfernt werden soll. Durch die '' oder "" wird eine Zeichenfolge als zusammenhängender string gekennzeichnet. Da wir das Zeichen ' ersetzen wollen, müssen wir dieses "escapen", um die Erkennung als string-Ende-Zeichen zu vermeiden. Man "escaped" zeichen mit einem Backslash, also \' :

In [4]:
data[['gender', 'age', 'customer', 'merchant', 'zipMerchant', 'category', 'zipcodeOri']] = data[['gender', 'age', 'customer', 'merchant', 'zipMerchant', 'category', 'zipcodeOri']].apply(lambda x: x.str.strip('\''))

In [5]:
data.head()

Unnamed: 0,step,customer,age,gender,zipcodeOri,merchant,zipMerchant,category,amount,fraud
0,0,C1093826151,4,M,28007,M348934600,28007,es_transportation,4.55,0
1,0,C352968107,2,M,28007,M348934600,28007,es_transportation,39.68,0
2,0,C2054744914,4,F,28007,M1823072687,28007,es_transportation,26.89,0
3,0,C1760612790,3,M,28007,M348934600,28007,es_transportation,17.25,0
4,0,C757503768,5,M,28007,M348934600,28007,es_transportation,35.72,0


**Wir haben eine Lösung gefunden, die Daten in ein brauchbare Funktion zu überführen und dabei ein paar Funktionen von Pandas kennengelernt. Aber...**

In [6]:
data = pd.read_csv(file_name, quotechar="'") 

In [7]:
data.head()

Unnamed: 0,step,customer,age,gender,zipcodeOri,merchant,zipMerchant,category,amount,fraud
0,0,C1093826151,4,M,28007,M348934600,28007,es_transportation,4.55,0
1,0,C352968107,2,M,28007,M348934600,28007,es_transportation,39.68,0
2,0,C2054744914,4,F,28007,M1823072687,28007,es_transportation,26.89,0
3,0,C1760612790,3,M,28007,M348934600,28007,es_transportation,17.25,0
4,0,C757503768,5,M,28007,M348934600,28007,es_transportation,35.72,0


**... liest die Daten gleich richtig ein. Es gibt also eine schöner Lösung!**

---

## Genauere Betrachtung der Daten

Betrachen wir nun die einzelen Spalten etwas genauer können wir feststellen, dass 'zipcodeOri' und in 'zipMerchant' immer dieselben Werte stehen. Die Funktion nunique() zählt wie viele verschiedene Werte ("unique values") vorkommen:

In [8]:
data.nunique()

step             180
customer        4112
age                8
gender             4
zipcodeOri         1
merchant          50
zipMerchant        1
category          15
amount         23767
fraud              2
dtype: int64

Da in diesen beiden Spalten keine wirkliche Information steckt können wir sie gleich loswerden!

In [9]:
data.drop(['zipMerchant', 'zipcodeOri'], axis=1, inplace=True)

In [10]:
data.head()

Unnamed: 0,step,customer,age,gender,merchant,category,amount,fraud
0,0,C1093826151,4,M,M348934600,es_transportation,4.55,0
1,0,C352968107,2,M,M348934600,es_transportation,39.68,0
2,0,C2054744914,4,F,M1823072687,es_transportation,26.89,0
3,0,C1760612790,3,M,M348934600,es_transportation,17.25,0
4,0,C757503768,5,M,M348934600,es_transportation,35.72,0


Oft gibt es noch mehr zu tun, aber für jetzt ist das schon mal OK. Wir speichern die gesäuberten Daten, um diesen Vorgang nicht mehr wiederholen zu müssen...

In [11]:
file_name_cleaned = 'data/bank_transactions.csv'
data.to_csv(file_name_cleaned, index=False)

Check, ob alles geklappt hat:

In [12]:
data_reload = pd.read_csv(file_name_cleaned)
data_reload.head()

Unnamed: 0,step,customer,age,gender,merchant,category,amount,fraud
0,0,C1093826151,4,M,M348934600,es_transportation,4.55,0
1,0,C352968107,2,M,M348934600,es_transportation,39.68,0
2,0,C2054744914,4,F,M1823072687,es_transportation,26.89,0
3,0,C1760612790,3,M,M348934600,es_transportation,17.25,0
4,0,C757503768,5,M,M348934600,es_transportation,35.72,0


Perfekt!