In [1]:
import numpy as np
import pandas as pd

from sklearn.cluster import KMeans

# Clustering der Bank Daten

Anwendungsbeispiel von K-Means auf die Bank-Daten

In [2]:
file_name = '~/neuefische/data-fish/data/bank_transactions.csv'
data = pd.read_csv(file_name) 

In [3]:
# one hot encoding
data_one_hot = pd.concat([data, pd.get_dummies(data[['age', 'gender', 'category']])], axis=1, sort=False)
data_one_hot.head()

Unnamed: 0,step,customer,age,gender,merchant,category,amount,fraud,age_0,age_1,...,category_es_home,category_es_hotelservices,category_es_hyper,category_es_leisure,category_es_otherservices,category_es_sportsandtoys,category_es_tech,category_es_transportation,category_es_travel,category_es_wellnessandbeauty
0,0,C1093826151,4,M,M348934600,es_transportation,4.55,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,0,C352968107,2,M,M348934600,es_transportation,39.68,0,0,0,...,0,0,0,0,0,0,0,1,0,0
2,0,C2054744914,4,F,M1823072687,es_transportation,26.89,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,0,C1760612790,3,M,M348934600,es_transportation,17.25,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,0,C757503768,5,M,M348934600,es_transportation,35.72,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [4]:
one_hot_columns = ['age_0','age_1','age_2','age_3','age_4','age_5','age_6','age_U','gender_E','gender_F','gender_M','gender_U','category_es_barsandrestaurants','category_es_contents','category_es_fashion','category_es_food','category_es_health','category_es_home','category_es_hotelservices','category_es_hyper','category_es_leisure','category_es_otherservices','category_es_sportsandtoys','category_es_tech','category_es_transportation','category_es_travel','category_es_wellnessandbeauty']

## K-Means

Beim Maschinellen Lernen haben wir in der Regel zwei Schritte, das Training, die Vorhersage. In sklearn werden dafür die Begriffe "fit" und "predict" verwendet. Auch wenn man beim Clustering den Vorgang nicht so strickt in diese zwei Schritte unterteilen müsste, hat man dies in den sklearn Packeten der Einheitlichkeit halber getan.

Das bedeutet:

1. Wir instanziieren ein KMeans object und initialisieren es mit der Anzahl der Cluster (für mehr Optionen: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html)

In [5]:
kmeans = KMeans(n_clusters=2)

2. Wir "trainieren" KMeans mit unseren Daten und verwenden dabei die one-hot kodierten Spalten

In [6]:
kmeans.fit(data_one_hot[one_hot_columns])

KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
    n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto',
    random_state=None, tol=0.0001, verbose=0)

3. Wir "predicten" dieselben Daten mit dem "trainierten" KMeans und speichern die Cluster-Zuordnung in einer neuen Spalte "cluster"

In [7]:
data_one_hot['cluster'] = kmeans.predict(data_one_hot[one_hot_columns])

In [8]:
data_one_hot.head()

Unnamed: 0,step,customer,age,gender,merchant,category,amount,fraud,age_0,age_1,...,category_es_hotelservices,category_es_hyper,category_es_leisure,category_es_otherservices,category_es_sportsandtoys,category_es_tech,category_es_transportation,category_es_travel,category_es_wellnessandbeauty,cluster
0,0,C1093826151,4,M,M348934600,es_transportation,4.55,0,0,0,...,0,0,0,0,0,0,1,0,0,1
1,0,C352968107,2,M,M348934600,es_transportation,39.68,0,0,0,...,0,0,0,0,0,0,1,0,0,1
2,0,C2054744914,4,F,M1823072687,es_transportation,26.89,0,0,0,...,0,0,0,0,0,0,1,0,0,0
3,0,C1760612790,3,M,M348934600,es_transportation,17.25,0,0,0,...,0,0,0,0,0,0,1,0,0,1
4,0,C757503768,5,M,M348934600,es_transportation,35.72,0,0,0,...,0,0,0,0,0,0,1,0,0,1


### Das Ergebnis

Nun können wir uns die Fraud-Raten auf den beiden Clustern anschauen

In [9]:
data_one_hot.groupby('cluster').mean()[['fraud', 'amount']]

Unnamed: 0_level_0,fraud,amount
cluster,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.014644,39.204526
1,0.009053,36.306903


**Fragen bleiben:**
- Was lernen wir hieraus?
- Helfen uns die Cluster?
- Sind meine KMeans Einstellungen sinnvoll
- Ist KMeans überhaupt das richtige Verfahren für dieses Problem?

**Aufgabe**
- amount miteinbeziehen beim Clustern
- verschieden viele Cluster ausprobieren