# FOM - Anwendungsfelder der Business Analytics am Beispiel von Fraud Detection im von Kreditkartentransaktionen

In diesem Jupyter Notebook soll der nicht-überwachte K-Means Algorithmus für das vollautomatische Clustering von Kreditkartentransaktionen verwendet werden. Dieser K-Means Algortihmus soll auf den in einer Kreditkartentransaktion bezahlten Geldbetrag angewandt werden, sodass im Anschluss geprüft werden kann, zu welchem Cluter eine Kreditkarte gehört. Mit diesem Vorgehen kann das Verwendungsprofil einer Kreditkarte identifiziert werden.

<b>Für dieses Vorhaben werden folgende Schritte unternommen:</b>
1. Import aller benötigten Python Packages
2. Laden der Daten aus dem AWS S3 Bucket
3. 

Im folgenden wird mit dem Import alles benötigten Python Packages begonnen.

In [9]:
# import python packages required for k-means-clustering
import os
import io
import boto3
import json
import pandas as pd
from sagemaker import KMeans, get_execution_role

Daran anschließend werden zunächst die benötigten Trainings Daten importiert. Da diese in einem S3 Bucket gehalten werden, muss zunächst der <code>Boto3 Client</code> initialisiert werden.

In [4]:
s3_client = boto3.client('s3')
bucket_name = 'anwendungsfelder-big-data-fraud-detection-ieee-cis-data-set'

Der S3 Client wird nun für die Erstellung einer Liste aller in dem S3 Bucket enthaltenden Elemente verwendet.

In [14]:
obj_list = s3_client.list_objects(Bucket=bucket_name)
for element in obj_list:
    print(element)

ResponseMetadata
IsTruncated
Marker
Contents
Name
Prefix
MaxKeys
EncodingType


Da der Inhalt benötigt wird, wird im folgenden der Key <code>Contents</code> betrachtet.

In [22]:
i = 0
for content_element in obj_list['Contents']:
    print("{}: {}".format(str(i), content_element['Key']))
    i += 1

0: data/
1: data/ieee_cis_train_cropped/
2: data/ieee_cis_train_cropped/Definite+cropped+ieeecis+data/2020/01/20/95edc928-d16f-4c73-9c76-0c6b03e7b2a2.csv.metadata
3: data/ieee_cis_train_cropped/Definite+cropped+ieeecis+data/2020/01/20/final_cropped_data.csv
4: data/ieee_cis_train_cropped/Unsaved/2020/01/18/63c36171-c759-4f56-bbc6-923798bacddf.csv.metadata
5: data/ieee_cis_train_cropped/Unsaved/2020/01/18/train_cropped_transaction_identity.csv
6: data/sample_submission.csv
7: data/test_identity/
8: data/test_identity/test_identity.csv
9: data/test_transaction/
10: data/test_transaction/test_transaction.csv
11: data/train_identity/
12: data/train_identity/train_identity.csv
13: data/train_transaction/
14: data/train_transaction/train_transaction.csv
15: result/
16: result/kmeans-2020-01-21-19-36-57-444/output/model.tar.gz


Die für diesen Anwendungsfall benötigten Daten liegen auf Index 3 (<code>data/ieee_cis_train_cropped/Definite+cropped+ieeecis+data/2020/01/20/final_cropped_data.csv</code>). Diese wurden bereits unter Verwendung von AWS Glue und AWS Athena vorbereitet.</br>
Nun wird ein Array aus bestehend aus den in dem Bucket enthaltenden Element Keys erstellt und spezifiziert auf Index drei zugegriffen, sodass die Daten dann aus dem S3 Bucket geladen werden können.

In [25]:
# store each object key in a file array and print its length
file_array = []
for content_element in obj_list['Contents']:
    file_array.append(content_element['Key'])

print('Number of elements in array: {}'.format(len(file_array)))

Number of elements in array: 17


In [27]:
# get required file from array
required_file = file_array[3]
print(required_file)

data/ieee_cis_train_cropped/Definite+cropped+ieeecis+data/2020/01/20/final_cropped_data.csv


In [36]:
s3_file = s3_client.get_object(Bucket=bucket_name, Key=required_file)
print('Type of object: {}'.format(str(type(s3_file))))

result_file = s3_file['Body'].read()
print('Type of object: {}'.format(str(type(result_file))))

Type of object: <class 'dict'>
Type of object: <class 'bytes'>
