### k-Nächste Nachbarn Verfahren auf DMC 2010 Daten

#### Versionsgeschichte
- 1.0 05.10.2022 Willi Hahn Initialversion
- 2.0 07.05.2023 Willi Hahn Anapssung für DAML Kurs SS2023 


In [None]:
# notwendige Bibliotheken importieren und Verbesserung der Laufzeitkonfiguration
import pandas as pd
import numpy as np
from collections import Counter
_ = pd.set_option('display.max_columns', None) # damit mehr als 20 Spalten angezeigt werden.
#                                                    _ =  damit Objektausgabe unterdrückt wird.
pd.set_option('display.min_rows', 15) # damit nicht nur 10 Zeilen mit  ... dazwischen ausgegeben werden
pd.set_option('display.max_rows', 500) # damit nicht nur 10 Zeilen mit  ... dazwischen ausgegeben werden
import seaborn as sns #importing Seaborn's for plots
from sklearn import metrics as met 
import matplotlib.pyplot as plt #Plot Bibliothek
from sklearn.model_selection import train_test_split

from sklearn.neighbors import KNeighborsClassifier



In [None]:
# Daten für Training einLesen 

#path = 'c:/myBox/Projekte/FHDW/Kurs DAML/python/dmc2010_train.txt' # für lokale Dateien
path = 'https://raw.githubusercontent.com/FHDW-DAML/22Q4/main/dmc2010_train.txt'  # für Colab

# Datentypen benennen
num_cols = ['numberitems', 'weight', 'remi', 'cancel', 'used', 'w0', 'w1',
                'w2', 'w3', 'w4', 'w5', 'w6', 'w7', 'w8', 'w9', 'w10']
date_cols = ['date', 'datecreated', 'deliverydatepromised', 'deliverydatereal']
cat_cols = ['delivpostcode', 'advertisingdatacode', 'salutation', 'title',
                'domain', 'newsletter', 'model', 'paymenttype', 'deliverytype',
                'invoicepostcode', 'voucher', 'case', 'gift', 'entry', 'points',
                'shippingcosts']
target_col = 'target90'

df = pd.read_csv(path, sep=';', index_col='customernumber', parse_dates=date_cols, low_memory=False)
#df.info()




In [None]:
# Datenvorbereitung  
# Spalten wegen zu wenig Information entfernen
#df.drop(columns=['delivpostcode'], inplace=True, axis=1)
df.drop(columns=['points'], inplace=True, axis=1)
df.drop(columns=['title'], inplace=True, axis=1)


# Alternative für delivpostcode: statt Entfernen, fehlende Daten mit einer Konstanten füllen.
df['delivpostcode'] = df['delivpostcode'].fillna(-3)
# dann auch fehlerhafte Daten korrigieren
df['delivpostcode'] = df['delivpostcode'].replace(['Nl'],-1)
df['delivpostcode'] = df['delivpostcode'].replace(['EN'],-2)

# Encoding der string variablen advertisingdatacode
# Bitte die nicht benutzte Variante auskommentieren!
#
# Methode 1 Codieren als aufsteigende Ganzzahl
#df['advertisingdatacode']= df['advertisingdatacode'].astype('category').cat.codes
# Methode 2 Codieren mit one hot encoding
df['advertisingdatacode']=df['advertisingdatacode'].astype('string')
# ersetze alle advertisingdatacode, die Train- oder Eval-Daten fehlen durch AA
df['advertisingdatacode']=df['advertisingdatacode'].replace(['AA','AC','AJ','AS','AU','AS','BH','BG','BN','BU','BW'], 'AA') 
#print (df['advertisingdatacode'].value_counts(ascending=True) )
df = pd.get_dummies(df, columns = ['advertisingdatacode'], prefix='adcode', prefix_sep='_', drop_first=False)
#df.info()

# Üngültige Werte behandeln
# Folgende Korrektur von invoicepostcode nur notwendig für die Evaluaierungdaten
# to_numeric wandelt ?? in NaN, der dann durch den median ersetzt wird
df['invoicepostcode'] = pd.to_numeric(df['invoicepostcode'], errors='coerce').round()
df['invoicepostcode'].fillna(df['invoicepostcode'].median(), inplace=True)
df['invoicepostcode']=df['invoicepostcode'].astype(np.int64)

#deliverydatereal und 0000-00-00 ca 17% in Trainings- und Evaluierungsdaten
df['deliverydatereal'] = df['deliverydatereal'].astype('string')
df.replace({'deliverydatereal': {'0000-00-00': df['date'].astype('string')}}, inplace=True)
df['deliverydatereal'] = pd.to_datetime(df['deliverydatereal'], infer_datetime_format=True)
#df['deliverydatereal'].info()
#print (df['deliverydatereal'].value_counts().sort_index() )

#df[(df['deliverydatepromised'] > '2013-01-01')]
df['deliverydatepromised']= df['deliverydatepromised'].replace('4746', '2009', regex=True) 
# jahr 4746 wird durch , errors="coerce" abgedeckt, weil dadurch der out of bounds error ignoriert wird
df['deliverydatepromised'] = pd.to_datetime(df['deliverydatepromised'], infer_datetime_format=True)
#df.info()


# Datumsfelder als Anzahl Tage auf Bezugsdatum umwandeln
df['DaysToFirstorder'] = (df['date'] - df['datecreated']).dt.days
df['DaysAccountAge'] = (pd.to_datetime("2009-05-01") - df['datecreated']).dt.days # fixes Datum

#df['deliverydatepromised'] = df['deliverydatepromised'].fillna(df['date'], inplace=True )
#df['deliverydatereal'] = df['deliverydatereal'].fillna(df['date'], inplace=True )
df["deliverydatepromised"] = pd.to_datetime(df["deliverydatepromised"], errors="coerce")
df["deliverydatereal"] = pd.to_datetime(df["deliverydatereal"], errors="coerce")
df['DaysDeliveryPromised'] = ((df['deliverydatereal'] - df['deliverydatepromised']).dt.days).astype('int64')
#df['DaysToFirstorder'].unique()
#df['DaysAccountAge'].unique()
#df['DaysDeliveryPromised'].unique()
print (df[['date', 'DaysToFirstorder', 'datecreated', 'DaysAccountAge','deliverydatepromised', 'deliverydatereal','DaysDeliveryPromised']])
df.drop(date_cols, axis=1, inplace=True)



In [None]:
# Trainings- und Testdaten aufteilen

TESTANTEIL=0.25

#df.info()

# Trennung von unabhängigen Variablen und abhängiger Zielvariable
y = df['target90']
x = df.drop(['target90'], axis = 1)
#x.head().T
#y.head().T
classratio = y.sum() / y.count()
x_columns = x.columns

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=TESTANTEIL, random_state=42)

# und prüfen durch ansehen
#print (x_train.shape)
#print (y_train.shape)
#print (x_test.shape)
#print (y_test.shape)
#x_test.info()
#x_train.head().T
#y_train.head().T

print('\nKlassenverhältnis target90 TRAIN: %.3f' % (y_train.sum() / y_train.count()),\
      '\nKlassenverhältnis target90 TEST:  %.3f' % (y_test.sum() / y_test.count()),\
      '\nKlassenverhältnis target90 Gesamt:  %.3f' % classratio)



In [None]:
## Datenvorbereitung : Variablen skalieren
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
#
SCALER = StandardScaler()
#SCALER = MinMaxScaler()
#
x_train = SCALER.fit_transform(x_train)
x_test = SCALER.transform(x_test)

# Retain feature names after SCALER reduces to numpy series instead of pandas data frame
x_train = pd.DataFrame(x_train, columns = x_columns)
x_test = pd.DataFrame(x_test, columns = x_columns)
#print (x_train)


In [None]:
# Balancierung zwischen Mehr- und Minderheitsklassen
# Kommentieren Sie eine Variante durch Entfernen des Kommentarzeichen aus.
# Fügen Sie das Kommentarzeichen für Ihr nächstes Experiment wieder ein.

# Variante RandomUnderSampler
#from imblearn.under_sampling import RandomUnderSampler
#under_sample = RandomUnderSampler(random_state=42)
#x_train, y_train = under_sample.fit_resample(x_train, y_train)


# Variante RandomOverSampler
#from imblearn.over_sampling import RandomOverSampler
#over_sample = RandomOverSampler(sampling_strategy='auto', random_state=42)
#x_train, y_train = over_sample.fit_resample(x_train, y_train)

# Variante SMOTE
#from imblearn.over_sampling import SMOTE
#sm = SMOTE(random_state=42, sampling_strategy='minority', k_neighbors=3)
#x_train, y_train = sm.fit_resample(x_train, y_train)


# die nächsten Varianten nach https://machinelearningmastery.com/undersampling-algorithms-for-imbalanced-classification/
# Variante NearMiss
#from imblearn.under_sampling import NearMiss
#under_sample = NearMiss(version=3, n_neighbors=3)
#x_train, y_train = under_sample.fit_resample(x_train, y_train)

# Variante EditedNearestNeighbours
#from imblearn.under_sampling import EditedNearestNeighbours
#under_sample = EditedNearestNeighbours(n_neighbors=3)
#x_train, y_train = under_sample.fit_resample(x_train, y_train)

# Variante NeighbourhoodCleaningRule
#from imblearn.under_sampling import NeighbourhoodCleaningRule
#under_sample = NeighbourhoodCleaningRule(n_neighbors=3, threshold_cleaning=0.8)
#x_train, y_train = under_sample.fit_resample(x_train, y_train)


print(f"Training target statistics: {Counter(y_train)}")
print(f"Testing target statistics: {Counter(y_test)}")




In [None]:
## Modelltraining
#
# Parameter nach https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

K_PARAM = 17 # Anzahl Nachbarn für die k-NN Vorhersage
METRIC = 'euclidean' # cosine oder euclidean Metrik für die Abstandsberechnung der Nachbarn
N_JOBS=-1 # int, default=None, -1 means using all processors.
WEIGHTS='uniform' # weights{‘uniform’, ‘distance’} or callable, default=’uniform’

classifier = KNeighborsClassifier(n_neighbors=K_PARAM, metric=METRIC, n_jobs=N_JOBS, weights=WEIGHTS)
classifier.fit(x_train, y_train)
y_predtest = classifier.predict(x_test)
y_predtrain = classifier.predict(x_train)




In [None]:
# Wahrheitsmatrix und Maßzahlen der Vorhersage untersuchen

# Adding classes names for better interpretation
classes_names = ['Kein Kauf\n(negativ)','Kauf   \n(positiv)']
cm = met.confusion_matrix(y_test, y_predtest);
cmdf = pd.DataFrame(cm, columns=classes_names, index = classes_names); # data frame bilden
tn, fp, fn, tp = cm.ravel();

# Seaborn's heatmap to visualize the confusion matrix
sns.heatmap(data=cmdf, cmap='gray_r', vmin=0, vmax=0,
                 annot=[[f"TN={tn:.0f}", f"FP={fp:.0f}"], [f"FN={fn:.0f}", f"TP={tp:.0f}"]],
                 linewidths=0.5, linecolor='k',  # draw black grid lines
                 clip_on=False,                  # inhibits clipping of right and lower square lines
                 fmt='', annot_kws={'fontsize': 16}, cbar=False, square=True);

plt.title("Wahrheitsmatrix Testdaten (Split="+str(TESTANTEIL)+", Metrik="+ METRIC + " "+str(K_PARAM)+"-NN");
plt.ylabel('Aktuelle Testdaten');
plt.xlabel('Vorhersagen');

print("\nHyperparameter k = "+str(K_PARAM))
print("Testdatenanteil= "+str(TESTANTEIL))
print("Abstandsmetrik = "+str(METRIC))
print ("\nTP:TN:FP:FN = " + str (tp) +":" + str (tn) +":" + str (fp) +":" + str (fn) )
print ("Genauigkeit = {:.2f}".format(met.accuracy_score(y_test, y_predtest)))
print ("Recall = {:.2f}".format(met.recall_score(y_test, y_predtest, average='binary')))
print ("Präzision = {:.2f}".format(met.precision_score(y_test, y_predtest, average='binary')))
print ("F1 Wert = {:.2f}".format(met.f1_score(y_test, y_predtest, average='binary')))
print ("Speziftät = {:.2f}".format(tn /(tn+fp)))
print ("TPR = {:.2f}".format(tp /(tp+fp)))
print ("FPR = {:.2f}".format(fp /(tn+fn)))
print ("TNR = {:.2f}".format(tn /(tn+fn)))
print ("FNR = {:.2f}".format(fn /(tp+fp)))

print ("\nUmsatzsteigerung für die Testdaten = {:.2f}".format(1.5*tn - 5.0*fn)+" €")
print ("Umsatzsteigerung für hochgerechnet für alle Daten = {:.2f}".format((1.5*tn - 5.0*fn) * (1/TESTANTEIL) ) +" €")
print ("\nUmsatzsteigerung für baseline (Gutschein an Alle) = {:.2f}".format((df.shape[0] * (1-classratio) * 1.5) -\
                                                                           (df.shape[0] * classratio * 5)) +" €")

