Mit diesem neuronalen Netz, soll ermittelt werden ob ein Mitarbeiter, anhand von einigen Faktoren, das Unternehmen verlassen wird. Dazu wurde ein Datensatz mit 15000 HR Daten ausgewertet. Folgende Faktoren sind ermittelt worden:
Zufriedenheit (%)
letzte Evaluation (%)
Anzahl der Projekte (Zahl)
durchschnittliche monatliche Arbeitsstunden (Stunden)
Betriebszugehörigkeit (Jahre)
Arbeitsunfall (ja/nein)
Beförderung in den letzten 5 Jahren (ja/nein)
Abteilung (String)	
Gehalt (low/medium/high)

Import der benötigten Frameworks

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib as mpl
import matplotlib.pyplot as plt
import tensorflow as tf
from sklearn.model_selection import train_test_split
%matplotlib inline

In [None]:
#einlesen der Daten in ein Pandas Datenframe
df = pd.read_csv("datasets/HR_comma_sep.csv")
df.head(5)

In [None]:
#Zuweisung von numerischen Werten für die Abteilungen, für ein einfacheres Datenhandling
mymap = {'accounting':1,'hr':2,'IT':3, 'management': 4 ,'marketing':3, 'product_mng' :5 , 
         'RandD':6,'sales':7,'support':8,'technical':9,}

dfh =df.applymap(lambda s: mymap.get(s) if s in mymap else s)

dfh.head(5)

In [None]:
#Zuweisung von numerischen Werten für das Gehalt, für ein einfacheres Datenhandling#
mymap = {'low':1,'medium':2,'high':3}

dfh1 =dfh.applymap(lambda s: mymap.get(s) if s in mymap else s)

dfh1.head(5)

In [None]:
#Umsortierung der Spalten um die Daten für Tensorflow aufzubereiten
cols = dfh1.columns.tolist()
cols.insert(9, cols.pop(cols.index('left')))
dfh1 = dfh1.reindex(columns= cols)
dfh1.head()

In [None]:
#Übersicht über die Verteilung der Zielwerte
y = dfh1['left'].values
plt.hist(y, bins=50)
plt.xlabel('Zielwert')
plt.ylabel('Anzahl')
plt.title('Verteilung der Zielwerte')
print('Target value min {0:.3f} max {1:.3f} mean {2:.3f} std {3:.3f}'.format(np.min(y), np.max(y), np.mean(y), np.std(y)))

In [None]:
#Übersicht über die Verteilung der einzelnen Atrribute des Datensatzes
F_cols = [col for col in dfh1.columns]
fig = plt.figure(figsize=(25, 25))
plt_count = 0
for col in F_cols:
    plt_count += 1
    plt.subplot(9, 3, plt_count) 
    plt.hist(dfh1[col].values, 50)
    plt.title("Verteilung: "+col)
plt.show()

In [None]:
#Aufteilung in ein Trainings- und ein Testset mit der split Funktion von sklearn
train_set, test_set = train_test_split(dfh1, test_size=0.1, random_state=42)

In [None]:
train_set.head()

In [None]:
#Abspeichern der Pandas Dataframes in CSV Dateien
train_set.to_csv("train.csv", header=None, index=None)

In [None]:
test_set.to_csv("test.csv", header=None, index=None)

In [None]:
# Laden der CSV Dateien in Tensorflow (hier wurden vorbereitete CSV Dateien genutzt)
training_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename='train_prepared.csv',
    target_dtype=np.int,
    features_dtype=np.float32)

testing_set = tf.contrib.learn.datasets.base.load_csv_with_header(
    filename='test_prepared.csv',
    target_dtype=np.int,
    features_dtype=np.float32)

In [None]:
# Trainingsinputs definieren
def get_train_inputs():
    x = tf.constant(training_set.data)
    y = tf.constant(training_set.target)
    #  y = tf.summary.scalar(, training_set.target)
    return x, y

In [None]:
# Testinputs definieren
def get_test_inputs():
    x = tf.constant(testing_set.data)
    y = tf.constant(testing_set.target)
    return x, y

In [None]:
# Auslesen der Trainingsdaten
training_set.data

In [None]:
training_set.target

In [None]:
# Aufbau eines Color Dictionarys um den Scatter Plot visualisieren zu können
colorDict = ["blue", "red"]
colorDict

In [None]:
# Zuweisung der Farben zu den Target Werten
# Blau = Mitarbeiter bleibt
# Rot =Mitarbeiter verlässt das Unternehmen
colors = []
for target in training_set.target:
    colors.append(colorDict[target])

In [None]:
#Daten für die Visualisierung definieren
dataX0 = training_set.data[:,0]
dataX1 = training_set.data[:,1]
dataX2 = training_set.data[:,2]
dataX3 = training_set.data[:,3]
dataX4 = training_set.data[:,4]
dataX5 = training_set.data[:,5]
dataX6 = training_set.data[:,6]
dataX7 = training_set.data[:,7]
dataX8 = training_set.data[:,8]

dataY = training_set.target[:]

# Scatterplots
beispielhaft wurden hier 2 Scatterplots gezeichnet um Abhängigkeiten zwischen den Attributen erkennen zu können.
Im ersten Scatterplot wurden die monatlichen Stunden mit der Zufriedenheit verglichen, hierbei fällt auf, dass sich vor allem zwei Cluster bilden bei Leuten, welche das Unternehmen verlassen.
1. Mitarbeiter, welche sehr wenig arbeiten und dabei unzufrieden sind
2. Mitarbeiter mit einer sehr hohen Zufriedenheit und Arbeitsleistung, diese werden womöglich abgeworben

Der zweite Scatterplot zeigt die Zufriedenheit in Abhängigkeit mit der letzten Mitarbeiterevaluation, hier finden sich drei Cluster
1. Hohe Zufriedenheit, gute Evaluation (Mitarbeiter werden womöglich abgeworben
2. Niedrige Zufriedenheit, gute Evaluation (Mitarbeiter sind unzufrieden und verlassen das Unternehmen)
3. Niedrige Zufriedenheit, schlechte Evaluation (Momöglich unmotivierte Minderleister, welche man garnicht halten möchte)

In dieser Form sind noch viele Scatterplots möglich zu visualisieren. 

In [None]:
plt.scatter(dataX3, dataX1, c=colors, s=1) # , cmap=plt.cm.cool)
plt.xlabel('Monatliche Stunden')
plt.ylabel('Zufriedenheit')
plt.show()

In [None]:
plt.scatter(dataX1, dataX0, c=colors, s=1) # , cmap=plt.cm.cool)
plt.xlabel('Letzte Evaluation')
plt.ylabel('Zufriedenheit')
plt.show()

In [None]:
# Alle Spalten besitzen echte Daten, und die Dimension beträgt 9
feature_columns = [tf.contrib.layers.real_valued_column("", dimension=9)]

In [None]:
#ein Validation Monitor wurde erstellt der beim Training des Classifiers eine Log Datei erstellt,
#welche später ausgewertet werden kann, dies erhöht jedoch die Berechnungszeit stark!
tf.logging.set_verbosity(tf.logging.INFO)
validation_monitor = tf.contrib.learn.monitors.ValidationMonitor(
    training_set.data,
    training_set.target,
    every_n_steps=50)

In [None]:
# Instanziierung des Classifieres, hier wurden 4 Ebenen gewählt mit jeweils 10, 50, 100, 10 Neuronen, dies ergab in Tests das beste Ergebnis
classifier = tf.contrib.learn.DNNClassifier(feature_columns=feature_columns,
                                            hidden_units=[10, 50, 100, 10],
                                            n_classes=2,
                                            model_dir="/tmp/HR_model_final",
                                           config=tf.contrib.learn.RunConfig(save_checkpoints_secs=3))

In [None]:
# Das Trainieren des Classifiers mit Hilfe der Traingsdaten, es wurden 100.000 Schritte gewählt, 
# damit konnte eine Accuracy von 96,XX% erreicht werden
classifier.fit(input_fn=get_train_inputs, steps=100000, monitors=[validation_monitor])

# Loss function mit TensorBoard
Um die Loss Function sichtbar zu machen muss im Terminal folgender Befehl ausgeführt werden:

--logdir=/tmp/HR_model_final

Es wird nun eine Tensorboard Seite erstellt und ein Link generiert auf dem diese angesehen werden kann

In [None]:
#Ausgabe der Genuigkeit unseres erstellten Classifieres mit Hilfe der Test Daten
accuracy_score = classifier.evaluate(input_fn=get_test_inputs, steps=1)["accuracy"]
print("\nTest Accuracy: {0:.1f}%\n".format(100*accuracy_score))

In [None]:
# Klassifizierung von zwei neuen, selbst ausgedachten Mitarbeitern
def new_samples():
  return np.array(
    [[0.7, 0.47, 2, 154, 3, 0, 0, 7, 1],
     [0.59, 0.55, 6, 250, 5, 0, 0, 6, 2]], dtype=np.float32)

In [None]:
predictions = list(classifier.predict_classes(input_fn=new_samples))
predictions

In [None]:
#Einordnung der Mitarbeiter in dem vorher schon gezeigten Scatter Plot
plt.scatter(dataX3, dataX1, c=colors, s=1)
plt.scatter(new_samples()[1,3], new_samples()[1,0], c=["black"], marker="x", s=100)
plt.scatter(new_samples()[0,3], new_samples()[0,0], c=["black"], marker="x", s=100)
plt.show()