<a href="https://colab.research.google.com/github/Konstantin5054232/ausbildungsprojekte/blob/main/07_Bankkunden_gehen_weg/Bankkunden_gehen_weg.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Abwanderung von Bankkunden**

Die Bank begann jeden Monat Kunden zu verlassen. Bankvermarkter haben herausgefunden: Es ist billiger, aktuelle Kunden zu behalten, als neue anzuziehen.
Es ist notwendig vorherzusagen, ob der Kunde die Bank in naher Zukunft verlässt oder nicht. Uns werden historische Daten über das Verhalten der Kunden und die Kündigung von Verträgen mit der Bank vorgelegt.
Es ist notwendig, ein Modell mit einem extrem hohen F1-Maßwert von mindestens 0,59 zu erstellen.

# Datenexploration

In [41]:
# Wir importieren die notwendigen Bibliotheken
import pandas as pd
import numpy as np
from sklearn.metrics import f1_score
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OrdinalEncoder
from sklearn.metrics import f1_score 
from sklearn.utils import shuffle
from sklearn.metrics import roc_auc_score

In [42]:
# Wir laden Tabellen mit Daten
data = pd.read_csv('/content/Churn.csv')

In [43]:
# Wir werden die erhaltenen Daten studieren
data.info()
display(data.shape)
data.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           9091 non-null   float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


(10000, 14)

Unnamed: 0,RowNumber,CustomerId,Surname,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,1,15634602,Hargrave,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,2,15647311,Hill,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,3,15619304,Onio,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,4,15701354,Boni,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,5,15737888,Mitchell,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


**Folgerungen**

Die Tabelle enthält 10.000 Zeilen und 14 Spalten. Die Spalte 'Tenure' enthält Nullwerte. Die Spalten 'RowNumber', 'CustomerID', 'Surname' sind für die Analyse nicht erforderlich.

# Datenvorverarbeitung

In [44]:
# Wir berechnen den arithmetischen Mittelwert und den Median in der Spalte 'Tenure'.
print('mean', data['Tenure'].mean())
print('median', data['Tenure'].median())

mean 4.997690023099769
median 5.0


In [45]:
# Das arithmetische Mittel und der Median für die Spalte 'Tenure' sind praktisch gleich.
# Wir werden die Nullwerte mit dem Median füllen.
median_days_employed = data['Tenure'].median()
data['Tenure'] = data['Tenure'].fillna(median_days_employed)

# Wir werden prüfen, ob die Tabelle Nullwerte enthält.
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  float64
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(3), int64(8), object(3)
memory usage: 1.1+ MB


In [46]:
# Wir werden nicht benötigte Spalten für die Analyse entfernen
data.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1, inplace = True)

display(data.shape)
data.head()

(10000, 11)

Unnamed: 0,CreditScore,Geography,Gender,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited
0,619,France,Female,42,2.0,0.0,1,1,1,101348.88,1
1,608,Spain,Female,41,1.0,83807.86,1,0,1,112542.58,0
2,502,France,Female,42,8.0,159660.8,3,1,0,113931.57,1
3,699,France,Female,39,1.0,0.0,2,0,0,93826.63,0
4,850,Spain,Female,43,2.0,125510.82,1,1,1,79084.1,0


**Folgerungen**

Nullwerte sind ausgefüllt, unnötige Spalten werden entfernt.

# Datenaufbereitung

In [47]:
# Wir werden die direkte Codierung auf die Tabelle anwenden
data_ohe = pd.get_dummies(data, drop_first=True)
display(data_ohe.shape)
display(data_ohe.head())

(10000, 12)

Unnamed: 0,CreditScore,Age,Tenure,Balance,NumOfProducts,HasCrCard,IsActiveMember,EstimatedSalary,Exited,Geography_Germany,Geography_Spain,Gender_Male
0,619,42,2.0,0.0,1,1,1,101348.88,1,0,0,0
1,608,41,1.0,83807.86,1,0,1,112542.58,0,0,1,0
2,502,42,8.0,159660.8,3,1,0,113931.57,1,0,0,0
3,699,39,1.0,0.0,2,0,0,93826.63,0,0,0,0
4,850,43,2.0,125510.82,1,1,1,79084.1,0,0,1,0


In [48]:
# Wir werden die Zielzeichen und Bedingungen hervorheben
target = data_ohe['Exited']
features = data_ohe.drop('Exited', axis=1)

# Wir werden die Daten in Stichproben zerlegen.
features_train_1, features_valid, target_train_1, target_valid = train_test_split(features, target, test_size=0.20, random_state=12345)
features_train, features_test, target_train, target_test = train_test_split(features_train_1, target_train_1, test_size=0.25, random_state=12345)

# Wir prüfen, ob die Daten korrekt verteilt wurden.
print('{:.0%}'.format(target_train.shape[0]/target.shape[0]))
print('{:.0%}'.format(target_valid.shape[0]/target.shape[0]))
print('{:.0%}'.format(target_test.shape[0]/target.shape[0]))

60%
20%
20%


# Aufgabenforschung

## Modelltraining

In [49]:
# Wir werden das Modell trainieren, den F1-Indikator messen
model = LogisticRegression(solver='liblinear', random_state = 12345) 
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
f1_score(target_valid, predicted_valid)

0.09896907216494845

In [50]:
# Wir werden das Modell trainieren, den F1-Indikator messen
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
f1_score(target_valid, predicted_valid)

0.5165876777251184

In [51]:
# Wir werden das Modell trainieren, den F1-Indikator messen
model = RandomForestClassifier(random_state=12345)
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
f1_score(target_valid, predicted_valid)

0.5697674418604651

## Bekämpfung des Ungleichgewichts

In [52]:
# Wir werden die Gewichte der Klassen ausgeglichen machen und sehen, wie sich F1 ändert
model = LogisticRegression(random_state=12345, solver='liblinear', class_weight='balanced')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
f1_score(target_valid, predicted_valid)

0.4451313755795981

In [53]:
# Wir werden die Gewichte der Klassen ausgeglichen machen und sehen, wie sich F1 ändert
model = DecisionTreeClassifier(random_state=12345, class_weight='balanced')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
f1_score(target_valid, predicted_valid)

0.5151148730350664

In [54]:
# Wir werden die Gewichte der Klassen ausgeglichen machen und sehen, wie sich F1 ändert
model = RandomForestClassifier(random_state=12345, class_weight='balanced')
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
f1_score(target_valid, predicted_valid)

0.5481927710843373

## Erhöhen und Verringern der Stichprobe

In [55]:
# Wir werden die Probe erhöhen
def upsample(features, target, repeat):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_upsampled = pd.concat([features_zeros] + [features_ones] * repeat)
    target_upsampled = pd.concat([target_zeros] + [target_ones] * repeat)
    
    features_upsampled, target_upsampled = shuffle(features_upsampled, target_upsampled, random_state=12345)
    
    return features_upsampled, target_upsampled

features_upsampled, target_upsampled = upsample(features_train, target_train, 20)

In [56]:
# Wir werden sehen, wie sich der F1-Wert nach der Erhöhung der Stichprobe geändert hat
model = LogisticRegression(random_state=12345, solver = 'liblinear')
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_valid)
display(f1_score(target_valid, predicted_valid))

0.3518747424804285

In [57]:
# Wir werden sehen, wie sich der F1-Wert nach der Erhöhung der Stichprobe geändert hat
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_valid)
display(f1_score(target_valid, predicted_valid))

0.484394506866417

In [58]:
# Wir werden sehen, wie sich der F1-Wert nach der Erhöhung der Stichprobe geändert hat
model = RandomForestClassifier(random_state=12345)
model.fit(features_upsampled, target_upsampled)
predicted_valid = model.predict(features_valid)
display(f1_score(target_valid, predicted_valid))

0.5942408376963352

In [59]:
# Wir werden die Probe verringern
def downsample(features, target, fraction):
    features_zeros = features[target == 0]
    features_ones = features[target == 1]
    target_zeros = target[target == 0]
    target_ones = target[target == 1]

    features_downsampled = pd.concat(
        [features_zeros.sample(frac=fraction, random_state=12345)] + [features_ones])
    target_downsampled = pd.concat(
        [target_zeros.sample(frac=fraction, random_state=12345)] + [target_ones])
    
    features_downsampled, target_downsampled = shuffle(
        features_downsampled, target_downsampled, random_state=12345)
    
    return features_downsampled, target_downsampled

features_downsampled, target_downsampled = downsample(features_train, target_train, 0.2)

In [60]:
# Wir werden sehen, wie sich der Wert von F1 nach der Reduzierung der Stichprobe geändert hat
model = LogisticRegression(random_state=12345, solver = 'liblinear')
model.fit(features_downsampled, target_downsampled)
predicted_valid = model.predict(features_valid)
display(f1_score(target_valid, predicted_valid))

0.44271844660194176

In [61]:
# Wir werden sehen, wie sich der Wert von F1 nach der Reduzierung der Stichprobe geändert hat
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_downsampled, target_downsampled)
predicted_valid = model.predict(features_valid)
display(f1_score(target_valid, predicted_valid))

0.4972200158856236

In [62]:
# Wir werden sehen, wie sich der Wert von F1 nach der Reduzierung der Stichprobe geändert hat
model = RandomForestClassifier(random_state=12345)
model.fit(features_downsampled, target_downsampled)
predicted_valid = model.predict(features_valid)
display(f1_score(target_valid, predicted_valid))

0.5821517931609674

## Schwellenwert ändern

In [63]:
model = LogisticRegression(random_state=12345, solver='liblinear')
model.fit(features_train, target_train)
probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

print('roc_auc_score', roc_auc_score(target_valid, probabilities_one_valid))
print()

for threshold in np.arange(0, 0.5, 0.05):
    predicted_valid = probabilities_one_valid > threshold
    print('threshold {:.2f}'.format(threshold), 'f1_score', f1_score(target_valid, predicted_valid))

roc_auc_score 0.6711395906626906

threshold 0.00 f1_score 0.3518747424804285
threshold 0.05 f1_score 0.3546511627906977
threshold 0.10 f1_score 0.3812129502963976
threshold 0.15 f1_score 0.39999999999999997
threshold 0.20 f1_score 0.40498899486427
threshold 0.25 f1_score 0.4075829383886256
threshold 0.30 f1_score 0.36494597839135656
threshold 0.35 f1_score 0.3130434782608696
threshold 0.40 f1_score 0.23670668953687823
threshold 0.45 f1_score 0.1511627906976744


In [64]:
model = RandomForestClassifier(random_state=12345)
model.fit(features_train, target_train)
probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]

print('roc_auc_score', roc_auc_score(target_valid, probabilities_one_valid))
print()

for threshold in np.arange(0, 0.5, 0.05):
    predicted_valid = probabilities_one_valid > threshold
    print('threshold {:.2f}'.format(threshold), 'f1_score', f1_score(target_valid, predicted_valid))

roc_auc_score 0.860190480160674

threshold 0.00 f1_score 0.3654257595207531
threshold 0.05 f1_score 0.44823788546255505
threshold 0.10 f1_score 0.5124835742444153
threshold 0.15 f1_score 0.5631216526396328
threshold 0.20 f1_score 0.6014109347442681
threshold 0.25 f1_score 0.6235059760956175
threshold 0.30 f1_score 0.6229143492769743
threshold 0.35 f1_score 0.6244019138755982
threshold 0.40 f1_score 0.6193548387096774
threshold 0.45 f1_score 0.6134800550206327


In [65]:
# Wir ermitteln den optimalen Wert des n_estimators-Hyperparameters
for est in range (10, 100, 5):
    model = RandomForestClassifier(random_state=12345, n_estimators = est)
    model.fit(features_train, target_train)
    probabilities_valid = model.predict_proba(features_valid)
    probabilities_one_valid = probabilities_valid[:, 1]
    predicted_valid = probabilities_one_valid > 0.35
    print('est', est, 'f1_score', f1_score(target_valid, predicted_valid))

est 10 f1_score 0.5957446808510638
est 15 f1_score 0.5988165680473373
est 20 f1_score 0.5929526123936817
est 25 f1_score 0.6136101499423299
est 30 f1_score 0.6242638398115431
est 35 f1_score 0.6225961538461539
est 40 f1_score 0.6207729468599034
est 45 f1_score 0.6211764705882353
est 50 f1_score 0.619047619047619
est 55 f1_score 0.6179640718562874
est 60 f1_score 0.6200241254523522
est 65 f1_score 0.6244019138755982
est 70 f1_score 0.6252983293556085
est 75 f1_score 0.6235011990407674
est 80 f1_score 0.6168674698795181
est 85 f1_score 0.6159334126040428
est 90 f1_score 0.6131736526946108
est 95 f1_score 0.6179640718562874


**Folgerungen**

Nachdem wir die Modelle trainiert und Prognosen erstellt hatten, sahen wir, dass F1 auf einem niedrigen Niveau war.

Der Klassenausgleich lieferte nicht das erhoffte Ergebnis.

Durch die Erhöhung der Stichprobe wurde der F1-Wert für das RandomForestClassifier-Modell erhöht, er bleibt jedoch auf einem relativ niedrigen Niveau, wobei die Abnahme der Stichprobe den F1-Wert für das angegebene Modell verringerte.

Durch einen Schott in der Schwellenwertschleife wurde festgestellt, dass der Wert F1 für das RandomForestClassifier-Modell den höchsten Wert bei einem Schwellenwert von 0,35 erhält. Als nächstes wird nach dem optimalen Wert für den Hyperparameter n_estimators gesucht, der 65 ist.

Für die Modelle Logistic Regression und Random Forest Classifier wurde roc_auc gemessen. Im ersten Fall ist dieser Indikator 0,67, die F1-Metrik befindet sich ebenfalls auf einem ziemlich niedrigen Niveau. Bei Verwendung des Random Forest Classifier ist der roc_auc-Wert deutlich höher als 0,86, wobei die F1-Metrik auf einem hohen Niveau liegt.

# Testen des Modells

In [66]:
# Wir werden die Tests in einer Testprobe durchführen
model = RandomForestClassifier(random_state=12345, n_estimators=65)
model.fit(features_train, target_train)
probabilities_test = model.predict_proba(features_test)
probabilities_one_test = probabilities_test[:, 1]
predicted_test = probabilities_one_test > 0.35
print('f1_score', f1_score(target_test, predicted_test), 'roc_auc_score', roc_auc_score(target_test, predicted_test))

f1_score 0.5939086294416243 roc_auc_score 0.7485801573311248


# Allgemeine Schlussfolgerung

Unsere Aufgabe in diesem Projekt war es, ein Modell zu entwickeln, das vorhersagen kann, ob der Kunde die Bank in naher Zukunft verlässt oder nicht. Um das Problem zu lösen, erhielten wir eine statistische Tabelle mit verschiedenen Parametern und einem Zielmerkmal.

Während der Aufgabe wurde eine Datendatei hochgeladen, die Daten untersucht und vorverarbeitet.

Drei Modelle wurden trainiert, die Qualitätsmetriken waren jedoch auf einem niedrigen Niveau, die Modelle sind nicht verwendbar. Um diesen Fehler zu beheben, wurde versucht, den Wert von Metriken durch Ausgleich von Klassen zu erhöhen. Die Metriken haben sich verbessert, das Ziel der Aufgabe wurde jedoch nicht erreicht. Als nächstes wurde eine Zunahme und Abnahme der Stichprobe durchgeführt, was ebenfalls nicht das gewünschte Ergebnis erzielte.

Der erforderliche Wert der F1-Metrik wurde erreicht, indem die Schwellenwertwerte für das RandomForestClassifier-Modell überbohrt wurden.

Das Testen des Modells hat bestätigt, dass das gewünschte Ergebnis erreicht wurde. Das Modell kann verwendet werden, um den Rückzug von Kunden aus der Bank vorherzusagen.