# Artificial Neural Network untuk Analisa Customer Churn suatu Bank

Customer churn juga dikenal sebagai atrisi pelanggan adalah persentase pelanggan yang berhenti menggunakan produk dan layanan bisnis Anda selama jangka waktu tertentu. Dalam suatu bank, semakin banyak pelanggan yang dimiliki akan semakin banyak keuntungan yang di dapatkan. Dalam dataset ini terdapat berbagai features - features yang akan menjadi evaluasi mengapa suatu pelanggan berhenti menggunakan layanan bank. 

Hasil dari penelitian ini, akan mampu memprediksi untuk data pelanggan baru yang mungkin akan memiliki peluang tinggi untuk berhenti menggunakan bank. Sehingga Pihak bank dapat memberikan special offer untuk pelanggan yang memiliki presentasi tinggi berhenti berlangganan.



### Import Libraries

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf


In [None]:
tf.__version__

'2.4.1'

## Step 1 - Data Preprocessing

### Import Dataset

In [None]:
dataset = pd.read_csv('https://raw.githubusercontent.com/rupuck/dataset/main/data_bank.csv')
X = dataset.iloc[:, 3:-1].values
y = dataset.iloc[:, -1].values

X mengambil dataset mulai dari kolom ke 4, hingga kurang 1 dari belakang, kolom Row Number, CustomerID, Surname, tidak digunakan karena tidak mempengaruhi

In [None]:
print(X)

[[619 'France' 'Female' ... 1 1 101348.88]
 [608 'Spain' 'Female' ... 0 1 112542.58]
 [502 'France' 'Female' ... 1 0 113931.57]
 ...
 [709 'France' 'Female' ... 0 1 42085.58]
 [772 'Germany' 'Male' ... 1 0 92888.52]
 [792 'France' 'Female' ... 1 0 38190.78]]


Y menjadi Dependent Variable kolom terakhir

In [None]:
print(y)

[1 0 1 ... 1 1 0]


### Merubah data kategori menggunakan labelEncoder


Mengubah kolom "Gender" menggunakan LabelEncoder
menjadi 1 atau 0

In [None]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X[:, 2] = le.fit_transform(X[:, 2])

In [None]:
print(X)

[[619 'France' 0 ... 1 1 101348.88]
 [608 'Spain' 0 ... 0 1 112542.58]
 [502 'France' 0 ... 1 0 113931.57]
 ...
 [709 'France' 0 ... 0 1 42085.58]
 [772 'Germany' 1 ... 1 0 92888.52]
 [792 'France' 0 ... 1 0 38190.78]]


menggunakan OneHotEncoder untuk kolom geography

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

In [None]:
print(X)

[[1.0 0.0 0.0 ... 1 1 101348.88]
 [0.0 0.0 1.0 ... 0 1 112542.58]
 [1.0 0.0 0.0 ... 1 0 113931.57]
 ...
 [1.0 0.0 0.0 ... 0 1 42085.58]
 [0.0 1.0 0.0 ... 1 0 92888.52]
 [1.0 0.0 0.0 ... 1 0 38190.78]]


### split dataset menjadi Training set dan Test set

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

### Feature Scaling

Bagian yang sangat penting dalam deep learning. Feature scaling akan dilakukan untuk seluruh data walaupun semua features sudah punya value seperti 0 atau 1.

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

## Step 2 - Membangun ANN

### Inisialisasi ANN

Membuat variable ann yang merupakan representasi (object) dari class sequential yang berisi banyak layers. Seperti yang kita tahu ANN merupakan sequence of layers yang berarti terdiri dari berbagai layers yang saling terhubung.

In [None]:
ann = tf.keras.models.Sequential()


### Menambahkan input layer dan hidden layer pertama

In [None]:
ann.add(tf.keras.layers.Dense(units=6, activation='relu'))
#Menambahkan 6 Neuron dalam dense layer. rectified linear activation function untuk memastikan positif

### Menambahkan hidden layer kedua

In [None]:
ann.add(tf.keras.layers.Dense(units=6, activation='relu'))

### Menambahkan output layer

Pada output layers kita hanya akan membuat 1 neuoron, hal ini karena  hasil yang akan diprediksi merupakan binary yaitu 1 dan 0. Dimana kondisi 1 jika iya dan 0 jika tidak. Perhatikan pada output layer kita juga menggunakan activation sigmoid bukan relu (rectified linear). Karena dengan sigmoid, bukan hanya mendapatkan hasil prediksi, tapi juga dapat probablitasnya

In [None]:
ann.add(tf.keras.layers.Dense(units=1, activation='sigmoid'))


## Step 3 - Training untuk Model ANN

### Melakukan kompilasi layers untuk ANN

In [None]:
ann.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])
#3 parameter yang digunakan optimzer, loss dan metrics

### Training Model ANN menggunakan training set

Menggunakan batch learning sangat efisien untuk artificial neural network. Karena dibandingkan membandingkan secara satu per satu, menggunakan batch learning langsung sesuai dengan nilai yang kita mau. Disini kita akan langsung memprediksi 32 data dengan 32 result.

ANN akan dilatih sebanyak epoch yang ditentukan pada penelitian ini 100 kali

In [None]:
ann.fit(X_train, y_train, batch_size = 32, epochs = 100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<tensorflow.python.keras.callbacks.History at 0x7f118dceb650>

Dari hasil training kita berhasil mendapatkan akurasi sebanyak 86%. berarti dalam 100 observasi, berhasil memprediksi 86 observasi.

## Step 4 - Membuat prediksi dan evaluasi model

### Mencoba memprediksi memakai satu data observasi

dalam test ini akan dimasukan satu data customer dibawah ini dan memprediksi apakah customer akan berhenti layanan dari bank


Geografi : Indonesia

Credit Score: 600

Gender: Pria

umur: 40 tahun

tenor: 3 Tahun

saldo: \$ 60000

Jumlah Produk yang digunakan: 2

Customer memiliki kartu kredit ? Ya

Customer Aktif: Ya

Estimasi Gaji: \$ 50000

Apakah Customer akan meninggalkan bank?

Karena kita hanya memprediksi single observation, kita menggunakan sc.transform bukan fit.transform seperti di atas. Karena fit.transform mengambil standar devisiasi dan rata - rata di training set. Menggunakan sc.transform membantu mengurangi information leaked dalam proses prediksi 

In [None]:
result = ann.predict(sc.transform([[1, 0, 0, 600, 1, 40, 3, 60000, 2, 1, 1, 50000]]))
print(result)
if(result>0,5):
  print("Pelanggan Tidak Akan Meninggalkan Bank")
elif(result<0,5):
  print("Pelanggan Akan Meninggalkan Bank")

[[0.03707996]]
Pelanggan Tidak Akan Meninggalkan Bank


Maka dari itu, model ANN yang telah dibuat, memprediksi pelanggan tidak akan meninggalkan bank. Hanya sekitar 3% kemungkinan pelanggan akan meninggalkan bank.

Nilai dari semua features diinput dalam dua pasang square brackets. Hal ini disebabkan karena metode prediksi selalu dalam bentuk array 2 diemnsi untuk inputnya. Dengan menggunakan [[ ]] membuat values yang kita input menjadi array 2 dimensi. 

Nilai geografi tidak diinput dalam bentuk teks tapi dalam bentuk biner yaitu 1, 0, 0 dalam 3 kolom pertama. Ini mengacu pada metode one-hot-encoded values yang telah dibahas sebeulmnya di bagian data preprocessing di atas. Dan sama seperti sebelumnya, kolom dummy itu ditempatkan dipaling depan.


### Hasil Prediksi menggunakan Test Set

In [None]:
y_pred = ann.predict(X_test)
y_pred = (y_pred > 0.5)
print(np.concatenate((y_pred.reshape(len(y_pred),1), y_test.reshape(len(y_test),1)),1))

[[0 0]
 [0 1]
 [0 0]
 ...
 [0 0]
 [0 0]
 [0 0]]


Pada Matrix diatas, prediksi dan test dibandingkan saling berhadapan dalam suatu matrix. Di sisi pertama jika nilai 0, berarti customer tetap di bank, dn sisi kedua jika hasilnya 0 customer juga tetap di bank. Hasil 1 berarti customer meninggalkan bank

### Confusion Matrix

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
cm = confusion_matrix(y_test, y_pred)
print(cm)
accuracy_score(y_test, y_pred)

[[1520   75]
 [ 205  200]]


0.86

Hasil dari 100 observasi, akurasi mencapai 86%. Berhasil memprediksi 1520 customers tetap di bank, gagal memprediksi 75 data customers tetap di bank. Berhasil memprediksi 205 customers meninggalkan bank, gagal memprediksi 200 customers meninggalkan bank.