In [None]:
#Import Library 
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objs as go
import plotly.figure_factory as ff

from sklearn.naive_bayes import GaussianNB
from sklearn.ensemble import AdaBoostClassifier, GradientBoostingClassifier
from xgboost import XGBClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

import warnings
warnings.filterwarnings ("ignore")

Pendahuluan
Secara umum, data set ini dapat digunakan untuk 2 tujuan bisnis yang berbeda, yaitu

1. Memprediksi hasil dari marketing campaign untuk setiap pelanggan dan klarisifikasi factor yang sangat berpengaruh dalam hasil kampanye. Hal ini membantu untuk menemukan cara untuk membuat marketing campaign lebih efesien.

2. Menemukan costumer segmentasi, dengan menggunakan data untuk costumer, siapa yang akan mensubscribe bentuk deposit. Hal ini akan mengidentifikasi profile dari seorang customer, costumer siapa saja yang lebih mungkin memperoleh produk dan mengembangkan kampanye pemasaran yang lebih bertarget.

Namun, pada kesempatan kali ini hanya akan fokus dibahas untuk nomor 1 saja.

In [None]:
#Load Dataset
data = pd.read_csv('../input/bank-marketing-dataset/bank.csv')
data.head(3)

Penjelasan Kolom

Kolom Predictor
* age = Umur pelanggan
* job = Kategori pekerjaan pelanggan
* marital = Status pernikahan pelanggan
* education = Kategori pendidikan pelanggan
* defaults = Apakah memiliki kredit secara umum?
* balance = Pendapatan pelanggan
* housing = Apakah rumahnya mengontrak?
* loan = Apakah mempunyai pimnjaman pribadi?
* contact = Kategori komunikasi pelanggan
* duration = Komunikasi terakhir dengan pelanggan dalam satuan detik. Catatan penting: kolom durasi sangat mempengaruhi kolom target. Misalnya jika DURATION = 0, maka Y= 'No'.
* day = Hari terakhir komunikasi dengan pelanggan.
* month = Bulan terakhir komunikasi dengan pelanggan
* campaign = Jumlah kontak yang dilakukan selama kampanye ini dan untuk klien ini
* pdays = jumlah hari yang berlalu setelah klien terakhir dihubungi dari kampanye sebelumnya, 999 berarti klien sebelumnya tidak dihubungi
* previous = jumlah kontak yang dilakukan sebelum kampanye ini dan untuk klien ini.
* poutcome = hasil dari kampanye pemasaran sebelumnya

Kolom Target
* deposit = Apakah pelanggan berlangganan deposit?

## EDA (Exploratory Data Analysis)

In [None]:
print ("Jumlah baris adalah ", data.shape[0])
print ("Jumlah kolom adalah ", data.shape[1])

In [None]:
#Cek info dari data set
data.info()

Berdasarkan info yang dapat diuraikan:
* tidak memiliki missing value.
* terdapat 7 kolom numeric
* terdapat 10 kolom categorical

In [None]:
data.describe()

Jika dilihat dari variable prediktor duration, durasi saat marketing campaign adalah 2 detik, dan maksimal 3881 detik atau sekitar 1 jam 7 menit. Kita beranggapan bahwa jika semakin kecil duration saat melakukan marketing campaign, maka peluang seorang pelanggan berlangganan deposit akan semakin kecil.

In [None]:
#Cek Setiap nilai unik pada kolom kategori

kolom_kategori = data.dtypes[data.dtypes == 'object'].index

for subscript in kolom_kategori:
    print ("Nama kolom: ", subscript);
    print (data[subscript].unique());
    print ("--" * 50);

In [None]:
#Cek perbandingan target
target = data.deposit.value_counts().rename_axis('Name').reset_index(name='Frekuensi')
fig = px.bar(target, x = "Name", y= "Frekuensi", color = "Frekuensi", title = "Perbandingan Hasil Marketing Campaign")
fig.show()

Berdasarkan hasil plot di atas, terlihat bahwa hasil marketing campaign lebih banyak yang tidak berlangganan. Namun, perbedaannya tidak terlalu jauh. Oleh karena itu, dapat disimpulkan pelaksanaan marketing campaign sudah cukup bagus.

## Feature Engineering

In [None]:
#Melakukan pelabelan pada variabel prediktor default, housing, loan dan deposit
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
cols = ['default', 'housing', 'loan', 'deposit']

for subscript1 in cols:
    data[subscript1] = le.fit_transform(data[subscript1])

In [None]:
#Pisahkan variable prediktor (independent) dan variable target (dependent)
prediktor = pd.get_dummies(data.drop('deposit', axis = 1))
target = data['deposit']

In [None]:
#Pisahkan data training dan data testing, dengan porsi 80:20
X_train, X_test, y_train, y_test = train_test_split (prediktor, target, test_size = 0.2, random_state = 0)

## Modelling

In [None]:
model1 = GaussianNB()
model1.fit(X_train, y_train)
predicted_train = model1.predict(X_train)
predicted_test = model1.predict(X_test)
print ("Training:", accuracy_score(y_train, predicted_train))
print ("Testing:", accuracy_score(y_test, predicted_test))

In [None]:
model2 = RandomForestClassifier()
model2.fit(X_train, y_train)
predicted_train2 = model2.predict(X_train)
predicted_test2 = model2.predict(X_test)
print ("Training:", accuracy_score(y_train, predicted_train2))
print ("Testing:", accuracy_score(y_test, predicted_test2))

In [None]:
model3 = LogisticRegression()
model3.fit(X_train, y_train)
predicted_train3 = model3.predict(X_train)
predicted_test3 = model3.predict(X_test)
print ("Training:", accuracy_score(y_train, predicted_train3))
print ("Testing:", accuracy_score(y_test, predicted_test3))

In [None]:
model5 = GradientBoostingClassifier()
model5.fit(X_train, y_train)
predicted_train5 = model5.predict(X_train)
predicted_test5 = model5.predict(X_test)
print ("Training: ", accuracy_score(y_train, predicted_train5))
print ("Testing: ", accuracy_score(y_test, predicted_test5))

In [None]:
Hasil = {'Model': ['Naive Bayes Classifier', 'Random Forest Classifier', 'Logistic Regression', 'Gradient Boosting'],\
        'Training': [accuracy_score(y_train, predicted_train), accuracy_score(y_train, predicted_train2), accuracy_score(y_train, predicted_train3), accuracy_score(y_train, predicted_train5)],\
        'Testing': [accuracy_score(y_test, predicted_test), accuracy_score(y_test, predicted_test2), accuracy_score(y_test, predicted_test3), accuracy_score(y_test, predicted_test5)]}
Hasil = pd.DataFrame(data = Hasil)
Hasil

In [None]:
fig = go.Figure(data=[
    go.Bar(name='Training', x= Hasil.Model, y=Hasil.Training),
    go.Bar(name='Testing', x=Hasil.Model, y=Hasil.Testing)
])
# Change the bar mode
fig.update_layout(barmode='group', title = "Hasil Modeling",  xaxis_title='Model',yaxis_title='Akurasi')
fig.show()

Berdasarkan hasil pemodelan klasifikasi di atas, terlihat bahwa dengan model Random Forest Classifier memiliki akurasi training sebesar 1 atau 100 % benar, namun hasil testingnya sebesar 84 %. Berbanding jauh antara hasil training dan testing. Oleh karena itu, Model random forest classifier disimpulkan mengalami overviting, dan model yang dipilih adalah model Gradient Boosting.