# Memanggil libraries yang diperlukan

In [1]:
import pandas as pd

import warnings
warnings.filterwarnings("ignore")

pd.set_option('max_columns',500)

# Membaca Dataset
Perlu diingatkan di sini mengenai tipikal data yang akan diolah. Apakah berupa data kategori atau numerik. Selain itu juga perlu diperhatikan tujuan datanya apakah untuk klasifikasi, prediksi atau pengelompokan (clustering). Setiap tipe data nantinya akan menggunakan tools yang berbeda.

Data di sini merupakan data nasabah pada suatu bank yang memutuskan untuk membuat rekening deposito atau tidak berdasarkan juga usaha dari bagian marketing bank dalam melakukan promosi. Tentunya tujuan klasifikasi dari pihak bank sendiri biar bisa melakukan targeting kepada calon nasabah. Kira-kira dengan latar belakang calon nasabah akan dapat dilakukan pemetaan jenis nasabah yang seperti apa yang perlu dilakukan penjajakan lebih serius karena lebih terbukti untuk melakukan pembukaan rekening deposito.

In [2]:
data = pd.read_csv('deposito.csv')

In [3]:
data.head()

Unnamed: 0,UMUR,PEKERJAAN,STATUS_PERKAWINAN,PENDIDIKAN,KREDIT_RUMAH,PINJAMAN,MENGHUBUNGI_DENGAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA,HASIL_SEBELUMNYA,DEPOSITO
0,37,wiraswasta,menikah,lulus universitas,tidak,tidak ada,telepon rumah,202,2,1,gagal,belum
1,34,administrasi,lajang,lulus universitas,tidak,ada,HP,288,2,1,sukses,sukses
2,55,pengangguran,cerai,lulus universitas,tidak,tidak ada,HP,212,3,3,sukses,sukses
3,33,buruh,lajang,tidak lulus SD,ya,tidak ada,HP,146,1,1,gagal,belum
4,46,administrasi,lajang,lulus universitas,ya,tidak ada,HP,1166,3,1,gagal,belum


Dari data, terlihat bahwa tujuan data adalah melakukan klasifikasi mengenai nasabah yang nantinya akan membuka rekening deposito atau tidak.

Disini pihak bank memiliki beberapa team marketing. Terdapat usaha sebelumnya yang telah dilakukan oleh team marketing lainnya. Jadi nasabah yang sama, walaupun sebelumnya sudah melakukan pembukaan rekening deposito, masih akan dilakukan penjajakan untuk kembali menambah rekening deposito nya.

In [4]:
data.describe()

Unnamed: 0,UMUR,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA
count,4175.0,4175.0,4175.0,4175.0
mean,40.303952,263.857964,1.959521,1.258683
std,12.333775,238.215084,1.411005,0.634162
min,17.0,1.0,1.0,1.0
25%,31.0,116.0,1.0,1.0
50%,37.0,197.0,1.0,1.0
75%,48.0,325.0,2.0,1.0
max,91.0,3509.0,16.0,7.0


In [5]:
# Melihat type data apakah berupa integer, bilangan desimal, atau data kategori
data.dtypes

UMUR                         int64
PEKERJAAN                   object
STATUS_PERKAWINAN           object
PENDIDIKAN                  object
KREDIT_RUMAH                object
PINJAMAN                    object
MENGHUBUNGI_DENGAN          object
LAMA_BICARA                  int64
JUMLAH_KONTAK_SEKARANG       int64
JUMLAH_KONTAK_SEBELUMNYA     int64
HASIL_SEBELUMNYA            object
DEPOSITO                    object
dtype: object

In [6]:
# mengecek apakah terdapat data yang kosong
data.isnull().sum()

UMUR                        0
PEKERJAAN                   0
STATUS_PERKAWINAN           0
PENDIDIKAN                  0
KREDIT_RUMAH                0
PINJAMAN                    0
MENGHUBUNGI_DENGAN          0
LAMA_BICARA                 0
JUMLAH_KONTAK_SEKARANG      0
JUMLAH_KONTAK_SEBELUMNYA    0
HASIL_SEBELUMNYA            0
DEPOSITO                    0
dtype: int64

In [7]:
# Melihat apa saja isi dari kolom PEKERJAAN (data kategori yang tidak dapat dibandingkan)
data.PEKERJAAN.unique()

array(['wiraswasta', 'administrasi', 'pengangguran', 'buruh', 'freelance',
       'teknisi', 'karyawan', 'pelayan', 'pensiunan', 'mahasiswa', 'PRT'],
      dtype=object)

In [8]:
# STATUS_PERKAWINAN juga merupakan data ketegori yang tidak dapat dibandingkan
data.STATUS_PERKAWINAN.unique()

array(['menikah', 'lajang', 'cerai'], dtype=object)

In [9]:
# Data PENDIDIKAN masih bisa dilakukan perbandingan
data.PENDIDIKAN.unique()

array(['lulus universitas', 'tidak lulus SD', 'lulus diploma',
       'lulus SMP', 'lulus SMA', 'lulus SD'], dtype=object)

In [10]:
# Melakukan mapping dari Pendidikan karena walaupun pendidikan merupakan data kategori, akan tetapi
# terdapat peningkatan dari SD, SMP, SMA, Diploma dan Universitas.
data['PENDIDIKAN'] = \
data['PENDIDIKAN'].map({'lulus universitas':5,'lulus SMA':3,'lulus SMP':2,'lulus diploma':4,'tidak lulus SD':0,'lulus SD':1})

In [11]:
# Data kategori biner (karena terdapat hanya dua pilihan)
data.KREDIT_RUMAH.unique()

array(['tidak', 'ya'], dtype=object)

In [12]:
data['KREDIT_RUMAH'] = \
data['KREDIT_RUMAH'].map({'tidak':0,'ya':1})

In [13]:
data.PINJAMAN.unique()

array(['tidak ada', 'ada'], dtype=object)

In [14]:
data['PINJAMAN'] = \
data['PINJAMAN'].map({'tidak ada':0,'ada':1})

In [15]:
data.MENGHUBUNGI_DENGAN.unique()

array(['telepon rumah', 'HP'], dtype=object)

In [16]:
data['MENGHUBUNGI_DENGAN'] = \
data['MENGHUBUNGI_DENGAN'].map({'telepon rumah':0,'HP':1})

In [17]:
data.HASIL_SEBELUMNYA.unique()

array(['gagal', 'sukses'], dtype=object)

In [18]:
data['HASIL_SEBELUMNYA'] = \
data['HASIL_SEBELUMNYA'].map({'gagal':0,'sukses':1})

In [19]:
# Data target karena dari data sebelumnya akan digunakan menebak apakah nasabah tersebut 
# akan sukses membuka rekening deposito ataukah masih belum mau membuka.
data.DEPOSITO.unique()

array(['belum', 'sukses'], dtype=object)

In [20]:
data['DEPOSITO'] = \
data['DEPOSITO'].map({'belum':0,'sukses':1})

In [21]:
data.describe()

Unnamed: 0,UMUR,PENDIDIKAN,KREDIT_RUMAH,PINJAMAN,MENGHUBUNGI_DENGAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA,HASIL_SEBELUMNYA,DEPOSITO
count,4175.0,4175.0,4175.0,4175.0,4175.0,4175.0,4175.0,4175.0,4175.0,4175.0
mean,40.303952,3.297485,0.572934,0.155689,0.927665,263.857964,1.959521,1.258683,0.239281,0.257725
std,12.333775,1.578373,0.494711,0.362603,0.259073,238.215084,1.411005,0.634162,0.426696,0.437434
min,17.0,0.0,0.0,0.0,0.0,1.0,1.0,1.0,0.0,0.0
25%,31.0,2.0,0.0,0.0,1.0,116.0,1.0,1.0,0.0,0.0
50%,37.0,3.0,1.0,0.0,1.0,197.0,1.0,1.0,0.0,0.0
75%,48.0,5.0,1.0,0.0,1.0,325.0,2.0,1.0,0.0,1.0
max,91.0,5.0,1.0,1.0,1.0,3509.0,16.0,7.0,1.0,1.0


In [22]:
data.columns

Index(['UMUR', 'PEKERJAAN', 'STATUS_PERKAWINAN', 'PENDIDIKAN', 'KREDIT_RUMAH',
       'PINJAMAN', 'MENGHUBUNGI_DENGAN', 'LAMA_BICARA',
       'JUMLAH_KONTAK_SEKARANG', 'JUMLAH_KONTAK_SEBELUMNYA',
       'HASIL_SEBELUMNYA', 'DEPOSITO'],
      dtype='object')

In [23]:
data.dtypes

UMUR                         int64
PEKERJAAN                   object
STATUS_PERKAWINAN           object
PENDIDIKAN                   int64
KREDIT_RUMAH                 int64
PINJAMAN                     int64
MENGHUBUNGI_DENGAN           int64
LAMA_BICARA                  int64
JUMLAH_KONTAK_SEKARANG       int64
JUMLAH_KONTAK_SEBELUMNYA     int64
HASIL_SEBELUMNYA             int64
DEPOSITO                     int64
dtype: object

In [24]:
data_categorical =['PEKERJAAN','STATUS_PERKAWINAN']
data_numeric =['UMUR','PENDIDIKAN','LAMA_BICARA','JUMLAH_KONTAK_SEKARANG','JUMLAH_KONTAK_SEBELUMNYA']
data_binary = ['KREDIT_RUMAH','PINJAMAN','MENGHUBUNGI_DENGAN','HASIL_SEBELUMNYA']
data_target = ['DEPOSITO']

# One Hot Encoding
Menggunakan one hot encoding bagi data kategori yang tidak bisa dibandingkan

In [25]:
# One Hot Encoding for categorical data
data_categorical = pd.get_dummies(data)
data_categorical.head()

Unnamed: 0,UMUR,PENDIDIKAN,KREDIT_RUMAH,PINJAMAN,MENGHUBUNGI_DENGAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA,HASIL_SEBELUMNYA,DEPOSITO,PEKERJAAN_PRT,PEKERJAAN_administrasi,PEKERJAAN_buruh,PEKERJAAN_freelance,PEKERJAAN_karyawan,PEKERJAAN_mahasiswa,PEKERJAAN_pelayan,PEKERJAAN_pengangguran,PEKERJAAN_pensiunan,PEKERJAAN_teknisi,PEKERJAAN_wiraswasta,STATUS_PERKAWINAN_cerai,STATUS_PERKAWINAN_lajang,STATUS_PERKAWINAN_menikah
0,37,5,0,0,0,202,2,1,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
1,34,5,0,1,1,288,2,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0
2,55,5,0,0,1,212,3,3,1,1,0,0,0,0,0,0,0,1,0,0,0,1,0,0
3,33,0,1,0,1,146,1,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0
4,46,5,1,0,1,1166,3,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0


In [26]:
# Drop data bentuk numeric karena akan dinormalisasi dulu
data_drop = data_categorical.drop(data_numeric, axis =1) 

In [27]:
data_drop.head()

Unnamed: 0,KREDIT_RUMAH,PINJAMAN,MENGHUBUNGI_DENGAN,HASIL_SEBELUMNYA,DEPOSITO,PEKERJAAN_PRT,PEKERJAAN_administrasi,PEKERJAAN_buruh,PEKERJAAN_freelance,PEKERJAAN_karyawan,PEKERJAAN_mahasiswa,PEKERJAAN_pelayan,PEKERJAAN_pengangguran,PEKERJAAN_pensiunan,PEKERJAAN_teknisi,PEKERJAAN_wiraswasta,STATUS_PERKAWINAN_cerai,STATUS_PERKAWINAN_lajang,STATUS_PERKAWINAN_menikah
0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
1,0,1,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0
2,0,0,1,1,1,0,0,0,0,0,0,0,1,0,0,0,1,0,0
3,1,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0
4,1,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0


In [28]:
data[data_numeric].describe()

Unnamed: 0,UMUR,PENDIDIKAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA
count,4175.0,4175.0,4175.0,4175.0,4175.0
mean,40.303952,3.297485,263.857964,1.959521,1.258683
std,12.333775,1.578373,238.215084,1.411005,0.634162
min,17.0,0.0,1.0,1.0,1.0
25%,31.0,2.0,116.0,1.0,1.0
50%,37.0,3.0,197.0,1.0,1.0
75%,48.0,5.0,325.0,2.0,1.0
max,91.0,5.0,3509.0,16.0,7.0


# Menggunakan Normalisasi 
Normalisasi digunakan untuk menghilangkan bias pada data sehingga data dengan range yang besar akan memberikan efek yang setara dengan data range lebih kecil. Misalkan umur range 17-91 tahun dengan gaji dengan range 10juta-100juta.

In [29]:
# Normalisasi data dalam bentuk numerik
from sklearn import preprocessing

scaler = preprocessing.MinMaxScaler()
d = scaler.fit_transform(data[data_numeric])
data_normalisasi = pd.DataFrame(d, columns=data[data_numeric].columns)
data_normalisasi.head(10)

Unnamed: 0,UMUR,PENDIDIKAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA
0,0.27027,1.0,0.057298,0.066667,0.0
1,0.22973,1.0,0.081813,0.066667,0.0
2,0.513514,1.0,0.060148,0.133333,0.333333
3,0.216216,0.0,0.041334,0.0,0.0
4,0.391892,1.0,0.332098,0.133333,0.0
5,0.364865,0.8,0.037913,0.0,0.0
6,0.22973,0.4,0.019669,0.0,0.0
7,0.324324,0.8,0.220353,0.066667,0.0
8,0.391892,0.0,0.045895,0.0,0.0
9,0.243243,0.4,0.059863,0.0,0.0


In [30]:
data_normalisasi.describe()

Unnamed: 0,UMUR,PENDIDIKAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA
count,4175.0,4175.0,4175.0,4175.0,4175.0
mean,0.314918,0.659497,0.074931,0.063968,0.043114
std,0.166673,0.315675,0.067906,0.094067,0.105694
min,0.0,0.0,0.0,0.0,0.0
25%,0.189189,0.4,0.032782,0.0,0.0
50%,0.27027,0.6,0.055872,0.0,0.0
75%,0.418919,1.0,0.09236,0.066667,0.0
max,1.0,1.0,1.0,1.0,1.0


In [31]:
data_fix = pd.concat([data_normalisasi, data_drop], axis=1, join='inner')
data_fix.head()

Unnamed: 0,UMUR,PENDIDIKAN,LAMA_BICARA,JUMLAH_KONTAK_SEKARANG,JUMLAH_KONTAK_SEBELUMNYA,KREDIT_RUMAH,PINJAMAN,MENGHUBUNGI_DENGAN,HASIL_SEBELUMNYA,DEPOSITO,PEKERJAAN_PRT,PEKERJAAN_administrasi,PEKERJAAN_buruh,PEKERJAAN_freelance,PEKERJAAN_karyawan,PEKERJAAN_mahasiswa,PEKERJAAN_pelayan,PEKERJAAN_pengangguran,PEKERJAAN_pensiunan,PEKERJAAN_teknisi,PEKERJAAN_wiraswasta,STATUS_PERKAWINAN_cerai,STATUS_PERKAWINAN_lajang,STATUS_PERKAWINAN_menikah
0,0.27027,1.0,0.057298,0.066667,0.0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
1,0.22973,1.0,0.081813,0.066667,0.0,0,1,1,1,1,0,1,0,0,0,0,0,0,0,0,0,0,1,0
2,0.513514,1.0,0.060148,0.133333,0.333333,0,0,1,1,1,0,0,0,0,0,0,0,1,0,0,0,1,0,0
3,0.216216,0.0,0.041334,0.0,0.0,1,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0
4,0.391892,1.0,0.332098,0.133333,0.0,1,0,1,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0


In [32]:
X = data_fix.drop(['DEPOSITO'], axis =1) 
y = data_fix['DEPOSITO']

# Membagi data menjadi data training dan testing

In [33]:
from sklearn.model_selection import train_test_split

In [34]:
X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2)

# Menggunakan Support Vector Machine (SVM)

In [35]:
from sklearn.svm import SVC
model_svm = SVC()

In [36]:
model_svm.fit(X_train,y_train)

In [37]:
model_svm.score(X_test,y_test)

0.8179640718562874

# KFold SVM

In [38]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
k_fold = KFold(n_splits=5, shuffle=True, random_state=0)

In [39]:
score_svm = cross_val_score(model_svm,X,y,cv=k_fold,n_jobs=1,scoring='accuracy')
print(score_svm)

[0.80479042 0.80958084 0.78323353 0.8239521  0.8251497 ]


In [40]:
score_svm.mean()*100

80.93413173652694

# Menggunakan Regresi Logistik

In [41]:
from sklearn.linear_model import LogisticRegression

In [42]:
model_lr = LogisticRegression()

In [43]:
model_lr.fit(X_train,y_train)

In [44]:
model_lr.score(X_test,y_test)

0.829940119760479

# KFold Regresi Logistik

In [45]:
score_lr = cross_val_score(model_lr,X,y,cv=k_fold,n_jobs=1,scoring='accuracy')
print(score_lr)

[0.81077844 0.83473054 0.79281437 0.84790419 0.83712575]


In [46]:
score_lr.mean()*100

82.46706586826346

# Menggunakan K-Nearest Neighbors (KNN)

In [47]:
from sklearn.neighbors import KNeighborsClassifier

model_knn = KNeighborsClassifier(n_neighbors=3)
model_knn.fit(X_train,y_train)

In [48]:
model_knn.score(X_test,y_test)

0.7820359281437126

# KFold KNN

In [49]:
score_knn = cross_val_score(model_knn,X,y,cv=k_fold,n_jobs=1,scoring='accuracy')
print(score_knn)

[0.76526946 0.78922156 0.76646707 0.79161677 0.8       ]


In [50]:
score_knn.mean()*100

78.25149700598801