# **Eksplorasi, Persiapan Data, dan Classification**

# **Penjelasan Masalah**

Masalah yang ingin diselesaikan disini adalah algoritma classification mampu melakukan klasifikasi terhadap data pelanggan yang nantinya akan menghasilkan prediksi terhadap data pelanggan sehingga kita dapat mengetahui mana pelanggan yang tertarik untuk membeli kendaraan tersebut.

 ## **Muat File Data**

In [None]:
#import all the libraries
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns 
import numpy as np
from scipy import stats
import sklearn
import warnings
from sklearn.model_selection import GridSearchCV
from sklearn import tree
from sklearn.preprocessing import StandardScaler
from sklearn import metrics

# Configure libraries
warnings.filterwarnings('ignore')
plt.rcParams['figure.figsize'] = (10, 10)
plt.style.use('seaborn')

In [None]:
#Reading the dataset in a dataframe using Pandas
df_train = pd.read_csv("kendaraan_train.csv")

df_train.head(10)  #Print first ten observations of train data

In [None]:
#Reading the dataset in a dataframe using Pandas
df_test = pd.read_csv('kendaraan_test.csv')

df_test.head(10)  #Print first ten observations of test data

## **Eksplorasi Data**

Untuk ikhtisar singkat, kita dapat menggunakan metode dan atribut DataFrame berikut:

In [None]:
df_train.head() # show first 5 rows

In [None]:
df_train.tail() # last 5 rows

In [None]:
df_train.columns # list all column names

- SIM	--> 0 : Tidak punya SIM 1 : Punya SIM
- Kode_Daerah --> Kode area tempat tinggal pelanggan
- Sudah_Asuransi --> 1 : Pelanggan sudah memiliki asuransi kendaraan, 0 : Pelanggan belum memiliki asuransi kendaraan
- Umur_Kendaraan --> Umur kendaraan
- Kendaraan_Rusak --> 1 : Kendaraan pernah rusak sebelumnya. 0 : Kendaraan belum pernah rusak.
- Premi --> Jumlah premi yang harus dibayarkan per tahun.
- Kanal_Penjualan --> Kode kanal untuk menghubungi pelanggan (email, telpon, dll)
- Lama_Berlangganan	--> Sudah berapa lama pelanggan menjadi klien perusahaan

In [None]:
df_train.shape # get number of rows and columns

In [None]:
df_train.info() # additional info about dataframe

In [None]:
df_train.describe() # statistical description, only for numeric values

In [None]:
df_train.value_counts(dropna=False) # count unique values

### **1. Mengurutkan data**

Berdasarkan Premi terbesar

In [None]:
df_train.sort_values('Premi',ascending=False).head(10) # Sort the Data frame based on Premi in ascending value and print first 10 observation.

Berdasarkan Lama berlangganan terbesar

In [None]:
df_train.sort_values('Lama_Berlangganan', ascending=False).head(10) #Sort the Data frame based on Lama_Berlangganan in ascending value and print first 10 observation.

### **2. Membuat Plots**

#### A. Histogram

Berdasarkan Umur

In [None]:
#Plots in matplotlib reside within a figure object, use plt.figure to create new figure
fig=plt.figure()
#Create 3 subplots using add_subplot, because you can't create blank figure
ax = fig.add_subplot(1,1,1)

#Plot Histogram by age
#Variable
ax.hist(df_train['Umur'],bins=range(20, 85))
#Labels and Tit
plt.title('Distribusi Umur')
plt.xlabel('Umur')
plt.ylabel('Pelanggan')
plt.show()

Berdasarkan Premi

In [None]:
#Plot Histogram by Premi
#Plots in matplotlib reside within a figure object, use plt.figure to create new figure
fig=plt.figure()
#Create 3 subplots using add_subplot, because you can't create blank figure
ax = fig.add_subplot(1,1,1)

#Variable
ax.hist(df_train['Premi'],bins=100)
#Labels and Tit
plt.title('Distribusi Premi')
plt.xlabel('Premi')
plt.ylabel('Pelanggan')
plt.show()

Berdasarkan Lama Berlangganan

In [None]:
#Plot Histogram by Lama_Berlangganan
#Plots in matplotlib reside within a figure object, use plt.figure to create new figure
fig=plt.figure()
#Create 3 subplots using add_subplot, because you can't create blank figure
ax = fig.add_subplot(1,1,1)

#Variable
ax.hist(df_train['Lama_Berlangganan'], bins=range(10, 299))
#Labels and Tit
plt.title('Distribusi Lama Berlangganan')
plt.xlabel('Lama Berlangganan')
plt.ylabel('Pelanggan')
plt.show()

Berdasarkan Kanal Penjualan

In [None]:
#Plot Histogram by Kanal Penjualan
#Plots in matplotlib reside within a figure object, use plt.figure to create new figure
fig=plt.figure()
#Create 3 subplots using add_subplot, because you can't create blank figure
ax = fig.add_subplot(1,1,1)

#Variable 
ax.hist(df_train['Kanal_Penjualan'],bins=range(1, 163))
#Labels and Tit
plt.title('Distribusi Kanal Penjualan')
plt.xlabel('Kanal Penjualan')
plt.ylabel('Pelanggan')
plt.show()

#### B. Scatter Plot

In [None]:
# Scatter Plot based on Age and premi
#Plots in matplotlib reside within a figure object, use plt.figure to create new figure 
fig=plt.figure()
#Create one or more subplots using add_subplot, because you can't create blank figure
ax = fig.add_subplot(1,1,1)

#Variable
ax.scatter(df_train['Umur'],df['Premi'])
#Labels and Tit
plt.title('Distribusi Umur dan Premi')
plt.xlabel('Umur')
plt.ylabel('Premi')
plt.show()

In [None]:
# Scatter Plot based on premi and Lama_Berlangganan
#Plots in matplotlib reside within a figure object, use plt.figure to create new figure 
fig=plt.figure()
#Create one or more subplots using add_subplot, because you can't create blank figure
ax = fig.add_subplot(1,1,1)

#Variable
ax.scatter(df_train['Premi'],df['Lama_Berlangganan'])
#Labels and Tit
plt.title('Distribusi Premi dan Lama Berlangganan')
plt.xlabel('Premi')
plt.ylabel('Lama Berlangganan')
plt.show()

#### C. Box-plot

In [None]:
# Box-plot based on Umur
sns.boxplot(x=df_train['Umur']) 
sns.despine()

In [None]:
# Box-plot based on Premi
sns.boxplot(x=df_train['Premi']) 
sns.despine()

In [None]:
# Box-plot based on Lama_Berlanggan
sns.boxplot(x=df_train['Lama_Berlangganan']) 
sns.despine()

In [None]:
# Box-plot based on Kode_Daerah
sns.boxplot(x=df_train['Kode_Daerah']) 
sns.despine()

In [None]:
# Box-plot based on Kanal_Penjualan
sns.boxplot(x=df_train['Kanal_Penjualan']) 
sns.despine()

#### D. Heatmap

In [None]:
plt.figure(figsize = (16, 10))
sns.heatmap(df_train.corr(), annot=True)
plt.show()

### **3. Korelasi**

In [None]:
df_train.corr()

### **4. Hasilkan Tabel Frekuensi**

Berdasarkan Umur dan Sudah asuransi

In [None]:
freq = df_train.groupby(['Umur','Sudah_Asuransi']) #Group the Data frame based on Umur and Sudah_Asuransi
freq.size()

Berdasarkan Umur dan Premi

In [None]:
freq = df_train.groupby(['Umur','Premi']) #Group the Data frame based on Umur and Premi
freq.size()

Berdasarkan Umur dan Lama Berlangganan

In [None]:
freq = df_train.groupby(['Umur','Lama_Berlangganan']) #Group the Data frame based on Umur and Lama_Berlangganan
freq.size()

Berdasarkan Umur dan Kendaraan_Rusak

In [None]:
freq = df_train.groupby(['Umur','Kendaraan_Rusak']) #Group the Data frame based on Umur and Kendaraan_Rusak
freq.size()

### **5. Mengelompokkan Variabel untuk Menghitung Hitungan, Rata-rata dan Jumlah**

Berdasarkan Jenis_Kelamin, SIM, Umur_Kendaraan, Kendaraan_Rusak dan Sudah_Asuransi

In [None]:
group = df_train.groupby(['Jenis_Kelamin','SIM','Umur_Kendaraan','Kendaraan_Rusak','Sudah_Asuransi'])
group.describe()

## **Pembersihan Data**

### **Hapus nilai duplikat dari variabel dalam Dataframe**

In [None]:
# Find a duplicate rows of train data
duplicate_df_row = df_train[df_train.duplicated()]

print(duplicate_df_row)

Hal ini menandakan bahwa train data tidak ada duplicate value

In [None]:
# Find a duplicate rows of test data
duplicate_df_test_row = df_test[df_test.duplicated()]

print(duplicate_df_test_row)

Hal ini menandakan bahwa test data ada duplicate value

In [None]:
df_test.drop_duplicates(keep = False, inplace = True)

In [None]:
# Find a duplicate rows of test data
duplicate_df_test_row = df_test[df_test.duplicated()]

print(duplicate_df_test_row)

### **Kenali dan Perlakukan Nilai dan Pencilan yang Hilang**

Hitung nilai hilang

In [None]:
# Identify missing values of dataframe train
df_train.isnull().sum()

In [None]:
# Identify missing values of dataframe test
df_test.isnull().sum()

Penanganan nilai hilang untuk data train

In [None]:
#Example to impute missing values
df_train.dropna(inplace=True) # Using dropna to drop all NaN values in the Dataframe train

Hasil setelah penanganan nilai hilang untuk data train

In [None]:
# Identify missing values of dataframe train
df_train.isnull().sum()

Berdasarkan Boxplot sebelumnya, hanya data premi yang memiliki outliers

In [None]:
# IQR for train data
Q1_train= df_train['Premi'].quantile(0.25)
Q3_train = df_train['Premi'].quantile(0.75)
IQR_train = Q3_train - Q1_train
upper_limit_train = Q3_train + 1.5 * IQR_train
lower_limit_train = Q1_train - 1.5 * IQR_train

print("Upper whisker train data: ", upper_limit_train)
print("Lower Whisker train data: ", lower_limit_train)

In [None]:
# IQR for test data
Q1_test = df_test['Premi'].quantile(0.25)
Q3_test = df_test['Premi'].quantile(0.75)
IQR_test = Q3_test - Q1_test
upper_limit_test = Q3_test + 1.5 * IQR_test
lower_limit_test = Q1_test - 1.5 * IQR_test

print("Upper whisker test data: ", upper_limit_test)
print("Lower Whisker test data: ", lower_limit_test)

Seperti dibahas sebelumnya, apa pun yang terletak di luar antara Upper whisker dan Lower whisker adalah outlier

Mari kita lihat outlier:

In [None]:
# train data
df_train[(df_train['Premi'] < lower_limit_train) | (df_train['Premi'] > upper_limit_train)]

In [None]:
# test data
df_test[(df_test['Premi'] < lower_limit_test) | (df_test['Premi'] > upper_limit_test)]

Ini adalah outlier yang berada di luar batas atas dan bawah yang dihitung dengan metode IQR.

Untuk menghapus outlier ini dari data:

In [None]:
# train data
df_train = df_train[(df_train['Premi'] > lower_limit_train) & (df_train['Premi'] < upper_limit_train)]

In [None]:
# test data
df_test = df_test[(df_test['Premi'] > lower_limit_test) & (df_test['Premi'] < upper_limit_test)]

Kemudian kita cek apakah ada outlier lagi

In [None]:
# train data
sns.boxplot(x=df_train['Premi']) 
sns.despine()

In [None]:
# test data
sns.boxplot(x=df_test['Premi']) 
sns.despine()

### **Hapus kolom yang tidak berguna**

Kita akan menghapus kolom 'id'

In [None]:
#Penghapusan fitur-fitur yang tidak diperlukan di dataframe train
df_train = df_train.drop(['id'], axis = 1)
df_train

In [None]:
df_train.info()

### **Periksa tipe data yang salah**

In [None]:
df_train.dtypes # show the train datatypes

In [None]:
df_test.dtypes # show the test datatypes

### **Ubah Tipe Data Kolom Umur, Premi, Kanal_Penjualan, Lama_Berlangganan dan Kode_Daerah menjadi int**

In [None]:
# convert train data type of Umur, Premi, Kanal_Penjualan, Lama_Berlangganan and Kode_Daerah column
# into integer
df_train.Umur = df_train.Umur.astype(int)
df_train.Premi = df_train.Premi.astype(int)
df_train.Kanal_Penjualan = df_train.Kanal_Penjualan.astype(int)
df_train.Lama_Berlangganan = df_train.Lama_Berlangganan.astype(int)
df_train.Kode_Daerah = df_train.Kode_Daerah.astype(int)

# show the datatypes
print(df_train.dtypes)

In [None]:
# convert test data type of Umur, Premi, Kanal_Penjualan, Lama_Berlangganan and Kode_Daerah column
# into integer
df_test.Umur = df_test.Umur.astype(int)
df_test.Premi = df_test.Premi.astype(int)
df_test.Kanal_Penjualan = df_test.Kanal_Penjualan.astype(int)
df_test.Lama_Berlangganan = df_test.Lama_Berlangganan.astype(int)
df_test.Kode_Daerah = df_test.Kode_Daerah.astype(int)

# show the datatypes
print(df_test.dtypes)

### **Encode Data bertipe String**

In [None]:
# Encode string train data
df_train['Jenis_Kelamin'] = df_train['Jenis_Kelamin'].replace(['Wanita'], 2)
df_train['Jenis_Kelamin'] = df_train['Jenis_Kelamin'].replace(['Pria'], 1)

df_train['Umur_Kendaraan'] = df_train['Umur_Kendaraan'].replace(['< 1 Tahun'], 1)
df_train['Umur_Kendaraan'] = df_train['Umur_Kendaraan'].replace(['1-2 Tahun'], 2)
df_train['Umur_Kendaraan'] = df_train['Umur_Kendaraan'].replace(['> 2 Tahun'], 3)

df_train['Kendaraan_Rusak'] = df_train['Kendaraan_Rusak'].replace(['Tidak'], 0)
df_train['Kendaraan_Rusak'] = df_train['Kendaraan_Rusak'].replace(['Pernah'], 1)

df_train.head()

In [None]:
# Encode string test data
df_test['Jenis_Kelamin'] = df_test['Jenis_Kelamin'].replace(['Wanita'], 2)
df_test['Jenis_Kelamin'] = df_test['Jenis_Kelamin'].replace(['Pria'], 1)

df_test['Umur_Kendaraan'] = df_test['Umur_Kendaraan'].replace(['< 1 Tahun'], 1)
df_test['Umur_Kendaraan'] = df_test['Umur_Kendaraan'].replace(['1-2 Tahun'], 2)
df_test['Umur_Kendaraan'] = df_test['Umur_Kendaraan'].replace(['> 2 Tahun'], 3)

df_test['Kendaraan_Rusak'] = df_test['Kendaraan_Rusak'].replace(['Tidak'], 0)
df_test['Kendaraan_Rusak'] = df_test['Kendaraan_Rusak'].replace(['Pernah'], 1)

df_test.head()

### **Mengubah data kategorikal menjadi tipe data objek**

In [None]:
# Converting categorical train data into object data types
df_train=df_train.astype({'Jenis_Kelamin':object, 'SIM': object, 'Sudah_Asuransi': object, 'Kendaraan_Rusak': object,'Tertarik': object, 'Umur_Kendaraan':object})
df_train.info()

In [None]:
# Converting categorical test data into object data types
df_test=df_test.astype({'Jenis_Kelamin':object, 'SIM': object, 'Sudah_Asuransi': object, 'Kendaraan_Rusak': object,'Tertarik': object, 'Umur_Kendaraan':object})
df_test.info()

Mengecek apakah test data ada nilai hilang lagi

In [None]:
# Identify missing values of dataframe test
# df_test.isnull().sum()

In [None]:
# df_test.dropna(inplace=True) # Using dropna to drop all NaN values in the Dataframe test

In [None]:
# Identify missing values of dataframe test
# df_test.isnull().sum()

# **Klasifikasi Data**

Kami akan mencoba membangun model menggunakan algoritma Decision Tree. Setelah membangun model, kami akan mengevaluasinya. Kami kemudian akan mencoba mengoptimalkan model kami dengan menyetel hyperparameter model dengan menggunakan GridSearch. Terakhir, kami akan menyimpan hasil prediksi dari dataset kami menggunakan data test.

## **Distribusi Kelas**

Hal penting lainnya yang harus dipastikan sebelum memasukkan data kita ke dalam model adalah distribusi kelas data. Dalam kasus kami di mana kelas yang diharapkan dibagi menjadi dua hasil, 'tertarik' dan 'tidak tertarik', distribusi kelas 50:50 dapat dianggap ideal.

In [None]:
df_train['Tertarik'].value_counts()

Seperti yang kita lihat distribusi kelas kita tidak persis 50:50 tapi tidak mengapa

## **Skala Data Numerik**

Selanjutnya, kami akan menskalakan data numerik kami untuk menghindari kehadiran outlier yang dapat secara signifikan mempengaruhi model kami. Menggunakan fungsi StandardScaler() dari sklearn, kita dapat menskalakan setiap kolom kita yang berisi data numerik. Penskalaan akan dilakukan dengan menggunakan rumus di bawah ini:

![image.png](attachment:7e284c15-8b52-41df-ac61-808781f640bb.png)

In [None]:
# Copying original train dataframe
df_ready = df_train.copy()

scaler = StandardScaler()
num_cols = ['Umur', 'Kode_Daerah', 'Premi', 'Lama_Berlangganan','Kanal_Penjualan']
df_ready[num_cols] = scaler.fit_transform(df_train[num_cols])

df_ready.head()

In [None]:
# Copying original test dataframe
df_test_ready = df_test.copy()
df_test_ready[num_cols] = scaler.fit_transform(df_test[num_cols])

df_test_ready.head()

## **Pisahkan Dataset untuk Pelatihan dan Pengujian**

Untuk menyelesaikan langkah pra-pemrosesan data kami, kami akan membagi data kami menjadi dua kumpulan data, pelatihan dan pengujian. Dalam hal ini kami akan membagi data dengan rasio 80:20 untuk pelatihan dan pengujian masing-masing. Ini akan menghasilkan data pelatihan kami memiliki 132514 baris dan 33129 baris untuk data pengujian.

In [None]:
# Select Features
feature = df_ready.drop('Tertarik', axis=1)

# Select Target
target = df_ready['Tertarik']

# Set Training and Testing Data
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(feature , target, 
                                                    shuffle = True, 
                                                    test_size=0.2, 
                                                    random_state=1)

# Show the Training and Testing Data
print('Bentuk dari fitur training:', X_train.shape)
print('Bentuk dari fitur testing:', X_test.shape)
print('Bentuk dari label training:', y_train.shape)
print('Bentuk dari label testing:', y_test.shape)

## **Pemodelan**

Setelah memastikan data kami baik dan siap, kami dapat melanjutkan untuk membangun model kami. Pada langkah ini kita akan membuat model dasar menggunakan parameter default yang ditetapkan oleh sklearn.

Untuk mengevaluasi model kami, kami akan menggunakan confusion matrix sebagai dasar evaluasi kami.

![image.png](attachment:b90e6f12-4d26-402f-ac84-abb97a1f0289.png)

dimana: TP = True Positive; FP = False Positive; TN = True Negative; FN = False Negative.

Kami akan menggunakan 6 metrik di bawah ini untuk mengevaluasi model:

- Akurasi: proporsi hasil yang benar di antara jumlah total kasus yang diperiksa.

 ![image.png](attachment:206b9d9e-95a2-4ad9-989f-030ddee8316f.png)

- Precision: perbandingan antara True Positive (TP) dengan banyaknya data yang diprediksi positif.

![image.png](attachment:49fd7079-7297-4e75-97ba-904c1411392a.png)

- Recall: perbandingan antara True Positive (TP) dengan banyaknya data yang sebenarnya positif.

![image.png](attachment:a6682fb9-c44a-4e65-890f-09073ce8aae4.png)

- Skor F1: harmonic mean dari precision dan recall. Nilai terbaik F1-Score adalah 1.0 dan nilai terburuknya adalah 0. Secara representasi, jika F1-Score punya skor yang baik mengindikasikan bahwa model klasifikasi kita punya precision dan recall yang baik.

![image.png](attachment:a178b228-9e9f-404c-85e8-d2f27b27e28f.png)

- Skor Cohen Kappa: Cohen's kappa mengukur kesepakatan antara dua penilai yang masing-masing mengklasifikasikan N item ke dalam kategori C yang saling eksklusif.

![image.png](attachment:04f87549-7020-4c93-9c12-09a114eef96f.png)

di mana Po adalah probabilitas empiris kesepakatan pada label yang ditetapkan untuk setiap sampel (rasio kesepakatan yang diamati), dan Pe adalah kesepakatan yang diharapkan ketika kedua annotator menetapkan label secara acak. Pe diperkirakan menggunakan prior empiris per-annotator di atas label kelas.

- Area Under Curve (AUC): menunjukkan seberapa baik probabilitas dari kelas positif dipisahkan dari kelas negatif

Dalam hal ini kami ingin fokus pada nilai recall model kami karena dalam masalah kami, kami harus mencoba untuk memprediksi sebanyak mungkin positif aktual. Karena kesalahan klasifikasi pelanggan yang sebenarnya ingin melakukan pembelian dapat berarti kehilangan kesempatan/pendapatan.

Di bawah ini kami akan mendefinisikan fungsi pembantu untuk mengevaluasi setiap model terlatih dan dengan metrik yang disebutkan di atas dan menyimpan skor ke variabel.

In [None]:
def evaluate_model(model, x_test, y_test):

    # Predict Test Data 
    y_pred = model.predict(x_test)

    # Calculate accuracy, precision, recall, f1-score, and kappa score
    acc = metrics.accuracy_score(y_test, y_pred)
    prec = metrics.precision_score(y_test, y_pred)
    rec = metrics.recall_score(y_test, y_pred)
    f1 = metrics.f1_score(y_test, y_pred)
    kappa = metrics.cohen_kappa_score(y_test, y_pred)

    # Calculate area under curve (AUC)
    y_pred_proba = model.predict_proba(x_test)[::,1]
    fpr, tpr, _ = metrics.roc_curve(y_test, y_pred_proba)
    auc = metrics.roc_auc_score(y_test, y_pred_proba)

    # Display confussion matrix
    cm = metrics.confusion_matrix(y_test, y_pred)

    return {'acc': acc, 'prec': prec, 'rec': rec, 'f1': f1, 'kappa': kappa, 
            'fpr': fpr, 'tpr': tpr, 'auc': auc, 'cm': cm}

## **Decision Tree**

Pohon keputusan adalah diagram berbentuk pohon yang digunakan untuk menentukan suatu tindakan. Setiap cabang pohon mewakili kemungkinan keputusan, kejadian atau reaksi.

#### Keuntungan:

- Ini dapat digunakan untuk tugas regresi dan klasifikasi dan mudah untuk melihat kepentingan relatif yang diberikannya pada fitur input.
- Ini juga dianggap sebagai algoritme yang sangat praktis dan mudah digunakan, karena parameter hiper defaultnya sering kali menghasilkan hasil prediksi yang baik.

#### Kekurangan:

- Banyak pohon dapat membuat algoritma menjadi lambat dan tidak efektif untuk prediksi waktu nyata. Prediksi yang lebih akurat membutuhkan lebih banyak pohon, yang menghasilkan model yang lebih lambat.
- Ini adalah alat pemodelan prediktif dan bukan alat deskriptif.

![image.png](attachment:af6aff93-475b-4f31-a34f-23dab1e66c56.png)

## **Membangun Model**

Setelah memahami cara kerja model, mari kita coba melatih model kita dengan menggunakan dataset pelatihan yang kita miliki sebelumnya. Di bawah ini adalah Decision Tree, kemudian kami akan mengevaluasi model dengan fungsi pembantu sebelumnya.

In [None]:
# Building Decision Tree model 
dtc = tree.DecisionTreeClassifier(random_state=0)
dtc.fit(X_train.astype(int), y_train.astype(int))

## **Representasi Decision Tree secara Teks**

In [None]:
text_representation = tree.export_text(dtc)
print(text_representation)

## **Visualisasi Decision Tree**

In [None]:
# from sklearn.tree import plot_tree
feature_names = str(df_ready.columns[:10])
target_names = str(df_ready['Tertarik'])

fig = plt.figure(figsize=(25,20))
_ = tree.plot_tree(dtc, 
                   feature_names= feature_names,  
                   class_names= target_names,
                   filled=True,  
                   rounded = True)

## **Evaluasi Model**

In [None]:
# Evaluate Model
dtc_eval = evaluate_model(dtc, X_test.astype(int), y_test.astype(int))

# Print result
print('Akurasi:', dtc_eval['acc'])
print('Precision:', dtc_eval['prec'])
print('Recall:', dtc_eval['rec'])
print('Skor F1:', dtc_eval['f1'])
print('Skor Cohens Kappa:', dtc_eval['kappa'])
print('Area Under Curve:', dtc_eval['auc'])

Kita bisa melakukan visualiasi confusion matrix dengan kode dibawah

In [None]:
# confusion matrix plot
group_names = ['True Neg','False Pos','False Neg','True Pos']
group_counts = ["{0:0.0f}".format(value) for value in dtc_eval['cm'].flatten()]
group_percentages = ["{0:.2%}".format(value) for value in dtc_eval['cm'].flatten()/np.sum(dtc_eval['cm'])]

labels = [f"{v1}\n{v2}\n{v3}" for v1, v2, v3 in zip(group_names,group_counts,group_percentages)]
labels = np.asarray(labels).reshape(2,2)

ax = sns.heatmap(dtc_eval['cm'], annot=labels, fmt='', cmap='Blues')

ax.set_title('Confusion Matrix Model Biasa\n\n');
ax.set_xlabel('\nPredicted Values')
ax.set_ylabel('Actual Values ');

## Ticket labels - List must be in alphabetical order
ax.xaxis.set_ticklabels(['False','True'])
ax.yaxis.set_ticklabels(['False','True'])

## Display the visualization of the Confusion Matrix.
plt.show()

## **Visualisasi Evaluasi Model**

kita akan membuat dua grafik, pertama adalah diagram batang yang dikelompokkan untuk menampilkan nilai akurasi, presisi, recall, f1, dan skor kappa model kami, dan kedua diagram garis untuk menunjukkan AUC semua model kami.

In [None]:
# Intitialize figure with two plots
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.suptitle('Visualisasi Model', fontsize=16, fontweight='bold')
fig.set_figheight(7)
fig.set_figwidth(14)
fig.set_facecolor('white')

# First plot
## set bar size
barWidth = 0.2
dtc_score = [dtc_eval['acc'], dtc_eval['prec'], dtc_eval['rec'], dtc_eval['f1'], dtc_eval['kappa']]

## Set position of bar on X axis
r1 = np.arange(len(dtc_score))

## Make the plot
ax1.bar(r1, dtc_score, width=barWidth, edgecolor='white', label='Decision Tree')

## Configure x and y axis
ax1.set_xlabel('Mektrik', fontweight='bold')
labels = ['Akurasi', 'Precision', 'Recall', 'F1', 'Kappa']
ax1.set_xticks([r + (barWidth * 1.5) for r in range(len(dtc_score))], )
ax1.set_xticklabels(labels)
ax1.set_ylabel('Nilai', fontweight='bold')
ax1.set_ylim(0, 1)

## Create legend & title
ax1.set_title('Metrik Evaluasi', fontsize=14, fontweight='bold')
ax1.legend()

# Second plot
## Comparing ROC Curve
ax2.plot(dtc_eval['fpr'], dtc_eval['tpr'], label='Decision Tree, auc = {:0.5f}'.format(dtc_eval['auc']))

## Configure x and y axis
ax2.set_xlabel('Nilai False Positive', fontweight='bold')
ax2.set_ylabel('Nilai True Positive', fontweight='bold')

## Create legend & title
ax2.set_title('Lengkungan ROC', fontsize=14, fontweight='bold')
ax2.legend(loc=4)

plt.show()

## **Optimasi Model**

kami akan mencoba mengoptimalkan model decision tree kami dengan menyetel parameter hyper yang tersedia dari lib scikit-learn. Setelah menemukan parameter optimal, kami kemudian akan mengevaluasi model baru kami dengan membandingkannya dengan model base line kami sebelumnya.

#### **Menyetel Hyperparameter dengan GridSearchCV**

Kami akan menggunakan fungsionalitas GridSearchCV dari sklearn untuk menemukan parameter optimal untuk model kami. Kami akan menyediakan model dasar kami (bernama dt_grids), metode penilaian (dalam kasus kami, kami akan menggunakan recall seperti yang dijelaskan sebelumnya). Fungsi GridSearchCV kemudian akan melakukan iterasi melalui setiap kombinasi parameter untuk menemukan parameter penilaian terbaik.

Fungsi ini juga memungkinkan kita untuk menggunakan validasi silang untuk melatih model kita, di mana pada setiap iterasi data kita akan dibagi menjadi 5 kali lipat (jumlahnya dapat disesuaikan dari parameter). Model kemudian akan dilatih pada 4/5 lipatan data meninggalkan lipatan terakhir sebagai data validasi, proses ini akan diulang sebanyak 5 kali hingga semua lipatan kita digunakan sebagai data validasi.

![image.png](attachment:763bea6b-bfbf-43d1-85e3-23c7c6161086.png)

Untuk melihat hasil kombinasi parameter mana yang paling berhasil, kita dapat mengakses atribut best_params_ dari objek pencarian grid kita.

In [None]:
param_grid = {
    'criterion': ['gini', 'entropy'],
    'max_depth': [20, 40, 80, 100],
    'max_features': [2, 3, 4],
    'min_samples_leaf': [3, 4, 5],
    'min_samples_split': [8, 10, 12],
}

# Create a base model
dt_grids = tree.DecisionTreeClassifier(random_state=0)

# Initiate the grid search model
grid_search = GridSearchCV(estimator=dt_grids, param_grid=param_grid, scoring='recall',
                           cv=5, n_jobs=-1, verbose=2)

# Fit the grid search to the data
grid_search.fit(X_train.astype(int), y_train.astype(int))

print('Criterion Terbaik:', grid_search.best_estimator_.get_params()['criterion'])
print('max_depth Terbaik:', grid_search.best_estimator_.get_params()['max_depth'])
print('max_features Terbaik:', grid_search.best_estimator_.get_params()['max_features'])
print('min_samples_leaf Terbaik:', grid_search.best_estimator_.get_params()['min_samples_leaf'])
print('min_samples_split Terbaik:', grid_search.best_estimator_.get_params()['min_samples_split'])

Kemudian kita membuat model baru dengan hyperparameter yang telah kita dapat

In [None]:
improved_dt = tree.DecisionTreeClassifier(criterion='gini', max_depth=20,
            max_features=3,min_samples_leaf=3, min_samples_split=10, random_state=0)
improved_dt.fit(X_train.astype(int), y_train.astype(int))

## **Mengevaluasi Model yang Dioptimalkan**

Kami akan menghitung 6 metrik evaluasi menggunakan fungsi pembantu kami untuk membandingkannya dengan model dasar kami pada langkah berikutnya.

In [None]:
# Evaluate Model
best_grid_eval = evaluate_model(improved_dt, X_test.astype(int), y_test.astype(int))

# Print result
print('Akurasi:', best_grid_eval['acc'])
print('Precision:', best_grid_eval['prec'])
print('Recall:', best_grid_eval['rec'])
print('Skor F1:', best_grid_eval['f1'])
print('Skor Cohens Kappa:', best_grid_eval['kappa'])
print('Area Under Curve:', best_grid_eval['auc'])

Kita bisa melakukan visualiasi confusion matrix dengan kode dibawah

In [None]:
# confusion matrix plot
group_names = ['True Neg','False Pos','False Neg','True Pos']
group_counts = ["{0:0.0f}".format(value) for value in best_grid_eval['cm'].flatten()]
group_percentages = ["{0:.2%}".format(value) for value in best_grid_eval['cm'].flatten()/np.sum(best_grid_eval['cm'])]

labels = [f"{v1}\n{v2}\n{v3}" for v1, v2, v3 in zip(group_names,group_counts,group_percentages)]
labels = np.asarray(labels).reshape(2,2)

ax = sns.heatmap(best_grid_eval['cm'], annot=labels, fmt='', cmap='Blues')

ax.set_title('Confusion Matrix Model Optimal\n\n');
ax.set_xlabel('\nPredicted Values')
ax.set_ylabel('Actual Values ');

## Ticket labels - List must be in alphabetical order
ax.xaxis.set_ticklabels(['False','True'])
ax.yaxis.set_ticklabels(['False','True'])

## Display the visualization of the Confusion Matrix.
plt.show()

## **Perbandingan Model**

Kode di bawah ini akan menggambar plot yang sama seperti sebelumnya hanya dengan decision tree asli kami dan versi yang dioptimalkan. Ini juga akan mencetak perubahan pada setiap metrik evaluasi untuk membantu kami melihat apakah model kami yang dioptimalkan bekerja lebih baik daripada yang asli.

In [None]:
# Intitialize figure with two plots
fig, (ax1, ax2) = plt.subplots(1, 2)
fig.suptitle('Perbandingan Model', fontsize=16, fontweight='bold')
fig.set_figheight(7)
fig.set_figwidth(14)
fig.set_facecolor('white')

# First plot
## set bar size
barWidth = 0.2
dt_score = [dtc_eval['acc'], dtc_eval['prec'], dtc_eval['rec'], dtc_eval['f1'], dtc_eval['kappa']]
best_grid_score = [best_grid_eval['acc'], best_grid_eval['prec'], best_grid_eval['rec'], best_grid_eval['f1'], best_grid_eval['kappa']]

## Set position of bar on X axis
d1 = np.arange(len(dt_score))
d2 = [x + barWidth for x in d1]

## Make the plot
ax1.bar(d1, dt_score, width=barWidth, edgecolor='white', label='Decision Tree (Base Line)')
ax1.bar(d2, best_grid_score, width=barWidth, edgecolor='white', label='Decision Tree (Optimized)')

## Add xticks on the middle of the group bars
ax1.set_xlabel('Metrik', fontweight='bold')
labels = ['Akurasi', 'Precision', 'Recall', 'F1', 'Kappa']
ax1.set_xticks([r + (barWidth * 0.5) for r in range(len(dtc_score))], )
ax1.set_xticklabels(labels)
ax1.set_ylabel('Nilai', fontweight='bold')
# ax1.set_ylim(0, 1)

## Create legend & Show graphic
ax1.set_title('Metrik Evaluasi', fontsize=14, fontweight='bold')
ax1.legend()

# Second plot
## Comparing ROC Curve
ax2.plot(dtc_eval['fpr'], dtc_eval['tpr'], label='Decision Tree, auc = {:0.5f}'.format(dtc_eval['auc']))
ax2.plot(best_grid_eval['fpr'], best_grid_eval['tpr'], label='Decision Tree, auc = {:0.5f}'.format(best_grid_eval['auc']))

ax2.set_title('Kelengkungan ROC', fontsize=14, fontweight='bold')
ax2.set_xlabel('Nilai False Positive', fontweight='bold')
ax2.set_ylabel('Nilai True Positive', fontweight='bold')
ax2.legend(loc=4)

plt.show()

print('Akurasi berubah sebanyak {:0.2f}%.'.format(100 * ((best_grid_eval['acc'] - dtc_eval['acc']) / dtc_eval['acc'])))
print('Precision berubah sebanyak {:0.2f}%.'.format(100 * ((best_grid_eval['prec'] - dtc_eval['prec']) / dtc_eval['prec'])))
print('Recall berubah sebanyak {:0.2f}%.'.format(100 * ((best_grid_eval['rec'] - dtc_eval['rec']) / dtc_eval['rec'])))
print('Nilai F1 berubah sebanyak {:0.2f}%.'.format(100 * ((best_grid_eval['f1'] - dtc_eval['f1']) / dtc_eval['f1'])))
print('Nilai Kappa berubah sebanyak {:0.2f}%.'.format(100 * ((best_grid_eval['kappa'] - dtc_eval['kappa']) / dtc_eval['kappa'])))
print('AUC berubah sebanyak {:0.2f}%.'.format(100 * ((best_grid_eval['auc'] - dtc_eval['auc']) / dtc_eval['auc'])))

## **Membuat Prediksi**

Pada langkah ini kami akan memprediksi hasil yang diharapkan dari semua baris dari dataset pengujian kami yang lain menggunakan model Decision Tree.

In [None]:
# with base line dtc
# df_test_ready = df_test_ready.drop('prediksi_tertarik', axis=1)
df_predict_base_line = df_test_ready.copy()
feature = df_predict_base_line.drop('Tertarik', axis=1)

df_predict_base_line['prediksi_tertarik'] = dtc.predict(feature)

# Save new dataframe into csv file
df_predict_base_line.to_csv('prediksi_tertarik_baseline_model.csv', index=False)

df_predict_base_line.head(10)

In [None]:
# with improvedDTC
# df_test_ready = df_test_ready.drop('prediksi_tertarik', axis=1)
df_predict_improve = df_test_ready.copy()
feature = df_predict_improve.drop('Tertarik', axis=1)

df_predict_improve['prediksi_tertarik'] = improved_dt.predict(feature)

# Save new dataframe into csv file
df_predict_improve.to_csv('prediksi_tertarik_improved_model.csv', index=False)

df_predict_improve.head(10)

# **Kesimpulan**

Untuk model sederhana kita dapat melihat bahwa model kita melakukan klasifikasi data dengan kurang baik. Masih ada beberapa kelemahan pada model kami seperti recall, presisi, F1 dan kappa masih cenderung kecil. Hasilnya pun tidak jauh berbeda setelah mengoptimalkan model menggunakan GridSearchCV yang berarti kita mencapai batas kita dengan model ini. Untuk meningkatkan kinerja kami, kami dapat mencoba melihat ke dalam algoritma lain seperti GradientBoostingClassifier atau mencari model klasifikasi lain selain decision tree.

# **Link GitHub**

File csv untuk train dan test dan juga hasil prediksi terdapat pada link GitHub dibawah

https://github.com/dioapw/school-project-clustering-classification

# **Referensi**

- https://www.projectpro.io/recipes/optimize-hyper-parameters-of-decisiontree-model-using-grid-search-in-python
- https://medium.com/analytics-vidhya/building-classification-model-with-python-9bdfc13faa4b
- https://medium.com/codex/building-and-visualizing-decision-tree-in-python-2cfaafd8e1bb
- https://stevkarta.medium.com/membicarakan-precision-recall-dan-f1-score-e96d81910354
- https://www.stackvidhya.com/plot-confusion-matrix-in-python-and-why/