# 1. Business understanding

#### Business Understanding: Kita asumsikan tujuannya adalah untuk menganalisis pola kejahatan dan memprediksi jenis kejahatan.

# 2. Data understanding

In [None]:
# Data Understanding:
# Kita melihat informasi dasar tentang dataset.
# Kita membuat visualisasi untuk memahami distribusi jenis kejahatan dan korelasi antar variabel numerik.
# Kita juga membuat bar chart untuk setiap atribut kategorikal.

In [1]:
# Import library pandas untuk manipulasi dan analisis data
import pandas as pd

# Import library matplotlib untuk membuat visualisasi dan plot
import matplotlib.pyplot as plt

# Import library seaborn untuk visualisasi data statistik
import seaborn as sns

# Import library numpy untuk komputasi numerik
import numpy as np

# Mengatur output matplotlib agar ditampilkan langsung di notebook
%matplotlib inline

In [None]:
# Membaca dataset
df = pd.read_csv("kejahatan.csv")

# Menampilkan semua nilai dari dataset
df

In [None]:
# Menampilkan informasi dasar tentang dataset
print("Informasi Dataset:")
print(df.info())

In [None]:
# Menampilkan statistik ringkasan
# print("\nStatistik Ringkasan:")
# print(df.describe())
df.describe()


In [None]:
# Memeriksa nilai yang hilang
print("\nNilai yang Hilang:")
print(df.isnull().sum())


In [None]:
# Membuat visualisasi distribusi jenis kejahatan dalam bentuk bar chart

# Membuat figure baru dengan ukuran lebar 12 inch dan tinggi 6 inch
plt.figure(figsize=(12, 6))

# Menghitung frekuensi setiap jenis kejahatan dan memplotnya sebagai bar chart
# value_counts() menghitung jumlah kemunculan setiap nilai unik
# plot(kind='bar') membuat visualisasi berbentuk bar chart
df['Jenis Kejahatan'].value_counts().plot(kind='bar')

# Menambahkan judul grafik
plt.title('Distribusi Jenis Kejahatan')

# Menambahkan label untuk sumbu x
plt.xlabel('Jenis Kejahatan')

# Menambahkan label untuk sumbu y
plt.ylabel('Jumlah')

# Memutar label sumbu x 45 derajat agar lebih mudah dibaca
# ha='right' mengatur alignment horizontal ke kanan
plt.xticks(rotation=45, ha='right')

# Mengatur layout agar semua elemen grafik terlihat dengan baik
plt.tight_layout()

# Menampilkan grafik
plt.show()


In [None]:
# Membuat visualisasi korelasi untuk kolom numerik (angka)

# Memilih kolom-kolom yang berisi data numerik (integer dan float)
# menggunakan select_dtypes() untuk memfilter tipe data yang diinginkan
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns

# Membuat figure baru dengan ukuran 10x8 inch
plt.figure(figsize=(10, 8))

# Membuat heatmap menggunakan seaborn
# df[numeric_cols].corr() - Menghitung korelasi antar kolom numerik
# annot=True - Menampilkan nilai korelasi di setiap sel
# cmap='coolwarm' - Menggunakan skema warna biru-merah
sns.heatmap(df[numeric_cols].corr(), annot=True, cmap='coolwarm')

# Menambahkan judul grafik
plt.title('Peta Panas Korelasi')

# Mengatur layout agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan grafik sebagai file PNG
plt.savefig('peta_panas_korelasi.png')

# Menutup figure untuk menghemat memori
plt.close()

# Menampilkan pesan konfirmasi bahwa grafik telah disimpan
print("Grafik telah disimpan sebagai file PNG.")


In [None]:
# Mendefinisikan fungsi plot_bar_chart yang menerima dua parameter:
# - data: DataFrame yang berisi data yang akan divisualisasikan
# - column: Nama kolom yang akan dibuat bar chart-nya
def plot_bar_chart(data, column):
    # Membuat figure baru dengan ukuran 10x6 inch
    plt.figure(figsize=(10, 6))
    
    # Menghitung frekuensi kemunculan setiap nilai unik dalam kolom
    # dan membuatnya menjadi bar chart
    data[column].value_counts().plot(kind='bar')
    
    # Menambahkan judul grafik sesuai nama kolom
    plt.title(f'Distribusi {column}')
    
    # Menambahkan label untuk sumbu x (nama kolom)
    plt.xlabel(column)
    
    # Menambahkan label untuk sumbu y
    plt.ylabel('Jumlah')
    
    # Memutar label sumbu x 45 derajat dan mengatur alignment ke kanan
    plt.xticks(rotation=45, ha='right')
    
    # Mengatur layout agar semua elemen terlihat dengan baik
    plt.tight_layout()
    
    # Menyimpan grafik sebagai file PNG dengan nama sesuai kolom
    plt.savefig(f'barchart_{column}.png')
    
    # Menutup figure untuk menghemat memori
    plt.close()

# Mendapatkan daftar kolom yang bertipe data object (kategorikal)
# menggunakan select_dtypes
categorical_cols = df.select_dtypes(include=['object']).columns

# Membuat bar chart untuk setiap kolom kategorikal yang ditemukan
for column in categorical_cols:
    # Memanggil fungsi plot_bar_chart untuk membuat visualisasi
    plot_bar_chart(df, column)
    # Menampilkan pesan konfirmasi bahwa grafik telah disimpan
    print(f"Bar chart untuk {column} telah disimpan.")

In [None]:
# Mengubah kolom Tanggal menjadi tipe datetime
df['Tanggal'] = pd.to_datetime(df['Tanggal'])

In [None]:
# Membuat visualisasi Pie Chart untuk melihat distribusi jenis kejahatan
# Langkah-langkah:

# 1. Membuat figure baru dengan ukuran 10x8 inch
plt.figure(figsize=(10, 8))

# 2. Menghitung frekuensi setiap jenis kejahatan menggunakan value_counts()
# dan membuatnya menjadi pie chart dengan menampilkan persentase
df['Jenis Kejahatan'].value_counts().plot(kind='pie', autopct='%1.1f%%')

# 3. Menambahkan judul pada pie chart
plt.title('Distribusi Jenis Kejahatan')

# 4. Mengatur aspek rasio pie chart agar berbentuk lingkaran sempurna
plt.axis('equal')

# 5. Menyimpan visualisasi sebagai file PNG
plt.savefig('pie_chart_jenis_kejahatan.png')

# 6. Menutup figure untuk menghemat memori
plt.close()

In [None]:
# Membuat Line Plot untuk menampilkan tren kejahatan seiring waktu

# Mengelompokkan data berdasarkan tanggal dan menghitung jumlah kejahatan per tanggal
# reset_index() digunakan untuk mengubah index menjadi kolom
# name='Jumlah' memberikan nama 'Jumlah' pada kolom hasil agregasi
df_grouped = df.groupby('Tanggal').size().reset_index(name='Jumlah')

# Membuat figure baru dengan ukuran 12x6 inch
plt.figure(figsize=(12, 6))

# Membuat line plot dengan sumbu x=Tanggal dan y=Jumlah kejadian
plt.plot(df_grouped['Tanggal'], df_grouped['Jumlah'])

# Menambahkan judul grafik
plt.title('Tren Kejahatan Seiring Waktu')

# Menambahkan label untuk sumbu x
plt.xlabel('Tanggal')

# Menambahkan label untuk sumbu y
plt.ylabel('Jumlah Kejahatan')

# Memutar label sumbu x sebesar 45 derajat agar lebih mudah dibaca
plt.xticks(rotation=45)

# Mengatur tata letak plot agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan plot sebagai file gambar PNG
plt.savefig('line_plot_tren_kejahatan.png')

# Menutup figure untuk menghemat memori
plt.close()

In [None]:
# Membuat Box Plot untuk menampilkan distribusi usia pelaku kejahatan
# berdasarkan jenis kejahatan yang dilakukan

# Membuat figure baru dengan ukuran 12x6 inch
plt.figure(figsize=(12, 6))

# Membuat box plot menggunakan seaborn
# x = Jenis Kejahatan akan ditampilkan pada sumbu x
# y = Usia Pelaku akan ditampilkan pada sumbu y
# data = menggunakan dataframe df sebagai sumber data
sns.boxplot(x='Jenis Kejahatan', y='Usia Pelaku', data=df)

# Menambahkan judul pada grafik
plt.title('Distribusi Usia Pelaku berdasarkan Jenis Kejahatan')

# Memutar label pada sumbu x sebesar 45 derajat agar lebih mudah dibaca
plt.xticks(rotation=45)

# Mengatur tata letak plot agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan plot sebagai file gambar PNG
plt.savefig('box_plot_usia_pelaku.png')

# Menutup figure untuk menghemat memori
plt.close()

In [None]:
# 4. Membuat Heatmap untuk visualisasi Korelasi antar Variabel Numerik

# Memilih kolom-kolom numerik dari dataframe
# select_dtypes() digunakan untuk memfilter kolom berdasarkan tipe data
# include=['int64', 'float64'] artinya hanya mengambil kolom bertipe integer dan float
numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns

# Membuat figure baru dengan ukuran 10x8 inch
plt.figure(figsize=(10, 8))

# Membuat heatmap menggunakan seaborn
# df[numeric_cols].corr() menghitung korelasi antar kolom numerik
# annot=True untuk menampilkan nilai korelasi pada setiap sel
# cmap='coolwarm' mengatur skema warna dari biru (korelasi negatif) ke merah (korelasi positif)
sns.heatmap(df[numeric_cols].corr(), annot=True, cmap='coolwarm')

# Menambahkan judul pada grafik
plt.title('Heatmap Korelasi antar Variabel Numerik')

# Mengatur tata letak plot agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan plot sebagai file gambar PNG
plt.savefig('heatmap_korelasi.png')

# Menutup figure untuk menghemat memori
plt.close()

In [None]:
# 5. Membuat Violin Plot untuk visualisasi distribusi jumlah korban berdasarkan jenis kejahatan

# Membuat figure baru dengan ukuran 12x6 inch
plt.figure(figsize=(12, 6))

# Membuat violin plot menggunakan seaborn
# x='Jenis Kejahatan' - kategori pada sumbu x adalah jenis kejahatan
# y='Jumlah Korban' - nilai pada sumbu y adalah jumlah korban
# data=df - menggunakan dataframe df sebagai sumber data
# Violin plot menunjukkan distribusi data dan estimasi densitas probabilitas
sns.violinplot(x='Jenis Kejahatan', y='Jumlah Korban', data=df)

# Menambahkan judul pada grafik
plt.title('Distribusi Jumlah Korban berdasarkan Jenis Kejahatan')

# Memutar label pada sumbu x sebesar 45 derajat agar lebih mudah dibaca
plt.xticks(rotation=45)

# Mengatur tata letak plot agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan plot sebagai file gambar PNG
plt.savefig('violin_plot_jumlah_korban.png')

# Menutup figure untuk menghemat memori
plt.close()

In [None]:
# 6. Membuat Scatter Plot untuk melihat hubungan antara Usia Pelaku dan Jumlah Korban

# Membuat figure baru dengan ukuran 10x6 inch
plt.figure(figsize=(10, 6))

# Membuat scatter plot menggunakan seaborn
# x='Usia Pelaku' - nilai pada sumbu x adalah usia pelaku
# y='Jumlah Korban' - nilai pada sumbu y adalah jumlah korban
# hue='Jenis Kejahatan' - warna titik dibedakan berdasarkan jenis kejahatan
# data=df - menggunakan dataframe df sebagai sumber data
sns.scatterplot(x='Usia Pelaku', y='Jumlah Korban', hue='Jenis Kejahatan', data=df)

# Menambahkan judul pada grafik
plt.title('Hubungan antara Usia Pelaku dan Jumlah Korban')

# Mengatur posisi legend di luar plot (sebelah kanan atas)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')

# Mengatur tata letak plot agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan plot sebagai file gambar PNG
plt.savefig('scatter_plot_usia_korban.png')

# Menutup figure untuk menghemat memori
plt.close()

In [None]:
# 7. Membuat Stacked Area Chart untuk memvisualisasikan tren jenis kejahatan dari waktu ke waktu

# Membuat pivot table dari dataframe dengan:
# - index: kolom 'Tanggal' sebagai sumbu x
# - columns: 'Jenis Kejahatan' untuk membedakan area
# - aggfunc='size': menghitung jumlah kejadian
# - fill_value=0: mengisi nilai kosong dengan 0
df_pivot = df.pivot_table(index='Tanggal', columns='Jenis Kejahatan', aggfunc='size', fill_value=0)

# Membuat plot area yang ditumpuk dengan:
# - kind='area': jenis plot area
# - stacked=True: area ditumpuk
# - figsize=(12, 6): ukuran plot 12x6 inci
df_pivot.plot(kind='area', stacked=True, figsize=(12, 6))

# Menambahkan judul dan label pada grafik
plt.title('Tren Jenis Kejahatan Seiring Waktu')
plt.xlabel('Tanggal')  # Label sumbu x
plt.ylabel('Jumlah Kejahatan')  # Label sumbu y

# Mengatur posisi legend di luar plot (sebelah kanan atas)
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')

# Mengatur tata letak plot agar semua elemen terlihat dengan baik
plt.tight_layout()

# Menyimpan plot sebagai file PNG
plt.savefig('stacked_area_chart_tren_kejahatan.png')

# Menutup figure untuk menghemat memori
plt.close()

# Menampilkan pesan bahwa visualisasi telah disimpan
print("Semua visualisasi telah disimpan sebagai file PNG.")

# 3. Data preparation

In [None]:
# Data Preparation:
# Kita mengubah variabel kategorikal menjadi numerik menggunakan LabelEncoder.
# Kita memisahkan fitur dan target.
# Kita membagi data menjadi set pelatihan dan pengujian.
# Kita memeriksa keseimbangan kelas target.
# Akhirnya, kita menyimpan data yang telah dipreparasi.

In [None]:
# Import library yang dibutuhkan:
# - LabelEncoder: untuk mengubah data kategorikal menjadi numerik
# - train_test_split: untuk membagi data menjadi data training dan testing
# - cross_val_score: untuk melakukan validasi silang
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, cross_val_score

# Mendefinisikan kolom-kolom yang akan diubah menjadi numerik
# Kolom ini berisi data kategorikal seperti jenis kelamin, jenis kejahatan, dll
columns_to_encode = ['Jenis Kelamin Pelaku', 'Jenis Kejahatan', 'Status Pelaku', 'Motivasi Kejahatan']

# Membuat instance LabelEncoder untuk mengubah data kategorikal menjadi numerik
le = LabelEncoder()

# Melakukan iterasi untuk setiap kolom yang akan diubah
# Untuk setiap kolom:
# - fit_transform(): mempelajari kategori unik dan mengubahnya menjadi angka
# - Hasil transformasi disimpan kembali ke dataframe
for column in columns_to_encode:
    df[column] = le.fit_transform(df[column])

# Menampilkan kolom yang telah diubah menjadi numerik
print("Kolom yang diubah menjadi numerik:", columns_to_encode)

In [None]:
# Menampilkan informasi tipe data setelah perubahan
print("\nTipe data kolom setelah perubahan:")
print(df.dtypes)

In [9]:
# Mendefinisikan kolom-kolom yang akan digunakan sebagai fitur (variabel independen)
# - 'Jenis Kelamin Pelaku': Berisi informasi gender dari pelaku kejahatan
# - 'Status Pelaku': Berisi status/kondisi pelaku (contoh: residivis, baru pertama, dll)
# - 'Motivasi Kejahatan': Berisi alasan/motivasi pelaku melakukan kejahatan
feature_columns = ['Jenis Kelamin Pelaku', 'Status Pelaku', 'Motivasi Kejahatan']

# Mendefinisikan kolom target (variabel dependen) yang akan diprediksi
# - 'Jenis Kejahatan': Berisi kategori/tipe kejahatan yang dilakukan
target_column = 'Jenis Kejahatan'

# Memisahkan dataset menjadi fitur (X) dan target (y)
# X: Mengambil data dari dataframe df khusus untuk kolom-kolom fitur
# y: Mengambil data dari dataframe df khusus untuk kolom target
X = df[feature_columns]  # Matrix fitur - berisi data yang digunakan untuk prediksi
y = df[target_column]    # Vector target - berisi label yang akan diprediksi

In [None]:
# Membagi dataset menjadi data latih dan data uji menggunakan train_test_split
# Parameter yang digunakan:
# - X: Matrix fitur (data independen)
# - y: Vector target (data dependen/label)
# - test_size=0.2: 20% data akan digunakan sebagai data uji, 80% untuk data latih
# - random_state=42: Untuk memastikan hasil pembagian data yang konsisten/reproducible
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menampilkan dimensi/ukuran dari data latih dan data uji
# X_train.shape akan menampilkan (jumlah_baris, jumlah_kolom) dari data latih
# X_test.shape akan menampilkan (jumlah_baris, jumlah_kolom) dari data uji
print("Ukuran set pelatihan:", X_train.shape)
print("Ukuran set pengujian:", X_test.shape)

In [None]:
# Memeriksa keseimbangan distribusi kelas dalam dataset
# Keseimbangan kelas penting untuk menghindari bias dalam model

# Menampilkan header untuk distribusi kelas
print("\nDistribusi kelas target:")

# Menghitung proporsi setiap kelas dalam variabel target (y)
# - value_counts(): Menghitung frekuensi kemunculan setiap nilai unik
# - normalize=True: Mengubah frekuensi menjadi persentase (0-1)
# Output berupa proporsi setiap jenis kejahatan dalam dataset
print(y.value_counts(normalize=True))

In [None]:
# Menyimpan data yang telah dipreparasi
# X_train.to_csv('X_train.csv', index=False)
# X_test.to_csv('X_test.csv', index=False)
# y_train.to_csv('y_train.csv', index=False)
# y_test.to_csv('y_test.csv', index=False)

# print("\nData yang telah dipreparasi telah disimpan dalam format CSV.")

# Perubahan Tipe Data Kolom

Dalam proses persiapan data untuk model klasifikasi, beberapa kolom diubah tipe datanya dari kategorikal menjadi numerik menggunakan `LabelEncoder`. Berikut adalah detail perubahan yang dilakukan:

## Kolom Fitur

1. **Jenis Kelamin Pelaku**
   - Tipe data awal: Kategorikal (string)
   - Tipe data akhir: Numerik (integer)
   - Alasan perubahan: Model machine learning membutuhkan input numerik.
   - Catatan penting:
      - Laki-laki = 0
      - Perempuan = 1

2. **Status Pelaku**
   - Tipe data awal: Kategorikal (string)
   - Tipe data akhir: Numerik (integer)
   - Alasan perubahan: Mengubah kategori status pelaku menjadi representasi numerik.
   - Catatan penting:
      - DPO (Daftar Pencarian Orang) = 0
      - Ditangkap = 1

3. **Motivasi Kejahatan**
   - Tipe data awal: Kategorikal (string)
   - Tipe data akhir: Numerik (integer)
   - Alasan perubahan: Mengubah berbagai kategori motivasi kejahatan menjadi angka.
   - Catatan penting:
      - Kekeluargaan = 0
      - Kekerasan = 1
      - Keuangan = 2
      - Pribadi = 3

## Kolom Target

4. **Jenis Kejahatan**
   - Tipe data awal: Kategorikal (string)
   - Tipe data akhir: Numerik (integer)
   - Alasan perubahan: Mengubah jenis kejahatan menjadi label numerik untuk klasifikasi.
   - Catatan penting:
      - Pembunuhan = 0
      - Pemerasan = 1
      - Pencurian = 2
      - Penganiayaan = 3
      - Penipuan = 4
      - Perampokan = 5



# 4. Modelling

In [12]:
# Mengimpor algoritma klasifikasi yang akan digunakan
# GaussianNB: Algoritma Naive Bayes dengan asumsi distribusi Gaussian/Normal
# untuk klasifikasi data numerik kontinyu
from sklearn.naive_bayes import GaussianNB

# DecisionTreeClassifier: Algoritma pohon keputusan untuk klasifikasi
# yang membuat keputusan berdasarkan aturan if-then dari fitur data
from sklearn.tree import DecisionTreeClassifier

In [13]:
# Membuat model klasifikasi menggunakan algoritma Naive Bayes
# GaussianNB() adalah implementasi Naive Bayes untuk data numerik/kontinyu
nb_model = GaussianNB()

# Melatih model menggunakan data training (X_train dan y_train)
# fit() digunakan untuk mempelajari pola dari data training
nb_model.fit(X_train, y_train)

# Melakukan prediksi menggunakan data testing (X_test)
# predict() akan menghasilkan label kelas untuk setiap data testing
# Hasil prediksi disimpan dalam variabel nb_predictions
nb_predictions = nb_model.predict(X_test)

In [14]:
# Membuat model klasifikasi menggunakan algoritma Decision Tree
# DecisionTreeClassifier() adalah model pohon keputusan untuk klasifikasi
# random_state=42 digunakan untuk memastikan hasil yang konsisten/reproducible
dt_model = DecisionTreeClassifier(random_state=42)

# Melatih model Decision Tree menggunakan data training
# fit() akan mempelajari pola dan membuat pohon keputusan berdasarkan fitur X_train
# untuk memprediksi target y_train
dt_model.fit(X_train, y_train)

# Melakukan prediksi menggunakan data testing (X_test)
# predict() akan mengklasifikasikan data testing ke dalam kelas-kelas yang ada
# Hasil prediksi disimpan dalam variabel dt_predictions
dt_predictions = dt_model.predict(X_test)

# 5. Evaluation

In [15]:
# Import metrik evaluasi yang diperlukan dari sklearn.metrics
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.metrics import roc_curve, auc

# Membuat fungsi display_results untuk menampilkan hasil evaluasi model
def display_results(y_true, y_pred, model_name):
    # Parameter:
    # y_true: nilai aktual/sebenarnya
    # y_pred: nilai hasil prediksi model
    # model_name: nama model yang dievaluasi
    
    # Menampilkan header dengan nama model
    print(f"\nHasil Evaluasi untuk {model_name}:")
    
    # Menghitung dan menampilkan accuracy score
    # accuracy_score mengukur rasio prediksi yang benar dibanding total prediksi
    print("Accuracy:", accuracy_score(y_true, y_pred))
    
    # Menampilkan classification report yang berisi:
    # precision, recall, f1-score, dan support untuk setiap kelas
    print("\nClassification Report:")
    print(classification_report(y_true, y_pred))
    
    # Menampilkan confusion matrix
    # Matrix yang menunjukkan jumlah true positive, false positive,
    # true negative, dan false negative
    print("\nConfusion Matrix:")
    print(confusion_matrix(y_true, y_pred))


In [None]:
# Memanggil fungsi display_results untuk mengevaluasi model Naive Bayes
# Parameter yang digunakan:
# - y_test: data aktual/sebenarnya dari data testing
# - nb_predictions: hasil prediksi dari model Naive Bayes
# - "Naive Bayes": nama model yang dievaluasi
# Fungsi ini akan menampilkan:
# 1. Accuracy score - mengukur tingkat akurasi prediksi
# 2. Classification report - detail metrics seperti precision, recall, f1-score
# 3. Confusion matrix - matrix yang menunjukkan perbandingan prediksi vs aktual
display_results(y_test, nb_predictions, "Naive Bayes")

In [None]:
# Memanggil fungsi display_results untuk mengevaluasi model Decision Tree
# Parameter yang digunakan:
# - y_test: data aktual/sebenarnya dari data testing
# - dt_predictions: hasil prediksi dari model Decision Tree 
# - "Decision Tree": nama model yang dievaluasi
# Fungsi ini akan menampilkan:
# 1. Accuracy score - mengukur tingkat akurasi prediksi model Decision Tree
# 2. Classification report - detail metrics seperti precision, recall, f1-score
# 3. Confusion matrix - matrix yang menunjukkan perbandingan prediksi vs aktual
display_results(y_test, dt_predictions, "Decision Tree")

In [None]:
# Membandingkan tingkat akurasi antara model Naive Bayes dan Decision Tree
# Akurasi menunjukkan seberapa akurat model dalam memprediksi data

# Menampilkan header untuk perbandingan akurasi
print("\nPerbandingan Akurasi:")

# Menghitung dan menampilkan akurasi model Naive Bayes
# Menggunakan fungsi accuracy_score dengan parameter:
# - y_test: data aktual/sebenarnya
# - nb_predictions: hasil prediksi dari model Naive Bayes
print("Naive Bayes:", accuracy_score(y_test, nb_predictions))

# Menghitung dan menampilkan akurasi model Decision Tree
# Menggunakan fungsi accuracy_score dengan parameter:
# - y_test: data aktual/sebenarnya  
# - dt_predictions: hasil prediksi dari model Decision Tree
print("Decision Tree:", accuracy_score(y_test, dt_predictions))

In [None]:
# Melakukan cross-validation untuk mengevaluasi performa model secara lebih robust
# Cross-validation membagi data menjadi k-fold (dalam hal ini 5 fold) dan melakukan training-testing berulang kali

# Menghitung skor cross-validation untuk model Naive Bayes
# Parameter:
# - nb_model: model Naive Bayes yang sudah dibuat
# - X: seluruh fitur data
# - y: seluruh label data 
# - cv=5: membagi data menjadi 5 fold
nb_cv_scores = cross_val_score(nb_model, X, y, cv=5)

# Menghitung skor cross-validation untuk model Decision Tree
# Menggunakan parameter yang sama seperti Naive Bayes
dt_cv_scores = cross_val_score(dt_model, X, y, cv=5)

# Menampilkan skor cross-validation untuk kedua model
print("\nCross-validation scores:")
print("Naive Bayes:", nb_cv_scores)  # Menampilkan skor untuk setiap fold pada Naive Bayes
print("Decision Tree:", dt_cv_scores)  # Menampilkan skor untuk setiap fold pada Decision Tree

# Menampilkan rata-rata skor cross-validation
print("\nMean CV score:")
print("Naive Bayes:", np.mean(nb_cv_scores))  # Rata-rata skor dari 5 fold untuk Naive Bayes
print("Decision Tree:", np.mean(dt_cv_scores))  # Rata-rata skor dari 5 fold untuk Decision Tree

In [None]:
# Membuat fungsi untuk memvisualisasikan confusion matrix
def plot_confusion_matrix(y_true, y_pred, model_name):
    # Membuat confusion matrix dengan membandingkan nilai aktual (y_true) dan prediksi (y_pred)
    cm = confusion_matrix(y_true, y_pred)
    
    # Membuat figure baru dengan ukuran 10x8 inch
    plt.figure(figsize=(10,8))
    
    # Membuat visualisasi heatmap dari confusion matrix:
    # - annot=True: menampilkan nilai di setiap sel
    # - fmt='d': format nilai sebagai integer
    # - cmap='Blues': menggunakan colormap biru
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
    
    # Menambahkan judul grafik sesuai nama model
    plt.title(f'Confusion Matrix - {model_name}')
    
    # Menambahkan label untuk sumbu y (nilai aktual)
    plt.ylabel('Actual')
    
    # Menambahkan label untuk sumbu x (nilai prediksi) 
    plt.xlabel('Predicted')
    
    # Menampilkan plot
    plt.show()

# Membuat visualisasi confusion matrix untuk model Naive Bayes
plot_confusion_matrix(y_test, nb_predictions, "Naive Bayes")

# Membuat visualisasi confusion matrix untuk model Decision Tree 
plot_confusion_matrix(y_test, dt_predictions, "Decision Tree")

In [None]:
# Membuat visualisasi Feature Importance untuk melihat fitur yang paling berpengaruh dalam model Decision Tree

# Membuat DataFrame yang berisi nama fitur dan nilai importance-nya
# X.columns berisi nama-nama fitur
# dt_model.feature_importances_ berisi nilai pentingnya setiap fitur
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': dt_model.feature_importances_})

# Mengurutkan fitur berdasarkan nilai importance secara descending (terbesar ke terkecil)
feature_importance = feature_importance.sort_values('importance', ascending=False)

# Membuat figure dengan ukuran 10x8 inch
plt.figure(figsize=(10,8))

# Membuat bar plot menggunakan seaborn
# x='importance': nilai pentingnya fitur akan ditampilkan pada sumbu x
# y='feature': nama fitur akan ditampilkan pada sumbu y
# data=feature_importance: menggunakan DataFrame yang sudah dibuat
sns.barplot(x='importance', y='feature', data=feature_importance)

# Menambahkan judul pada grafik
plt.title('Feature Importance')

# Menampilkan plot
plt.show()

# 6. Deployment

In [None]:
# Import library joblib untuk menyimpan model machine learning
import joblib

# Menyimpan model Naive Bayes (nb_model) ke dalam file 'naive_bayes_model.joblib'
# joblib.dump() digunakan untuk menyimpan model ke dalam file
joblib.dump(nb_model, 'naive_bayes_model.joblib')

# Menyimpan model Decision Tree (dt_model) ke dalam file 'decision_tree_model.joblib' 
joblib.dump(dt_model, 'decision_tree_model.joblib')

# Menampilkan pesan bahwa model telah berhasil disimpan
print("\nModel telah disimpan dalam format joblib.")

# Membuat DataFrame untuk menampilkan Feature Importance dari model Decision Tree
# X.columns berisi nama-nama fitur
# dt_model.feature_importances_ berisi nilai pentingnya setiap fitur dalam model
feature_importance = pd.DataFrame({'feature': X.columns, 'importance': dt_model.feature_importances_})

# Mengurutkan fitur berdasarkan nilai importance dari yang terbesar ke terkecil
feature_importance = feature_importance.sort_values('importance', ascending=False)

# Menampilkan hasil Feature Importance untuk model Decision Tree
print("\nFeature Importance (Decision Tree):")
print(feature_importance)

In [None]:

# Visualisasi Decision Tree (opsional, memerlukan library graphviz)
# from sklearn.tree import export_graphviz
# import graphviz

# dot_data = export_graphviz(dt_model, out_file=None, feature_names=X.columns, 
#                            class_names=le.classes_, filled=True, rounded=True, 
#                            special_characters=True)
# graph = graphviz.Source(dot_data)
# graph.render("decision_tree_visualization")
# print("\nVisualisasi Decision Tree telah disimpan.")