# KLASIFIKASI PEMBIBITAN (NURSERY)

Klasifikasi pembibitan (nursery) adalah klasifikasi yang bertujuan untuk menentukan perankingan terhadap kelayakan penerimaan siswa di sekolah yang berkualitas. Banyaknya pendaftar di suatu sekolah favorit dengan kuota terbatas menyebabkan banyaknya pendaftar yang tidak lolos seleksi dan memerlukan banyak alasan penolakan yang obejektif. Oleh karena itu, dengan adanya klasifikasi ini diharapkan dapat membantu memudahkan untuk memutuskan penerimaan siswa, dan bagi siswa yang tidak lolos akan dengan mudah terlihat alasan yang membuatnya tidak lolos seleksi.

In [1]:
#IMPORT REQUIRMENTS
import pandas as pd
import numpy as np
import joblib
import seaborn as sns
import sklearn
from matplotlib import pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import LabelEncoder

ModuleNotFoundError: No module named 'seaborn'

# DATA UNDESRTANDING

Data Understanding atau memahami data adalah sebuah tahapan di dalam metodologi sains data dan pengembangan AI yang bertujuan untuk mendapatkan pemahaman awal mengenai data yang dibutuhkan untuk memecahkan permasalahan yang diberikan. Pada case kali ini kita akan memahami Dataset Nursery

## Mengumpulkan Data

### Mencari Data

Tahapan pertama pada mengumpulkan data adalah dengan mencari dataset yang akan kita gunakan, sesuai penjelasan di atas kita akan menggunakan Dataset Nursery yang bersumber dari:

https://archive.ics.uci.edu/dataset/76/nursery

### Menarik Data

Setelah kita mendapatkan data yang sesuai, selanjutnya kita upload data tersebut ke drive atau database yang kita miliki. Kemudian kami integrasikan dataset tersebut ke notebooks yang kami gunakan dengan tujuan akan memudahkan akses sesama anggota kelompok.

In [2]:
df = pd.read_csv("asset/data/nursery.csv")
df

Unnamed: 0,Id,parents,has_nurs,form,children,housing,finance,social,health,final evaluation
0,1,usual,proper,complete,1,convenient,convenient,nonprob,recommended,recommend
1,2,usual,proper,complete,1,convenient,convenient,nonprob,priority,priority
2,3,usual,proper,complete,1,convenient,convenient,nonprob,not_recom,not_recom
3,4,usual,proper,complete,1,convenient,convenient,slightly_prob,recommended,recommend
4,5,usual,proper,complete,1,convenient,convenient,slightly_prob,priority,priority
...,...,...,...,...,...,...,...,...,...,...
12955,12956,great_pret,very_crit,foster,more,critical,inconv,slightly_prob,priority,spec_prior
12956,12957,great_pret,very_crit,foster,more,critical,inconv,slightly_prob,not_recom,not_recom
12957,12958,great_pret,very_crit,foster,more,critical,inconv,problematic,recommended,spec_prior
12958,12959,great_pret,very_crit,foster,more,critical,inconv,problematic,priority,spec_prior


## Memahami Data

### Deskripsi Data

Database Pembibitan berasal dari model keputusan hierarki yang awalnya dikembangkan untuk menentukan peringkat aplikasi untuk sekolah taman kanak-kanak.

Database Pembibitan berasal dari model keputusan hierarki yang awalnya dikembangkan untuk menentukan peringkat aplikasi untuk sekolah taman kanak-kanak. Istilah ini digunakan selama beberapa tahun pada tahun 1980-an ketika jumlah siswa yang mendaftar di sekolah-sekolah tersebut di Ljubljana, Slovenia sangat tinggi, dan permohonan yang ditolak sering kali memerlukan penjelasan yang obyektif. Keputusan akhir bergantung pada tiga submasalah: pekerjaan orang tua dan tempat penitipan anak, struktur keluarga dan kondisi keuangan, serta gambaran sosial dan kesehatan keluarga. Model ini dikembangkan dalam shell sistem pakar untuk pengambilan keputusan DEX (M. Bohanec, V. Rajkovic: Sistem pakar untuk pengambilan keputusan. Sistemica 1(1), hlm. 145-157, 1990.). 

Model hierarki memeringkat aplikasi taman kanak-kanak berdasarkan struktur konsep berikut: 

- NURSERY, Evaluation of applications for nursery schools

- EMPLOY, Employment of parents and child's nursery

- parents, Parents' occupation

- has_nurs, Child's nursery

- STRUCT_FINAN, Family structure and financial standings

- STRUCTURE, Family structure

- form, Form of the family

- children, Number of children

- housing, Housing conditions

- finance, Financial standing of the family

- SOC_HEALTH, Social and health picture of the family

- social, Social conditions

- health, Health conditions

Setiap konsep dalam model asli dihubungkan dengan keturunan tingkat bawahnya melalui serangkaian contoh (untuk kumpulan contoh ini, lihat http://www-ai.ijs.si/BlazZupan/nursery.html). Basis Data Pembibitan berisi contoh-contoh yang informasi strukturalnya dihilangkan, yaitu menghubungkan langsung NURSERY dengan delapan atribut input: orang tua, has_nurs, bentuk, anak, perumahan, keuangan, sosial, kesehatan. Karena struktur konsep dasar yang diketahui, database ini mungkin berguna untuk menguji metode induksi konstruktif dan penemuan struktur.

### Penjelasan Fitur

<img src="asset/image/variable_table.png" width="75%" align="left" />

- parents, Kriteria Pekerjaan Orang Tua

- has_nurs, Jumlah Anak yang Pernah Dirawat

- form, Kondisi Keluarga

- children, Jumlah Anak dalam Keluarga 

- housing, Keadaan Rumah

- finance, Keadaan Keuangan Keluarga

- social, Keadaan Sosial 

- health, Keadaan Kesehatan

- class (Categorial), Kriteria Perawat

## Eksplorasi Data

In [3]:
df[["parents", "has_nurs", "form", "children", "housing", "finance", "social", "health", "final evaluation"]].describe()

Unnamed: 0,parents,has_nurs,form,children,housing,finance,social,health,final evaluation
count,12960,12960,12960,12960,12960,12960,12960,12960,12960
unique,3,5,4,4,3,2,3,3,5
top,usual,proper,complete,1,convenient,convenient,nonprob,recommended,not_recom
freq,4320,2592,3240,3240,4320,6480,4320,4320,4320


penjelasan

In [4]:
df.value_counts("parents")

parents
great_pret     4320
pretentious    4320
usual          4320
Name: count, dtype: int64

In [5]:
df.value_counts("has_nurs")

has_nurs
critical       2592
improper       2592
less_proper    2592
proper         2592
very_crit      2592
Name: count, dtype: int64

In [6]:
df.value_counts("form")

form
complete      3240
completed     3240
foster        3240
incomplete    3240
Name: count, dtype: int64

In [7]:
df.value_counts("children")

children
1       3240
2       3240
3       3240
more    3240
Name: count, dtype: int64

In [8]:
df.value_counts("housing")

housing
convenient    4320
critical      4320
less_conv     4320
Name: count, dtype: int64

In [9]:
df.value_counts("finance")

finance
convenient    6480
inconv        6480
Name: count, dtype: int64

In [10]:
df.value_counts("social")

social
nonprob          4320
problematic      4320
slightly_prob    4320
Name: count, dtype: int64

In [11]:
df.value_counts("health")

health
not_recom      4320
priority       4320
recommended    4320
Name: count, dtype: int64

In [12]:
df.value_counts("final evaluation")

final evaluation
not_recom     4320
priority      4266
spec_prior    4044
very_recom     328
recommend        2
Name: count, dtype: int64

Dapat dilihat dari code di atas bahwa fitur-fitur yang ada sudah seimbang.

Berdasarkan code terakhir, dapat diperoleh informasi bahwa data Class atau variabel respon mempunyainilai yang berbeda-beda di setiap kriteria. Terlihat bahwa kriteria not recom menjadi nilai yang paling banyak muncul daripada kriteria yang lain. Sedangkan kriteria recommend menjadi nilai yang paling sedikit daripada kriteria yang lain. Jarak antara paling banyak muncul dengan paling sedikit muncul cukup tinggi. Sehingga bisa dikatakan data cukup bervariasi. Pada kriteria recommended yang hanya mempunyai nilai 2 perlu diperhatikan, agar mengurangi kesalahan dalam melakukan analisis data. 

## Kualitas Data

### Missing Value

Missing value adalah informasi yang tidak tersedia untuk sebuah objek (kasus). Missing value terjadi karena informasi untuk sesuatu tentang objek tidak diberikan, sulit dicari, atau memang informasi tersebut tidak ada

Kita akan mengecek untuk kualitas data, apakah data tersebut memiliki missing value atau tidak. 

In [13]:
df.isnull().sum()

Id                  0
parents             0
has_nurs            0
form                0
children            0
housing             0
finance             0
social              0
health              0
final evaluation    0
dtype: int64

Berdasarkan hasil output, diketahui bahwa tidak ada data yang mengalami missing value. 

### Outlier Data

Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai ini muncul sebagai pengecualian dalam pola data yang ada.

Nilai yang ada di outlier bisa jauh lebih tinggi maupun lebih rendah dibandingkan dengan nilai-nilai lain dalam dataset. Outlier bisa terjadi karena berbagai alasan, termasuk kesalahan pengukuran, kejadian langka, atau karena faktor lain yang tidak terduga.

Mendeteksi outlier merupakan langkah penting dalam analisis data karena outlier memiliki dampak signifikan terhadap hasil analisis dan berpotensi menghasilkan kesimpulan yang tidak akurat.

Berikut beberapa alasan lain di balik pentingnya mendeteksi outlier:

1. Menghindari distorsi analisis

2. Memahami data dengan tepat

3. Memastikan analisis valid

4. Mendeteksi jika ada kesalahan atau kecurangan

Oleh karena itu, nantinya akan kita cek apakah ada data yang aneh atau tidak dengan menggunakan LOF (Local Outlier Factor)

# DATA PREPROCESSING

Pra-proses atau data preprocessing merupakan salah satu tahapan dalam melakukan mining data. Sebelum menuju ke tahap pemprosesan. Data mentah akan diolah terlebih dahulu. Data preprocessing atau praproses data biasanya dilakukan melalui cara eliminasi data yang tidak sesuai. Selain itu dalam proses ini data akan diubah dalam bentuk yang akan lebih dipahami oleh sistem. 

Pengertian lain menyebutkan bahwa data preprocessing adalah tahapan untuk menghilangkan beberapa permasalahan yang bisa mengganggu saat pemrosesan data. Hal tersebut karena banyak data yang formatnya tidak konsisten. Data preprocessing merupakan teknik paling awal sebelum melakukan data mining. Namun terdapat beberapa proses juga dalam data preprocessing seperti membersihkan, mengintegrasikan, mentransformasikan dan mereduksi data.

Berikut adalah tahapan dalam pra-proses data:

- DATA CLEANING: Tahap pertama yang perlu dilakukan ketika akan preprocessing data adalah data cleaning atau membersihkan data. Artinya, data mentah yang telah diperoleh perlu diseleksi kembali. Kemudian, hapus atau hilangkan data-data yang tidak lengkap, tidak relevan, dan tidak akurat.

- DATA INTEGRATION: Karena data preprocessing akan menggabungkan beberapa data dalam suatu dataset, maka kita harus mengecek data-data yang datang dari berbagai sumber tersebut supaya memiliki format yang sama.

- TRANSFORMASI DATA: Proses berikutnya yang harus dilakukan adalah transformasi data. Seperti yang telah dijelaskan di atas, data akan diambil dari berbagai sumber yang kemungkinan memiliki perbedaan format. Kita harus menyamakan seluruh data yang terkumpul supaya dapat mempermudah proses analisis data.

- MENGURANGI DATA: Tahap terakhir yang perlu dilakukan adalah mengurangi jumlah data (data reduction). Maksudnya adalah kita harus mengurangi sampel data yang diambil, tetapi dengan catatan, tidak akan mengubah hasil analisis data. Ada tiga teknik yang bisa diterapkan saat melakukan pengurangan data, yakni dimensionality reduction (pengurangan dimensi), numerosity reduction (pengurangan jumlah), dan data compression (kompresi data).

## DATA CLEANING

### Seleksi Fitur

In [14]:
df = df = df.drop(['Id'], axis=1)

df

Unnamed: 0,parents,has_nurs,form,children,housing,finance,social,health,final evaluation
0,usual,proper,complete,1,convenient,convenient,nonprob,recommended,recommend
1,usual,proper,complete,1,convenient,convenient,nonprob,priority,priority
2,usual,proper,complete,1,convenient,convenient,nonprob,not_recom,not_recom
3,usual,proper,complete,1,convenient,convenient,slightly_prob,recommended,recommend
4,usual,proper,complete,1,convenient,convenient,slightly_prob,priority,priority
...,...,...,...,...,...,...,...,...,...
12955,great_pret,very_crit,foster,more,critical,inconv,slightly_prob,priority,spec_prior
12956,great_pret,very_crit,foster,more,critical,inconv,slightly_prob,not_recom,not_recom
12957,great_pret,very_crit,foster,more,critical,inconv,problematic,recommended,spec_prior
12958,great_pret,very_crit,foster,more,critical,inconv,problematic,priority,spec_prior


Seleksi fitur ini dilakukan bertujuan untuknmenghapus kolom atau fitur yang tidak relevan atau tidak diperlukan dalam analisis atau komputasi lebih lanjut. Dalam kasus ini, kolom “Id” dihapus karena memang tidak dibutuhkan dalam proses pemodelan atau perhitungan saat imputer missing value nantinya. Adanya “Id” hanya digunakan pada proses data understanding yaitu untuk mengumpulkan data untuk mempermudah proses koomputasi lebih lanjut.

### Merubah nama kolom

In [15]:
df = df.rename(columns={'parents' : 'Parents', 'has_nurs' : 'Has_nurs', 'form' : 'Form', 'children' : 'Children', 'housing' : 'Housing', 'finance' : 'Finance', 'social' : 'Social', 'health' : 'Health', 'final evaluation' : 'Class'})
df.head(5)

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health,Class
0,usual,proper,complete,1,convenient,convenient,nonprob,recommended,recommend
1,usual,proper,complete,1,convenient,convenient,nonprob,priority,priority
2,usual,proper,complete,1,convenient,convenient,nonprob,not_recom,not_recom
3,usual,proper,complete,1,convenient,convenient,slightly_prob,recommended,recommend
4,usual,proper,complete,1,convenient,convenient,slightly_prob,priority,priority


Tahapan yang dapat dilakukan untuk menyesuaikan nama kolom antara lain sebagai berikut:

- Renaming Kolom: Anda dapat menggunakan metode atau fungsi yang disediakan oleh pustaka analisis data (seperti Pandas di Python) untuk mengganti nama kolom. Misalnya, dalam Pandas, Anda dapat menggunakan metode .rename() untuk mengganti nama kolom.

- Singkat dan Jelas: Pastikan nama kolom singkat dan mudah dipahami. Hindari penggunaan kata-kata yang terlalu panjang atau ambigu.

## TRANSFORMASI DATA

Tahapan Data Integration dan Data Reduction akan kita lewati karena tidak diperlukan. Jadi kita langsung ketahapan Transformasi Data. Tahapan ini diperlukan dikarenakan data yang kita pakai pada case ini merupakan data kategorial sehingga memerlukan transformasi agar memudahkan perhitungan yang ada nantinya. Data kategorik diubah kedalam bentuk dummy. Sehingga terlihat bahwa semua data dalam bentuk angka. Setelahnya bisa dilanjutkan ke analisis berikutnya. 

### Encoder Fitur

In [16]:
le = LabelEncoder()

df['Parents'] = le.fit_transform(df['Parents'])
df['Has_nurs'] = le.fit_transform(df['Has_nurs'])
df['Form'] = le.fit_transform(df['Form'])
df['Children'] = le.fit_transform(df['Children'])
df['Housing'] = le.fit_transform(df['Housing'])
df['Finance'] = le.fit_transform(df['Finance'])
df['Social'] = le.fit_transform(df['Social'])
df['Health'] = le.fit_transform(df['Health'])

df

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health,Class
0,2,3,0,0,0,0,0,2,recommend
1,2,3,0,0,0,0,0,1,priority
2,2,3,0,0,0,0,0,0,not_recom
3,2,3,0,0,0,0,2,2,recommend
4,2,3,0,0,0,0,2,1,priority
...,...,...,...,...,...,...,...,...,...
12955,0,4,2,3,1,1,2,1,spec_prior
12956,0,4,2,3,1,1,2,0,not_recom
12957,0,4,2,3,1,1,1,2,spec_prior
12958,0,4,2,3,1,1,1,1,spec_prior


## Deteksi Outlier Menggunakan LOF (Local Outlier Factor)

Konsep Local Outlier Factor

Pengertian LOF adalah metode deteksi anomali tanpa pengawasan yang menghitung deviasi kepadatan lokal dari titik data tertentu terhadap titik data tetangganya. Ini menganggap sampel yang memiliki kepadatan jauh lebih rendah daripada sampel tetangganya sebagai outlier.

LOF suatu titik didasarkan pada rasio kepadatan lokal daerah sekitar titik dan kepadatan lokal tetangganya. Ini mempertimbangkan kepadatan relatif titik data.

Dengan kata sederhana, LOF membandingkan kepadatan lokal suatu titik dengan kepadatan lokal k-tetangga terdekatnya dan memberikan skor sebagai hasil akhir.

Berikut adalah langkah-langkah utama dalam menghitung LOF:

1. K-DISTANCE DAN K-NEIGHBOR: K-jarak adalah jarak antara suatu titik, dan merupakan tetangga terdekat Kᵗʰ. Tetangga K yang dilambangkan dengan Nₖ(A) mencakup himpunan titik yang terletak di dalam atau pada lingkaran berjari-jari jarak K. K-tetangga bisa lebih dari atau sama dengan nilai K. Bagaimana mungkin?

Kita akan melihat contohnya. Katakanlah kita mempunyai empat titik A, B, C, dan D (ditunjukkan di bawah).

<img src="asset/image/K-jarak A dengan K=2-20240625-134317.webp" width="" align="" />

Jika K=2, K-tetangga A adalah C, B, dan D. Di sini, nilai K=2 tetapi ||N₂(A)|| = 3. Oleh karena itu, ||Nₖ(titik)|| akan selalu lebih besar atau sama dengan K.

2. KEPADATAN REACHABILITY (RD): 

$$
RD(\text Xi, \text Xj) = max (K-distance (Xj), distance (Xi,Xj))
$$

Ini didefinisikan sebagai jarak K maksimum Xj dan jarak antara Xi dan Xj. Ukuran jarak bersifat khusus untuk masalah (Euclidean, Manhattan, dll.)

<img src="asset/image/Ilustrasi jarak.webp" width="" align="" />

Dalam istilah awam, jika titik Xi terletak di dalam K-tetangga Xj, maka jarak jangkauannya adalah K-jarak Xj (garis biru), jika tidak, jarak jangkauannya adalah jarak antara Xi dan Xj (garis oranye).

4. KEPADATAN REACHABILITY LOKAL (LRD): 

$$
\text{LRD}_k(A) = \frac{1}{\sum \text{X}_j \in \mathcal{N}_k(A) \frac{RD(A,Xj)}{\parallel\ N_k(A) \parallel\ } }
$$

LRD merupakan kebalikan dari rata-rata jarak jangkauan A dari tetangganya. Secara intuitif berdasarkan rumus LRD, semakin besar jarak jangkauan rata-rata (yaitu, tetangga jauh dari titik tersebut), maka semakin sedikit kepadatan titik yang ada di sekitar titik tertentu. Ini menunjukkan seberapa jauh suatu titik dari kelompok titik terdekat.Nilai LRD yang rendah menunjukkan bahwa cluster terdekat berada jauh dari titik.

5. FAKTOR OUTLIER LOKAL (LOF)

$$
LOF_k(A) = \frac {\sum X_j \in N_k(A) LRD_k(X_j)} {\parallel\ N_k(A) \parallel\ } \times \frac{1}{LRD_k(A)}
$$

LRD tiap titik digunakan untuk membandingkan dengan rata-rata LRD K tetangganya. LOF adalah perbandingan rata-rata LRD K tetangga A terhadap LRD A.

Secara intuitif, jika suatu titik bukan merupakan pencilan (inlier), rasio rata-rata LRD tetangganya kira-kira sama dengan LRD suatu titik (karena kepadatan suatu titik dan tetangganya kira-kira sama). Dalam hal ini, LOF hampir sama dengan 1. Sebaliknya, jika suatu titik merupakan outlier, LRD suatu titik lebih kecil dari rata-rata LRD tetangganya. Maka nilai LOF akan tinggi.

Umumnya jika LOF > 1 maka dianggap outlier, namun hal tersebut tidak selalu benar. Katakanlah kita mengetahui bahwa kita hanya memiliki satu outlier dalam data, lalu kita ambil nilai LOF maksimum di antara semua nilai LOF, dan titik yang sesuai dengan nilai LOF maksimum akan dianggap sebagai outlier.

Check Outliers

In [17]:
lof = LocalOutlierFactor(n_neighbors=5, p=2)

lof_predict = lof.fit_predict(df.drop(['Class'], axis=1))

outlier = df.index[lof_predict == -1]

print("Index predicted table:", df.index[lof_predict == -1])

Index predicted table: Index([], dtype='int64')


Berdasarkan hasil output, diketahui bahwa tidak ada data yang aneh, atau outlier data.

# DATA MODELING

Membagi data (fitur dan class)

Pada klasifikasi naive bayes gaussian kita memerlukan data train dan data test. Data train merupakan bagian dalam kumpulan dataset yang disediakan untuk menjadi bahan pembelajaran model agar model dapat menggeneralisasi (menemukan pola) data sehingga nantinya dapat digunakan untuk memprediksi data baru. Sedangkan data test adalah bagian dari kumpulan data set yang akan digunakan untuk mengetest dengan acuan prediksi dari data train yang digunakan. Untuk pembagian data nya sendiri adalah 20% menjadi data Test dan 80% menjadi data Train. Pada kode berikut random state dimulai dari 20.

In [18]:
x = df.drop(['Class'], axis=1)
y = df['Class']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

Menampilkan x_train data

In [19]:
x_train

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health
3334,2,0,2,1,1,0,2,1
12692,0,4,3,3,0,0,0,0
7488,1,0,3,2,1,0,0,2
2901,2,0,1,1,1,0,2,2
3616,2,4,0,2,1,1,1,1
...,...,...,...,...,...,...,...,...
11964,0,0,2,1,2,1,2,2
5191,1,2,0,0,0,0,1,1
5390,1,2,0,3,1,0,1,0
860,2,3,2,3,1,1,2,0


Menampilkan x_test data

In [20]:
x_test

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health
6407,1,1,1,2,2,1,1,0
6301,1,1,1,0,1,0,0,1
304,2,3,1,1,2,1,1,1
12520,0,4,1,3,1,1,0,1
2417,2,1,2,0,1,0,2,0
...,...,...,...,...,...,...,...,...
7514,1,0,3,3,0,0,1,0
4874,1,3,3,2,0,1,2,0
2372,2,1,3,3,1,1,2,0
8106,1,4,1,2,0,0,1,2


Menampilkan y_train data

In [21]:
y_train

3334     spec_prior
12692     not_recom
7488     spec_prior
2901       priority
3616     spec_prior
            ...    
11964    spec_prior
5191       priority
5390      not_recom
860       not_recom
7270     spec_prior
Name: Class, Length: 10368, dtype: object

Menampilkan y_test data

In [22]:
y_test

6407      not_recom
6301     spec_prior
304        priority
12520    spec_prior
2417      not_recom
            ...    
7514      not_recom
4874      not_recom
2372      not_recom
8106     spec_prior
4115      not_recom
Name: Class, Length: 2592, dtype: object

Menggabungkan data x dan y

In [23]:
df_train = pd.concat([x_train, y_train], axis=1, join='inner')
df_test = pd.concat([x_test, y_test], axis=1, join='inner')

df_test

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health,Class
6407,1,1,1,2,2,1,1,0,not_recom
6301,1,1,1,0,1,0,0,1,spec_prior
304,2,3,1,1,2,1,1,1,priority
12520,0,4,1,3,1,1,0,1,spec_prior
2417,2,1,2,0,1,0,2,0,not_recom
...,...,...,...,...,...,...,...,...,...
7514,1,0,3,3,0,0,1,0,not_recom
4874,1,3,3,2,0,1,2,0,not_recom
2372,2,1,3,3,1,1,2,0,not_recom
8106,1,4,1,2,0,0,1,2,spec_prior


## Gaussian Naive Bayes

Gaussian Naive Bayes merupakan teknik klasisifkasi yang digunakan dalam machine learning dengan menggunakan metode probability dan distribusi gaussian atau distribusi normal. Pada distribusi gaussian tiap fitur data memiliki pengaruh yang independent dalam meprediksi target. Prediksi akhir didapat dari kombinasi predikasi seluruh parameter dengan probability dari target yang diklasifikasikan kedalam dua kelas. Klasifikasi akhirnya adalah hasil probability yang lebih tinggi dari group target.

Tujuan metode ini adalah mengklasifikasikan probabilitas berdasarkan pembelajaran mesin atas probabilitas lain. 

<img src="asset/image/rumus gaussian naive bayes.png" width="" align="" />

Di mana, 
P(A|B) = peluang terjadinya kejadian A jika kejadian B telah terjadi. Perhatikan bahwa “|” mengacu pada “diberikan.”
P(A) = peluang terjadinya kejadian A.
P(B) = peluang terjadinya kejadian B.
P(B|A) = peluang terjadinya kejadian B, jika diketahui kejadian A telah terjadi.

Untuk menghitung likehoodnya sendiri kita bisa memakai rumus distribusi normal

<img src="asset/image/rumus distribusi normal.png" width="" align="" />

Dengan:
f(x) = fungsi kontinu atau fungsi kepadatan peluang;
σ = simpangan baku (standar deviasi);
μ = nilai rata-rata;
π = 3,14; dan
e = Eksponen

In [24]:
classifier = GaussianNB()
classifier.fit(x_train, y_train)

result = classifier.predict(x_test)

classifier.score(x_test, y_test)


0.6462191358024691

## K-Nearest Neighboor

Pengertian KNN merupakan pendekatan yang digunakan untuk mengidentifikasi objek berdasarkan informasi tertentu yang merupakan jarak terdekat ke objek. Pada klasifikasi, KNN bekerja dengan menghitung  jarak antara data baru (data testing) dengan data yang sudah diketahui kelasnya (data training) menggunakan jarak euclidian. 

Penanganan missing data dengan KNN diawali dengan menentukan sejumlah tetangga terdekat atau observasi terdekat yang disimbolkan dengan K, kemudian menghitung jarak terkecil dari setiap observasi yang tidak mengandung missing data.

KNN mengklasifikasikan data berdasarkan similarity atau kemiripan atau kedekatannya terhadap data lainnya.

<img src="asset/image/tahapan knn.png" width="" align="" />

Penjelasan setiap langkah dan proses dari gambar di atas:

1. Initial Data: Algoritma KNN melakukan klasifikasi dengan memproyeksikan data pembelajaran ke dalam ruang berdimensi banyak. Ruang ini dibagi menjadi bagian-bagian yang merepresentasikan kriteria data. Setiap data pembelajaran direpresentasikan sebagai titik-titik dalam ruang berdimensi banyak. Proses klasifikasi dilakukan dengan mencari titik terdekat dari data baru menggunakan formula jarak, seperti jarak Euclidean, jarak Hamming, Manhattan Distance, atau Minkowski Distance. Teknik pencarian tetangga terdekat disesuaikan dengan dimensi data, proyeksi, dan kemudahan implementasi oleh pengguna.

2. Calculate Distance: Euclidean distance (jarak Euclidean) adalah metrik yang digunakan untuk mengukur jarak antara dua titik dalam ruang Euclidean. Dalam konteks analisis data dan pembelajaran mesin, jarak Euclidean sering digunakan untuk mengukur kedekatan atau kesamaan antara dua vektor atau titik dalam ruang fitur.

a. Euclidean Distance

<img src="asset/image/Euclidean Distance.png" width="50%" align="" />

Rumusnya sebagai berikut:

$$
d(P,Q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2}
$$

$$
d(P,Q) = \sqrt{(p_1 - q_1)^2 + (p_2 - q_2)^2 + \cdots + (p_n - q_n)^2}
$$

b. Manhattan

Manhattan distance atau jarak Manhattan sering juga disebut Taxicab distance atau City Block distance. Manhattan distance adalah metrik ukur yang umumnya digunakan untuk menghitung jarak antara dua titik data dalam jalur seperti grid. 

Jarak Manhattan dihitung sebagai jumlah dari perbedaan mutlak antara dua vektor. Adapun rumus dari Manhattan distance adalah:

$$
d(P,Q) = \sum_{i=1}^{n} \mid (p_i - q_i)^2 \mid
$$

<img src="asset/image/Mahattan Distance.png" width="" align="" />

3. Find Neightbour dan Voting On Label

Setelah melakukan perhitungan jarak terhadap fitur ataupun node. Kemudian akan dilakukan perankingan jarak. mulai dari yang terdekat hingga yang terjauh.

Selanjutnya setelah ditemukan hasil dan perankingan jarak. Akan  dilakukan penentuan fitur terdekat atau nilai K. dalam KNN nilai K boleh ditentukan berapapun atau bebas. semisal K adalah 5, maka kita akan mengambil 5 fitur atau node yang terdekat. Selanjutnya akan dilakukan penentuan class pada node baru. Misal K adalah 5. maka akan diambil 5 fitur, kemudian sebagai penetuan class untuk node baru. bisa ditentukan dengan melihat nilai class yang paling banyak muncul pada kelima data yang diambil. semisal dalam kelima data ini class yang paling banyak muncul adalah class anggrej bulan. maka nilai class dari data baru adalah anggrek bulan.

In [25]:
classifier = KNeighborsClassifier(n_neighbors=10)

classifier.fit(x_train, y_train)

# data = df_test.head(1).drop('Class', axis=1)

result = classifier.predict(x_test)

score = classifier.score(x_test, y_test)

score


0.9494598765432098

# ENSEMBLE LEARNING

## Stacking Classifier

<img src="asset/image/stacking.png" width="" align="" />

### Make KNN model with n=3

In [27]:
clf_n_3 = KNeighborsClassifier(n_neighbors=3)

clf_n_3.fit(x_train, y_train)

joblib.dump(clf_n_3, 'asset/data/stacking/knn_80.joblib')

result = clf_n_3.predict(x_train)

result_n_3 = pd.DataFrame(result, columns=['P1'])

result_n_3

Unnamed: 0,P1
0,priority
1,not_recom
2,spec_prior
3,priority
4,spec_prior
...,...
10363,spec_prior
10364,priority
10365,not_recom
10366,not_recom


### Make KNN model with n=5

In [28]:
clf_n_5 = KNeighborsClassifier(n_neighbors=5)

clf_n_5.fit(x_train, y_train)

joblib.dump(clf_n_5, 'asset/data/stacking/knn_90.joblib')

result = clf_n_5.predict(x_train)

result_n_5 = pd.DataFrame(result, columns=['P2'])

result_n_5

Unnamed: 0,P2
0,spec_prior
1,not_recom
2,spec_prior
3,priority
4,spec_prior
...,...
10363,spec_prior
10364,priority
10365,not_recom
10366,not_recom


In [29]:
x_combined = pd.concat([result_n_3, result_n_5], axis=1)

x_combined

Unnamed: 0,P1,P2
0,priority,spec_prior
1,not_recom,not_recom
2,spec_prior,spec_prior
3,priority,priority
4,spec_prior,spec_prior
...,...,...
10363,spec_prior,spec_prior
10364,priority,priority
10365,not_recom,not_recom
10366,not_recom,not_recom


### Change categorial to numeric

In [30]:
X = pd.get_dummies(x_combined,prefix=["P1","P2"],columns=["P1","P2"], dtype='int')

X

Unnamed: 0,P1_not_recom,P1_priority,P1_spec_prior,P1_very_recom,P2_not_recom,P2_priority,P2_spec_prior,P2_very_recom
0,0,1,0,0,0,0,1,0
1,1,0,0,0,1,0,0,0
2,0,0,1,0,0,0,1,0
3,0,1,0,0,0,1,0,0
4,0,0,1,0,0,0,1,0
...,...,...,...,...,...,...,...,...
10363,0,0,1,0,0,0,1,0
10364,0,1,0,0,0,1,0,0
10365,1,0,0,0,1,0,0,0
10366,1,0,0,0,1,0,0,0


Make stacking classifier with gaussian naives bayes as meta classifiers for increase accuration of prediction with two estimators (KNN K = 5 and KNN K = 3).

### Modelling Gaussian Naive Bayes as Meta Classifier

In [31]:
clf_nb = GaussianNB()

clf_nb.fit(X, y_train)

joblib.dump(clf_nb, 'asset/data/stacking/meta_clf.joblib')

clf_nb.score(X, y_train)

0.6729359567901234

### Make prediction function

In [34]:
def stackingClassifier(data):
  result_n_3 = pd.DataFrame(clf_n_3.predict(data), columns=['P1'])
  result_n_5 = pd.DataFrame(clf_n_5.predict(data), columns=['P2'])
  data = pd.concat([result_n_3, result_n_5], axis=1)
  x_predict = pd.get_dummies(data,prefix=["P1","P2"],columns=["P1","P2"], dtype='int')
  x
  if 'P1_not_recom' not in x_predict.columns and 'P2_not_recom' not in x_predict.columns:
    x_predict.insert(0, "P1_not_recom", 0, True)
    x_predict.insert(1, "P2_not_recom", 0, True)
  if 'P1_priority' not in x_predict.columns and 'P2_priority' not in x_predict.columns:
    x_predict.insert(2, "P1_priority", 0, True)
    x_predict.insert(3, "P2_priority", 0, True)
  if 'P1_spec_prior' not in x_predict.columns and 'P2_spec_prior' not in x_predict.columns:
    x_predict.insert(4, "P1_spec_prior", 0, True)
    x_predict.insert(5, "P2_spec_prior", 0, True)
  if 'P1_very_recom' not in x_predict.columns and 'P2_very_recom' not in x_predict.columns:
    x_predict.insert(6, "P1_very_recom", 0, True)
    x_predict.insert(7, "P2_very_recom", 0, True)
  return clf_nb.predict(x_predict), clf_nb.score(X, y_train)

### Prediction test

In [35]:
data = df_test.head(1).drop('Class', axis=1)
prediction, score = stackingClassifier(data)
print(f'prediction : {prediction}, accuration : {score}')

prediction : ['priority'], accuration : 0.6729359567901234
Feature names must be in the same order as they were in fit.



## Bagging

### Make boostrap sample data

In [36]:
B1 = df_train.sample(frac=1)

B1

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health,Class
2234,2,1,3,1,2,0,0,0,not_recom
3185,2,0,3,2,1,1,1,0,not_recom
4080,2,4,3,3,2,1,2,2,spec_prior
2432,2,1,2,1,0,0,0,0,not_recom
8023,1,4,1,0,2,1,2,1,spec_prior
...,...,...,...,...,...,...,...,...,...
4229,2,4,2,2,0,1,1,0,not_recom
959,2,2,0,1,1,0,2,0,not_recom
10033,0,2,3,1,1,0,1,1,spec_prior
6931,1,0,0,0,2,0,0,1,spec_prior


In [37]:
B2 = df_train.sample(frac=1)

B2

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health,Class
9751,0,2,1,0,2,1,2,1,priority
12674,0,4,3,2,1,0,0,0,not_recom
2566,2,1,2,3,2,1,0,1,priority
10794,0,1,1,3,1,1,2,2,spec_prior
12737,0,4,3,3,1,1,0,0,not_recom
...,...,...,...,...,...,...,...,...,...
10621,0,1,1,0,1,0,0,1,spec_prior
11435,0,0,0,3,1,0,2,0,not_recom
1299,2,2,3,0,0,0,2,2,very_recom
6980,1,0,0,1,0,1,2,0,not_recom


In [38]:
B3 = df_train.sample(frac=1)

B3

Unnamed: 0,Parents,Has_nurs,Form,Children,Housing,Finance,Social,Health,Class
11692,0,0,3,0,2,1,0,1,spec_prior
5377,1,2,0,3,2,1,2,1,priority
6647,1,1,3,3,0,0,2,0,not_recom
6300,1,1,1,0,1,0,0,2,priority
11547,0,0,1,1,1,1,0,2,spec_prior
...,...,...,...,...,...,...,...,...,...
11028,0,1,2,0,0,1,2,2,spec_prior
8895,0,3,1,0,1,0,2,2,priority
9238,0,3,3,3,0,0,2,1,priority
10862,0,1,3,1,0,0,1,0,not_recom


### Modelling naive bayes

Make three Naives Bayes model as estimator to use in BaggingClassifiers

In [39]:
B1_x = B1.drop(['Class'], axis=1)
B1_y = B1['Class']

M1 = GaussianNB()
M1.fit(B1_x, B1_y)

# saving model with joblib
joblib.dump(M1, 'asset/data/bagging/m1.joblib')

M1_predict = M1.predict(x_train)

M1_result = pd.DataFrame(M1_predict, columns=['P1'])

# M1.score(x_test, y_test)

In [40]:
B2_x = B2.drop(['Class'], axis=1)
B2_y = B2['Class']

M2 = GaussianNB()
M2.fit(B2_x, B2_y)

joblib.dump(M2, 'asset/data/bagging/m2.joblib')

M2_predict = M2.predict(x_train)

M2_result = pd.DataFrame(M2_predict, columns=['P2'])

# M2.score(x_test, y_test)

In [41]:
B3_x = B3.drop(['Class'], axis=1)
B3_y = B3['Class']

M3 = GaussianNB()
M3.fit(B3_x, B3_y)

# saving model with joblib
joblib.dump(M3, 'asset/data/bagging/m3.joblib')

M3_predict = M3.predict(x_train)

M3_result = pd.DataFrame(M3_predict, columns=['P3'])

# M3.score(x_test, y_test)

### Change categorial to numeric

In [42]:
x_combined = pd.concat([M1_result, M2_result, M3_result], axis=1)

X = pd.get_dummies(x_combined,prefix=["P1","P2", "P3"],columns=["P1","P2", "P3"], dtype='int')

X

Unnamed: 0,P1_not_recom,P1_priority,P1_spec_prior,P1_very_recom,P2_not_recom,P2_priority,P2_spec_prior,P2_very_recom,P3_not_recom,P3_priority,P3_spec_prior,P3_very_recom
0,0,1,0,0,0,1,0,0,0,1,0,0
1,1,0,0,0,1,0,0,0,1,0,0,0
2,0,0,0,1,0,0,0,1,0,0,0,1
3,0,0,0,1,0,0,0,1,0,0,0,1
4,0,0,1,0,0,0,1,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...
10363,0,0,1,0,0,0,1,0,0,0,1,0
10364,0,1,0,0,0,1,0,0,0,1,0,0
10365,1,0,0,0,1,0,0,0,1,0,0,0
10366,1,0,0,0,1,0,0,0,1,0,0,0


### Make aggregration

In [44]:
clf_knn = KNeighborsClassifier(n_neighbors=15)

clf_knn.fit(X, y_train)

# saving model with joblib
joblib.dump(clf_knn, 'asset/data/bagging/aggregation.joblib')

# result = clf_nb.predict(X_train)
# result

clf_knn.score(X, y_train)

0.8075810185185185

### Make prediction function

In [45]:
def baggingClassifier(data):
  B1 = df_train.sample(frac=1)
  B2 = df_train.sample(frac=1)
  B3 = df_train.sample(frac=1)

  B1_x = B1.drop(['Class'], axis=1)
  B1_y = B1['Class']

  M1.fit(B1_x, B1_y)
  M1_predict = M1.predict(data)
  M1_result = pd.DataFrame(M1_predict, columns=['P1'])

  B2_x = B2.drop(['Class'], axis=1)
  B2_y = B2['Class']

  M2.fit(B2_x, B2_y)
  M2_predict = M2.predict(data)
  M2_result = pd.DataFrame(M2_predict, columns=['P2'])

  B3_x = B3.drop(['Class'], axis=1)
  B3_y = B3['Class']

  M3.fit(B3_x, B3_y)
  M3_predict = M3.predict(data)
  M3_result = pd.DataFrame(M3_predict, columns=['P3'])

  x_combined = pd.concat([M1_result, M2_result, M3_result], axis=1)
  x_predict = pd.get_dummies(x_combined,prefix=["P1","P2", "P3"],columns=["P1","P2", "P3"], dtype='int')

  if 'P1_not_recom' not in x_predict.columns and 'P2_not_recom' not in x_predict.columns and 'P3_not_recom' not in x_predict.columns:
    x_predict.insert(0, "P1_not_recom", [0], True)
    x_predict.insert(1, "P2_not_recom", [0], True)
    x_predict.insert(2, "P3_not_recom", [0], True)
  if 'P1_priority' not in x_predict.columns and 'P2_priority' not in x_predict.columns and 'P3_priority' not in x_predict.columns:
    x_predict.insert(3, "P1_priority", [0], True)
    x_predict.insert(4, "P2_priority", [0], True)
    x_predict.insert(5, "P3_priority", [0], True)
  if 'P1_spec_prior' not in x_predict.columns and 'P2_spec_prior' not in x_predict.columns and 'P3_spec_prior' not in x_predict.columns:
    x_predict.insert(6, "P1_spec_prior", [0], True)
    x_predict.insert(7, "P2_spec_prior", [0], True)
    x_predict.insert(8, "P3_spec_prior", [0], True)
  if 'P1_very_recom' not in x_predict.columns and 'P2_very_recom' not in x_predict.columns and 'P3_very_recom' not in x_predict.columns:
    x_predict.insert(9, "P1_very_recom", [0], True)
    x_predict.insert(10, "P2_very_recom", [0], True)
    x_predict.insert(11, "P3_very_recom", [0], True)

  clf_knn.fit(X, y_train)
  return clf_knn.predict(x_predict), clf_knn.score(X, y_train)

In [47]:
data = df_test.head(1).drop('Class', axis=1)
prediction, score = baggingClassifier(data)
print(f'prediction : {prediction}, accuration : {score}')

Feature names must be in the same order as they were in fit.

prediction : ['priority'], accuration : 0.8075810185185185


# Evaluasi

Dari beberapa tahapan pengerjaan yang telah kita lalui, kami mendapatkan kesimpulan bahwa hasil yang terbaik untuk di bawa ke tahapan selanjutnya adalah dengan menggunakan model KNN (bukan ensemble learning), jika menggunakan ensemble learning model yang lebih unggul adalah menggunakan bagging.

Rangkuman Hasil Akurasi

- Gaussian Naive Bayes: 0.6462191358024691

- KNN: 0.9494598765432098

- Stacking: 0.6729359567901234

- Bagging: 0.8075810185185185

Dari Rangkuman di atas saya memutuskan untuk menggunakan model yang dihasilkan oleh bagging.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=6df23822-344f-49ac-8fce-569c475697fa' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>