# Studi Kasus Klasifikasi Huruf Alfabet A-Z Berdasarkan Fitur Geometris yang Diekstrak dari Citra Huruf Menggunakan Dataset Letter Recognition

## Tujuan Analisis

Pekerjaan ini menggunakan analisis statistik untuk mengidentifikasi fitur-fitur utama dalam pengenalan huruf pada dataset "Letter Recognition". Hal ini bertujuan untuk meningkatkan akurasi model klasifikasi huruf dan memberikan panduan bagi aplikasi OCR. Dataset ini mencakup sampel huruf A-Z yang diekstrak dari gambar, dengan 16 fitur geometris seperti koordinat bounding box, lebar, tinggi, jumlah piksel aktif, dan statistik posisi piksel. Tujuannya adalah memodelkan klasifikasi huruf berdasarkan fitur-fitur.

# Data Understanding

## Deskripsi Data

Penggunaan dataset "Letter Recognition" bertujuan untuk mengembangkan algoritma pengenalan huruf yang andal dengan menggunakan fitur geometris yang diekstrak dari gambar huruf. Huruf-huruf dalam dataset ini diambil dari citra dan dikarakterisasi berdasarkan berbagai atribut seperti koordinat bounding box, lebar, tinggi, jumlah piksel aktif, dan statistik posisi piksel.

Pengolahan huruf-huruf ini melibatkan ekstraksi fitur dari gambar huruf menggunakan teknik-teknik tertentu. Setiap huruf dalam gambar diisolasi menggunakan bounding box, dan berbagai fitur geometris dihitung. Fitur-fitur ini mencakup rata-rata posisi piksel, jumlah piksel aktif, dan perubahan arah (edges). 

Algoritma pengenalan huruf yang berbeda dan teknik ekstraksi fitur digunakan, tergantung pada jenis pengenalan huruf yang ingin dicapai. Dalam mengembangkan model pengenalan huruf, komposisi data yang digunakan harus mencakup berbagai karakteristik huruf yang relevan untuk memastikan model dapat mengklasifikasikan huruf dengan akurasi tinggi. Hal ini mencakup variasi dalam bentuk huruf, ukuran, dan orientasi. Oleh karena itu, kualitas fitur yang diekstraksi dari gambar huruf sangat penting dalam menentukan keberhasilan model pengenalan huruf.

### Menampilkan data 

In [1]:
pip install ucimlrepo

Collecting ucimlrepo
  Downloading ucimlrepo-0.0.7-py3-none-any.whl.metadata (5.5 kB)
Downloading ucimlrepo-0.0.7-py3-none-any.whl (8.0 kB)
Installing collected packages: ucimlrepo
Successfully installed ucimlrepo-0.0.7
Note: you may need to restart the kernel to use updated packages.


In [2]:
from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
letter_recognition = fetch_ucirepo(id=59) 
  
# data (as pandas dataframes) 
X = letter_recognition.data.features 
y = letter_recognition.data.targets 
  
# metadata 
print(letter_recognition.metadata) 
  
# variable information 
print(letter_recognition.variables) 


{'uci_id': 59, 'name': 'Letter Recognition', 'repository_url': 'https://archive.ics.uci.edu/dataset/59/letter+recognition', 'data_url': 'https://archive.ics.uci.edu/static/public/59/data.csv', 'abstract': 'Database of character image features; try to identify the letter', 'area': 'Computer Science', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 20000, 'num_features': 16, 'feature_types': ['Integer'], 'demographics': [], 'target_col': ['lettr'], 'index_col': None, 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_of_dataset_creation': 1991, 'last_updated': 'Thu Sep 28 2023', 'dataset_doi': '10.24432/C5ZP40', 'creators': ['David Slate'], 'intro_paper': None, 'additional_info': {'summary': 'The objective is to identify each of a large number of black-and-white rectangular pixel displays as one of the 26 capital letters in the English alphabet.  The character images were based on 20 different fonts and each letter within these 20 fonts wa

In [3]:
import pandas as pd

df_data = pd.read_csv('https://archive.ics.uci.edu/static/public/59/data.csv')
df_data 

Unnamed: 0,lettr,x-box,y-box,width,high,onpix,x-bar,y-bar,x2bar,y2bar,xybar,x2ybr,xy2br,x-ege,xegvy,y-ege,yegvx
0,T,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8
1,I,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10
2,D,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9
3,N,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8
4,G,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,D,2,2,3,3,2,7,7,7,6,6,6,4,2,8,3,7
19996,C,7,10,8,8,4,4,8,6,9,12,9,13,2,9,3,7
19997,T,6,9,6,7,5,6,11,3,7,11,9,5,2,12,2,4
19998,S,2,3,4,2,1,8,7,2,6,10,6,8,1,9,5,8


### Fitur

In [4]:
df_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 17 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   lettr   20000 non-null  object
 1   x-box   20000 non-null  int64 
 2   y-box   20000 non-null  int64 
 3   width   20000 non-null  int64 
 4   high    20000 non-null  int64 
 5   onpix   20000 non-null  int64 
 6   x-bar   20000 non-null  int64 
 7   y-bar   20000 non-null  int64 
 8   x2bar   20000 non-null  int64 
 9   y2bar   20000 non-null  int64 
 10  xybar   20000 non-null  int64 
 11  x2ybr   20000 non-null  int64 
 12  xy2br   20000 non-null  int64 
 13  x-ege   20000 non-null  int64 
 14  xegvy   20000 non-null  int64 
 15  y-ege   20000 non-null  int64 
 16  yegvx   20000 non-null  int64 
dtypes: int64(16), object(1)
memory usage: 2.6+ MB


Di atas adalah informasi mengenai dataset yang saya gunakan, dengan fitur-fitur bernomor 1 hingga 16 dan lettr sebagai kelas dari dataset. Informasi tersebut juga menunjukkan bahwa tipe data yang digunakan adalah numerik. Berikut adalah penjelasan mengenai setiap fitur:

- x-box: Koordinat piksel paling kiri dari bounding box yang mengelilingi huruf

- y-box: Koordinat piksel paling atas dari bounding box yang mengelilingi huruf

- width: Lebar bounding box yang mengelilingi huruf dalam piksel.

- high: Tinggi bounding box yang mengelilingi huruf dalam piksel.

- onpix: Jumlah piksel yang berada di dalam bounding box yang sebenarnya merupakan bagian dari huruf (bukan latar belakang).

- x-bar: Rata-rata posisi x dari piksel yang merupakan bagian dari huruf dalam bounding box.

- y-bar: Rata-rata posisi y dari piksel yang merupakan bagian dari huruf dalam bounding box.

- x2bar: Rata-rata kuadrat dari posisi x dari piksel yang merupakan bagian dari huruf.

- y2bar: Rata-rata kuadrat dari posisi y dari piksel yang merupakan bagian dari huruf.

- xybar: Rata-rata hasil kali dari posisi x dan y dari piksel yang merupakan bagian dari huruf.

- x2ybr: Rata-rata hasil kali dari posisi x dan kuadrat dari posisi y dari piksel yang merupakan bagian dari huruf.

- xy2br: Rata-rata hasil kali dari posisi y dan kuadrat dari posisi x dari piksel yang merupakan bagian dari huruf.

- x-ege: Jumlah perubahan arah (edges) horizontal pada huruf dalam bounding box.

- xegvy: Jumlah perubahan arah (edges) vertikal pada huruf di tengah bounding box secara horizontal.

- y-ege: Jumlah perubahan arah (edges) vertikal pada huruf dalam bounding box.

- yegvx: Jumlah perubahan arah (edges) horizontal pada huruf di tengah bounding box secara vertikal.

- lettr: Huruf yang diwakili (A-Z). Ini adalah label atau target yang ingin diprediksi

### Penjelasan Class

In [5]:
df_data.value_counts('lettr')

lettr
U    813
D    805
P    803
T    796
M    792
A    789
X    787
Y    786
Q    783
N    783
F    775
G    773
E    768
B    766
V    764
L    761
R    758
I    755
O    753
W    752
S    748
J    747
K    739
C    736
H    734
Z    734
Name: count, dtype: int64

Dari hasil diatas menunjukkan bahwa class dalam dataset yang digunakan ada di dalam kolom lettr dengan jumlah 26 class, yaitu :

- A

- B

- C

- D

- E

- F

- G

- H

- I

- J

- K

- L

- M

- N

- O

- P

- Q

- R

- S

- T

- U

- V

- W

- X

- Y

- Z

## Identifikasi kualitas data

### Identifikasi Outlier

Algoritme Local Outlier Factor (LOF) adalah metode deteksi anomali tanpa pengawasan yang menghitung deviasi kepadatan lokal dari titik data tertentu terhadap titik data tetangganya. Ini menganggap sampel yang memiliki kepadatan jauh lebih rendah daripada sampel tetangganya sebagai outlier. Sebagai pedoman umum, nilai LOF (Local Outlier Factor) untuk data yang normal berada dalam rentang 1 hingga 1,5, sedangkan pengamatan yang bersifat anomali akan memiliki nilai LOF yang jauh lebih tinggi. Semakin tinggi nilai LOF, semakin besar kemungkinan data tersebut merupakan outlier. Jika sebuah titik data X memiliki LOF sebesar 5, ini berarti kepadatan rata-rata tetangganya adalah 5 kali lebih besar dibandingkan dengan kepadatan lokal dari titik X itu sendiri.

In [6]:
from sklearn.neighbors import LocalOutlierFactor

df = df_data
# df

# simpan quality
letter_lettr = df[['lettr']]

# #hapus kolom yang tidak diperlukan
df = df.drop(['lettr'], axis=1)
# df_wine
# df_wine.coloumns

# # Inisialisasi dan fit model LOF
lof = LocalOutlierFactor(n_neighbors=4, contamination=0.1)  # Set parameter LOF
outlier_labels = lof.fit_predict(df)

# # Tambahkan label outlier dan quality k cve dataframe
df['Outlier'] = outlier_labels
df['lettr'] = letter_lettr
# df_cleaned = df_wine[df_wine['Outlier'] != -1]

# Menampilkan outlier
outliers = df[df['Outlier'] == -1]
print(f"Jumlah outlier yang terdeteksi: {len(outliers)}")
print(outliers)

# df_cleaned
df
# print(df_cleaned[['quality','LOF_Score']])

MemoryError: Unable to allocate 1.00 GiB for an array with shape (6710, 20000) and data type float64

Penjelasan Code:

Pada kode di atas, untuk menentukan apakah setiap dataset memiliki data anomali, saya akan menghitung setiap fiturnya. Sebelum melakukan perhitungan, saya simpan terlebih dahulu class atau lettr yang ada ke dalam variabel baru. Setelah itu, hapus kolom  dari dataframe. Lalu, kita lakukan perhitungan Local Outlier Factor (LOF) menggunakan library sklearn's Local Outlier Factor. Setelah mendapatkan nilai outlier dari setiap fitur, tampilkan hasilnya dan gabungkan ke dalam dataframe. Dari hasil perhitungan tersebut, kita dapat melihat bahwa dataframe memiliki outlier yang ditandai dengan nilai -1.

### Cek Missing Values

Disini akan dilakukan pengecekan apakah dataset yang digunakan memiliki missing value atau tidak, untuk mengetahuinya bisa menggunakan code dibawah ini:

In [None]:
df_data = df.isnull().sum()
df_data

x-box      0
y-box      0
width      0
high       0
onpix      0
x-bar      0
y-bar      0
x2bar      0
y2bar      0
xybar      0
x2ybr      0
xy2br      0
x-ege      0
xegvy      0
y-ege      0
yegvx      0
Outlier    0
lettr      0
dtype: int64

Dari kode di atas, dapat mengetahui bahwa dataset yang digunakan tidak memiliki missing value. 

# PRE PROCESSING DATA

Data preprocessing adalah bagian dari persiapan data, yang mencakup berbagai jenis pemrosesan yang dilakukan pada data mentah agar siap untuk analisis lanjutan, seperti visualisasi data dan pembentukan model. Preprocessing data bertujuan untuk mengubah data menjadi format yang lebih mudah dan efektif digunakan. Proses ini merupakan langkah awal yang penting dalam data mining. Selain itu, teknik data preprocessing juga digunakan untuk melatih model machine learning. Berikut adalah tahapan pra-pemrosesan data yang dilakukan pada dataset  yang saya miliki:

1. Pembersihan Data (Data Cleaning):  Tahap pertama yang perlu dilakukan ketika akan preprocessing data adalah data cleaning atau membersihkan data. Artinya, data mentah yang telah diperoleh perlu diseleksi kembali. Kemudian, hapus atau hilangkan data-data yang tidak lengkap, tidak relevan, dan tidak akurat. 

2. Penggabungan Data (Data Integration): Integrasi data adalah tahapan dalam preprocessing data yang bertujuan untuk mengumpulkan data dari berbagai sumber dan menggabungkannya menjadi satu penyimpanan data yang lebih besar, seperti data warehouse.

## Penanganan Outlier Dengan Menghapus Outlier 

Untuk menangani data anomali, kita dapat menghapus data yang memiliki nilai outlier atau nilai anomali. Dalam dataframe di atas, diketahui bahwa data anomali memiliki nilai -1, sehingga kita akan menghapus baris-baris yang berisi data outlier tersebut. Berikut adalah hasil setelah penghapusan data anomali:

In [None]:
df[df['Outlier'] == -1]

Unnamed: 0,x-box,y-box,width,high,onpix,x-bar,y-bar,x2bar,y2bar,xybar,x2ybr,xy2br,x-ege,xegvy,y-ege,yegvx,Outlier,lettr
4,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10,-1,G
25,6,11,7,8,3,7,8,7,11,4,7,14,1,7,4,8,-1,C
30,2,3,3,4,1,0,1,5,6,0,0,6,0,8,0,8,-1,L
33,5,9,7,7,10,9,8,4,4,6,8,6,6,11,8,7,-1,B
45,4,10,5,7,5,8,7,3,8,5,6,6,3,8,6,8,-1,X
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19929,6,11,6,6,3,7,9,3,4,8,9,6,5,9,3,6,-1,V
19952,2,9,4,7,2,7,13,0,5,7,10,8,0,8,0,8,-1,T
19964,3,9,3,6,2,3,6,6,10,7,7,14,0,8,7,8,-1,E
19984,2,0,2,1,1,8,7,4,6,5,6,8,0,8,7,8,-1,S


Di atas, kita dapat mengidentifikasi baris yang memiliki nilai outlier. Setelah mengetahui data outlier tersebut, kita dapat menghapus baris-baris tersebut sebagai langkah untuk menangani nilai anomali.

In [None]:
df_cleaned = df[df['Outlier'] != -1]
df_cleaned

Unnamed: 0,x-box,y-box,width,high,onpix,x-bar,y-bar,x2bar,y2bar,xybar,x2ybr,xy2br,x-ege,xegvy,y-ege,yegvx,Outlier,lettr
0,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8,1,T
1,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10,1,I
2,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9,1,D
3,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8,1,N
5,4,11,5,8,3,8,8,6,9,5,6,6,0,8,9,7,1,S
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,2,2,3,3,2,7,7,7,6,6,6,4,2,8,3,7,1,D
19996,7,10,8,8,4,4,8,6,9,12,9,13,2,9,3,7,1,C
19997,6,9,6,7,5,6,11,3,7,11,9,5,2,12,2,4,1,T
19998,2,3,4,2,1,8,7,2,6,10,6,8,1,9,5,8,1,S


Penjelasan code

Kode tersebut membersihkan dataset dengan menghapus baris yang dianggap sebagai outlier. Baris-baris yang memiliki nilai -1 pada kolom 'Outlier' dihapus, sehingga DataFrame baru `df_cleaned` hanya berisi data yang tidak mengandung outlier.

In [None]:
# Memeriksa nama kolom yang ada dalam DataFrame
print(df.columns)

# Membuat mapping antara huruf A-Z ke angka 1-26
mapping = {chr(i): i - 64 for i in range(65, 91)}

# Membersihkan kolom 'lettr': menghapus spasi, mengubah huruf kecil menjadi huruf besar
df['lettr'] = df['lettr'].str.strip().str.upper()

# Menerapkan mapping pada kolom 'lettr'
df['lettr'] = df['lettr'].map(mapping)

# Menampilkan nilai unik hasil mapping
unique_values = df['lettr'].unique()
print(unique_values)

# Memeriksa beberapa baris pertama dari DataFrame untuk memastikan mapping berhasil
print(df.head())

df.to_csv('letter-recognition.csv', index=False)

Index(['x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar',
       'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx',
       'Outlier', 'lettr'],
      dtype='object')
[20  9  4 14  7 19  2  1 10 13 24 15 18  6  3  8 23 12 16  5 22 25 17 21
 11 26]
   x-box  y-box  width  high  onpix  x-bar  y-bar  x2bar  y2bar  xybar  x2ybr  \
0      2      8      3     5      1      8     13      0      6      6     10   
1      5     12      3     7      2     10      5      5      4     13      3   
2      4     11      6     8      6     10      6      2      6     10      3   
3      7     11      6     6      3      5      9      4      6      4      4   
4      2      1      3     1      1      8      6      6      6      6      5   

   xy2br  x-ege  xegvy  y-ege  yegvx  Outlier  lettr  
0      8      0      8      0      8        1     20  
1      9      2      8      4     10        1      9  
2      7      3      7      3      9        1      4  
3    

# MODELLING

## K-Nearest Neighbour

K-nearest neighbor merupakan algoritma yang digunakan untuk mengidentifikasi adanya persamaan antara data baru dan lama. Kemudian, algoritma satu ini akan memasukkan data baru tersebut dalam kategori yang paling mirip dengan kategori yang telah ada sebelumnya. Dengan kata lain, K-nearest neighbor menyimpan seluruh data lama dan mengklasifikasikan data point baru berdasarkan kemiripan.

KNN (K-Nearest Neighbors) adalah algoritma yang sederhana dan mudah dimengerti, namun memberikan hasil yang baik untuk berbagai masalah klasifikasi. Algoritma ini dapat diterapkan pada kumpulan data kecil maupun besar. Namun, KNN juga memiliki kelemahan, terutama dalam komputasi yang mahal untuk kumpulan data besar atau ruang fitur berdimensi tinggi.

Algoritma KNN banyak digunakan dalam berbagai aplikasi salah satu ontohnya adalah kumpulan data untuk iklan jaringan sosial. Dataset yang ada di sana berisi rincian pengguna suatu situs jejaring sosial. Akan tercatat apakah seorang pengguna membeli suatu produk dengan meng-klik iklan di situs berdasarkan gaji, usia, atau jenis kelamin mereka.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import StandardScaler

# Mengakses dataset melalui csv
df = pd.read_csv('letter-recognition.csv')

# Menghapus kolom yang tidak relevan
#df.drop("Unnamed: 0", axis=1, inplace=True)
#df.drop("Outlier", axis=1, inplace=True)

X = df[['x-box','y-box','width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']]
y = df['lettr']

X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# X_test

Penjelasan code 

Code diatas digunakan untuk memisahkan dataset menjadi data train dan juga data test.Data training akan digunakan untuk proses pelatihan model, sedangkan data testing akan dipakai untuk menguji kinerja model. Langkah-langkah yang harus dilakukan adalah memisahkan fitur dan kelas, menyimpannya ke dalam variabel terpisah, kemudian membagi data tersebut menjadi dua bagian, dengan proporsi 80% untuk data training dan 20% untuk data testing.

In [None]:
# Standardisasi fitur
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Membuat model KNN
knn = KNeighborsClassifier(n_neighbors=2)
# knn

# Melatih model pada training set
knn.fit(X_train, Y_train)

# Memprediksi target pada testing set
y_pred = knn.predict(X_test)

# Menghitung akurasi model
accuracy = accuracy_score(Y_test, y_pred)
print('Akurasi:', accuracy)
print(f'Akurasi : {accuracy * 100:.2f}%')

Akurasi: 0.9355
Akurasi : 93.55%


Pejelasan code

Code di atas menjelaskan penggunaan metode KNN untuk menentukan tingkat akurasi data. Setelah dataset dibagi menjadi data training dan data testing, langkah selanjutnya adalah membuat model KNN dan melatihnya menggunakan data training. Kemudian, model tersebut digunakan untuk memprediksi data testing. Akhirnya, hasil akurasi dari prediksi tersebut disimpan.

In [None]:
# Pastikan bahwa df1_train dan df1_test memiliki jumlah fitur yang sama
# assert X_train.shape[1] == X_test.shape[1], "Jumlah fitur pada X_train dan X_test tidak sama."

# Standardisasi fitur
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Inisialisasi dan latih model KNN
knn = KNeighborsClassifier(n_neighbors=2)
knn.fit(X_train, Y_train)

# Data Baru yang Akan di Klasifikasikan
X_new = [['11','15','13','9','7','13','2','6','2','12','1','9','8','1','1','8']]  # Pastikan jumlah fitur sama
assert len(X_new[0]) == X_train.shape[1], "Jumlah fitur pada X_new tidak sesuai dengan X_train."

X_new = scaler.transform(X_new)  # Jangan lupa untuk menstandarkan data baru

result = knn.predict(X_new)
print(f'Data X memiliki quality: {result[0]}')

# Evaluasi Keakuratan
accuracy = knn.score(X_test, Y_test)
print(f'Nilai Keakuratan: {accuracy:.6f}')
print(f'Akurasi : {accuracy * 100:.2f}%')

Data X memiliki quality: 13
Nilai Keakuratan: 0.935500
Akurasi : 93.55%


Penjelasan code

Code di atas menjelaskan bahwa kode tersebut digunakan untuk menentukan kelas dari data yang sedang diprediksi. Hasil prediksi tersebut kemudian dievaluasi untuk mengukur akurasinya, dan hasil akurasi ini dinyatakan dalam bentuk persentase.

## GAUSSIAN NAIVE BAYES CLASSIFICATION

Gaussian Naive Bayes merupakan sebuah teknik klasifikasi yang digunakan dalam machine learning dengan menggunakan metode probability dan Distribusi Gaussian atau Distiribusi Normal. Gaussian Distribution mengasumsikan bahwa setiap feature pada data memiliki pengaruh yang independent dalam memprediksi target. Kombinasi prediksi dari seluruh parameter adalah prediksi akhir dengan probability dari target variable yang diklasifikasikan ke dalam dua kelas. Klasifikasi akhirnya adalah hasil probability yang lebih tinggi dari grup target.

### Membaca data dari file csv

Sebelum memulai perhitungan tentunya kita perlu mengambil data yang sudah dipilih

In [None]:
import pandas as pd
file_path = 'letter-recognition.data'
dataframe = pd.read_csv('letter-recognition.csv')

print(dataframe.head())

   x-box  y-box  width  high  onpix  x-bar  y-bar  x2bar  y2bar  xybar  x2ybr  \
0      2      8      3     5      1      8     13      0      6      6     10   
1      5     12      3     7      2     10      5      5      4     13      3   
2      4     11      6     8      6     10      6      2      6     10      3   
3      7     11      6     6      3      5      9      4      6      4      4   
4      2      1      3     1      1      8      6      6      6      6      5   

   xy2br  x-ege  xegvy  y-ege  yegvx  Outlier  lettr  
0      8      0      8      0      8        1     20  
1      9      2      8      4     10        1      9  
2      7      3      7      3      9        1      4  
3     10      6     10      2      8        1     14  
4      9      1      7      5     10       -1      7  


### Membagi Data

Disini akan dilakukan pembagian data untuk mempermudah perhitungan, saya membagi data test menjadi 20% dan data train 80%. Dilakukannya hal ini agar saat kita melakukan prediksi terhadap data baru, kita mendapat hasil yang lebih efektif.

In [None]:
from sklearn.model_selection import train_test_split

# Mengakses dataset melalui csv
df = pd.read_csv('letter-recognition.csv')
# Menghapus kolom yang tidak relevan
# df.drop("Unnamed: 0", axis=1, inplace=True)

X = df[['x-box','y-box','width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']]
y = df[ 'lettr']

X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2)

# X_test


Penjelasan code

Code diatas merupakan code untuk membagi data menjadi data training dan juga data testing untuk dilakukan perhitungan menggunakan metode gaussian naive bayes.

In [None]:
df1 = X_train
df2 = Y_train

df_train = pd.concat([df1,df2], axis=1, join='inner')

df_train

Unnamed: 0,x-box,y-box,width,high,onpix,x-bar,y-bar,x2bar,y2bar,xybar,x2ybr,xy2br,x-ege,xegvy,y-ege,yegvx,lettr
15275,3,5,5,4,2,8,7,3,8,11,5,7,1,9,5,8,19
18682,6,9,8,7,4,7,10,5,4,12,5,3,1,10,3,9,16
15432,4,11,5,8,3,8,8,9,8,6,8,8,3,8,4,8,15
9617,3,3,5,5,2,6,4,3,1,6,1,8,3,7,2,7,1
6881,9,13,9,7,5,8,7,2,8,11,4,7,4,9,4,7,24
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13646,10,9,8,13,5,8,9,3,3,6,11,5,4,10,7,7,25
18649,2,1,2,2,2,6,7,4,4,6,5,6,2,7,3,8,18
11312,2,1,2,2,1,8,6,7,4,6,6,8,3,8,3,8,17
14403,4,8,6,6,5,7,8,6,9,6,4,9,3,8,6,8,5


Penjelasan code

Code tersebut digunakan untuk menampilkan data train 

In [None]:
df3 = X_test
df4 = Y_test

df_test = pd.concat([df3,df4], axis=1, join='inner')
df_test

Unnamed: 0,x-box,y-box,width,high,onpix,x-bar,y-bar,x2bar,y2bar,xybar,x2ybr,xy2br,x-ege,xegvy,y-ege,yegvx,lettr
18085,6,13,5,7,3,8,7,3,7,11,5,7,2,9,5,6,20
6869,7,8,8,6,3,4,9,6,9,12,11,8,3,9,1,6,21
19266,5,10,7,7,8,6,7,3,6,7,7,10,5,8,5,6,20
1937,3,5,5,3,2,7,9,6,7,7,10,9,3,9,1,8,21
2076,3,8,4,6,3,5,8,6,6,9,8,14,1,9,3,10,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15314,5,8,5,6,2,3,11,3,7,13,11,6,1,10,2,5,25
19987,3,7,3,5,1,0,1,6,6,0,0,6,0,8,0,8,12
8395,6,9,9,7,6,8,5,3,6,8,6,8,4,7,4,7,10
9140,6,10,9,8,9,8,7,7,4,7,6,9,6,8,7,4,1


Code tersebut digunakan untuk menampilkan data testing

## GAUSSIAN Naive Bayes Library

In [None]:
from sklearn.naive_bayes import GaussianNB
import pandas as pd

df = pd.read_csv('letter-recognition.csv')

# Menghapus kolom yang tidak relevan
# df.drop("Unnamed: 0", axis=1, inplace=True)
# df.drop("Outlier", axis=1, inplace=True)

X = df[['x-box','y-box','width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']]
y = df['lettr']

# Bagi data menjadi data latih dan data uji
X_train, X_test, Y_train, Y_test = train_test_split(X, y, test_size=0.2, random_state=25)

classifier = GaussianNB() 
classifier.fit(X_train,Y_train)

# Data Baru yang Akan di Klasifikasikan
# X = [df_test.values.tolist()[1][:-1]]
X = [[5, 12, 3, 7, 2, 10, 5, 5, 4, 13, 3, 9, 2, 8, 4, 10]]

result = classifier.predict(X)
print(f'Data X memiliki class: {result}')

# Evaluasi Keakuratan
print("Nilai Keakuratan: %f" % classifier.score(df1, df2))

Data X memiliki class: [10]
Nilai Keakuratan: 0.646250


Penjelasan code

Code diatas digunakan untuk menentukan nilai keakuratan data testing berdasarkan metode Gaussian Naive Bayes. Pada metode ini sama seperti metode KNN, fitur harus dibagi menjadi dua yaitu fitur dan class setelah itu bagi data menjadi data training dan juga data testing dimana data training sebanyak 80% dan data testing sebanyak 20%. Setelah itu masukkan data testing sebagai data yang akan diuji nilai keakuratannya.

# Stacking Classifier

In [None]:
from sklearn import model_selection
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB 
from sklearn.ensemble import RandomForestClassifier
import numpy as np
import warnings

Stacking adalah metode pembelajaran ensemble yang menggabungkan beberapa algoritma pembelajaran mesin melalui meta-learning. Algoritma tingkat dasar dilatih menggunakan keseluruhan data pelatihan, sementara meta-model dilatih menggunakan hasil prediksi dari semua model dasar sebagai fitur. Dalam konteks ini, kita menggunakan metode KNN dan Naive Bayes untuk mengatasi bias dan varians. Dengan mempelajari teknik stacking, kita dapat meningkatkan akurasi prediksi model secara keseluruhan.

In [None]:
print(X_train)

       x-box  y-box  width  high  onpix  x-bar  y-bar  x2bar  y2bar  xybar  \
16784      7     10      9     8      9      8      7      6      5      6   
2957       3      7      5     5      4      7      8      7      6      7   
18829      3      2      5     4      3      7     10      2      2      7   
12230      4      9      6     7      4      6     11      1      9      8   
7278       7     10      8     8      4      3      9      6      7     12   
...      ...    ...    ...   ...    ...    ...    ...    ...    ...    ...   
7324       1      8      0     6      0      7      7      4      4      7   
1160       6      7      8     6      6      7      4      5      6      7   
1175       4     10      5     8      3      3      7      6     11      7   
2934       6     11      8     8      6      4      9      2      8     10   
6618       4      8      6     7      6      9      9      2      6      7   

       x2ybr  xy2br  x-ege  xegvy  y-ege  yegvx  
16784      7 

Penjelasan code

Code diatas digunakan untuk menampilkan data pada bagian data train yang berisi fitur dari dataset yang akan digunakan dan sudah dibagi pada proses sebelumnya

In [None]:
print(Y_train)

16784    13
2957      2
18829    23
12230    20
7278     21
         ..
7324      9
1160     17
1175      5
2934      5
6618     24
Name: lettr, Length: 16000, dtype: int64


Penjelasan code

 Code diatas digunakan untuk menampilkan isi dari data training pada bagian Y_train yang berisi class dari dataset yang akan digunakan

In [None]:
print(X_test)

       x-box  y-box  width  high  onpix  x-bar  y-bar  x2bar  y2bar  xybar  \
577        8     12      7     6      6      6      7      3      5      7   
16746      3      7      3     4      1      1     11      5      6     11   
9446       4      7      6     6      7      8      7      5      4      7   
17161      3      8      4     6      4      6      7      6      8      7   
8047       4      8      5     6      3      6     11      3      7      9   
...      ...    ...    ...   ...    ...    ...    ...    ...    ...    ...   
19693      3      4      4     6      2      8      8      8      7      6   
4924       8     12      6     6      5      7      7      4      4      9   
15568      4      8      5     6      5      6      9      6      5      9   
5566       4     11      5     8      3      5     11      3      4      9   
7928       2      7      3     5      3      4      4      4      6      3   

       x2ybr  xy2br  x-ege  xegvy  y-ege  yegvx  
577        5 

penjelasan code

code diatas digunakan untuk menampilkan data test dari fitur dataset yang digunakan sebagai data testing ketika melakukan uji coba

In [None]:
print(Y_test)

577      18
16746     6
9446     19
17161     5
8047     20
         ..
19693     7
4924      3
15568    16
5566     22
7928     12
Name: lettr, Length: 4000, dtype: int64


Penjelasan code 

Code diatas digunakan untuk menampilkan isi dari data testing pada bagian Y_test

## Model K-NN dengan n-neighbours = 3

In [None]:
# Inisialisasi dan pelatihan model
c1 = KNeighborsClassifier(n_neighbors=3)
c1.fit(X_train, Y_train)

# Prediksi pada data pelatihan
p1 = c1.predict(X_train)
print(p1)
p1_test = c1.predict(X_test)
print (p1)
print (p1_test)

[13  2 23 ...  5  5 24]
[13  2 23 ...  5  5 24]
[18  6 19 ... 16 22 12]


Setelah data dibagi menjadi dua yaitu data training dan juga data testing setelah itu data dilakukan uji coba dengan menggunakan metode KNN dengan menggunakan n-neighbout = 3. Uji coba ini dilakukan dengan menggunakan data training dan juga data testing

## Model K-NN dengan n-neighbours = 5

In [None]:
# Inisialisasi dan pelatihan model
c2 = KNeighborsClassifier(n_neighbors=5)
c2.fit(X_train, Y_train)

# Prediksi pada data pelatihan
p2 = c2.predict(X_train)
p2_test = c2.predict(X_test)

print (p2)
print (p2_test)


[13  2 23 ...  5  5 24]
[18  6 19 ... 16 22 12]


Code ini juga berfungsi seperti code diatas yaitu melatih data training dengan menggunakan metode KNN dengan n-neighbour = 5

In [None]:
df_meta = pd.DataFrame({'p1': p1, 'p2': p2, 'Y train' : Y_train})
df_meta

Unnamed: 0,p1,p2,Y train
16784,13,13,13
2957,2,2,2
18829,23,23,23
12230,20,20,20
7278,21,21,21
...,...,...,...
7324,9,9,9
1160,17,17,17
1175,5,5,5
2934,5,5,5


Penjelasan code

Kode tersebut membuat DataFrame `df_meta` dengan tiga kolom (`p1`, `p2`, dan `Y train`) dari variabel `p1`, `p2`, dan `Y_train` menggunakan pustaka `pandas`, kemudian menampilkannya.

## Memprediksi menggunakan data baru

In [None]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

# Menggabungkan prediksi dari kedua model KNN sebagai fitur baru
f_meta_train = np.column_stack((p1, p2))
f_meta_test = np.column_stack((p1_test, p2_test))

# Data baru untuk prediksi
X_new = [[1, 3, 2, 2, 1, 8, 8, 2, 5, 14, 5, 8, 0, 7, 0, 7]]

# Inisialisasi dan pelatihan meta-classifier Naive Bayes
meta_classifier = GaussianNB()
meta_classifier.fit(f_meta_train, Y_train)

# Prediksi menggunakan meta-classifier
predict = meta_classifier.predict(f_meta_test)

# Menghitung akurasi prediksi
accuracy = accuracy_score(Y_test, predict)
print(f'Akurasi : {accuracy * 100:.2f}%')

# Prediksi data baru menggunakan model KNN
p1_new = c1.predict(X_new)
p2_new = c2.predict(X_new)

# Menggabungkan prediksi KNN sebagai fitur baru untuk data baru
f_meta_new = np.column_stack((p1_new, p2_new))

# Prediksi data baru menggunakan meta-classifier Naive Bayes
predict_new = meta_classifier.predict(f_meta_new)
print(f'Prediksi untuk data baru : {predict_new}')

Akurasi : 76.28%
Prediksi untuk data baru : [10]


Penjelasan code

Code diatas berfungsi untuk memprediksi data baru berdasarkan nilai dari metode meta classifier menggunakan KNN dan menentukan nilai akurasi dari perhitungan tersebut. 

In [None]:
import pandas as pd
import numpy as np

df = pd.read_csv('letter-recognition.csv')
# df.drop("Unnamed: 0", axis=1, inplace=True)
# df.drop("Outlier", axis=1, inplace=True)
df

Unnamed: 0,x-box,y-box,width,high,onpix,x-bar,y-bar,x2bar,y2bar,xybar,x2ybr,xy2br,x-ege,xegvy,y-ege,yegvx,Outlier,lettr
0,2,8,3,5,1,8,13,0,6,6,10,8,0,8,0,8,1,20
1,5,12,3,7,2,10,5,5,4,13,3,9,2,8,4,10,1,9
2,4,11,6,8,6,10,6,2,6,10,3,7,3,7,3,9,1,4
3,7,11,6,6,3,5,9,4,6,4,4,10,6,10,2,8,1,14
4,2,1,3,1,1,8,6,6,6,6,5,9,1,7,5,10,-1,7
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
19995,2,2,3,3,2,7,7,7,6,6,6,4,2,8,3,7,1,4
19996,7,10,8,8,4,4,8,6,9,12,9,13,2,9,3,7,1,3
19997,6,9,6,7,5,6,11,3,7,11,9,5,2,12,2,4,1,20
19998,2,3,4,2,1,8,7,2,6,10,6,8,1,9,5,8,1,19


Penjelasan code

Kode tersebut membaca file CSV `letter-recognition.csv` ke dalam DataFrame `df` menggunakan pustaka `pandas`. Baris-baris yang dikomentari (`df.drop("Unnamed: 0", axis=1, inplace=True)` dan `df.drop("Outlier", axis=1, inplace=True)`) berfungsi untuk menghapus kolom `Unnamed: 0` dan `Outlier` jika tidak dikomentari. Setelah itu, DataFrame `df` ditampilkan.

# Bagging Classifier

In [None]:
import pandas as pd
import numpy as np
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Memuat dataset
df = pd.read_csv('letter-recognition.csv')

# Periksa nilai unik dalam kolom 'class'
print("Nilai unik dalam kolom 'class':", df['lettr'].unique())

# Memisahkan fitur dan target
X = df[['x-box', 'y-box', 'width', 'high', 'onpix', 'x-bar', 'y-bar', 'x2bar', 'y2bar', 'xybar', 'x2ybr', 'xy2br', 'x-ege', 'xegvy', 'y-ege', 'yegvx']]
y = df['lettr']

# Membagi dataset menjadi data pelatihan dan pengujian
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=25)

# Parameter bagging
n_estimators = 20
n_samples = int(len(X_train) / n_estimators)

# Inisialisasi list untuk menyimpan model dan akurasi
estimators = []
accuracies = []
pred = []
X_new = [[5, 11, 8, 8, 4, 8, 8, 1, 8, 10, 5, 7, 3, 8, 4, 8]]

np.random.seed(0)

# Membuat model Gaussian Naive Bayes untuk setiap subset
for i in range(n_estimators):
    # Membuat bootstrap sample
    bootstrap_indices = np.random.randint(0, len(X_train), n_samples)
    X_train_bootstrap = X_train.iloc[bootstrap_indices]
    y_train_bootstrap = y_train.iloc[bootstrap_indices]
    
    # Melatih model
    gnb_model = GaussianNB()
    gnb_model.fit(X_train_bootstrap, y_train_bootstrap)
    estimators.append(gnb_model)

    # Evaluasi model    
    bebas = gnb_model.predict(X_new)
    pred.append(bebas[0])  # Mengambil nilai prediksi dan menyimpannya di list pred
    print(f"Prediction for estimator {i + 1}: {bebas[0]}")
    
    y_pred = gnb_model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    accuracies.append(accuracy)
    print(f"Estimator {i + 1} accuracy: {accuracy:.4f}")

# Majority vote untuk prediksi data baru
pred_majority_vote = np.bincount(pred).argmax()
print(f"Majority vote prediction for new data: {pred_majority_vote}")

# Menghitung jumlah dari masing-masing kelas dalam pred
class_counts = np.bincount(pred)
for class_label in range(len(class_counts)):
    print(f"Jumlah prediksi kelas {class_label}: {class_counts[class_label]}")

# Menghitung rata-rata akurasi dari semua estimators
average_accuracy = np.mean(accuracies)
print(f"Average accuracy of all estimators: {average_accuracy:.4f}")


Nilai unik dalam kolom 'class': [20  9  4 14  7 19  2  1 10 13 24 15 18  6  3  8 23 12 16  5 22 25 17 21
 11 26]
Prediction for estimator 1: 24
Estimator 1 accuracy: 0.5880
Prediction for estimator 2: 24
Estimator 2 accuracy: 0.6072
Prediction for estimator 3: 24
Estimator 3 accuracy: 0.5962
Prediction for estimator 4: 24
Estimator 4 accuracy: 0.5860
Prediction for estimator 5: 4
Estimator 5 accuracy: 0.5825
Prediction for estimator 6: 24
Estimator 6 accuracy: 0.5840
Prediction for estimator 7: 24
Estimator 7 accuracy: 0.5847
Prediction for estimator 8: 24
Estimator 8 accuracy: 0.5567
Prediction for estimator 9: 24
Estimator 9 accuracy: 0.5750
Prediction for estimator 10: 24
Estimator 10 accuracy: 0.5857
Prediction for estimator 11: 24
Estimator 11 accuracy: 0.5835
Prediction for estimator 12: 24
Estimator 12 accuracy: 0.5705
Prediction for estimator 13: 24
Estimator 13 accuracy: 0.5797
Prediction for estimator 14: 24
Estimator 14 accuracy: 0.6002
Prediction for estimator 15: 24
Estima

Penjelasan code

Bagging (Bootstrap Aggregating) adalah teknik ensemble yang bertujuan untuk meningkatkan akurasi prediksi dengan mengkombinasikan hasil dari beberapa model yang dilatih pada subset acak dari dataset asli. Teknik ini membantu mengurangi overfitting dan membuat model lebih stabil. Pada studi kasus ini, data yang telah dilatih menggunakan metode KNN dipakai sebagai fitur baru dalam perhitungan dengan menggunakan bagging classifier.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=0ebf5bcc-908a-44a3-a323-23010d32709e' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>