# Tugas Supervised Learning 
# Kecerdasan Buatan 2023/2024

Berikut adalah contoh aplikasi supervised learning untuk melakukan klasifikasi pada sebuah Dataset

Beberapa library yang harus diinstal dan disiapkan
1. Sklearn (pip install scikit-learn)
2. Pandas
3. Numpy
4. Matplotlib

====================================================================================================

### Import beberapa library yang akan kita gunakan

In [2]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score

### Download dataset dan import kedalam code 

Dataset yang kita gunakan adalah dataset hepatitis dari https://archive.ics.uci.edu/dataset/46/hepatitis

In [1]:

from ucimlrepo import fetch_ucirepo 
  
# fetch dataset 
hepatitis = fetch_ucirepo(id=46) 
  
# data (as pandas dataframes) 
X = hepatitis.data.features 
y = hepatitis.data.targets 
  
# metadata 
print(hepatitis.metadata) 
  
# variable information 
print(hepatitis.variables) 


{'uci_id': 46, 'name': 'Hepatitis', 'repository_url': 'https://archive.ics.uci.edu/dataset/46/hepatitis', 'data_url': 'https://archive.ics.uci.edu/static/public/46/data.csv', 'abstract': 'From G.Gong: CMU; Mostly Boolean or numeric-valued attribute types; Includes cost data (donated by Peter Turney)', 'area': 'Health and Medicine', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 155, 'num_features': 19, 'feature_types': ['Categorical', 'Integer', 'Real'], 'demographics': [], 'target_col': ['Class'], 'index_col': None, 'has_missing_values': 'yes', 'missing_values_symbol': 'NaN', 'year_of_dataset_creation': 1983, 'last_updated': 'Fri Nov 03 2023', 'dataset_doi': '10.24432/C5Q59J', 'creators': [], 'intro_paper': None, 'additional_info': {'summary': 'Please ask Gail Gong for further information on this database.', 'purpose': None, 'funded_by': None, 'instances_represent': None, 'recommended_data_splits': None, 'sensitive_data': None, 'preprocessing_descri

### Preview dataset yang sudah kalian download 

In [11]:

# Preview fitur-fitur yang digunakan
print("Preview Fitur-fitur:")
print(X.head())

# Preview target yang mau diklasifikasikan berdasarkan apa saja
print("Preview Target:")
print(y.head())

Preview Fitur-fitur:
   Age  Sex  Steroid  Antivirals  Fatigue  Malaise  Anorexia  Liver Big  \
0   30    2      1.0           2      2.0      2.0       2.0        1.0   
1   50    1      1.0           2      1.0      2.0       2.0        1.0   
2   78    1      2.0           2      1.0      2.0       2.0        2.0   
3   31    1      NaN           1      2.0      2.0       2.0        2.0   
4   34    1      2.0           2      2.0      2.0       2.0        2.0   

   Liver Firm  Spleen Palpable  Spiders  Ascites  Varices  Bilirubin  \
0         2.0              2.0      2.0      2.0      2.0        1.0   
1         2.0              2.0      2.0      2.0      2.0        0.9   
2         2.0              2.0      2.0      2.0      2.0        0.7   
3         2.0              2.0      2.0      2.0      2.0        0.7   
4         2.0              2.0      2.0      2.0      2.0        1.0   

   Alk Phosphate   Sgot  Albumin  Protime  Histology  
0           85.0   18.0      4.0      Na

### Data Preprocessing

Data processing sangat penting sekali dilakukan karena untuk mencari dan menganalisa data apakah ada terdapat data yang belum bersih. Maksud dari belum bersih adalah terdapat data yang hilang, NaN, Null, dll. Sebelum di proses lebih lanjut data harus sudah bersih

In [80]:
#code untuk preprocessing (clue: (Data Cleaning) cek apakah terdapat data yang hilang, Nan, atau Null. 
#Jika ada drop data tersebut by row atau by kolom. Silahkan dianalisa jika by row seperti apa dan by kolom seperti apa)

X = hepatitis.data.features 
y = hepatitis.data.targets 

# Cek apakah terdapat data yang hilang (NaN atau Null)
print("Cek data yang hilang pada fitur-fitur:")
print(X.isnull().sum())

print("Cek data yang hilang pada fitur-fitur:")
print(y.isnull().sum())



#by row
x_drop = X.dropna(axis=0)
print("\n")
print(x_drop.isnull().sum())
print("\nPreview Fitur-fitur:")
print(x_drop.head(10))

#by col
x_drop_col = X.dropna(axis=1)
print("\n")
print(x_drop_col.isnull().sum())
print("\nPreview Fitur-fitur:")
print(x_drop_col.head(10))





Cek data yang hilang pada fitur-fitur:
Age                 0
Sex                 0
Steroid             1
Antivirals          0
Fatigue             1
Malaise             1
Anorexia            1
Liver Big          10
Liver Firm         11
Spleen Palpable     5
Spiders             5
Ascites             5
Varices             5
Bilirubin           6
Alk Phosphate      29
Sgot                4
Albumin            16
Protime            67
Histology           0
dtype: int64
Cek data yang hilang pada fitur-fitur:
Class    0
dtype: int64


Class    0
dtype: int64

Preview Fitur-fitur:
   Class
0      2
1      2
2      2
3      2
4      2
5      2
6      1
7      2
8      2
9      2
No. of training examples: 155


### Lakukan Split data menjadi train dan test

Split data merupakan tahap penting dalam supervised learning. Karena algoritma nanti akan mempelajari data pada data train dan menguji hasil belajarnya pada data test

In [88]:
print(f"No. of training examples: {x_drop.shape[0]}")
print(f"No. of training examples: {X.shape[0]}")

#Code untuk splitting dataset
training_data, testing_data = train_test_split(x_drop, test_size=0.2, random_state=25,shuffle=False)
training_data_Y, testing_data_Y = train_test_split(y, test_size=0.585, random_state=25,shuffle=False)

print(training_data.head(10))

print(f"No. of training : {training_data.shape[0]}")
print(f"No. of testing : {testing_data.shape[0]}")

print(f"No. of training : {training_data_Y.shape[0]}")
print(f"No. of testing : {testing_data_Y.shape[0]}")


No. of training examples: 80
No. of training examples: 155
    Age  Sex  Steroid  Antivirals  Fatigue  Malaise  Anorexia  Liver Big  \
5    34    1      2.0           2      2.0      2.0       2.0        2.0   
10   39    1      1.0           1      2.0      2.0       2.0        1.0   
11   32    1      2.0           1      1.0      2.0       2.0        2.0   
12   41    1      2.0           1      1.0      2.0       2.0        2.0   
13   30    1      2.0           2      1.0      2.0       2.0        2.0   
15   38    1      1.0           2      1.0      1.0       1.0        2.0   
17   40    1      1.0           2      1.0      2.0       2.0        2.0   
18   38    1      2.0           2      2.0      2.0       2.0        2.0   
19   38    1      1.0           1      2.0      2.0       2.0        1.0   
20   22    2      2.0           1      1.0      2.0       2.0        2.0   

    Liver Firm  Spleen Palpable  Spiders  Ascites  Varices  Bilirubin  \
5          2.0              2.0

====================================================================================================

### Proses Learning dengan Algoritma Supervised Learning

Pada tugas ini kita akan menggunakan 2 algoritma
1. KNN
2. Naive Bayes

### Algoritma KNN

In [89]:
# code panggil fungsi KNN pada library sklearn
neigh = KNeighborsClassifier(n_neighbors=3)

# code masukkan datatrain pada KNN dan jalankan proses learningnya
neigh.fit(training_data, training_data_Y)

  return self._fit(X, y)


### Uji hasil Learning KNN

In [24]:
# code untuk pengujian hasil learning menggunakan KNN pada Datatest

# code hasil output

# code visualisasi hasil output dengan membandingkan data aktual dengan data hasil klasifikasi

### Algoritma Naive Bayes

In [25]:
# code panggil fungsi Naive Bayes pada library sklearn

# code masukkan datatrain pada KNN dan jalankan proses learningnya

### Uji hasil Learning Naive Bayes

In [26]:
# code untuk pengujian hasil learning menggunakan Naive Bayes pada Datatest

# code hasil output

# code visualisasi hasil output dengan membandingkan data aktual dengan data hasil klasifikasi

====================================================================================================

## Pengujian

Setelah kita membuat model klasifikasi dengan menggunakan algoritma KNN dan Naive Bayes, hal selanjutnya yaitu kita perlu menguji algoritma mana yang paling baik di antara 2 algoritma tersebut. Metrics atau satuan pengukuran yang akan kita gunakan adalah Accuracy dan Precision

### Hitung nilai akurasi dan presisi dari model KNN

In [27]:
# code untuk menghitung akurasi 

# code untuk menghitung presisi

### Hitung nilai akurasi dan presisi dari model Naive Bayes

In [28]:
# code untuk menghitung akurasi 

# code untuk menghitung presisi

====================================================================================================

## Kesimpulan

Dari apa yang telah kalian lakukan dapat disimpulkan dengan menjawab beberapa pertanyaan berikut:
1. Mengapa dataset perlu dilakukan tahap preprocessing?
2. Mengapa dataset perlu dilakukan splitting?
3. Bagaimana konsep dan cara kerja dari KNN dan Naive Bayes?
4. Pada hasil pengujian manakan yang paling baik antara KNN dengan Naive Bayes pada dataset ini?
5. Apa perbedaan dari akurasi dan presisi?

Silahkan dilengkapi kode di atas. Pastikan tidak ada code error. Kemudian buat sebuah laporan yang menjelaskan
step by step dari notebook ini. Jangan lupa cantumkan Nama, NIM, dan Kelas. Deadline pengerjaan 1 minggu

Link pengumpulan : https://forms.gle/M7P91LwiZU6bqAEn6