# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [26]:
import pandas as pd
import numpy as np
import warnings
import joblib
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report, confusion_matrix
from sklearn.linear_model import Perceptron, RidgeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis
from sklearn.model_selection import GridSearchCV, cross_val_score

warnings.filterwarnings('ignore')

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [27]:
data = pd.read_csv("Adult Income Dataset/final_data.csv")
data

Unnamed: 0,education_num,capital_gain,hours_per_week,sex,age,cluster
0,13,1092.841202,40,1,39,3
1,13,0.000000,13,1,50,0
2,9,0.000000,40,1,38,0
3,7,0.000000,40,1,53,0
4,13,0.000000,40,0,28,1
...,...,...,...,...,...,...
45189,13,0.000000,40,1,33,0
45190,13,0.000000,36,0,39,1
45191,13,0.000000,50,1,38,0
45192,13,1120.673663,40,1,44,3


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [28]:
X = data.drop('cluster', axis=1)
y = data['cluster']

In [29]:
X

Unnamed: 0,education_num,capital_gain,hours_per_week,sex,age
0,13,1092.841202,40,1,39
1,13,0.000000,13,1,50
2,9,0.000000,40,1,38
3,7,0.000000,40,1,53
4,13,0.000000,40,0,28
...,...,...,...,...,...
45189,13,0.000000,40,1,33
45190,13,0.000000,36,0,39
45191,13,0.000000,50,1,38
45192,13,1120.673663,40,1,44


In [30]:
y

0        3
1        0
2        0
3        0
4        1
        ..
45189    0
45190    1
45191    0
45192    3
45193    0
Name: cluster, Length: 45194, dtype: int64

In [31]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [32]:
models = {
    "K-Nearest Neighbors": KNeighborsClassifier(),
    "Ridge Classifier": RidgeClassifier(),
    "Perceptron": Perceptron(),
    "Multinomial Naive Bayes": MultinomialNB(),
    "Logistic Regression": LogisticRegression(multi_class='multinomial', solver='lbfgs'),
}

In [33]:
trained_models = {}
for model_name, model in models.items():
    model.fit(X_train, y_train)
    trained_models[model_name] = model

In [34]:
for model_name, model in trained_models.items():
    joblib.dump(model, f'Original Model/{model_name}_trained.pkl')

#### Penjelasan Algoritma Klasifikasi Multi-Kelas

1. **K-Nearest Neighbors (KNN)**: Algoritma non-parametrik yang mengklasifikasikan data berdasarkan kedekatannya dengan titik data lain. Klasifikasi ditentukan oleh suara terbanyak dari k tetangga terdekat.

2. **Ridge Classifier**: Varian regresi linear yang menerapkan regularisasi L2 untuk mengurangi kompleksitas model, cocok untuk klasifikasi multi-kelas.

3. **Perceptron**: Model jaringan syaraf yang memperbarui bobot berdasarkan kesalahan prediksi, efektif untuk pemisahan kelas yang dapat dipisahkan secara linear.

4. **Multinomial Naive Bayes**: Algoritma probabilistik yang menghitung probabilitas kelas berdasarkan frekuensi fitur, cocok untuk data teks dan klasifikasi multi-kelas.

5. **Logistic Regression**: Model regresi yang memprediksi probabilitas kelas menggunakan pendekatan softmax, dapat menangani lebih dari dua kelas.


## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [35]:
for model_name, model in trained_models.items():
    y_pred = model.predict(X_test)

    train_accuracy = accuracy_score(y_train, model.predict(X_train))
    test_accuracy = accuracy_score(y_test, y_pred)

    f1 = f1_score(y_test, y_pred, average='weighted')
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')

    conf_matrix = confusion_matrix(y_test, y_pred)

    total_accuracy = (train_accuracy + test_accuracy) / 2

    print(f'{model_name} Total Accuracy: {total_accuracy:.4f}')
    print(f'{model_name} Weighted F1 Score: {f1:.4f}')
    print(f'{model_name} Precision: {precision:.4f}')
    print(f'{model_name} Recall: {recall:.4f}')
    print(f'{model_name} Confusion Matrix:\n{conf_matrix}')
    print(f'{model_name} Classification Report:')
    print(classification_report(y_test, y_pred))
    print('-' * 60)

K-Nearest Neighbors Total Accuracy: 0.9455
K-Nearest Neighbors Weighted F1 Score: 0.9284
K-Nearest Neighbors Precision: 0.9296
K-Nearest Neighbors Recall: 0.9304
K-Nearest Neighbors Confusion Matrix:
[[5323  128    0    0]
 [ 360 2456    0    0]
 [   0    0   79  107]
 [   0    0   34  552]]
K-Nearest Neighbors Classification Report:
              precision    recall  f1-score   support

           0       0.94      0.98      0.96      5451
           1       0.95      0.87      0.91      2816
           2       0.70      0.42      0.53       186
           3       0.84      0.94      0.89       586

    accuracy                           0.93      9039
   macro avg       0.86      0.80      0.82      9039
weighted avg       0.93      0.93      0.93      9039

------------------------------------------------------------
Ridge Classifier Total Accuracy: 0.9805
Ridge Classifier Weighted F1 Score: 0.9695
Ridge Classifier Precision: 0.9601
Ridge Classifier Recall: 0.9794
Ridge Classifier C

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [36]:
param_grids = {
    "K-Nearest Neighbors": {
        'n_neighbors': [3, 5, 7, 10],
        'weights': ['uniform', 'distance'],
        'algorithm': ['auto', 'ball_tree', 'kd_tree']
    },
    "Ridge Classifier": {
        'alpha': [0.01, 0.1, 1.0, 10.0, 100.0]
    },
    "Perceptron": {
        'max_iter': [1000, 2000, 3000],
        'tol': [1e-3, 1e-4, 1e-5],
        'eta0': [0.01, 0.1, 0.5]
    },
    "Multinomial Naive Bayes": {
        'alpha': [0.1, 1.0, 10.0]
    },
    "Logistic Regression": {
        'C': [0.01, 0.1, 1.0, 10.0, 100.0],
        'max_iter': [100, 200, 300]
    }
}


In [37]:
best_models = {}

for model_name, model in models.items():
    grid_search = GridSearchCV(
        model, 
        param_grids[model_name], 
        cv=5, 
        scoring=['accuracy', 'f1_weighted'], 
        refit='accuracy',
        return_train_score=True
    )
    grid_search.fit(X_train, y_train)

    best_models[model_name] = grid_search.best_estimator_

    cv_scores = cross_val_score(best_models[model_name], X_train, y_train, cv=5, scoring='f1_weighted')
    print(f'{model_name} Best Parameters: {grid_search.best_params_}')
    print(f'{model_name} Cross-Validation Accuracy Score: {grid_search.cv_results_["mean_test_accuracy"].mean():.4f}')
    print(f'{model_name} Cross-Validation F1 Score: {cv_scores.mean():.4f}')
    print('-' * 60)

    joblib.dump(best_models[model_name], f'Tuning Model/{model_name}_best.pkl')

K-Nearest Neighbors Best Parameters: {'algorithm': 'ball_tree', 'n_neighbors': 3, 'weights': 'distance'}
K-Nearest Neighbors Cross-Validation Accuracy Score: 0.9313
K-Nearest Neighbors Cross-Validation F1 Score: 0.9409
------------------------------------------------------------
Ridge Classifier Best Parameters: {'alpha': 0.01}
Ridge Classifier Cross-Validation Accuracy Score: 0.9816
Ridge Classifier Cross-Validation F1 Score: 0.9727
------------------------------------------------------------
Perceptron Best Parameters: {'eta0': 0.1, 'max_iter': 1000, 'tol': 0.001}
Perceptron Cross-Validation Accuracy Score: 0.9780
Perceptron Cross-Validation F1 Score: 0.9737
------------------------------------------------------------
Multinomial Naive Bayes Best Parameters: {'alpha': 0.1}
Multinomial Naive Bayes Cross-Validation Accuracy Score: 0.8826
Multinomial Naive Bayes Cross-Validation F1 Score: 0.8745
------------------------------------------------------------
Logistic Regression Best Parame

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [38]:
for model_name, model in best_models.items():
    y_pred = model.predict(X_test)

    total_accuracy = accuracy_score(y_test, y_pred)

    f1 = f1_score(y_test, y_pred, average='weighted')
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')

    conf_matrix = confusion_matrix(y_test, y_pred)

    print(f'{model_name} Total Accuracy: {total_accuracy:.4f}')
    print(f'{model_name} Weighted F1 Score: {f1:.4f}')
    print(f'{model_name} Precision: {precision:.4f}')
    print(f'{model_name} Recall: {recall:.4f}')
    print(f'{model_name} Confusion Matrix:\n{conf_matrix}')
    print(f'{model_name} Classification Report:')
    print(classification_report(y_test, y_pred))
    print('-' * 60)

K-Nearest Neighbors Total Accuracy: 0.9476
K-Nearest Neighbors Weighted F1 Score: 0.9464
K-Nearest Neighbors Precision: 0.9470
K-Nearest Neighbors Recall: 0.9476
K-Nearest Neighbors Confusion Matrix:
[[5339  112    0    0]
 [ 244 2572    0    0]
 [   0    0   98   88]
 [   0    0   30  556]]
K-Nearest Neighbors Classification Report:
              precision    recall  f1-score   support

           0       0.96      0.98      0.97      5451
           1       0.96      0.91      0.94      2816
           2       0.77      0.53      0.62       186
           3       0.86      0.95      0.90       586

    accuracy                           0.95      9039
   macro avg       0.89      0.84      0.86      9039
weighted avg       0.95      0.95      0.95      9039

------------------------------------------------------------
Ridge Classifier Total Accuracy: 0.9794
Ridge Classifier Weighted F1 Score: 0.9695
Ridge Classifier Precision: 0.9601
Ridge Classifier Recall: 0.9794
Ridge Classifier C

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

#### Evaluasi Model Sebelum dan Setelah Tuning

#### Hasil Evaluasi Model

| Model                     | Total Accuracy | Weighted F1 Score | Precision | Recall |
|---------------------------|----------------|--------------------|-----------|--------|
| K-Nearest Neighbors (Sebelum) | 0.9455         | 0.9284             | 0.9296    | 0.9304 |
| K-Nearest Neighbors (Setelah) | 0.9476         | 0.9464             | 0.9470    | 0.9476 |
| Ridge Classifier (Sebelum)     | 0.9805         | 0.9695             | 0.9601    | 0.9794 |
| Ridge Classifier (Setelah)     | 0.9794         | 0.9695             | 0.9601    | 0.9794 |
| Perceptron (Sebelum)           | 0.9797         | 0.9698             | 0.9633    | 0.9785 |
| Perceptron (Setelah)           | 0.9785         | 0.9698             | 0.9633    | 0.9785 |
| Multinomial Naive Bayes (Sebelum)| 0.8821        | 0.8738             | 0.8997    | 0.8818 |
| Multinomial Naive Bayes (Setelah)| 0.8818        | 0.8738             | 0.8997    | 0.8818 |
| Logistic Regression (Sebelum)  | 0.9853         | 0.9808             | 0.9857    | 0.9843 |
| Logistic Regression (Setelah)   | 1.0000         | 1.0000             | 1.0000    | 1.0000 |

#### Identifikasi Kelemahan Model

1. **K-Nearest Neighbors**
   - **Kelemahan**: Recall untuk kelas 2 (0.53) menunjukkan model kesulitan mengklasifikasikan kelas ini.
   - **Overfitting/Underfitting**: Model mengalami sedikit overfitting, dengan penurunan yang kecil dalam total akurasi setelah tuning.

2. **Ridge Classifier**
   - **Kelemahan**: Tidak ada kelemahan yang signifikan, tetapi recall untuk kelas 2 (0.00) menunjukkan model tidak mampu mendeteksi kelas ini sama sekali.
   - **Overfitting/Underfitting**: Model stabil, tanpa indikasi overfitting.

3. **Perceptron**
   - **Kelemahan**: Tidak dapat mendeteksi kelas 2 (0.00), meskipun akurasi total tinggi.
   - **Overfitting/Underfitting**: Model stabil, tanpa indikasi overfitting.

4. **Multinomial Naive Bayes**
   - **Kelemahan**: Kelas 1 memiliki recall rendah (0.65), menunjukkan kesulitan model dalam mendeteksi kelas ini.
   - **Overfitting/Underfitting**: Model mungkin mengalami sedikit underfitting.

5. **Logistic Regression**
   - **Kelemahan**: Kelas 2 memiliki recall rendah (0.26) sebelum tuning, tetapi akurasi sempurna setelah tuning.
   - **Overfitting/Underfitting**: Tidak ada kelemahan yang signifikan setelah tuning, menunjukkan model dapat mendeteksi semua kelas dengan baik.

#### Rekomendasi Tindakan Lanjutan
1. **Pengumpulan Data Tambahan**: Disarankan untuk mengumpulkan lebih banyak data untuk kelas yang sulit (misalnya, kelas 2) agar model dapat belajar dari variasi data yang lebih besar.
2. **Mencoba Algoritma Lain**: Pertimbangkan untuk mencoba algoritma lain yang mungkin lebih baik dalam menangani imbalan kelas yang tidak seimbang, seperti Random Forest atau Gradient Boosting.
3. **Penyesuaian Hyperparameter**: Lanjutkan penyesuaian hyperparameter pada model untuk meningkatkan kinerja, terutama untuk model yang menunjukkan kelemahan dalam mengidentifikasi kelas tertentu.

Dengan evaluasi ini, semoga dapat meningkatkan model lebih lanjut untuk mencapai hasil yang lebih baik dan lebih konsisten.