# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
# Mengimpor pustaka yang diperlukan
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
# Memuat dataset hasil clustering dari file CSV
dataset = pd.read_csv('/content/hasil_clustering.csv')

# Tampilkan beberapa data pertama untuk verifikasi
print(dataset.head())

   CustomerID  Gender  Age  Annual Income ($)  Spending Score (1-100)  \
0           1     1.0   19           0.078958                    0.39   
1           2     1.0   21           0.184236                    0.81   
2           3     0.0   20           0.452694                    0.06   
3           4     0.0   23           0.310569                    0.77   
4           5     0.0   31           0.200027                    0.40   

      Profession  Work Experience  Family Size  Cluster  
0     Healthcare                1            4        2  
1       Engineer                3            3        0  
2       Engineer                1            1        1  
3         Lawyer                0            2        1  
4  Entertainment                2            6        1  


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [4]:
# Assuming 'Healthcare' is in the 'Profession' column
# Convert 'Profession' column to numerical using one-hot encoding
X = pd.get_dummies(X, columns=['Profession'], drop_first=True)

# Membagi dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menstandarisasi fitur (optional, jika diperlukan oleh model)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [5]:
# Membangun model klasifikasi menggunakan Logistic Regression
log_reg_model = LogisticRegression(random_state=42)
log_reg_model.fit(X_train, y_train)

# Membangun model klasifikasi menggunakan Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [6]:
# Prediksi dengan model Logistic Regression
y_pred_log_reg = log_reg_model.predict(X_test)

# Prediksi dengan model Random Forest
y_pred_rf = rf_model.predict(X_test)

# Evaluasi model Logistic Regression
print("Evaluasi Logistic Regression:")
print("Accuracy:", accuracy_score(y_test, y_pred_log_reg))
print("F1-Score:", f1_score(y_test, y_pred_log_reg, average='weighted'))
print("Classification Report:\n", classification_report(y_test, y_pred_log_reg))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_log_reg))

# Evaluasi model Random Forest
print("\nEvaluasi Random Forest:")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("F1-Score:", f1_score(y_test, y_pred_rf, average='weighted'))
print("Classification Report:\n", classification_report(y_test, y_pred_rf))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))


Evaluasi Logistic Regression:
Accuracy: 0.9975
F1-Score: 0.9974994987770159
Classification Report:
               precision    recall  f1-score   support

           0       1.00      0.99      0.99        77
           1       1.00      1.00      1.00       242
           2       0.99      1.00      0.99        81

    accuracy                           1.00       400
   macro avg       1.00      1.00      1.00       400
weighted avg       1.00      1.00      1.00       400

Confusion Matrix:
 [[ 76   0   1]
 [  0 242   0]
 [  0   0  81]]

Evaluasi Random Forest:
Accuracy: 0.9975
F1-Score: 0.9975003005409738
Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99        77
           1       1.00      1.00      1.00       242
           2       1.00      0.99      0.99        81

    accuracy                           1.00       400
   macro avg       1.00      1.00      1.00       400
weighted avg       1.00      1.00

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [7]:
from sklearn.model_selection import GridSearchCV

# GridSearchCV untuk Random Forest
param_grid = {'n_estimators': [100, 200], 'max_depth': [10, 20, None]}
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Menampilkan parameter terbaik
print("Best Parameters from GridSearchCV:", grid_search.best_params_)

# Evaluasi model dengan parameter terbaik
best_rf_model = grid_search.best_estimator_
y_pred_best_rf = best_rf_model.predict(X_test)
print("Evaluasi Best Random Forest:")
print("Accuracy:", accuracy_score(y_test, y_pred_best_rf))
print("F1-Score:", f1_score(y_test, y_pred_best_rf, average='weighted'))
print("Classification Report:\n", classification_report(y_test, y_pred_best_rf))


Best Parameters from GridSearchCV: {'max_depth': 20, 'n_estimators': 100}
Evaluasi Best Random Forest:
Accuracy: 0.9975
F1-Score: 0.9975003005409738
Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99        77
           1       1.00      1.00      1.00       242
           2       1.00      0.99      0.99        81

    accuracy                           1.00       400
   macro avg       1.00      1.00      1.00       400
weighted avg       1.00      1.00      1.00       400



## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [8]:
# Evaluasi model setelah tuning
print("Evaluasi Model Setelah Tuning:")
print("Accuracy:", accuracy_score(y_test, y_pred_best_rf))
print("F1-Score:", f1_score(y_test, y_pred_best_rf, average='weighted'))
print("Classification Report:\n", classification_report(y_test, y_pred_best_rf))


Evaluasi Model Setelah Tuning:
Accuracy: 0.9975
F1-Score: 0.9975003005409738
Classification Report:
               precision    recall  f1-score   support

           0       0.99      1.00      0.99        77
           1       1.00      1.00      1.00       242
           2       1.00      0.99      0.99        81

    accuracy                           1.00       400
   macro avg       1.00      1.00      1.00       400
weighted avg       1.00      1.00      1.00       400



## **e. Analisis Hasil Evaluasi Model Klasifikasi**

1. Perbandingan Sebelum dan Setelah Tuning

    Logistic Regression dan Random Forest menunjukkan performa sangat baik, dengan Accuracy dan F1-Score sebesar 99.75%.

    Setelah tuning, Random Forest tetap menghasilkan performa yang sama, artinya parameter default sudah cukup optimal untuk dataset ini.

2. Kelemahan Model

    Distribusi kelas: Berdasarkan confusion matrix, model bekerja sangat baik, tetapi jika distribusi kelas tidak seimbang, perlu perhatian lebih terhadap metrik seperti F1-Score untuk kelas minoritas.

    Kemungkinan overfitting: Akurasi yang hampir sempurna perlu diuji lebih lanjut dengan data baru untuk memastikan model tidak terlalu menyesuaikan data latih.

    Interpretasi model: Logistic Regression sebenarnya dapat memberikan insight hubungan antar fitur, tetapi belum dianalisis lebih lanjut.

3. Rekomendasi

    Uji model pada dataset baru untuk memastikan performanya konsisten.

    Analisis distribusi kelas, dan gunakan teknik oversampling atau undersampling jika diperlukan.
    
    Coba algoritma lain seperti Gradient Boosting untuk pembanding.

Kesimpulan

    Kedua model memiliki performa sangat baik untuk dataset ini, tetapi langkah lanjutan seperti validasi pada data baru dan interpretasi model dapat membantu meningkatkan kepercayaan terhadap hasil analisis.