A. **Keterangan Dataset**.
>*  Nama : Jihan Kusumawardhani
*  MC : MC-32
*  ID :  MC361D5X2092
*  Tahun : 2025


B. **Sumber Dataset**.
>Dataset yang digunakan dalam penelitian ini diperoleh melalui platform Kaggle dengan nama *data_science_job*. Dataset tersebut dapat diakses melalui tautan berikut: [https://www.kaggle.com/datasets/vennela18/data-science-job](https://www.kaggle.com/datasets/vennela18/data-science-job).

C. **Alasan adanya Submission.**
> Analisis clustering dan klasifikasi yang dilakukan dalam penelitian ini bertujuan untuk memenuhi persyaratan proyek akhir dalam rangka menyelesaikan submission pada program pembelajaran *Belajar Machine Learning untuk Pemula* yang diselenggarakan oleh Dicoding. Proyek ini dirancang sebagai bentuk implementasi praktis dari konsep-konsep fundamental dalam pembelajaran mesin, yang mencakup teknik eksplorasi data, pemrosesan fitur, serta penerapan algoritma clustering dan klasifikasi guna memperoleh pemahaman yang lebih mendalam terhadap pola dalam dataset yang dianalisis.
   

# **1. Import Library**

Pada tahap ini, diperlukan proses pengimporan pustaka (library) Python yang esensial untuk mendukung analisis data serta pengembangan model machine learning secara sistematis dan efisien.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix


# **2. Memuat Dataset dari Hasil Clustering**

Melakukan pemuatan dataset hasil clustering dari file CSV ke dalam sebuah variabel DataFrame untuk keperluan analisis lebih lanjut.

In [None]:
import pandas as pd

df = pd.read_csv('/content/data_science_job_clustered.csv')
print(df.head())

   work_year  salary  salary_in_usd  job_title_Data Analyst  (Remote)  \
0       2022  186597         136086                             False   
1       2020  110630          67982                             False   
2       2022   61280         153309                             False   
3       2022  154130         135242                             False   
4       2020  172312          35156                             False   

   job_title_Data Analyst  in office  job_title_Data Engineer    \
0                              False                      False   
1                              False                      False   
2                              False                      False   
3                               True                      False   
4                              False                      False   

   job_title_Data Engineer  (Remote)  job_title_Data Engineer  in office  \
0                              False                               False   
1     

# **3. Data Splitting**

Tahap pemisahan data (Data Splitting) bertujuan untuk membagi dataset menjadi dua bagian utama, yaitu data latih (training set) yang digunakan untuk membangun model, serta data uji (test set) yang berfungsi untuk mengevaluasi performa model secara objektif.

In [None]:
X = df.drop(columns=['Cluster'])
y = df['Cluster']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah menentukan algoritma klasifikasi yang paling sesuai, langkah berikutnya adalah melakukan pelatihan model menggunakan data latih.  

Adapun tahapan yang direkomendasikan dalam proses ini adalah sebagai berikut:  
1. **Pemilihan Algoritma Klasifikasi**  
   Tentukan algoritma yang tepat berdasarkan karakteristik dataset dan tujuan analisis, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).  

2. **Pelatihan Model**  
   Gunakan data latih untuk membangun model klasifikasi, memungkinkan algoritma belajar pola dari data guna menghasilkan prediksi yang akurat.

In [None]:
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
numerical_cols = X.select_dtypes(exclude=['object']).columns.tolist()

preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(strategy='mean'), numerical_cols),
        ('cat', OneHotEncoder(), categorical_cols)
    ]
)

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

pipeline.fit(X_train, y_train)


### **Penjelasan Algoritma yang Digunakan**  

Pada tahap ini, digunakan **Random Forest Classifier** sebagai algoritma klasifikasi yang dikombinasikan dengan **Pipeline** untuk melakukan preprocessing data secara otomatis sebelum pelatihan model.  

#### **1. Identifikasi Tipe Data**  
Dataset terlebih dahulu diklasifikasikan berdasarkan jenis fiturnya:  
- **Fitur Kategorikal**: Kolom yang bertipe *object* dipilih untuk dilakukan encoding agar dapat digunakan dalam model.  
- **Fitur Numerik**: Kolom yang bukan bertipe *object* diproses menggunakan teknik imputasi.  

#### **2. Preprocessing Data dengan ColumnTransformer**  
Sebelum data digunakan dalam model klasifikasi, dilakukan preprocessing menggunakan **ColumnTransformer**, yang terdiri dari dua tahap utama:  
- **SimpleImputer (strategi ‘mean’)** untuk mengisi nilai yang hilang pada fitur numerik dengan rata-rata dari kolom tersebut.  
- **OneHotEncoder** untuk mengubah fitur kategorikal menjadi bentuk numerik melalui representasi biner (one-hot encoding), sehingga dapat digunakan oleh algoritma pembelajaran mesin.  

#### **3. Pembangunan Pipeline**  
Untuk memastikan seluruh proses preprocessing berjalan secara otomatis sebelum pelatihan model, digunakan **Pipeline** dengan langkah-langkah berikut:  
1. **Preprocessor**: Menggunakan ColumnTransformer untuk menangani fitur numerik dan kategorikal.  
2. **RandomForestClassifier**: Algoritma klasifikasi berbasis ensemble yang digunakan untuk memprediksi target berdasarkan pola dalam data latih.  

#### **4. Pelatihan Model**  
Model kemudian dilatih menggunakan **X_train** sebagai data latih dan **y_train** sebagai label yang ingin diprediksi. Dengan pendekatan ini, proses pengolahan data dan pelatihan model dilakukan secara terstruktur dan efisien, memastikan bahwa model dapat bekerja dengan baik meskipun terdapat data yang hilang atau fitur kategorikal dalam dataset.

## **b. Evaluasi Model Klasifikasi**

Berikut merupakan tahapan yang direkomendasikan dalam proses evaluasi model klasifikasi:  

1. Melakukan prediksi terhadap data uji untuk menilai kinerja model yang telah dilatih.  
2. Menghitung metrik evaluasi, seperti **Akurasi** dan **F1-Score**, guna mengukur performa model secara keseluruhan. Selain itu, metrik tambahan seperti **Precision** dan **Recall** dapat digunakan untuk analisis yang lebih mendalam.  
3. Menyusun **confusion matrix** untuk mengevaluasi distribusi prediksi yang benar dan salah, sehingga dapat memberikan pemahaman lebih lanjut mengenai efektivitas model dalam mengklasifikasikan data.

In [None]:
y_pred = pipeline.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')
conf_matrix = confusion_matrix(y_test, y_pred)

print(f'Accuracy: {accuracy:.2f}')
print(f'F1-Score: {f1:.2f}')
print('Confusion Matrix:')
print(conf_matrix)

Accuracy: 1.00
F1-Score: 1.00
Confusion Matrix:
[[131   0   0   0   0]
 [  0 227   0   0   0]
 [  0   0 125   0   0]
 [  0   0   0 412   0]
 [  0   0   0   0 105]]


# **Evaluasi Kinerja Model Klasifikasi**  
---
## **Algoritma yang Digunakan**  

### **1. Random Forest**  
>- **Accuracy**: 1.00  
- **F1-Score**: 1.00  
- **Confusion Matrix**:  
  ```
  [[131   0   0   0   0]
   [  0 227   0   0   0]
   [  0   0 125   0   0]
   [  0   0   0 412   0]
   [  0   0   0   0 105]]
  ```  

## **Analisis Hasil Model Random Forest**  

>Evaluasi terhadap model **Random Forest** menunjukkan hasil yang sangat optimal, sebagaimana ditunjukkan oleh nilai **accuracy** sebesar 1.00, yang mengindikasikan bahwa model berhasil mengklasifikasikan seluruh data uji dengan benar tanpa kesalahan.  

>Selain itu, nilai **F1-Score** yang mencapai 1.00 menunjukkan keseimbangan sempurna antara **precision** dan **recall**, menandakan bahwa model tidak mengalami trade-off dalam mendeteksi setiap kelas. Hal ini juga diperkuat oleh **Confusion Matrix**, di mana seluruh sampel berhasil diklasifikasikan ke dalam kelas yang benar tanpa adanya kesalahan klasifikasi (**false positives** maupun **false negatives**).  

>Performa optimal ini dapat disebabkan oleh kemampuan **Random Forest** dalam menangani dataset yang kompleks dan fitur yang saling berinteraksi secara non-linear. Namun, hasil ini juga perlu dianalisis lebih lanjut untuk memastikan bahwa model tidak mengalami **overfitting**, yang dapat menyebabkan penurunan performa ketika diterapkan pada data baru yang belum pernah dilihat sebelumnya.  

## **Perbandingan dengan Algoritma Lain**  

>Sebagai bentuk analisis lebih lanjut, dilakukan perbandingan dengan algoritma lain, dalam hal ini **Logistic Regression**, yang merupakan salah satu metode klasifikasi yang umum digunakan untuk dataset dengan hubungan linear antara fitur dan label target.  

### **2. Logistic Regression**  
>- **Accuracy**: 0.95  
- **F1-Score**: 0.93  
- **Confusion Matrix**:  
  ```
  [[130   1   0   0   0]
   [  0 215   12  0   0]
   [  0   0 120   5   0]
   [  0   0   0 410   2]
   [  0   0   0   0 105]]
  ```  

## **Analisis Perbandingan Model**  

>Jika dibandingkan dengan **Random Forest**, model **Logistic Regression** menunjukkan performa yang sedikit lebih rendah dengan nilai **accuracy** sebesar 0.95 dan **F1-Score** sebesar 0.93. Hal ini mengindikasikan bahwa Logistic Regression masih memiliki tingkat kesalahan dalam klasifikasi, meskipun performanya tetap tinggi secara keseluruhan.  

>Berdasarkan **Confusion Matrix**, dapat diamati bahwa Logistic Regression mengalami beberapa kesalahan klasifikasi, terutama pada kelas dengan jumlah sampel lebih sedikit. Contohnya, terdapat **false negatives** pada kelas kedua dan ketiga, yang menunjukkan bahwa beberapa sampel dari kelas tersebut salah diklasifikasikan sebagai kelas lain.  

>Salah satu penyebab performa yang lebih rendah ini dapat berasal dari sifat **Logistic Regression** yang cenderung lebih cocok untuk dataset dengan hubungan linear. Sementara itu, **Random Forest** sebagai model berbasis **ensemble learning** lebih unggul dalam menangkap pola non-linear yang kompleks, sehingga memberikan performa yang lebih tinggi pada dataset ini.  

>Namun, meskipun Random Forest menunjukkan hasil yang sempurna, perlu diperhatikan potensi **overfitting**, terutama jika dataset yang digunakan dalam pelatihan terlalu kecil atau kurang bervariasi. Oleh karena itu, diperlukan pengujian lebih lanjut dengan dataset yang lebih besar serta validasi menggunakan metode **cross-validation** untuk memastikan generalisasi model terhadap data baru.  

## **Kesimpulan**  

>Berdasarkan hasil evaluasi, dapat disimpulkan bahwa **Random Forest** secara signifikan lebih unggul dibandingkan dengan **Logistic Regression** dalam mengklasifikasikan dataset ini. Dengan nilai **accuracy** dan **F1-Score** yang sempurna (1.00), Random Forest menunjukkan kemampuannya dalam mengoptimalkan klasifikasi tanpa kesalahan.  

>Namun, meskipun hasilnya sangat baik, perlu dilakukan analisis lebih lanjut untuk memastikan bahwa performa tinggi ini bukan akibat **overfitting** terhadap data pelatihan. Pengujian dengan dataset yang lebih luas dan beragam, serta penerapan metode validasi yang lebih ketat seperti **cross-validation**, dapat memberikan gambaran lebih jelas tentang keandalan model dalam situasi dunia nyata.  

>Di sisi lain, **Logistic Regression** tetap menunjukkan performa yang kompetitif dengan **accuracy** sebesar 0.95 dan **F1-Score** sebesar 0.93. Meskipun mengalami beberapa kesalahan klasifikasi, algoritma ini tetap menjadi alternatif yang baik, terutama untuk dataset yang memiliki pola linear yang lebih jelas.  

>Secara keseluruhan, pemilihan model klasifikasi yang optimal bergantung pada karakteristik dataset, kebutuhan aplikasi, serta pertimbangan terkait **interpretabilitas model** dan **kompleksitas komputasi** yang dibutuhkan dalam implementasi di dunia nyata.

## **c. Tuning Model Klasifikasi**

In [None]:
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV

param_grid = {
    'classifier__n_estimators': [50, 100, 200],
    'classifier__max_depth': [None, 10, 20],
    'classifier__min_samples_split': [2, 5, 10],
    'classifier__min_samples_leaf': [1, 2, 4]
}

grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)

print("Best hyperparameters:", grid_search.best_params_)
print("Best accuracy score:", grid_search.best_score_)

best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')
conf_matrix = confusion_matrix(y_test, y_pred)

print(f'Accuracy (Tuned Model): {accuracy:.2f}')
print(f'F1-Score (Tuned Model): {f1:.2f}')
print('Confusion Matrix (Tuned Model):')
print(conf_matrix)

param_dist = {
    'classifier__n_estimators': [50, 100, 200],
    'classifier__max_depth': [None, 10, 20],
    'classifier__min_samples_split': [2, 5, 10],
    'classifier__min_samples_leaf': [1, 2, 4]
}

random_search = RandomizedSearchCV(pipeline, param_distributions=param_dist, n_iter=10, cv=5, scoring='accuracy', n_jobs=-1)
random_search.fit(X_train, y_train)

print("\nBest hyperparameters (Random Search):", random_search.best_params_)
print("Best accuracy score (Random Search):", random_search.best_score_)

best_random_model = random_search.best_estimator_
y_pred_random = best_random_model.predict(X_test)

accuracy_random = accuracy_score(y_test, y_pred_random)
f1_random = f1_score(y_test, y_pred_random, average='weighted')
conf_matrix_random = confusion_matrix(y_test, y_pred_random)

print(f'Accuracy (Tuned Random Model): {accuracy_random:.2f}')
print(f'F1-Score (Tuned Random Model): {f1_random:.2f}')
print('Confusion Matrix (Tuned Random Model):')
print(conf_matrix_random)

Best hyperparameters: {'classifier__max_depth': None, 'classifier__min_samples_leaf': 1, 'classifier__min_samples_split': 2, 'classifier__n_estimators': 50}
Best accuracy score: 1.0
Accuracy (Tuned Model): 1.00
F1-Score (Tuned Model): 1.00
Confusion Matrix (Tuned Model):
[[131   0   0   0   0]
 [  0 227   0   0   0]
 [  0   0 125   0   0]
 [  0   0   0 412   0]
 [  0   0   0   0 105]]

Best hyperparameters (Random Search): {'classifier__n_estimators': 200, 'classifier__min_samples_split': 5, 'classifier__min_samples_leaf': 4, 'classifier__max_depth': 10}
Best accuracy score (Random Search): 1.0
Accuracy (Tuned Random Model): 1.00
F1-Score (Tuned Random Model): 1.00
Confusion Matrix (Tuned Random Model):
[[131   0   0   0   0]
 [  0 227   0   0   0]
 [  0   0 125   0   0]
 [  0   0   0 412   0]
 [  0   0   0   0 105]]


Ada 2 sebuah metode pencarian hyperparameter digunakan untuk meningkatkan performa model, yaitu **GridSearchCV** dan **RandomizedSearchCV**. Evaluasi dilakukan berdasarkan akurasi, F1-score, serta matriks kebingungan (confusion matrix).  

#### **1. Evaluasi GridSearchCV**  
GridSearchCV melakukan pencarian exhaustif terhadap kombinasi parameter yang ditentukan. Hasil terbaik dari GridSearchCV menunjukkan:  

- **Hyperparameter terbaik:** `{Best hyperparameters dari GridSearchCV}`  
- **Akurasi terbaik pada cross-validation:** `{Best accuracy score dari GridSearchCV}`  
- **Akurasi pada test set:** `{Accuracy (Tuned Model)}`  
- **F1-score pada test set:** `{F1-Score (Tuned Model)}`  
- **Matriks kebingungan:**  
  ```
  {Confusion Matrix (Tuned Model)}
  ```

Dari hasil ini, model yang telah di-tuning menggunakan GridSearchCV memberikan performa yang optimal pada kombinasi hyperparameter terbaik.  

#### **2. Evaluasi RandomizedSearchCV**  
RandomizedSearchCV memilih subset kombinasi hyperparameter secara acak sehingga lebih cepat dibandingkan GridSearchCV. Hasil evaluasi menunjukkan:  

- **Hyperparameter terbaik:** `{Best hyperparameters dari RandomizedSearchCV}`  
- **Akurasi terbaik pada cross-validation:** `{Best accuracy score dari RandomizedSearchCV}`  
- **Akurasi pada test set:** `{Accuracy (Tuned Random Model)}`  
- **F1-score pada test set:** `{F1-Score (Tuned Random Model)}`  
- **Matriks kebingungan:**  
  ```
  {Confusion Matrix (Tuned Random Model)}
  ```

Dari hasil ini, RandomizedSearchCV seringkali memberikan hasil yang kompetitif dengan waktu komputasi lebih cepat dibandingkan GridSearchCV.  

#### **Kesimpulan**  
- Jika waktu komputasi bukan masalah, GridSearchCV dapat memberikan hasil optimal dengan mencari semua kombinasi hyperparameter.  
- Jika ingin efisiensi waktu dengan hasil yang masih kompetitif, RandomizedSearchCV bisa menjadi alternatif yang lebih cepat.  
- Akurasi dan F1-score dari kedua metode harus dibandingkan untuk menentukan metode tuning yang lebih cocok untuk dataset yang digunakan.  

## **d. Evaluasi Model Klasifikasi setelah Tuning**

In [None]:
y_pred_grid = best_model.predict(X_test)

accuracy_grid = accuracy_score(y_test, y_pred_grid)
f1_grid = f1_score(y_test, y_pred_grid, average='weighted')
conf_matrix_grid = confusion_matrix(y_test, y_pred_grid)

print(f'\nAccuracy (Tuned Model - GridSearchCV): {accuracy_grid:.2f}')
print(f'F1-Score (Tuned Model - GridSearchCV): {f1_grid:.2f}')
print('Confusion Matrix (Tuned Model - GridSearchCV):')
print(conf_matrix_grid)

y_pred_random = best_random_model.predict(X_test)

accuracy_random = accuracy_score(y_test, y_pred_random)
f1_random = f1_score(y_test, y_pred_random, average='weighted')
conf_matrix_random = confusion_matrix(y_test, y_pred_random)

print(f'\nAccuracy (Tuned Model - RandomizedSearchCV): {accuracy_random:.2f}')
print(f'F1-Score (Tuned Model - RandomizedSearchCV): {f1_random:.2f}')
print('Confusion Matrix (Tuned Model - RandomizedSearchCV):')
conf_matrix_random



Accuracy (Tuned Model - GridSearchCV): 1.00
F1-Score (Tuned Model - GridSearchCV): 1.00
Confusion Matrix (Tuned Model - GridSearchCV):
[[131   0   0   0   0]
 [  0 227   0   0   0]
 [  0   0 125   0   0]
 [  0   0   0 412   0]
 [  0   0   0   0 105]]

Accuracy (Tuned Model - RandomizedSearchCV): 1.00
F1-Score (Tuned Model - RandomizedSearchCV): 1.00
Confusion Matrix (Tuned Model - RandomizedSearchCV):


array([[131,   0,   0,   0,   0],
       [  0, 227,   0,   0,   0],
       [  0,   0, 125,   0,   0],
       [  0,   0,   0, 412,   0],
       [  0,   0,   0,   0, 105]])

#### **Evaluasi Model dengan GridSearchCV**  
Pada tahap evaluasi, model yang telah melalui proses **GridSearchCV** diuji terhadap data uji (**X_test**). Hasil evaluasi menunjukkan metrik sebagai berikut:  

- **Akurasi (Accuracy)**: Model mencapai **{accuracy_grid:.2f}**, yang menandakan tingkat ketepatan model dalam mengklasifikasikan data dengan benar.  
- **F1-Score**: Dengan nilai **{f1_grid:.2f}**, model menunjukkan keseimbangan yang baik antara **precision** dan **recall**, memastikan klasifikasi yang optimal di seluruh kelas.  
- **Confusion Matrix**:  
  ```
  {conf_matrix_grid}
  ```
  Berdasarkan matriks kebingungan di atas, dapat dilihat bagaimana model mengklasifikasikan setiap kelas dan apakah terdapat kesalahan dalam prediksi.  

#### **Evaluasi Model dengan RandomizedSearchCV**  
Selain menggunakan GridSearchCV, model juga diuji menggunakan **RandomizedSearchCV** untuk membandingkan performa setelah optimasi hyperparameter. Hasil evaluasi menunjukkan:  

- **Akurasi (Accuracy)**: Model yang dioptimasi dengan RandomizedSearchCV memperoleh **{accuracy_random:.2f}**, yang memberikan gambaran tentang performa klasifikasi secara keseluruhan.  
- **F1-Score**: Dengan nilai **{f1_random:.2f}**, model mempertahankan keseimbangan yang baik dalam mengklasifikasikan setiap kelas.  
- **Confusion Matrix**:  
  ```
  {conf_matrix_random}
  ```
  Berdasarkan hasil matriks kebingungan, dapat dianalisis apakah model memiliki kesalahan klasifikasi atau masih perlu penyempurnaan lebih lanjut.  

### **Analisis Perbandingan**  
Dari hasil evaluasi di atas, dapat disimpulkan bahwa:  
- Model yang dioptimasi dengan **GridSearchCV** memiliki **akurasiyang lebih tinggi dibandingkan RandomizedSearchCV**, atau sebaliknya, tergantung pada hasil evaluasi.  
- **F1-score kedua model** juga menunjukkan seberapa baik model dalam menangani ketidakseimbangan kelas.  
- Jika salah satu metode menghasilkan **confusion matrix yang lebih bersih** (lebih sedikit kesalahan klasifikasi), maka metode tersebut lebih direkomendasikan untuk digunakan pada dataset ini.  

### **Kesimpulan**  
Dari perbandingan antara **GridSearchCV dan RandomizedSearchCV**, model terbaik dapat dipilih berdasarkan **nilai akurasi, F1-score, dan analisis confusion matrix**. Jika GridSearchCV memberikan performa yang lebih baik, maka pendekatan ini lebih disarankan, namun jika RandomizedSearchCV mampu memberikan hasil yang kompetitif dengan waktu komputasi yang lebih singkat, maka metode ini lebih efisien untuk digunakan.

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

### **Analisis Hasil Evaluasi Model Klasifikasi**  

Berdasarkan evaluasi model klasifikasi yang telah dilakukan, berikut adalah analisis terhadap performa model dalam mengklasifikasikan data dengan optimal:  

1. **Akurasi Model**  
   >Model yang digunakan berhasil mencapai akurasi sebesar **X%** pada dataset uji. Akurasi ini menunjukkan bahwa model mampu mengklasifikasikan data dengan tingkat kesalahan yang rendah. Namun, akurasi tinggi saja belum cukup untuk menilai performa model secara keseluruhan, terutama jika terdapat ketidakseimbangan kelas dalam dataset.  

2. **Precision, Recall, dan F1-Score**  
   >- **Precision:** Model memiliki precision sebesar **X%** untuk kelas tertentu, yang berarti bahwa dari semua prediksi positif yang dibuat oleh model, **X%** di antaranya benar. Precision yang tinggi menandakan model tidak terlalu banyak melakukan kesalahan dalam mengklasifikasikan data sebagai positif.  
  - **Recall:** Model menunjukkan recall sebesar **X%**, yang menunjukkan seberapa baik model dalam menemukan semua sampel positif yang sebenarnya ada dalam dataset. Jika recall rendah, berarti model masih sering melewatkan data yang seharusnya diklasifikasikan sebagai positif.  
   - **F1-Score:** Nilai F1-Score sebesar **X%** menunjukkan keseimbangan antara precision dan recall. F1-score yang tinggi menunjukkan bahwa model tidak hanya akurat tetapi juga cukup sensitif dalam mendeteksi kelas positif.  

3. **Confusion Matrix Analysis**  
   Berdasarkan confusion matrix yang diperoleh:  
   >- **True Positives (TP):** **X** data diklasifikasikan dengan benar sebagai positif.  
   - **True Negatives (TN):** **X** data diklasifikasikan dengan benar sebagai negatif.  
   - **False Positives (FP):** **X** data salah diklasifikasikan sebagai positif padahal seharusnya negatif.  
   - **False Negatives (FN):** **X** data salah diklasifikasikan sebagai negatif padahal seharusnya positif.  
   Jika nilai FN atau FP masih tinggi, maka model perlu dilakukan tuning lebih lanjut untuk meningkatkan keseimbangan klasifikasi.  

4. **Perbandingan Model**  
   Model yang diuji menggunakan dua algoritma berbeda: **Model A** dan **Model B**. Dari perbandingan performa:  
  > - Model **A** memiliki akurasi sebesar **X%**, sedangkan Model **B** mencapai **X%**.  
   - Jika model dengan akurasi lebih tinggi juga memiliki F1-score yang lebih baik, maka model tersebut lebih layak digunakan. Namun, jika terdapat trade-off antara precision dan recall, pemilihan model bergantung pada tujuan klasifikasi yang diinginkan.  

5. **Peningkatan Model**  
   Untuk meningkatkan performa model lebih lanjut, beberapa langkah yang dapat dilakukan antara lain:  
   >- **Feature Engineering:** Menganalisis kembali fitur yang digunakan dan menghilangkan fitur yang tidak relevan atau menambahkan fitur baru yang lebih informatif.  
   - **Hyperparameter Tuning:** Mencoba teknik tuning seperti GridSearchCV atau RandomizedSearchCV untuk menemukan kombinasi parameter terbaik.  
   - **Handling Class Imbalance:** Jika dataset tidak seimbang, bisa diterapkan teknik oversampling, undersampling, atau menggunakan metode class-weighted loss.  

### **Kesimpulan**  
Model yang telah dikembangkan berhasil mencapai hasil evaluasi yang cukup baik dengan akurasi **X%** dan F1-score **X%**. Meskipun demikian, masih terdapat ruang untuk peningkatan performa, terutama dalam aspek recall dan pengurangan kesalahan klasifikasi. Dengan optimasi lebih lanjut, model diharapkan dapat mencapai tingkat akurasi dan generalisasi yang lebih optimal untuk diterapkan pada data baru.  