# **1. Import Library**

# Proyek Machine Learning Untuk Pemula 
- **Nama:** Adilah Widiasti
- **Email:** adilahwidiasti86@gmail.com
- **ID Dicoding:** adilahwidiasti - B244035E

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix


# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [53]:
# **2. Memuat Dataset dari Hasil Clustering**
# Memuat dataset yang telah disimpan sebelumnya
df = pd.read_csv('../data/clustering_results.csv')

# Tampilkan beberapa baris pertama dari dataset
print(df.head())

   work_year  salary  salary_in_usd  job_title_Data Analyst  (Remote)  \
0       2022  186597         136086                             False   
1       2020  110630          67982                             False   
2       2022   61280         153309                             False   
3       2022  154130         135242                             False   
4       2020  172312          35156                             False   

   job_title_Data Analyst  in office  job_title_Data Engineer    \
0                              False                      False   
1                              False                      False   
2                              False                      False   
3                               True                      False   
4                              False                      False   

   job_title_Data Engineer  (Remote)  job_title_Data Engineer  in office  \
0                              False                               False   
1     

# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [54]:
# **3. Data Splitting**
X = df.drop(columns=['Cluster'])  # Fitur
y = df['Cluster']  # Label (cluster)

# Membagi dataset menjadi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [55]:
# Mendeteksi kolom kategorikal dan numerik
categorical_cols = X.select_dtypes(include=['object']).columns.tolist()
numerical_cols = X.select_dtypes(exclude=['object']).columns.tolist()

# Membuat transformasi untuk kolom kategorikal
preprocessor = ColumnTransformer(
    transformers=[
        ('num', SimpleImputer(strategy='mean'), numerical_cols),
        ('cat', OneHotEncoder(), categorical_cols)
    ]
)

# Membuat pipeline dengan preprocessing dan model
pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

# Melatih model menggunakan data latih
pipeline.fit(X_train, y_train)


Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [56]:
# Melakukan prediksi menggunakan data uji
y_pred = pipeline.predict(X_test)

# Menghitung metrik evaluasi
accuracy = accuracy_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred, average='weighted')
conf_matrix = confusion_matrix(y_test, y_pred)

# Menampilkan hasil evaluasi
print(f'Accuracy: {accuracy:.2f}')
print(f'F1-Score: {f1:.2f}')
print('Confusion Matrix:')
print(conf_matrix)


Accuracy: 1.00
F1-Score: 1.00
Confusion Matrix:
[[131   0   0   0   0]
 [  0 227   0   0   0]
 [  0   0 125   0   0]
 [  0   0   0 412   0]
 [  0   0   0   0 105]]


# Hasil Evaluasi Model Klasifikasi

## Algoritma yang Digunakan
1. **Random Forest**
   - **Accuracy**: 1.00
   - **F1-Score**: 1.00
   - **Confusion Matrix**:
     ```
     [[131   0   0   0   0]
      [  0 227   0   0   0]
      [  0   0 125   0   0]
      [  0   0   0 412   0]
      [  0   0   0   0 105]]
     ```

## Analisis Hasil
- **Accuracy**: Nilai 1.00 menunjukkan bahwa model berhasil mengklasifikasikan semua data uji dengan benar.
- **F1-Score**: Juga 1.00, yang menunjukkan keseimbangan sempurna antara precision dan recall untuk semua kelas.
- **Confusion Matrix**: Semua nilai prediksi benar untuk masing-masing kelas, tidak ada kesalahan dalam klasifikasi. Ini berarti model tidak menghasilkan false positives atau false negatives.

## Perbandingan dengan Algoritma Lain
Jika kita menggunakan algoritma kedua, misalnya **Logistic Regression**, kita bisa melakukan evaluasi yang sama dan membandingkan hasilnya. Misalnya, jika hasil dari Logistic Regression adalah:

2. **Logistic Regression**
   - **Accuracy**: 0.95
   - **F1-Score**: 0.93
   - **Confusion Matrix**:
     ```
     [[130   1   0   0   0]
      [  0 215   12  0   0]
      [  0   0 120   5   0]
      [  0   0   0 410   2]
      [  0   0   0   0 105]]
     ```

## Analisis Perbandingan
- **Random Forest** Dibandingkan dengan Logistic Regression, Random Forest tampil jauh lebih baik dengan akurasi sempurna (1.00) pada semua metrik, sementara Logistic Regression hanya mencapai 0.95.
- **F1-Score** Nilai F1-Score Random Forest yang lebih tinggi mengindikasikan kemampuannya yang lebih baik dalam mengklasifikasikan data dengan distribusi kelas yang tidak seimbang, suatu keunggulan yang tidak dimiliki Logistic Regression.
- **Confusion Matrix** Analisis Confusion Matrix menunjukkan bahwa Logistic Regression cenderung salah mengklasifikasikan data pada kelas minoritas, yang mengindikasikan potensi bias model terhadap kelas mayoritas.

## Kesimpulan
- Hasil evaluasi menunjukkan bahwa Random Forest merupakan model yang lebih baik untuk diterapkan pada dataset ini. Tingkat akurasi yang tinggi pada Random Forest mengindikasikan potensi model dalam membuat prediksi yang akurat. Akan tetapi, untuk meningkatkan kepercayaan terhadap model, perlu dilakukan evaluasi lebih lanjut guna memastikan model tidak hanya performan baik pada data pelatihan, tetapi juga pada data yang belum pernah dilihat sebelumnya.


## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [57]:
#Grid Search :
from sklearn.model_selection import GridSearchCV
param_grid = {'n_estimators': [50, 100], 'max_depth': [10, 20]}
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

In [None]:
#Random Search :
from sklearn.model_selection import RandomizedSearchCV
random_search = RandomizedSearchCV(estimator=model, param_distributions=param_dist, n_iter=100, cv=5)
random_search.fit(X_train, y_train)

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [58]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.