# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
#Type your code here
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, f1_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from IPython.display import display
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, f1_score, classification_report, confusion_matrix

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
#Type your code here
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


## Load data dari google drive

In [9]:
df = pd.read_csv('/content/drive/My Drive/machine learning doing/netflix_cluster_titles.csv')
df

Unnamed: 0,release_year,country,Cluster
0,2016,239,2
1,2011,296,2
2,2009,440,1
3,2008,440,1
4,2016,357,1
...,...,...,...
4803,2009,440,1
4804,2018,173,2
4805,2006,440,1
4806,2005,340,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).<br>
* Pada cell ini, data telah dipisahkan menjadi fitur dan label, dengan kolom 'Cluster' sebagai label. Setelah pemisahan, data tersebut dibagi menjadi training set dan test set, dengan 70% data digunakan untuk melatih model dan 30% sisanya sebagai data uji untuk mengukur performa model. Pembagian ini dilakukan menggunakan train_test_split, yang memastikan konsistensi hasil setiap kali kode dijalankan dengan mengatur random_state=42.

* Selanjutnya, proses normalisasi diterapkan pada data. Normalisasi ini menggunakan StandardScaler, yang menyesuaikan skala fitur agar memiliki rata-rata 0 dan standar deviasi
* Proses ini penting untuk menjaga kestabilan model, terutama dalam algoritma yang sensitif terhadap skala data. Setelah normalisasi, hasilnya ditampilkan untuk memastikan perubahan nilai dalam data latih dan data uji.

* Dengan ini, data latih (X_train, y_train) dan data uji (X_test, y_test) sudah siap untuk tahap pelatihan dan evaluasi model, dengan data yang seragam dan terstandarisasi.

In [15]:
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Buat instance MinMaxScaler
scaler = MinMaxScaler()

# Normalisasi semua kolom numerik
numeric_columns = df.select_dtypes(include=['int64', 'float64']).columns
df[numeric_columns] = scaler.fit_transform(df[numeric_columns])

# Misalnya, kita ingin membagi Cluster menjadi 3 kategori
df['Cluster'] = pd.cut(df['Cluster'], bins=3, labels=[0, 1, 2])

# Pisahkan ulang fitur (X) dan target (y)
X = df.drop(columns=['Cluster'])
y = df['Cluster']

# Split data menjadi set pelatihan dan set uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Tampilkan bentuk set pelatihan dan set uji untuk memastikan split
print(f"Training set shape: X_train={X_train.shape}, y_train={y_train.shape}")
print(f"Test set shape: X_test={X_test.shape}, y_test={y_test.shape}")


Training set shape: X_train=(3846, 2), y_train=(3846,)
Test set shape: X_test=(962, 2), y_test=(962,)


# **4. Membangun Model Klasifikasi**


In [16]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB

# Pelatihan model dengan data training
knn = KNeighborsClassifier().fit(X_train, y_train)
dt = DecisionTreeClassifier().fit(X_train, y_train)
rf = RandomForestClassifier().fit(X_train, y_train)
svm = SVC().fit(X_train, y_train)
nb = GaussianNB().fit(X_train, y_train)

print("Model training selesai.")


Model training selesai.


kode ini mengimplementasikan model SVM dengan cross-validation untuk mengukur akurasi rata-rata serta variasinya, memberikan gambaran tentang keandalan model pada data yang berbeda-beda.

## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

## **b. Evaluasi Model Klasifikasi**

In [22]:
import pandas as pd
from sklearn.metrics import accuracy_score

# Evaluasi akurasi model pada data pelatihan dan data uji
accuracy_results = {
    "Model": ["KNN", "Decision Tree", "Random Forest", "SVM", "Naive Bayes"],
    "Accuracy (Training)": [
        accuracy_score(y_train, knn.predict(X_train)),
        accuracy_score(y_train, dt.predict(X_train)),
        accuracy_score(y_train, rf.predict(X_train)),
        accuracy_score(y_train, svm.predict(X_train)),
        accuracy_score(y_train, nb.predict(X_train))
    ],
    "Accuracy (Test)": [
        accuracy_score(y_test, knn.predict(X_test)),
        accuracy_score(y_test, dt.predict(X_test)),
        accuracy_score(y_test, rf.predict(X_test)),
        accuracy_score(y_test, svm.predict(X_test)),
        accuracy_score(y_test, nb.predict(X_test))
    ]
}

# Buat DataFrame untuk menampilkan hasil
accuracy_df = pd.DataFrame(accuracy_results)

# Tampilkan tabel hasil
accuracy_df


Unnamed: 0,Model,Accuracy (Training),Accuracy (Test)
0,KNN,1.0,0.99896
1,Decision Tree,1.0,1.0
2,Random Forest,1.0,1.0
3,SVM,0.9935,0.994802
4,Naive Bayes,0.9883,0.990644


Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

# Hasil Evaluasi Random Forest

Tulis hasil evaluasi algoritma yang digunakan, jika Anda menggunakan 2 algoritma, maka bandingkan hasilnya.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [23]:
import pandas as pd
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

# Pisahkan data menjadi fitur (X) dan target (y)
X = df.drop(columns=['Cluster'])
y = df['Cluster']

# Split data menjadi set pelatihan dan set uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Definisikan parameter grid untuk masing-masing model
param_grids = {
    'KNN': {'n_neighbors': [3, 5, 7], 'weights': ['uniform', 'distance'], 'metric': ['euclidean', 'manhattan']},
    'Decision Tree': {'max_depth': [None, 10, 20], 'min_samples_split': [2, 5], 'min_samples_leaf': [1, 2], 'criterion': ['gini', 'entropy']},
    'Random Forest': {'n_estimators': [50, 100], 'max_depth': [None, 10, 20], 'min_samples_split': [2, 5], 'min_samples_leaf': [1, 2], 'bootstrap': [True, False]},
    'SVM': {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf'], 'gamma': ['scale', 'auto']},
    'Naive Bayes': {'alpha': [0.01, 0.1, 1, 10]}
}

# Inisialisasi model
models = {
    'KNN': KNeighborsClassifier(),
    'Decision Tree': DecisionTreeClassifier(),
    'Random Forest': RandomForestClassifier(),
    'SVM': SVC(),
    'Naive Bayes': MultinomialNB()
}

# Tuning model dengan GridSearchCV dan evaluasi
best_models = {}
for model_name, model in models.items():
    print(f"Tuning {model_name}...")
    grid_search = GridSearchCV(model, param_grids[model_name], cv=5, n_jobs=-1, scoring='accuracy')
    grid_search.fit(X_train, y_train)
    best_models[model_name] = grid_search.best_estimator_
    print(f"Best parameters for {model_name}: {grid_search.best_params_}")
    y_pred = grid_search.predict(X_test)
    print(f"Evaluation report for {model_name}:\n", classification_report(y_test, y_pred))

# Tampilkan hasil terbaik dari setiap model
best_models


Tuning KNN...
Best parameters for KNN: {'metric': 'euclidean', 'n_neighbors': 3, 'weights': 'uniform'}
Evaluation report for KNN:
               precision    recall  f1-score   support

           0       1.00      0.99      1.00       122
           1       1.00      1.00      1.00       480
           2       1.00      1.00      1.00       360

    accuracy                           1.00       962
   macro avg       1.00      1.00      1.00       962
weighted avg       1.00      1.00      1.00       962

Tuning Decision Tree...
Best parameters for Decision Tree: {'criterion': 'gini', 'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2}
Evaluation report for Decision Tree:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       122
           1       1.00      1.00      1.00       480
           2       1.00      1.00      1.00       360

    accuracy                           1.00       962
   macro avg       1.00      1.

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


{'KNN': KNeighborsClassifier(metric='euclidean', n_neighbors=3),
 'Decision Tree': DecisionTreeClassifier(),
 'Random Forest': RandomForestClassifier(n_estimators=50),
 'SVM': SVC(C=1, kernel='linear'),
 'Naive Bayes': MultinomialNB(alpha=0.01)}

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [24]:
#Type your code here
from sklearn.metrics import accuracy_score, classification_report

# Model terbaik setelah tuning yang disimpan di best_models
# Pilih model terbaik yang sudah di-tuning
best_knn = best_models['KNN']
best_dt = best_models['Decision Tree']
best_rf = best_models['Random Forest']
best_svm = best_models['SVM']
best_nb = best_models['Naive Bayes']

# Prediksi dengan model terbaik
y_pred_knn = best_knn.predict(X_test)
y_pred_dt = best_dt.predict(X_test)
y_pred_rf = best_rf.predict(X_test)
y_pred_svm = best_svm.predict(X_test)
y_pred_nb = best_nb.predict(X_test)

# Hitung metrik evaluasi untuk model yang telah di-tuning
print("Evaluasi Model setelah Tuning")

# KNN
print("\nKNN - Accuracy:", accuracy_score(y_test, y_pred_knn))
print(classification_report(y_test, y_pred_knn))

# Decision Tree
print("\nDecision Tree - Accuracy:", accuracy_score(y_test, y_pred_dt))
print(classification_report(y_test, y_pred_dt))

# Random Forest
print("\nRandom Forest - Accuracy:", accuracy_score(y_test, y_pred_rf))
print(classification_report(y_test, y_pred_rf))

# SVM
print("\nSVM - Accuracy:", accuracy_score(y_test, y_pred_svm))
print(classification_report(y_test, y_pred_svm))

# Naive Bayes
print("\nNaive Bayes - Accuracy:", accuracy_score(y_test, y_pred_nb))
print(classification_report(y_test, y_pred_nb))


Evaluasi Model setelah Tuning

KNN - Accuracy: 0.998960498960499
              precision    recall  f1-score   support

           0       1.00      0.99      1.00       122
           1       1.00      1.00      1.00       480
           2       1.00      1.00      1.00       360

    accuracy                           1.00       962
   macro avg       1.00      1.00      1.00       962
weighted avg       1.00      1.00      1.00       962


Decision Tree - Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       122
           1       1.00      1.00      1.00       480
           2       1.00      1.00      1.00       360

    accuracy                           1.00       962
   macro avg       1.00      1.00      1.00       962
weighted avg       1.00      1.00      1.00       962


Random Forest - Accuracy: 1.0
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       122
  

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

In [28]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import pandas as pd

# Evaluasi akurasi, precision, recall, dan f1-score model pada data uji
evaluation_results = {
    "Model": ["KNN", "Decision Tree", "Random Forest", "SVM", "Naive Bayes"],
    "Accuracy": [
        accuracy_score(y_test, knn.predict(X_test)),
        accuracy_score(y_test, dt.predict(X_test)),
        accuracy_score(y_test, rf.predict(X_test)),
        accuracy_score(y_test, svm.predict(X_test)),
        accuracy_score(y_test, nb.predict(X_test))
    ],
    "Precision": [
        precision_score(y_test, knn.predict(X_test), average='weighted'),
        precision_score(y_test, dt.predict(X_test), average='weighted'),
        precision_score(y_test, rf.predict(X_test), average='weighted'),
        precision_score(y_test, svm.predict(X_test), average='weighted'),
        precision_score(y_test, nb.predict(X_test), average='weighted')
    ],
    "Recall": [
        recall_score(y_test, knn.predict(X_test), average='weighted'),
        recall_score(y_test, dt.predict(X_test), average='weighted'),
        recall_score(y_test, rf.predict(X_test), average='weighted'),
        recall_score(y_test, svm.predict(X_test), average='weighted'),
        recall_score(y_test, nb.predict(X_test), average='weighted')
    ],
    "F1-Score": [
        f1_score(y_test, knn.predict(X_test), average='weighted'),
        f1_score(y_test, dt.predict(X_test), average='weighted'),
        f1_score(y_test, rf.predict(X_test), average='weighted'),
        f1_score(y_test, svm.predict(X_test), average='weighted'),
        f1_score(y_test, nb.predict(X_test), average='weighted')
    ]
}

# Buat DataFrame untuk menampilkan hasil
evaluation_df = pd.DataFrame(evaluation_results)

# Tampilkan tabel hasil evaluasi
evaluation_df


Unnamed: 0,Model,Accuracy,Precision,Recall,F1-Score
0,KNN,0.99896,0.998963,0.99896,0.998959
1,Decision Tree,1.0,1.0,1.0,1.0
2,Random Forest,1.0,1.0,1.0,1.0
3,SVM,0.994802,0.994874,0.994802,0.99481
4,Naive Bayes,0.990644,0.990873,0.990644,0.990619
