# **1. Import Library**

Pada tahap ini, Anda perlu mengimpor beberapa pustaka (library) Python yang dibutuhkan untuk analisis data dan pembangunan model machine learning.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import cross_val_score

# **2. Memuat Dataset dari Hasil Clustering**

Memuat dataset hasil clustering dari file CSV ke dalam variabel DataFrame.

In [2]:
dataset = pd.read_csv('hasil_clustering.csv')
dataset

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,...,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score,Cluster
0,22.93,84.0,Low,High,No,7.00,73.0,Low,Yes,0.00,...,Medium,Public,Positive,3.00,No,High School,Near,Male,66.96,1
1,19.06,64.0,Low,Medium,No,8.02,59.0,Low,Yes,2.00,...,Medium,Public,Negative,4.02,No,College,Moderate,Female,60.98,0
2,23.79,98.0,Medium,Medium,Yes,7.00,91.0,Medium,Yes,2.00,...,Medium,Public,Neutral,4.02,No,Postgraduate,Near,Male,73.86,0
3,28.95,89.2,Low,Medium,Yes,8.02,98.0,Medium,Yes,0.96,...,Medium,Public,Negative,4.02,No,High School,Moderate,Male,71.10,0
4,19.06,92.0,Medium,Medium,Yes,5.98,65.0,Medium,Yes,3.04,...,High,Public,Neutral,4.02,No,College,Near,Female,70.18,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6602,25.08,69.2,High,Medium,No,7.00,76.0,Medium,Yes,0.96,...,Medium,Public,Positive,1.98,No,High School,Near,Female,67.88,0
6603,22.93,76.0,High,Medium,No,8.02,81.0,Medium,Yes,3.04,...,High,Public,Positive,1.98,No,High School,Near,Female,68.80,2
6604,19.92,90.0,Medium,Low,Yes,5.98,65.0,Low,Yes,3.04,...,Medium,Public,Negative,1.98,No,Postgraduate,Near,Female,67.88,1
6605,10.03,86.0,High,High,Yes,5.98,91.0,High,Yes,2.00,...,Medium,Private,Positive,3.00,No,High School,Far,Female,67.88,1


In [3]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6607 entries, 0 to 6606
Data columns (total 21 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   Hours_Studied               6607 non-null   float64
 1   Attendance                  6607 non-null   float64
 2   Parental_Involvement        6607 non-null   object 
 3   Access_to_Resources         6607 non-null   object 
 4   Extracurricular_Activities  6607 non-null   object 
 5   Sleep_Hours                 6607 non-null   float64
 6   Previous_Scores             6607 non-null   float64
 7   Motivation_Level            6607 non-null   object 
 8   Internet_Access             6607 non-null   object 
 9   Tutoring_Sessions           6607 non-null   float64
 10  Family_Income               6607 non-null   object 
 11  Teacher_Quality             6607 non-null   object 
 12  School_Type                 6607 non-null   object 
 13  Peer_Influence              6607 

In [4]:
# Mengonversi Variabel Kategorikal Menjadi Numerik
label_encoder = LabelEncoder()

# Mengonversi kolom kategorikal ke dalam bentuk numerik
categorical_columns = [
    'Parental_Involvement', 'Access_to_Resources', 'Extracurricular_Activities', 
    'Motivation_Level', 'Internet_Access', 'Family_Income', 'Teacher_Quality', 
    'School_Type', 'Peer_Influence', 'Learning_Disabilities', 'Parental_Education_Level', 
    'Distance_from_Home', 'Gender'
]

# Melakukan encoding pada setiap kolom kategori
for col in categorical_columns:
    dataset[col] = label_encoder.fit_transform(dataset[col])

dataset

Unnamed: 0,Hours_Studied,Attendance,Parental_Involvement,Access_to_Resources,Extracurricular_Activities,Sleep_Hours,Previous_Scores,Motivation_Level,Internet_Access,Tutoring_Sessions,...,Teacher_Quality,School_Type,Peer_Influence,Physical_Activity,Learning_Disabilities,Parental_Education_Level,Distance_from_Home,Gender,Exam_Score,Cluster
0,22.93,84.0,1,0,0,7.00,73.0,1,1,0.00,...,2,1,2,3.00,0,1,2,1,66.96,1
1,19.06,64.0,1,2,0,8.02,59.0,1,1,2.00,...,2,1,0,4.02,0,0,1,0,60.98,0
2,23.79,98.0,2,2,1,7.00,91.0,2,1,2.00,...,2,1,1,4.02,0,2,2,1,73.86,0
3,28.95,89.2,1,2,1,8.02,98.0,2,1,0.96,...,2,1,0,4.02,0,1,1,1,71.10,0
4,19.06,92.0,2,2,1,5.98,65.0,2,1,3.04,...,0,1,1,4.02,0,0,2,0,70.18,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6602,25.08,69.2,0,2,0,7.00,76.0,2,1,0.96,...,2,1,2,1.98,0,1,2,0,67.88,0
6603,22.93,76.0,0,2,0,8.02,81.0,2,1,3.04,...,0,1,2,1.98,0,1,2,0,68.80,2
6604,19.92,90.0,2,1,1,5.98,65.0,1,1,3.04,...,2,1,0,1.98,0,2,2,0,67.88,1
6605,10.03,86.0,0,0,1,5.98,91.0,0,1,2.00,...,2,0,2,3.00,0,1,0,0,67.88,1


# **3. Data Splitting**

Tahap Data Splitting bertujuan untuk memisahkan dataset menjadi dua bagian: data latih (training set) dan data uji (test set).

In [5]:
# Memisahkan Fitur dan Target
X = dataset.drop(['Exam_Score', 'Cluster'], axis=1)
y = dataset['Cluster']

# Membagi Dataset Menjadi Data Latih dan Data Uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# **4. Membangun Model Klasifikasi**


## **a. Membangun Model Klasifikasi**

Setelah memilih algoritma klasifikasi yang sesuai, langkah selanjutnya adalah melatih model menggunakan data latih.

Berikut adalah rekomendasi tahapannya.
1. Pilih algoritma klasifikasi yang sesuai, seperti Logistic Regression, Decision Tree, Random Forest, atau K-Nearest Neighbors (KNN).
2. Latih model menggunakan data latih.

In [6]:
# Decision Tree
dt_classifier = DecisionTreeClassifier(random_state=42)
dt_classifier.fit(X_train, y_train)

In [7]:
# Random Forest
rf_classifier = RandomForestClassifier(random_state=42)
rf_classifier.fit(X_train, y_train)

Tulis narasi atau penjelasan algoritma yang Anda gunakan.

### **1. Decision Tree**
Algoritma pembelajaran mesin yang digunakan untuk klasifikasi dan regresi. Algoritma ini membangun sebuah model dalam bentuk pohon keputusan, di mana setiap node internal mewakili suatu keputusan atau tes yang dilakukan pada fitur, dan setiap cabang mewakili hasil dari tes tersebut. Akhirnya, setiap daun pada pohon menunjukkan kelas atau prediksi akhir.

**Cara Kerja:**
- ```DecisionTreeClassifier```) adalah kelas yang digunakan untuk membangun model pohon keputusan pada masalah klasifikasi. Pada setiap langkahnya, algoritma ini memilih fitur terbaik untuk memisahkan data berdasarkan kriteria tertentu. Pembagian data terus dilakukan sampai mencapai kedalaman tertentu atau kondisi berhenti.
- Fungsi ```fit(X_Train, y_train)``` <br>
Fungsi ini akan melatih model pada data latih (X_Train) dan label target (y_train). Selama pelatihan, model akan membangun pohon keputusan dengan memilih fitur terbaik untuk memisahkan data pada setiap node. Pemisahan terbaik dipilih dengan menggunakan kriteria **Gini Impurity** (default scikit-learn).

### **1. Random Forest**

Random Forest adalah algoritma ensemble yang menggunakan banyak pohon keputusan (decision trees) untuk membuat prediksi yang lebih akurat. Setiap pohon dalam random forest dilatih pada subset data yang berbeda, yang diambil secara acak (bootstrap sampling), dan hasilnya digabungkan untuk menghasilkan prediksi akhir.

**Cara Kerja:**
- Random Forest menggabungkan banyak pohon keputusan untuk meningkatkan akurasi dan mengurangi risiko overfitting. Setiap pohon pada Random Forest dibuat dengan memilih subset acak dari data dan fitur. Hal ini membuat model menjadi lebih robust dan kurang rentan terhadap noise dalam data.
  
- **Bagging (Bootstrap Aggregating):** <br>
Dalam Random Forest, bagging digunakan untuk melatih beberapa pohon keputusan pada data latih yang berbeda, yang diambil secara acak dengan pengulangan. Setiap pohon hanya melihat subset acak dari data.
  
- **Kriteria Pembelahan:** <br>
Setiap pohon dalam Random Forest menggunakan kriteria pemisahan seperti Gini Impurity atau Entropy, mirip dengan pohon keputusan. Namun, dalam Random Forest, pada setiap node, hanya subset acak dari fitur yang dipilih untuk membagi data, yang mengurangi korelasi antar pohon dan meningkatkan keberagaman model.
  
- **Prediksi Akhir:** <br>
Setelah pohon-pohon dilatih, prediksi pada data uji dilakukan dengan menggabungkan hasil dari semua pohon (biasanya dengan voting untuk klasifikasi atau rata-rata untuk regresi).

**Fungsi `fit(X_Train, y_train)`** <br>
Fungsi ini melatih model Random Forest pada data latih (X_Train) dan label target (y_train). Proses pelatihan akan menghasilkan banyak pohon keputusan yang dilatih pada subset data yang berbeda.

**Fungsi `predict(X_Test)`** <br>
Setelah model dilatih, fungsi ini digunakan untuk memprediksi label atau kelas berdasarkan data uji (X_Test). Hasil prediksi berasal dari agregasi keputusan dari semua pohon yang ada dalam model.

## **b. Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Lakukan prediksi menggunakan data uji.
2. Hitung metrik evaluasi seperti Accuracy dan F1-Score (Opsional: Precision dan Recall).
3. Buat confusion matrix untuk melihat detail prediksi benar dan salah.

In [8]:
#Memprediksi dan Evaluasi Model
y_pred_dt = dt_classifier.predict(X_test)
y_pred_rf = rf_classifier.predict(X_test)

# Menampilkan Hasil Evaluasi untuk Semua Algoritma
print("\nDecision Tree:")
print(classification_report(y_test, y_pred_dt))
print(confusion_matrix(y_test, y_pred_dt))

print("\nRandom Forest:")
print(classification_report(y_test, y_pred_rf))
print(confusion_matrix(y_test, y_pred_rf))


Decision Tree:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       473
           1       1.00      1.00      1.00       431
           2       1.00      1.00      1.00       418

    accuracy                           1.00      1322
   macro avg       1.00      1.00      1.00      1322
weighted avg       1.00      1.00      1.00      1322

[[473   0   0]
 [  0 431   0]
 [  0   0 418]]

Random Forest:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00       473
           1       1.00      1.00      1.00       431
           2       1.00      1.00      1.00       418

    accuracy                           1.00      1322
   macro avg       1.00      1.00      1.00      1322
weighted avg       1.00      1.00      1.00      1322

[[473   0   0]
 [  0 431   0]
 [  0   2 416]]


## **Evaluasi Model Klasifiasi**
Kita akan mencoba 2 algoritma yang diuji pada dataset : **Decision Tree dan Random Forest**. Berikut penjelasan mengenai kinerja masing-masing model tersebut.

### **Decision Tree:**
- Akurasi: 100% <br>
Model Decision Tree memberikan akurasi 100%, yang berarti model ini berhasil mengklasifikasikan semua data uji dengan benar tanpa kesalahan.

- Precision, Recall, F1-Score: <br>
Semua kelas (0, 1, 2) memiliki precision, recall, dan f1-score masing-masing sebesar 1.00. Ini menunjukkan bahwa model sangat baik dalam mengklasifikasikan setiap kelas tanpa kesalahan.

**Confusion Matrix:**
```
[473   0   0]
[  0 431   0]
[  0   0 418]
```
- Kelas 0: <br>
473 data berhasil diklasifikasikan dengan benar sebagai kelas 0. Tidak ada kesalahan pada kelas ini.
- Kelas 1:<br>
431 data berhasil diklasifikasikan dengan benar sebagai kelas 1. Tidak ada kesalahan pada kelas ini.
- Kelas 2:<br>
418 data berhasil diklasifikasikan dengan benar sebagai kelas 2. Tidak ada kesalahan pada kelas ini.

**Kesimpulan** <br>
Model Decision Tree tidak melakukan kesalahan sama sekali, semua data dari setiap kelas berhasil diklasifikasikan dengan tepat. Ini menunjukkan performa yang sangat baik dari model ini.

### **Random Forest:**
- Akurasi: 100% <br>
Seperti Decision Tree, Random Forest juga menghasilkan akurasi 100%, yang menunjukkan bahwa model ini mengklasifikasikan semua data uji dengan benar.

- Precision, Recall, F1-Score: <br>
Precision, Recall, dan F1-Score masing-masing adalah 1.00 untuk ketiga kelas (0, 1, 2), yang menunjukkan bahwa model ini sangat sempurna dalam mengklasifikasikan data.

**Confusion Matrix:**
```
[473   0   0]
[  0 431   0]
[  0   2 416]
```
- Kelas 0: <br>
473 data berhasil diklasifikasikan dengan benar sebagai kelas 0. Tidak ada kesalahan pada kelas ini.
- Kelas 1: <br>
431 data berhasil diklasifikasikan dengan benar sebagai kelas 1. Tidak ada kesalahan pada kelas ini.
- Kelas 2: <br>
416 data berhasil diklasifikasikan dengan benar sebagai kelas 2. Hanya ada 2 kesalahan yang terjadi di kelas 2, yang diprediksi sebagai kelas 1.

**Kesimpulan** <br>
Model Random Forest hampir sempurna, dengan hanya 2 kesalahan pada kelas 2 yang diprediksi sebagai kelas 1. Secara keseluruhan, model ini menunjukkan kinerja yang sangat baik, dengan sedikit kesalahan.

## **c. Tuning Model Klasifikasi (Optional)**

Gunakan GridSearchCV, RandomizedSearchCV, atau metode lainnya untuk mencari kombinasi hyperparameter terbaik

In [9]:
#Type your code here

## **d. Evaluasi Model Klasifikasi setelah Tuning (Optional)**

Berikut adalah rekomendasi tahapannya.
1. Gunakan model dengan hyperparameter terbaik.
2. Hitung ulang metrik evaluasi untuk melihat apakah ada peningkatan performa.

In [10]:
#Type your code here

## **e. Analisis Hasil Evaluasi Model Klasifikasi**

Berikut adalah **rekomendasi** tahapannya.
1. Bandingkan hasil evaluasi sebelum dan setelah tuning (jika dilakukan).
2. Identifikasi kelemahan model, seperti:
  - Precision atau Recall rendah untuk kelas tertentu.
  - Apakah model mengalami overfitting atau underfitting?
3. Berikan rekomendasi tindakan lanjutan, seperti mengumpulkan data tambahan atau mencoba algoritma lain jika hasil belum memuaskan.

### Identifikasi kelemahan model
- Apakah model mengalami overfitting? <br>
Karena akurasi modelnya 100%, antisipasi terjadinya overfitting kita bisa mengeceknya menggunakan cross-validation. Dengan melakukan cross-validation, kita dapat memverifikasi apakah model benar-benar dapat menggeneralisasi data dengan baik atau hanya "mengingat" data latih saja.

In [11]:
# Melakukan k-fold cross-validation (misalnya 5-fold)
cv_scores = cross_val_score(rf_classifier, X, y, cv=5)

# Menampilkan hasil cross-validation
print("Cross-validation scores:", cv_scores)
print("Average CV score:", cv_scores.mean())

Cross-validation scores: [1.         1.         0.998486   0.99772899 0.999243  ]
Average CV score: 0.9990915972747919


Hasil cross-validation yang menunjukkan skor konsisten mendekati 1.00 pada berbagai fold dan rata-rata skor 0.9991 mengindikasikan bahwa model ini tidak mengalami overfitting, karena performa model pada data uji dan data latih hampir identik.

### **Kesimpulan:**
- Berdasarkan hasil cross-validation, model menunjukkan performa yang sangat baik pada data latih dan data uji, dengan skor mendekati 1.0 di hampir semua fold.

- Overfitting tidak terlihat karena skor pada setiap fold tetap tinggi dan konsisten, yang mengindikasikan bahwa model mampu menggeneralisasi dengan baik ke subset data yang berbeda.