In [12]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split, RandomizedSearchCV, cross_val_score
from sklearn.metrics import accuracy_score, classification_report

## Memuat Data
Disclaimer: Data yang digunakan adalah data *student performance* yang telah dibersihkan dan ditransformasi sedemikian rupa pada tahap [Konstruksi dan Dokumentasi](https://github.com/JayaWinata/Komdigi-Associate-Data-Scientist-Practice/tree/master/7%20-%20Konstruksi%20dan%20Dokumentasi)

In [6]:
df = pd.read_csv('datasets/cleaned_student_performance.csv', )
df.head()

Unnamed: 0,Gender,AttendanceRate,StudyHoursPerWeek,PreviousGrade,ExtracurricularActivities,ParentalSupport,Study Hours,Attendance (%),Online Classes Taken,IsPassed
0,0,0.6,0.318182,0.6,0.333333,2,0.96,0.18,0,Yes
1,1,0.8,0.545455,0.833333,0.666667,1,0.44,0.4,1,Yes
2,0,0.32,0.090909,0.166667,0.0,0,0.92,0.84,0,No
3,0,0.88,0.772727,1.0,1.0,2,0.58,0.92,0,Yes
4,1,0.618152,0.454545,0.733333,0.666667,1,0.82,0.94,1,Yes


## Langkah 1: Menyiapkan Parameter Model

In [None]:
selected_features = list(df.columns)
selected_features.remove('IsPassed')
params = {
    "criterion": "gini",
    "splitter": "best",
    "max_depth": None,
    "min_samples_split": 2,
    "min_samples_leaf": 1,
    "min_weight_fraction_leaf": 0.0,
    "max_features": None,
    "random_state": 42,
    "max_leaf_nodes": None,
    "min_impurity_decrease": 0.0,
    "class_weight": None,
    "ccp_alpha": 0.0
}

print("Parameter yang mungkin relevan untuk model:")
print("1. Fitur terpilih: ", selected_features)
print("  - Parameter ini digunakan sebagai input untuk model, dipilih berdasarkan skor ANOVA F-value.")
print("2. Target label: 'IsPassed'")
print("  - Parameter ini merupakan output yang ingin diprediksi oleh model, mewakili apakah seorang siswa dinyatakan lolos/tidak lolos.")
print("3. Data setelah normalisasi dan pembersihan.")
print('\n',df.head())
print("  - Data yang telah dibersihkan dan dinormalisasi diharapkan meningkatkan performa model.")
print('4. Parameter model Decision Tree')
print("\t", params)


Parameter yang mungkin relevan untuk model:
1. Fitur terpilih:  ['Gender', 'AttendanceRate', 'StudyHoursPerWeek', 'PreviousGrade', 'ExtracurricularActivities', 'ParentalSupport', 'Study Hours', 'Attendance (%)', 'Online Classes Taken']
  - Parameter ini digunakan sebagai input untuk model, dipilih berdasarkan skor ANOVA F-value.
2. Target label: 'IsPassed'
  - Parameter ini merupakan output yang ingin diprediksi oleh model, mewakili apakah seorang siswa dinyatakan lolos/tidak lolos.
3. Data setelah normalisasi dan pembersihan.

    Gender  AttendanceRate  StudyHoursPerWeek  PreviousGrade  \
0       0        0.600000           0.318182       0.600000   
1       1        0.800000           0.545455       0.833333   
2       0        0.320000           0.090909       0.166667   
3       0        0.880000           0.772727       1.000000   
4       1        0.618152           0.454545       0.733333   

   ExtracurricularActivities  ParentalSupport  Study Hours  Attendance (%)  \
0       

## Langkah 2: Memilih Tools Pemodelan

Tools yang dipilih adalah Python karena Python merupakan bahasa pemrograman yang fleksibel dan banyak digunakan dalam data science. Python memiliki berbagai library khusus untuk pemodelan data seperti scikit-learn untuk machine learning, pandas untuk manipulasi data, serta matplotlib dan seaborn untuk visualisasi. Selain itu, Python juga memiliki komunitas yang besar dan dokumentasi yang lengkap, sehingga memudahkan dalam mencari solusi dan referensi.

## Langkah 3: Membangun Algoritma Pemodelan

In [13]:
X_train, X_test, y_train, y_test = train_test_split(
    df[selected_features], df['IsPassed'], test_size=0.2, random_state=42
)

In [14]:
model = DecisionTreeClassifier(**params)

In [15]:
model.fit(X_train, y_train)

0,1,2
,criterion,'gini'
,splitter,'best'
,max_depth,
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [16]:
y_pred = model.predict(X_test)

In [18]:
# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi model: {accuracy}")
print("\nLaporan Klasifikasi:")
print(classification_report(y_test, y_pred))

Akurasi model: 0.5141242937853108

Laporan Klasifikasi:
              precision    recall  f1-score   support

          No       0.43      0.54      0.48        74
         Yes       0.60      0.50      0.54       103

    accuracy                           0.51       177
   macro avg       0.52      0.52      0.51       177
weighted avg       0.53      0.51      0.52       177



In [None]:
# Catatan hasil eksekusi dan parameter model
print("\nHasil Eksekusi:")
print("- Algoritma yang digunakan: Decision Tree")
print(f"- Fitur yang digunakan: {selected_features}")
print(f"- Akurasi model: {accuracy}")
print("- Parameter model:", params)
print("- Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))


Hasil Eksekusi:
- Algoritma yang digunakan: Decision Tree
- Fitur yang digunakan: ['Gender', 'AttendanceRate', 'StudyHoursPerWeek', 'PreviousGrade', 'ExtracurricularActivities', 'ParentalSupport', 'Study Hours', 'Attendance (%)', 'Online Classes Taken']
- Akurasi model: 0.5141242937853108
- Parameter model: {'criterion': 'gini', 'splitter': 'best', 'max_depth': None, 'min_samples_split': 2, 'min_samples_leaf': 1, 'min_weight_fraction_leaf': 0.0, 'max_features': None, 'random_state': None, 'max_leaf_nodes': None, 'min_impurity_decrease': 0.0, 'class_weight': None, 'ccp_alpha': 0.0}
- Laporan Klasifikasi:
              precision    recall  f1-score   support

          No       0.43      0.54      0.48        74
         Yes       0.60      0.50      0.54       103

    accuracy                           0.51       177
   macro avg       0.52      0.52      0.51       177
weighted avg       0.53      0.51      0.52       177



## Langkah 4: Optimasi Parameter Model

In [21]:
param_grid = {
    "criterion": ["gini", "entropy"],
    "max_depth": [None, 5, 10],
    "min_samples_split": [2, 5],
    "min_samples_leaf": [1, 2, 4],
}

In [22]:
rand_search = RandomizedSearchCV(estimator=model, param_distributions=param_grid, cv=5, scoring='accuracy', random_state=42)
rand_search.fit(X_train, y_train)

0,1,2
,estimator,DecisionTreeClassifier()
,param_distributions,"{'criterion': ['gini', 'entropy'], 'max_depth': [None, 5, ...], 'min_samples_leaf': [1, 2, ...], 'min_samples_split': [2, 5]}"
,n_iter,10
,scoring,'accuracy'
,n_jobs,
,refit,True
,cv,5
,verbose,0
,pre_dispatch,'2*n_jobs'
,random_state,42

0,1,2
,criterion,'entropy'
,splitter,'best'
,max_depth,10
,min_samples_split,2
,min_samples_leaf,1
,min_weight_fraction_leaf,0.0
,max_features,
,random_state,
,max_leaf_nodes,
,min_impurity_decrease,0.0


In [23]:
# Tampilkan parameter terbaik yang ditemukan
print("Parameter terbaik:", rand_search.best_params_)

Parameter terbaik: {'min_samples_split': 2, 'min_samples_leaf': 1, 'max_depth': 10, 'criterion': 'entropy'}


In [24]:
# Gunakan model dengan parameter terbaik untuk prediksi

best_model = rand_search.best_estimator_
y_pred = best_model.predict(X_test)

In [None]:
# Evaluasi model dengan parameter terbaik

accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi model dengan parameter terbaik: {accuracy}")
print("\nLaporan Klasifikasi dengan parameter terbaik:")
print(classification_report(y_test, y_pred))

Akurasi model dengan parameter terbaik: 0.5084745762711864

Laporan Klasifikasi dengan parameter terbaik:
              precision    recall  f1-score   support

          No       0.41      0.42      0.42        74
         Yes       0.58      0.57      0.58       103

    accuracy                           0.51       177
   macro avg       0.50      0.50      0.50       177
weighted avg       0.51      0.51      0.51       177



In [26]:
target_accuracy = 0.80

# Periksa apakah akurasi memenuhi toleransi
if accuracy >= target_accuracy:
    print("\nModel memenuhi toleransi akurasi yang ditentukan.\n")
else:
    print("\nModel tidak memenuhi toleransi akurasi yang ditentukan.\n")

# Catatan hasil eksekusi dan parameter model
print("\nHasil Eksekusi dengan Optimasi Parameter:")
print("- Algoritma yang digunakan: Decision Tree")
print(f"- Fitur yang digunakan: {selected_features}")
print(f"- Akurasi model: {accuracy}")
print(f"- Parameter model terbaik: {rand_search.best_params_}")
print("- Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))


Model tidak memenuhi toleransi akurasi yang ditentukan.


Hasil Eksekusi dengan Optimasi Parameter:
- Algoritma yang digunakan: Decision Tree
- Fitur yang digunakan: ['Gender', 'AttendanceRate', 'StudyHoursPerWeek', 'PreviousGrade', 'ExtracurricularActivities', 'ParentalSupport', 'Study Hours', 'Attendance (%)', 'Online Classes Taken']
- Akurasi model: 0.5084745762711864
- Parameter model terbaik: {'min_samples_split': 2, 'min_samples_leaf': 1, 'max_depth': 10, 'criterion': 'entropy'}
- Laporan Klasifikasi:
              precision    recall  f1-score   support

          No       0.41      0.42      0.42        74
         Yes       0.58      0.57      0.58       103

    accuracy                           0.51       177
   macro avg       0.50      0.50      0.50       177
weighted avg       0.51      0.51      0.51       177



## Langkah 5: Menguji Model

In [27]:
# Uji model dengan data testing
y_pred = best_model.predict(X_test)

In [28]:
# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi model pada data testing: {accuracy}")
print("\nLaporan Klasifikasi pada data testing:")
print(classification_report(y_test, y_pred))

Akurasi model pada data testing: 0.5084745762711864

Laporan Klasifikasi pada data testing:
              precision    recall  f1-score   support

          No       0.41      0.42      0.42        74
         Yes       0.58      0.57      0.58       103

    accuracy                           0.51       177
   macro avg       0.50      0.50      0.50       177
weighted avg       0.51      0.51      0.51       177



In [29]:
# Catat hasil pengujian
print("\nHasil Pengujian Model:")
print(f"- Akurasi: {accuracy}")
print("- Laporan Klasifikasi:")
print(classification_report(y_test, y_pred))


Hasil Pengujian Model:
- Akurasi: 0.5084745762711864
- Laporan Klasifikasi:
              precision    recall  f1-score   support

          No       0.41      0.42      0.42        74
         Yes       0.58      0.57      0.58       103

    accuracy                           0.51       177
   macro avg       0.50      0.50      0.50       177
weighted avg       0.51      0.51      0.51       177



In [30]:
# Simpan hasil pengujian ke dalam file (opsional)
with open('hasil_pengujian_model.txt', 'w') as f:
    f.write(f"Akurasi: {accuracy}\n")
    f.write("Laporan Klasifikasi:\n")
    f.write(classification_report(y_test, y_pred))

print("\nHasil pengujian telah dicatat.")


Hasil pengujian telah dicatat.


## Langkah 6: Menilai Hasil Pemodelan

## Tabel Evaluasi Model

| Metric      | Class 0 (No) | Class 1 (Yes) | Macro Avg | Weighted Avg |
|-------------|--------------|---------------|------------|---------------|
| Precision   | 0.41         | 0.58          | 0.50       | 0.51          |
| Recall      | 0.42         | 0.57          | 0.50       | 0.51          |
| F1-Score    | 0.42         | 0.58          | 0.50       | 0.51          |
| Support     | 74           | 103           | 177        | 177           |
| Accuracy    | -            | -             | -          | 0.51          |

---

## Interpretasi Hasil
- **Akurasi model sebesar 51%** menunjukkan performa model hampir setara dengan tebakan acak, sehingga belum cukup baik untuk prediksi.
- **Kelas "Yes" (IsPassed = lulus)** memiliki precision 0.58 dan recall 0.57, sedikit lebih baik dibanding kelas "No".
- **Kelas "No" (IsPassed = tidak lulus)** lebih sulit diprediksi (precision 0.41, recall 0.42).
- Nilai **macro avg dan weighted avg sekitar 0.50–0.51**, menandakan kinerja model rendah dan belum seimbang.

---

## Pencapaian Tujuan Bisnis
Tujuan bisnis adalah memprediksi apakah mahasiswa akan **lulus (Yes)** atau **tidak lulus (No)** berdasarkan data akademik dan faktor pendukung.
Namun, dengan akurasi hanya 51%, model **belum memenuhi kebutuhan bisnis**. Jika digunakan langsung, model berisiko memberikan prediksi salah dalam jumlah besar, sehingga keputusan intervensi bisa keliru.

---

## Kesimpulan
- Model Decision Tree yang digunakan **belum efektif** dalam memprediksi kelulusan mahasiswa.
- Akurasi rendah (51%) dan precision-recall yang juga rendah menunjukkan model perlu diperbaiki.

### Rekomendasi Pengembangan:
1. **Feature engineering** dan perbaikan kualitas data (misalnya normalisasi, encoding yang tepat, atau penghapusan fitur redundan).
2. Mencoba algoritma lain seperti **Random Forest, Gradient Boosting, atau Logistic Regression**.
3. Melakukan **hyperparameter tuning** pada Decision Tree.
4. Menggunakan **cross-validation** untuk evaluasi yang lebih stabil.
