# Data Mining: Klasifikasi Kelulusan Mahasiswa

Notebook ini mendemonstrasikan proses klasifikasi status kelulusan mahasiswa (Lulus/Tidak Lulus) berdasarkan fitur: **IPK**, **Kehadiran**, dan **Jumlah SKS**.

Metode yang digunakan adalah **Decision Tree (Pohon Keputusan)**.

## 1. Import Library dan Load Data

**Fungsi:**
Tahap ini memuat pustaka yang dibutuhkan (`pandas` untuk manipulasi data) dan membuat dataset secara manual sesuai data yang diberikan.

- `pd.DataFrame`: Mengubah dictionary data menjadi tabel.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Membuat dataset manual
data = {
    'IPK': [3.5, 2.8, 3.2, 1.9, 2.4, 3.8, 2.0, 3.0, 2.6, 3.7],
    'Kehadiran_Persen': [90, 75, 85, 60, 70, 95, 65, 80, 78, 92],
    'Jumlah_SKS': [144, 138, 144, 120, 132, 150, 126, 144, 138, 150],
    'Lulus': ['Lulus', 'Lulus', 'Lulus', 'Tidak Lulus', 'Tidak Lulus', 
              'Lulus', 'Tidak Lulus', 'Lulus', 'Lulus', 'Lulus']
}

# Konversi ke Pandas DataFrame
df = pd.DataFrame(data)

# Menampilkan data
print("Dataset Mahasiswa:")
display(df)

## 2. Preprocessing Data (Persiapan)

**Fungsi:**
Mesin learning tidak bisa memproses teks mentah seperti "Lulus". Kita harus:
1. Memisahkan atribut input (**X**) dan target output (**y**).
2. Mengubah label target menjadi angka (**Encoding**).
3. Membagi data menjadi data untuk belajar (Train) dan data untuk ujian (Test).

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder

# 1. Memisahkan Fitur (X) dan Target (y)
X = df[['IPK', 'Kehadiran_Persen', 'Jumlah_SKS']]
y = df['Lulus']

# 2. Encoding Label (Mengubah teks menjadi angka 0 dan 1)
le = LabelEncoder()
y_encoded = le.fit_transform(y)

print(f"Mapping Label: {dict(zip(le.classes_, le.transform(le.classes_)))}")

# 3. Split Data (80% Training, 20% Testing)
X_train, X_test, y_train, y_test = train_test_split(X, y_encoded, test_size=0.2, random_state=42)

print(f"Jumlah Data Training: {len(X_train)}")
print(f"Jumlah Data Testing: {len(X_test)}")

## 3. Modeling (Pelatihan)

**Fungsi:**
Kita menggunakan algoritma `DecisionTreeClassifier`. Model akan mempelajari pola dari `X_train` dan `y_train` untuk membuat aturan keputusan (misal: Jika IPK < 2.0 maka Tidak Lulus).

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Inisialisasi Model
model = DecisionTreeClassifier(criterion='gini', random_state=42)

# Melatih Model dengan data training
model.fit(X_train, y_train)

print("Model berhasil dilatih!")

## 4. Evaluasi Model

**Fungsi:**
Menguji performa model menggunakan data `X_test` yang belum pernah dilihat sebelumnya, lalu membandingkan hasil prediksinya dengan kunci jawaban asli (`y_test`).

In [None]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Prediksi data testing
y_pred = model.predict(X_test)

# Hitung Akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Model: {accuracy * 100}%")

# Menampilkan Detail Laporan
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=le.classes_))

## 5. Visualisasi Pohon Keputusan

**Fungsi:**
Menggambar struktur pohon keputusan agar kita bisa melihat aturan logis apa yang digunakan komputer untuk menentukan kelulusan.

In [None]:
from sklearn.tree import plot_tree

plt.figure(figsize=(10,6))
plot_tree(model, 
          feature_names=['IPK', 'Kehadiran', 'SKS'], 
          class_names=le.classes_,
          filled=True, 
          rounded=True)
plt.title("Visualisasi Aturan Decision Tree")
plt.show()

## 6. Simulasi Prediksi Data Baru

**Fungsi:**
Mencoba model dengan data inputan manual (contoh kasus) untuk melihat apakah model bekerja sesuai logika kita.

In [None]:
# Data baru: [IPK, Kehadiran, SKS]
# Kasus 1: IPK Tinggi, Rajin (Harusnya Lulus)
# Kasus 2: IPK Rendah, Malas (Harusnya Tidak Lulus)
data_baru = np.array([
    [3.9, 98, 148], 
    [1.5, 40, 100]
])

prediksi = model.predict(data_baru)
hasil_teks = le.inverse_transform(prediksi)

print("Hasil Prediksi Data Baru:")
for i, val in enumerate(hasil_teks):
    print(f"Mahasiswa {i+1}: {val}")