# Eksperimen Data Mining: Klasifikasi Jurusan

## Tema
Eksperimen ini bertujuan untuk mengklasifikasikan jurusan kuliah ke dalam kategori jurusan utama menggunakan algoritma klasifikasi supervised learning, yaitu **Naive Bayes** dan **Decision Tree**.

## Dataset
Dataset berisi daftar jurusan kuliah (Major) dan kategori utamanya (Major_Category). Misalnya, jurusan "Mechanical Engineering" termasuk dalam kategori "Engineering".

## Tujuan
- Memprediksi kategori jurusan berdasarkan nama jurusan.
- Membandingkan performa dua algoritma klasifikasi: Naive Bayes dan Decision Tree.
- Melakukan visualisasi hasil klasifikasi untuk memahami kinerja model.


In [None]:
# Import library yang diperlukan untuk analisis dan visualisasi
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Import library untuk machine learning
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

## Memuat Dataset
Kita akan memuat dataset CSV yang berisi daftar jurusan dan kategori jurusan. Pastikan file `majors-list.csv` tersedia pada path yang benar.

In [None]:
# Memuat dataset ke dalam DataFrame
data = pd.read_csv('/path/to/majors-list.csv')  # Ganti dengan path yang benar

# Menampilkan 5 baris pertama dari dataset
data.head()

## Pra-pemrosesan Data
- Menghapus kolom yang tidak relevan.
- Mengubah label kategori (Major_Category) ke format numerik.
- Menentukan fitur (X) dan target/label (y).

In [None]:
# Menghapus kolom yang tidak dibutuhkan
data = data.drop(columns=['index', 'FOD1P'])

# Konversi label kategori menjadi numerik
data['Major_Category_Code'] = data['Major_Category'].astype('category').cat.codes

# Fitur: kategori jurusan (kode)
# Target: nama jurusan
X = data[['Major_Category_Code']]
y = data['Major']

## Membagi Data Menjadi Data Latih dan Uji
Data akan dibagi menjadi 80% untuk pelatihan dan 20% untuk pengujian.

In [None]:
# Membagi data latih dan data uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Membangun Model Naive Bayes
Model Naive Bayes digunakan untuk klasifikasi berdasarkan probabilitas dari fitur input.

In [None]:
# Inisialisasi dan latih model Naive Bayes
nb_model = GaussianNB()
nb_model.fit(X_train, y_train)

# Prediksi pada data uji
y_pred_nb = nb_model.predict(X_test)

# Evaluasi akurasi
accuracy_nb = accuracy_score(y_test, y_pred_nb)
print(f'Akurasi Model Naive Bayes: {accuracy_nb:.2f}')

## Visualisasi Hasil Naive Bayes
Kita akan melihat hasil klasifikasi dalam bentuk confusion matrix.

In [None]:
conf_matrix_nb = confusion_matrix(y_test, y_pred_nb)
plt.figure(figsize=(10,6))
sns.heatmap(conf_matrix_nb, annot=False, cmap='Blues')
plt.title('Confusion Matrix - Naive Bayes')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

## Membangun Model Decision Tree
Model ini membuat pohon keputusan untuk memisahkan data berdasarkan atribut-atributnya.

In [None]:
# Inisialisasi dan latih model Decision Tree
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

# Prediksi data uji
y_pred_dt = dt_model.predict(X_test)

# Evaluasi akurasi
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f'Akurasi Model Decision Tree: {accuracy_dt:.2f}')

## Visualisasi Hasil Decision Tree
Kita akan melihat confusion matrix dan struktur pohon keputusan.

In [None]:
# Confusion matrix
conf_matrix_dt = confusion_matrix(y_test, y_pred_dt)
plt.figure(figsize=(10,6))
sns.heatmap(conf_matrix_dt, annot=False, cmap='Greens')
plt.title('Confusion Matrix - Decision Tree')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

# Visualisasi struktur pohon
plt.figure(figsize=(16,8))
plot_tree(dt_model, filled=True, fontsize=8)
plt.title('Visualisasi Struktur Decision Tree')
plt.show()

## Kesimpulan
- Telah diterapkan dua metode klasifikasi: **Naive Bayes** dan **Decision Tree**.
- Akurasi dari kedua model dibandingkan untuk menilai performa klasifikasi berdasarkan kategori jurusan.
- Visualisasi confusion matrix memberikan gambaran distribusi kesalahan klasifikasi.
- Struktur Decision Tree dapat membantu memahami logika pemisahan kategori.

In [None]:
print("Ringkasan Akurasi:")
print(f"- Naive Bayes Accuracy: {accuracy_nb:.2f}")
print(f"- Decision Tree Accuracy: {accuracy_dt:.2f}")