# Klasifikasi Decision Tree pada Dataset Wine Quality

Notebook ini berisi implementasi klasifikasi menggunakan algoritma Decision Tree untuk memprediksi kualitas wine berdasarkan fitur-fitur kimianya.

## 1. Import Library
Pertama, kita mengimpor library yang diperlukan untuk manipulasi data, pemodelan, dan visualisasi.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

%matplotlib inline

## 2. Memuat Dataset
Dataset yang digunakan adalah `winequality-white.csv`. Perhatikan bahwa delimiter yang digunakan adalah titik koma (`;`).

In [None]:
# Load dataset
df = pd.read_csv('winequality-white.csv', sep=';')

# Menampilkan 5 baris pertama
df.head()

## 3. Eksplorasi Data Singkat
Melihat informasi kolom dan statistik deskriptif.

In [None]:
df.info()

In [None]:
df.describe()

## 4. Persiapan Data
Memisahkan fitur ($X$) dan target ($y$), serta membagi data menjadi set pelatihan dan pengujian.

In [None]:
# Memisahkan fitur dan target
X = df.drop('quality', axis=1)
y = df['quality']

# Membagi data menjadi Training dan Testing (80% Train, 20% Test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## 5. Pemodelan Decision Tree
Melatih model Decision Tree menggunakan data pelatihan.

In [None]:
# Inisialisasi model
clf = DecisionTreeClassifier(random_state=42)

# Melatih model
clf.fit(X_train, y_train)

## 6. Evaluasi Model
Melakukan prediksi dan mengevaluasi kinerja model.

In [None]:
# Melakukan prediksi
y_pred = clf.predict(X_test)

# Akurasi
accuracy = accuracy_score(y_test, y_pred)
print(f'Akurasi: {accuracy:.2f}')

# Classification Report
print('\nClassification Report:')
print(classification_report(y_test, y_pred))

## 7. Visualisasi Confusion Matrix
Melihat seberapa baik model mengklasifikasikan setiap kelas kualitas.

In [None]:
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(10, 7))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=sorted(df['quality'].unique()), 
            yticklabels=sorted(df['quality'].unique()))
plt.xlabel('Prediksi')
plt.ylabel('Aktual')
plt.title('Confusion Matrix')
plt.show()

## 8. Feature Importance
Melihat fitur mana yang paling berpengaruh dalam menentukan kualitas wine.

In [None]:
importances = clf.feature_importances_
feature_names = X.columns
indices = np.argsort(importances)[::-1]

plt.figure(figsize=(12, 6))
plt.title("Feature Importance")
plt.bar(range(X.shape[1]), importances[indices], align="center")
plt.xticks(range(X.shape[1]), feature_names[indices], rotation=45)
plt.tight_layout()
plt.show()