## Decision tree (gini index)

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier

X_train = [
   ["LAKI - LAKI", "MAHASISWA", "BELUM", 3.17],
   ["LAKI - LAKI", "BEKERJA", "BELUM", 3.30],
   ["PEREMPUAN", "MAHASISWA", "BELUM", 3.01],
   ["PEREMPUAN", "MAHASISWA", "MENIKAH", 3.25],
   ["LAKI - LAKI", "BEKERJA", "MENIKAH", 3.20],
   ["LAKI - LAKI", "BEKERJA", "MENIKAH", 2.50],
   ["PEREMPUAN", "BEKERJA", "MENIKAH", 3.00],
   ["PEREMPUAN", "BEKERJA", "BELUM", 2.70],
   ["LAKI - LAKI", "BEKERJA", "BELUM", 2.40],
   ["PEREMPUAN", "MAHASISWA", "MENIKAH", 2.50],
   ["PEREMPUAN", "MAHASISWA", "BELUM", 2.50],
   ["PEREMPUAN", "MAHASISWA", "BELUM", 3.50],
   ["LAKI - LAKI", "BEKERJA", "MENIKAH", 3.30],
   ["LAKI - LAKI", "MAHASISWA", "MENIKAH", 3.25],
   ["LAKI - LAKI", "MAHASISWA", "BELUM", 2.30],
]

y_train = [
   "tepat", "tepat", "tepat", "tepat", "tepat",
   "terlambat", "terlambat", "terlambat", "terlambat", "terlambat",
   "terlambat", "tepat", "tepat", "tepat", "terlambat"
]

X_test = [
   ["LAKI - LAKI", "MAHASISWA", "BELUM", 2.50],
   ["PEREMPUAN", "BEKERJA", "BELUM", 2.50],
]

# Tentukan kolom kategori & numerik
cat_cols = [0, 1, 2]   # 3 kolom pertama kategori
num_cols = [3]         # kolom terakhir numerik

# Preprocessor
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_cols),
        ('num', 'passthrough', num_cols)
    ]
)

# Pipeline model Decision Tree (criterion gini default)
clf_gini = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', DecisionTreeClassifier(criterion='gini', random_state=42))
])

# Latih model
clf_gini.fit(X_train, y_train)

# Prediksi
y_pred = clf_gini.predict(X_test)
print("Prediksi:", y_pred)

Prediksi: ['terlambat' 'terlambat']


## Decision Tree (entropy)

In [2]:
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.tree import DecisionTreeClassifier

X_train = [
   ["LAKI - LAKI", "MAHASISWA", "BELUM", 3.17],
   ["LAKI - LAKI", "BEKERJA", "BELUM", 3.30],
   ["PEREMPUAN", "MAHASISWA", "BELUM", 3.01],
   ["PEREMPUAN", "MAHASISWA", "MENIKAH", 3.25],
   ["LAKI - LAKI", "BEKERJA", "MENIKAH", 3.20],
   ["LAKI - LAKI", "BEKERJA", "MENIKAH", 2.50],
   ["PEREMPUAN", "BEKERJA", "MENIKAH", 3.00],
   ["PEREMPUAN", "BEKERJA", "BELUM", 2.70],
   ["LAKI - LAKI", "BEKERJA", "BELUM", 2.40],
   ["PEREMPUAN", "MAHASISWA", "MENIKAH", 2.50],
   ["PEREMPUAN", "MAHASISWA", "BELUM", 2.50],
   ["PEREMPUAN", "MAHASISWA", "BELUM", 3.50],
   ["LAKI - LAKI", "BEKERJA", "MENIKAH", 3.30],
   ["LAKI - LAKI", "MAHASISWA", "MENIKAH", 3.25],
   ["LAKI - LAKI", "MAHASISWA", "BELUM", 2.30],
]

y_train = [
   "tepat", "tepat", "tepat", "tepat", "tepat",
   "terlambat", "terlambat", "terlambat", "terlambat", "terlambat",
   "terlambat", "tepat", "tepat", "tepat", "terlambat"
]

X_test = [
   ["LAKI - LAKI", "MAHASISWA", "BELUM", 2.50],
   ["PEREMPUAN", "BEKERJA", "BELUM", 2.50],
]

# Tentukan kolom kategori & numerik
cat_cols = [0, 1, 2]   # 3 kolom pertama kategori
num_cols = [3]         # kolom terakhir numerik

# Preprocessor
preprocessor = ColumnTransformer(
    transformers=[
        ('cat', OneHotEncoder(handle_unknown='ignore'), cat_cols),
        ('num', 'passthrough', num_cols)
    ]
)

# Pipeline model Decision Tree (criterion gini default)
clf_entropy = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('model', DecisionTreeClassifier(criterion='entropy', random_state=42))
])

# Latih model
clf_entropy.fit(X_train, y_train)

# Prediksi
y_pred = clf_entropy.predict(X_test)
print("Prediksi:", y_pred)

Prediksi: ['terlambat' 'terlambat']
