In [4]:
# Import library yang diperlukan
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Contoh data (Data dummy dengan lebih banyak sampel untuk akurasi yang lebih baik)
data = {
    'Nilai_Ujian_Masuk': [85, 70, None, 88, 92, 78, 80, 67, 90, 95],
    'Prestasi_Akademik': [3.5, 3.0, 2.8, 3.9, None, 3.2, 3.1, 2.9, 3.8, 3.6],
    'Ekstrakurikuler': [2, 1, 3, 0, 2, 1, 1, 0, 3, 2],
    'Status_Ekonomi': ['Tinggi', 'Menengah', 'Rendah', 'Menengah', 'Tinggi', None, 'Menengah', 'Rendah', 'Tinggi', 'Menengah'],
    'Jenis_Kelamin': ['Laki-laki', 'Perempuan', 'Laki-laki', 'Perempuan', 'Laki-laki', 'Perempuan', 'Laki-laki', 'Perempuan', 'Laki-laki', 'Perempuan'],
    'Latar_Belakang_Sekolah': ['Favorit', 'Reguler', 'Favorit', 'Reguler', 'Favorit', 'Reguler', 'Favorit', 'Reguler', 'Favorit', 'Reguler'],
    'Diterima': [1, 0, 1, 1, 1, 0, 1, 0, 1, 1]
}

# Membuat DataFrame
df = pd.DataFrame(data)

# Mengisi nilai None di kolom kategorikal dengan "Tidak Diketahui"
df['Status_Ekonomi'] = df['Status_Ekonomi'].fillna('Tidak Diketahui')

# 1. Mengisi nilai yang hilang (Imputasi)
numeric_features = ['Nilai_Ujian_Masuk', 'Prestasi_Akademik']
numeric_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='mean')), # Mengisi data hilang dengan mean
    ('scaler', StandardScaler()) # Normalisasi data
])

categorical_features = ['Status_Ekonomi', 'Jenis_Kelamin', 'Latar_Belakang_Sekolah']
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='most_frequent')), # Mengisi data hilang dengan modus
    ('onehot', OneHotEncoder(drop='first')) # Encoding data kategorikal
])

# Menggabungkan preprocessing untuk fitur numerik dan kategorikal
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)
    ])

# Split data menjadi fitur dan target
X = df.drop('Diterima', axis=1)
y = df['Diterima']

# Membagi data menjadi data latih dan uji
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Menyiapkan pipeline untuk preprocessing dan modeling
model = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', RandomForestClassifier(random_state=42))
])

# Melatih model
model.fit(X_train, y_train)

# Memprediksi dengan data uji
y_pred = model.predict(X_test)

# Evaluasi model
print("Akurasi:", accuracy_score(y_test, y_pred))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred, zero_division=1))


Akurasi: 1.0

Confusion Matrix:
 [[1 0]
 [0 1]]

Classification Report:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00         1
           1       1.00      1.00      1.00         1

    accuracy                           1.00         2
   macro avg       1.00      1.00      1.00         2
weighted avg       1.00      1.00      1.00         2

