In [2]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn import tree
import plotly.graph_objects as go
import math

# Ganti 'nama_file.csv' dengan nama file CSV Anda
file_path = 'dataset_3.csv'

# Membaca dataset dari file CSV
df = pd.read_csv(file_path)

# Menampilkan dataset
print("Dataset:")
print(df.head(10))
print(f"\nJumlah data: {len(df)}")
print(f"Kolom-kolom: {list(df.columns)}")
print("\n")

# Hitung entropi untuk berbagai fitur berdasarkan target 'Jenis Kendaraan Dipilih'
def calculate_entropy(column_name):
    unique_values = df[column_name].unique()
    total_samples = len(df)
    entropy = 0

    for value in unique_values:
        subset = df[df[column_name] == value]
        target_counts = subset['Jenis Kendaraan Dipilih'].value_counts()
        
        if len(subset) == 0:
            continue
            
        subset_entropy = 0
        for target_value in target_counts.index:
            p = target_counts[target_value] / len(subset)
            if p > 0:
                subset_entropy += -p * math.log2(p)
        
        entropy += (len(subset) / total_samples) * subset_entropy

    return entropy

# Hitung entropi untuk kolom-kolom yang relevan
entropy_umur = calculate_entropy('Umur')
entropy_status_pekerjaan = calculate_entropy('Status Pekerjaan')
entropy_preferensi_harga = calculate_entropy('Preferensi Harga')

# Membulatkan nilai entropi menjadi 3 angka desimal
entropy_umur = round(entropy_umur, 3)
entropy_status_pekerjaan = round(entropy_status_pekerjaan, 3)
entropy_preferensi_harga = round(entropy_preferensi_harga, 3)

print(f"Entropi untuk Umur: {entropy_umur}")
print(f"Entropi untuk Status Pekerjaan: {entropy_status_pekerjaan}")
print(f"Entropi untuk Preferensi Harga: {entropy_preferensi_harga}")

# Hitung entropi untuk kombinasi fitur
def calculate_entropy_combined(column1, column2):
    total_samples = len(df)
    entropy = 0

    unique_values1 = df[column1].unique()
    unique_values2 = df[column2].unique()

    for value1 in unique_values1:
        for value2 in unique_values2:
            subset = df[(df[column1] == value1) & (df[column2] == value2)]
            
            if len(subset) == 0:
                continue
                
            target_counts = subset['Jenis Kendaraan Dipilih'].value_counts()
            subset_entropy = 0
            
            for target_value in target_counts.index:
                p = target_counts[target_value] / len(subset)
                if p > 0:
                    subset_entropy += -p * math.log2(p)
            
            entropy += (len(subset) / total_samples) * subset_entropy

    return entropy

# Hitung entropi untuk kombinasi Status Pekerjaan dan Preferensi Harga
entropy_combined = calculate_entropy_combined('Status Pekerjaan', 'Preferensi Harga')

# Membulatkan nilai entropi menjadi 3 angka desimal
entropy_combined = round(entropy_combined, 3)

print("----------------------------------------------------------------------------------------------------")
print(f"\nCatatan:")
print("- Nilai entropi yang lebih kecil menunjukkan tingkat kepastian yang lebih tinggi.")
print("- Fitur dengan entropi lebih rendah memberikan informasi yang lebih baik dalam memisahkan data.")

print("----------------------------------------------------------------------------------------------------")
print(f"Entropi untuk kombinasi Status Pekerjaan dan Preferensi Harga: {entropy_combined}")
print("----------------------------------------------------------------------------------------------------")

# Analisis target variable
print("\nDistribusi Jenis Kendaraan Dipilih:")
print(df['Jenis Kendaraan Dipilih'].value_counts())

# Rules berdasarkan analisis data
def make_decision_rules(row):
    if row['Preferensi Harga'] == 'Murah':
        if row['Status Pekerjaan'] in ['Pelajar/Mahasiswa', 'Tidak Bekerja']:
            return 'Sepeda'
        else:
            return 'Sepeda Motor'
    elif row['Preferensi Harga'] == 'Mahal':
        if row['Umur'] < 40:
            return 'Mobil Listrik'
        else:
            return 'Mobil'
    else:  # Preferensi Harga == 'Sedang'
        if row['Status Pekerjaan'] == 'Pegawai Negeri':
            return 'Mobil'
        else:
            return 'Sepeda Motor'

# Tambahkan kolom hasil keputusan berdasarkan aturan
df['Prediksi_Kendaraan'] = df.apply(make_decision_rules, axis=1)

# Tampilkan DataFrame dengan hasil keputusan (sample 10 data)
print("\nSample DataFrame dengan Prediksi Kendaraan:")
print(df[['Umur', 'Status Pekerjaan', 'Preferensi Harga', 'Jenis Kendaraan Dipilih', 'Prediksi_Kendaraan']].head(10))

# Evaluasi akurasi prediksi
correct_predictions = (df['Jenis Kendaraan Dipilih'] == df['Prediksi_Kendaraan']).sum()
total_predictions = len(df)
accuracy = correct_predictions / total_predictions * 100

print(f"\nAkurasi prediksi: {correct_predictions}/{total_predictions} = {accuracy:.2f}%")

Dataset:
   Umur  Pendapatan Bulanan (ribu Rupiah)  Jarak Tempuh Harian (km)  \
0    30                              7164                        25   
1    34                             13233                        96   
2    52                             14215                        34   
3    67                             19633                        21   
4    26                             20816                        92   
5    28                             20176                        73   
6    22                             21958                        70   
7    58                             27719                        96   
8    35                             25378                        44   
9    47                             14031                        93   

    Status Pekerjaan Preferensi Harga Preferensi Kecepatan  \
0          Pensiunan            Mahal               Sedang   
1          Pensiunan            Mahal               Sedang   
2          Pensiunan   

In [3]:
import pandas as pd
import math

# Baca dataset
df = pd.read_csv('dataset_3.csv')

print("=== INFORMASI DATASET ===")
print(f"Jumlah data: {len(df)}")
print(f"Jumlah kolom: {len(df.columns)}")
print(f"Target variable: Jenis Kendaraan Dipilih")
print(f"Unique values in target: {df['Jenis Kendaraan Dipilih'].unique()}")
print(f"Distribusi target:")
print(df['Jenis Kendaraan Dipilih'].value_counts())
print()

# Fungsi untuk menghitung entropi
def calculate_entropy(column_name):
    unique_values = df[column_name].unique()
    total_samples = len(df)
    entropy = 0

    for value in unique_values:
        subset = df[df[column_name] == value]
        target_counts = subset['Jenis Kendaraan Dipilih'].value_counts()
        
        if len(subset) == 0:
            continue
            
        subset_entropy = 0
        for target_value in target_counts.index:
            p = target_counts[target_value] / len(subset)
            if p > 0:
                subset_entropy += -p * math.log2(p)
        
        entropy += (len(subset) / total_samples) * subset_entropy

    return entropy

# Hitung entropi untuk fitur utama
print("=== PERHITUNGAN ENTROPI ===")
features_to_analyze = ['Status Pekerjaan', 'Preferensi Harga', 'Preferensi Kecepatan', 'Preferensi Kapasitas']

for feature in features_to_analyze:
    entropy = calculate_entropy(feature)
    print(f"Entropi {feature}: {entropy:.3f}")

print()

# Contoh aturan keputusan sederhana
def simple_decision_rules(row):
    if row['Preferensi Harga'] == 'Murah':
        return 'Sepeda'
    elif row['Preferensi Harga'] == 'Mahal':
        return 'Mobil Listrik'
    else:  # Sedang
        return 'Mobil'

# Terapkan aturan dan evaluasi
df['Prediksi'] = df.apply(simple_decision_rules, axis=1)

# Evaluasi akurasi
correct = (df['Jenis Kendaraan Dipilih'] == df['Prediksi']).sum()
total = len(df)
accuracy = correct / total * 100

print("=== EVALUASI PREDIKSI ===")
print(f"Akurasi prediksi dengan aturan sederhana: {accuracy:.2f}%")
print(f"Benar: {correct}/{total}")

# Contoh prediksi
print("\n=== SAMPLE PREDIKSI ===")
sample = df[['Status Pekerjaan', 'Preferensi Harga', 'Jenis Kendaraan Dipilih', 'Prediksi']].head(10)
print(sample.to_string(index=False))

=== INFORMASI DATASET ===
Jumlah data: 15000
Jumlah kolom: 20
Target variable: Jenis Kendaraan Dipilih
Unique values in target: ['Mobil Listrik' 'Sepeda' 'Mobil' 'Sepeda Motor']
Distribusi target:
Jenis Kendaraan Dipilih
Mobil Listrik    4412
Sepeda           3663
Mobil            3491
Sepeda Motor     3434
Name: count, dtype: int64

=== PERHITUNGAN ENTROPI ===
Entropi Status Pekerjaan: 1.992
Entropi Preferensi Harga: 1.948
Entropi Preferensi Kecepatan: 1.985
Entropi Preferensi Kapasitas: 1.980

=== EVALUASI PREDIKSI ===
Akurasi prediksi dengan aturan sederhana: 34.93%
Benar: 5239/15000

=== SAMPLE PREDIKSI ===
 Status Pekerjaan Preferensi Harga Jenis Kendaraan Dipilih      Prediksi
        Pensiunan            Mahal           Mobil Listrik Mobil Listrik
        Pensiunan            Mahal                  Sepeda Mobil Listrik
        Pensiunan           Sedang                   Mobil         Mobil
       Wiraswasta            Murah           Mobil Listrik        Sepeda
       Wiraswast

In [4]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
import numpy as np

print("=== ANALISIS DECISION TREE ===")

# Encode categorical variables
label_encoders = {}
df_encoded = df.copy()

# Encode categorical columns
categorical_columns = ['Status Pekerjaan', 'Preferensi Harga', 'Preferensi Kecepatan', 
                      'Preferensi Kapasitas', 'Ketersediaan Pajak', 'Ketersediaan Parkir',
                      'Ketersediaan Bahan Bakar', 'Ketersediaan Teknologi', 'Ketersediaan Perawatan']

for col in categorical_columns:
    le = LabelEncoder()
    df_encoded[col + '_encoded'] = le.fit_transform(df_encoded[col])
    label_encoders[col] = le

# Prepare features and target
feature_columns = [col + '_encoded' for col in categorical_columns] + ['Umur', 'Pendapatan Bulanan (ribu Rupiah)', 'Jarak Tempuh Harian (km)']
X = df_encoded[feature_columns]
y = df_encoded['Jenis Kendaraan Dipilih']

# Split data
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Train decision tree
dt = DecisionTreeClassifier(max_depth=5, random_state=42)
dt.fit(X_train, y_train)

# Make predictions
y_pred = dt.predict(X_test)

# Calculate accuracy
accuracy = accuracy_score(y_test, y_pred)
print(f"Akurasi Decision Tree: {accuracy:.2%}")

# Feature importance
feature_importance = pd.DataFrame({
    'feature': feature_columns,
    'importance': dt.feature_importances_
}).sort_values('importance', ascending=False)

print("\n=== FEATURE IMPORTANCE ===")
print(feature_importance.head(10).to_string(index=False))

# Improved prediction rules based on analysis
def improved_decision_rules(row):
    # Rule 1: Based on income and job status
    if row['Pendapatan Bulanan (ribu Rupiah)'] > 25000:
        return 'Mobil Listrik'
    elif row['Status Pekerjaan'] == 'Pelajar/Mahasiswa' and row['Preferensi Harga'] == 'Murah':
        return 'Sepeda'
    elif row['Status Pekerjaan'] == 'Pegawai Negeri' and row['Preferensi Harga'] == 'Sedang':
        return 'Mobil'
    elif row['Preferensi Harga'] == 'Murah' and row['Umur'] < 30:
        return 'Sepeda Motor'
    else:
        return 'Sepeda Motor'

# Apply improved rules
df['Prediksi_Improved'] = df.apply(improved_decision_rules, axis=1)

# Evaluate improved accuracy
correct_improved = (df['Jenis Kendaraan Dipilih'] == df['Prediksi_Improved']).sum()
accuracy_improved = correct_improved / len(df) * 100

print(f"\n=== PERBANDINGAN AKURASI ===")
print(f"Aturan Sederhana: {accuracy:.2%}")
print(f"Aturan Improved: {accuracy_improved:.2f}%")
print(f"Decision Tree: {accuracy:.2%}")

=== ANALISIS DECISION TREE ===
Akurasi Decision Tree: 33.93%

=== FEATURE IMPORTANCE ===
                         feature  importance
Ketersediaan Bahan Bakar_encoded    0.543473
        Preferensi Harga_encoded    0.185179
    Preferensi Kapasitas_encoded    0.148837
    Preferensi Kecepatan_encoded    0.073358
                            Umur    0.014986
Pendapatan Bulanan (ribu Rupiah)    0.010164
      Ketersediaan Pajak_encoded    0.008607
        Jarak Tempuh Harian (km)    0.007628
        Status Pekerjaan_encoded    0.005927
     Ketersediaan Parkir_encoded    0.001842

=== PERBANDINGAN AKURASI ===
Aturan Sederhana: 33.93%
Aturan Improved: 24.54%
Decision Tree: 33.93%
