Nama : Yayan Kurniawan

# Mini Project: Decision Tree
Melihat proses parameterisasi model berpotensi untuk menghasilkan model Decision Tree yang lebih baik, Sunyi ingin mencoba mengembangkan model untuk kombinasi nilai parameter berikut.

max_depth : 24, 28, 32, 36

min_samples_split: 6, 7, 8, 9, 10



In [1]:
# Mengimpor library yang diperlukan
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split

# Mengatur tampilan jumlah kolom yang ditampilkan oleh pandas
pd.set_option('display.max_column', 20)

# Membaca dataset dari file Excel
df = pd.read_excel('https://storage.googleapis.com/dqlab-dataset/cth_churn_analysis_train.xlsx')

# Menghapus kolom yang tidak diperlukan dari dataset
df.drop('ID_Customer', axis=1, inplace=True)
df.drop('harga_per_bulan', axis=1, inplace=True)
df.drop('jumlah_harga_langganan', axis=1, inplace=True)

# Memisahkan label (target) dari dataset dan mengubahnya menjadi angka (Yes = 1, No = 0)
y = df.pop('churn').to_list()
y = [1 if label == 'Yes' else 0 for label in y]

# Melakukan encoding untuk fitur kategorikal
labelers = {}
column_categorical_non_binary = []

# Jika kolom kategorikal hanya memiliki 2 nilai unik, gunakan LabelEncoder
# Jika lebih dari 2 nilai unik, simpan namanya untuk diolah dengan one-hot encoding
for col in df.select_dtypes(include=['object']):
    if len(df[col].unique()) == 2:
        labelers[col] = LabelEncoder()
        df[col] = labelers[col].fit_transform(df[col])
    else:
        column_categorical_non_binary.append(col)

# Mengubah fitur kategorikal non-binary menjadi one-hot encoded
df = pd.get_dummies(df, columns=column_categorical_non_binary)

# Mengubah DataFrame menjadi array numpy
X = df.to_numpy()

# Membagi data menjadi data latih dan data uji (90% latih, 10% uji)
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.1, random_state=23)

# Mengimpor library untuk Decision Tree dan evaluasi akurasi
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# Mendefinisikan daftar nilai min_samples_split yang akan diuji
min_samples_split_search = [6, 7, 8, 9, 10]

# Mendefinisikan daftar nilai max_depth yang akan diuji
max_depth_search = [24, 28, 32, 36]

# Variabel untuk menyimpan skor tertinggi dan model terbaik
max_score = 0
best_model = None

# Melakukan pencarian kombinasi parameter terbaik
for ms in min_samples_split_search:
	for md in max_depth_search:
		# Inisialisasi model dengan parameter yang sedang diuji
		model = DecisionTreeClassifier(min_samples_split=ms, max_depth=md, random_state=57)

		# Melatih model pada data training
		model.fit(X_train,y_train)

		# Melakukan prediksi pada data uji
		y_pred = model.predict(X_test)

		# Menghitung akurasi model
		score = accuracy_score(y_test,y_pred)

		# Menyimpan model terbaik jika skor lebih tinggi dari sebelumnya
		if max_score < score:
			best_model = model
			max_score = score

# Menampilkan skor terbaik dan parameter dari model terbaik
print("Skor testing terbaik: ",max_score)
print("Parameter model: max_depth=",
      best_model.get_params()['max_depth'],
      ", min_samples_split=",
      best_model.get_params()['min_samples_split'])


Skor testing terbaik:  0.44
Parameter model: max_depth= 24 , min_samples_split= 6


# Mini Project : Random Forest
Dikarenakan masih penasaran terkait dengan akurasi dari model Random Forest yang dikembangkan Sunyi diam-diam ingin mencoba sekumpulan nilai parameter yang berbeda seperti pada bagian di bawah ini.

max_depth : 6, 8, 10, 12, 16

min_samples_split : 4, 5, 6, 7, 8

n_estimators : 20, 30, 40, 50, 60



In [2]:
# Mengimpor library untuk Random Forest
from sklearn.ensemble import RandomForestClassifier

# Menentukan nilai parameter yang akan diuji untuk masing-masing decision tree di dalam Random Forest
min_samples_split_search = [4, 5, 6, 7, 8]
max_depth_search = [6, 8, 10, 12, 16]

# Menentukan jumlah decision tree (n_estimators) yang akan diuji dalam model Random Forest
n_estimators_search = [20, 30, 40, 50, 60]

# Inisialisasi variabel untuk menyimpan model dan skor terbaik
max_score = 0
best_model = None

# Melakukan pencarian grid terhadap kombinasi terbaik dari parameter Random Forest
for ms in min_samples_split_search:
	for md in max_depth_search:
		for ne in n_estimators_search:
			model = RandomForestClassifier(n_estimators = ne, min_samples_split=ms, max_depth=md, random_state=57)
			model.fit(X_train,y_train)  # Melatih model dengan data latih
			y_pred = model.predict(X_test)  # Memprediksi data uji
			score = accuracy_score(y_test,y_pred)  # Menghitung skor akurasi
			if max_score < score:  # Menyimpan model terbaik jika akurasinya lebih tinggi
				best_model = model
				max_score = score

# Menampilkan hasil akurasi terbaik dan parameter-parameter dari model terbaik
print("Skor testing terbaik: ",max_score)
print("Parameter model: max_depth=",
      best_model.get_params()['max_depth'],
      ", min_samples_split=",
      best_model.get_params()['min_samples_split'],
      ", n_estimators=",
      best_model.get_params()['n_estimators']
      )

Skor testing terbaik:  0.54
Parameter model: max_depth= 12 , min_samples_split= 5 , n_estimators= 40
