In [1]:
import numpy as np
from keras.datasets import fashion_mnist
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [2]:
# Fashion MNIST veri kümesini yükledik
(x_train, y_train), (x_test, y_test) = fashion_mnist.load_data()

In [3]:
# Veri kümesini normalize etme
x_train = x_train.reshape((x_train.shape[0], -1)) / 255.0
x_test = x_test.reshape((x_test.shape[0], -1)) / 255.0

In [4]:
# Eğitim ve test setleri
x_train, x_val, y_train, y_val = train_test_split(x_train, y_train, test_size=0.2, random_state=42)


In [5]:
# Karar Ağacı modelini eğitme
def train_decision_tree(max_depth=None, min_samples_split=2):
    model = DecisionTreeClassifier(max_depth=max_depth, min_samples_split=min_samples_split, random_state=42)
    model.fit(x_train, y_train)
    return model

In [6]:
max_depth = 10 
min_samples_split = 2 
model = train_decision_tree(max_depth=max_depth, min_samples_split=min_samples_split)

In [7]:
# Model performansı
y_pred_train = model.predict(x_train)
y_pred_val = model.predict(x_val)
y_pred_test = model.predict(x_test)

accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_val = accuracy_score(y_val, y_pred_val)
accuracy_test = accuracy_score(y_test, y_pred_test)

print(f"Training Accuracy: {accuracy_train}")
print(f"Validation Accuracy: {accuracy_val}")
print(f"Test Accuracy: {accuracy_test}")

Training Accuracy: 0.8510833333333333
Validation Accuracy: 0.80575
Test Accuracy: 0.8011


max_depth (Maksimum Derinlik): Karar ağacının maksimum derinliğini belirten bir parametredir. Bir karar ağacı ne kadar derinse, daha karmaşık ilişkileri öğrenebilir, ancak aynı zamanda aşırı uyum (overfitting) riski de artar. Overfitting, modelin eğitim verilerine aşırı derecede uyması ve genelleme yeteneğini kaybetmesi durumudur.

min_samples_split (Minimum Örnek Bölme): Bir düğümü bölmeden önce en az kaç örneğin bulunması gerektiğini belirten bir parametredir. Bu değer küçükse, model daha fazla bölme yaparak eğitim verilerine daha fazla uyarlanabilir, ancak bu da overfitting riskini artırabilir. Bu parametre, modelin bölünmeleri ne kadar detaylı yapacağını kontrol eder.

Daha büyük bir max_depth veya daha küçük bir min_samples_split daha karmaşık bir model oluşturabilir, ancak aynı zamanda overfitting riskini artırabilir. Tersine, daha küçük bir max_depth veya daha büyük bir min_samples_split daha basit bir model oluşturabilir, ancak underfitting riskini artırabilir.

In [11]:
#daha büyük depth değeri ile modeli tekrar eğitme
max_depth = 15  
min_samples_split = 2  
model = train_decision_tree(max_depth=max_depth, min_samples_split=min_samples_split)

In [12]:
y_pred_train = model.predict(x_train)
y_pred_val = model.predict(x_val)
y_pred_test = model.predict(x_test)

accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_val = accuracy_score(y_val, y_pred_val)
accuracy_test = accuracy_score(y_test, y_pred_test)

print(f"Training Accuracy: {accuracy_train}")
print(f"Validation Accuracy: {accuracy_val}")
print(f"Test Accuracy: {accuracy_test}")

Training Accuracy: 0.9464791666666666
Validation Accuracy: 0.814
Test Accuracy: 0.8089


depth değerini 10'dan 15'e çıkarmak tüm accuracy değerlerini arttırdı, yani overfitting tehlikesi şimdilik yok. Biraz daha arttırarak değer değişimlerini gözlemleyebiliriz:

In [13]:
max_depth = 20  
min_samples_split = 2  
model = train_decision_tree(max_depth=max_depth, min_samples_split=min_samples_split)

In [14]:
y_pred_train = model.predict(x_train)
y_pred_val = model.predict(x_val)
y_pred_test = model.predict(x_test)

accuracy_train = accuracy_score(y_train, y_pred_train)
accuracy_val = accuracy_score(y_val, y_pred_val)
accuracy_test = accuracy_score(y_test, y_pred_test)

print(f"Training Accuracy: {accuracy_train}")
print(f"Validation Accuracy: {accuracy_val}")
print(f"Test Accuracy: {accuracy_test}")

Training Accuracy: 0.9858333333333333
Validation Accuracy: 0.8084166666666667
Test Accuracy: 0.7937


depth değerini 20 yaptıktan sonra trainin accuracy artmış olsa bile test ve validation accuracy değerleri azaldı. Yani overfitting problemleri ortaya çıkmaya başladı.