CART(Classification and Regression Trees)

Sınıflandırma ve regresyon problemleri için kullanılan bir karar ağacı algoritmasıdır.

Amaç veriseti içindeki karmaşık yapıları basit karar yapılarına dönüştürmektir. Heterojen verisetleri belirlenmiş bir hedef değişkenine göre alt gruplara ayrılır.

Genellenebilirlik kaygısı yok ise kullanılabilir.

In [1]:
# "diabetes" verisetini yüklüyoruz.
import pandas as pd
import numpy as np
diabetes = pd.read_csv("diabetes.csv")
df = diabetes.copy()
df.head()

from warnings import filterwarnings
filterwarnings('ignore')

In [2]:
# Veriseti içindeki eksik verileri siliyoruz.
df = df.dropna()
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [3]:
# Verisetini tanımak için incelemeler yapıyoruz.

In [4]:
# Verisetindeki sayısal sütunlar için istatistiksel özet bilgilerini inceliyoruz.
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Pregnancies,768.0,3.845052,3.369578,0.0,1.0,3.0,6.0,17.0
Glucose,768.0,120.894531,31.972618,0.0,99.0,117.0,140.25,199.0
BloodPressure,768.0,69.105469,19.355807,0.0,62.0,72.0,80.0,122.0
SkinThickness,768.0,20.536458,15.952218,0.0,0.0,23.0,32.0,99.0
Insulin,768.0,79.799479,115.244002,0.0,0.0,30.5,127.25,846.0
BMI,768.0,31.992578,7.88416,0.0,27.3,32.0,36.6,67.1
DiabetesPedigreeFunction,768.0,0.471876,0.331329,0.078,0.24375,0.3725,0.62625,2.42
Age,768.0,33.240885,11.760232,21.0,24.0,29.0,41.0,81.0
Outcome,768.0,0.348958,0.476951,0.0,0.0,0.0,1.0,1.0


In [5]:
# Veriseti içinde eksik değer kalıp kalmadığını inceliyoruz.
df.isnull().sum()

Pregnancies                 0
Glucose                     0
BloodPressure               0
SkinThickness               0
Insulin                     0
BMI                         0
DiabetesPedigreeFunction    0
Age                         0
Outcome                     0
dtype: int64

In [6]:
# Verisetindeki bağımlı ve bağımsız değişkenleri belirliyoruz.
X = df.drop(["Outcome"], axis=1)
y = df["Outcome"]

In [7]:
from sklearn.model_selection import train_test_split

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 42)

In [9]:
# X_train ve X_test'ten DataFrame'ler oluşturuyoruz.
X_train = pd.DataFrame(X_train)
X_test = pd.DataFrame(X_test)

In [10]:
from sklearn.tree import DecisionTreeClassifier

In [11]:
# Modeli oluşturduk ve eğittik.
model = DecisionTreeClassifier()
cart_model = model.fit(X_train, y_train)

In [12]:
# Model üzerinde tahmin işlemini gerçekleştirdik.
y_train_pred = cart_model.predict(X_train)
y_test_pred = cart_model.predict(X_test)

In [13]:
from sklearn.metrics import accuracy_score

In [14]:
# Test Seti için "accuracy_score" değerini hesapladık.
accuracy_score_test = accuracy_score(y_test, y_test_pred)
print('Test Seti Doğruluk Oranı:', accuracy_score_test)

Test Seti Doğruluk Oranı: 0.70995670995671


Model Tuning

In [15]:
# Cross Validation (Çapraz Doğrulama) işlemini gerçekleştirmek için nesne oluşturuyoruz.
from sklearn.model_selection import GridSearchCV
cart_grid = {"max_depth": range(1,10),
            "min_samples_split" : list(range(2,50))}

In [16]:
# Cross Validation nesnesi oluşturduktan sonra modeli oluşturduk ve eğittik.
cart_cv_model = GridSearchCV(cart_model, cart_grid, cv = 10, n_jobs = -1, verbose = 2)
cart_cv_model = cart_cv_model.fit(X_train, y_train)

Fitting 10 folds for each of 432 candidates, totalling 4320 fits


In [17]:
# Model için en iyi parametreler aşağıdaki gibidir.
cart_cv_model.best_params_

{'max_depth': 5, 'min_samples_split': 19}

In [19]:
# Final Modelini kuruyoruz.
cart_tuned = DecisionTreeClassifier(max_depth = 5, min_samples_split = 19)
cart_tuned = cart_tuned.fit(X_train, y_train)

In [21]:
# Final modeli üzerinde tahmin işlemini gerçekleştirdik.
y_pred_test = cart_tuned.predict(X_test)

In [22]:
# Model tuning işleminden sonra "accuracy_score" değerini tekrar hesapladık.
accuracy_score_test = accuracy_score(y_test, y_pred_test)
print('Test Seti Doğruluk Oranı:', accuracy_score_test)

Test Seti Doğruluk Oranı: 0.7532467532467533
