# Classification and Regression Trees (CART)

* Amaç veri seti içerisindeki karmaşık yapıları basit karar yapılarına dönüştürmektir.
* Heterojen veri setleri belirlenmiş bir hedef değişkene göre homojen alt gruplara ayrılır.

![Ekran Resmi 2023-09-05 20.09.37.png](attachment:adce1627-e03a-4748-80b7-586138d50da2.png)

In [1]:
# uyarılar gözükmesin diye
from warnings import filterwarnings
filterwarnings('ignore')

In [14]:
# bilgilerin gözükmesi için
from sklearn import set_config
set_config(print_changed_only=False)

# CART - Model & Tahmin

In [1]:
import pandas as pd
# veri setimizi import edelim
diabetes = pd.read_csv("diabetes.csv")

In [2]:
df = diabetes.copy()
df = df.dropna()
y = df["Outcome"]
X = df.drop(["Outcome"], axis=1)

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.30,
                                                   random_state=42)

In [4]:
from sklearn.tree import DecisionTreeClassifier

In [5]:
# modeli kuralım
cart = DecisionTreeClassifier()
cart_model = cart.fit(X_train, y_train)

In [6]:
!pip install skompiler



In [7]:
from skompiler import skompile
# karar kuralını çıkaralım
# tahmin fonksiyonunu çıkarsın ve python kodlarına dönüştürsün
print(skompile(cart_model.predict).to("python/code"))

((((((0 if x[6] <= 0.671999990940094 else 1 if x[6] <= 0.6974999904632568 else
    0) if x[5] <= 31.40000057220459 else ((0 if x[3] <= 40.5 else 1) if x[1
    ] <= 111.5 else ((0 if x[5] <= 32.59999942779541 else 1) if x[2] <= 
    65.0 else 0) if x[2] <= 72.0 else 1) if x[4] <= 9.0 else (0 if x[6] <= 
    0.6395000219345093 else 1 if x[6] <= 0.6759999990463257 else 0) if x[0] <=
    4.5 else 1 if x[2] <= 67.0 else 0) if x[5] <= 49.10000038146973 else 1) if
    x[1] <= 127.5 else 1 if x[2] <= 56.0 else (0 if x[7] <= 27.5 else 1 if 
    x[2] <= 69.5 else 0) if x[5] <= 30.300000190734863 else 1 if x[5] <= 
    32.000000953674316 else ((0 if x[5] <= 33.75 else 1) if x[0] <= 0.5 else
    1 if x[5] <= 32.45000076293945 else 0) if x[2] <= 85.0 else 1) if x[7] <=
    28.5 else (1 if x[7] <= 29.5 else (0 if x[1] <= 133.0 else (1 if x[0] <=
    6.5 else 0) if x[1] <= 135.0 else 0) if x[2] <= 94.0 else 0 if x[7] <= 
    44.0 else 1) if x[5] <= 26.949999809265137 else (1 if x[1] <= 28.5 else
    

In [8]:
# tahmini y test değerleri
y_pred = cart_model.predict(X_test)

In [10]:
from sklearn.metrics import accuracy_score
# doğruluk oranı
accuracy_score(y_test, y_pred)

0.7012987012987013

# CART - Model Tuning

In [13]:
cart_model

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, random_state=None,
                       splitter='best')

In [15]:
?cart_model

[0;31mType:[0m        DecisionTreeClassifier
[0;31mString form:[0m DecisionTreeClassifier()
[0;31mFile:[0m        /opt/anaconda3/lib/python3.9/site-packages/sklearn/tree/_classes.py
[0;31mDocstring:[0m  
A decision tree classifier.

Read more in the :ref:`User Guide <tree>`.

Parameters
----------
criterion : {"gini", "entropy"}, default="gini"
    The function to measure the quality of a split. Supported criteria are
    "gini" for the Gini impurity and "entropy" for the information gain.

splitter : {"best", "random"}, default="best"
    The strategy used to choose the split at each node. Supported
    strategies are "best" to choose the best split and "random" to choose
    the best random split.

max_depth : int, default=None
    The maximum depth of the tree. If None, then nodes are expanded until
    all leaves are pure or until all leaves contain less than
    min_samples_split samples.

min_samples_split : int or float, default=2
    The minimum number of samples requir

* min_samples_split: bölünme için gerekli olan min örnek sayısı
* min_samples_leaf: leaf node dediğimiz en son node'larda barındırılacak olan eleman sayısını ifade eder. ön tanımlı değeri 1'dir

In [16]:
cart_grid = {"max_depth": list(range(1,10)),
            "min_samples_split": list(range(2,50))}

bu iki argüman dallanma kontrolu sağlar. aşırı öğrenmeyi engeller ve rassallığı korur.

In [18]:
from sklearn import tree
cart = tree.DecisionTreeClassifier()

In [20]:
from sklearn.model_selection import GridSearchCV
cart_cv = GridSearchCV(cart, cart_grid, cv=10, n_jobs=-1, verbose=2)

In [21]:
cart_cv_model = cart_cv.fit(X_train, y_train)

Fitting 10 folds for each of 432 candidates, totalling 4320 fits
[CV] END ...................max_depth=1, min_samples_split=2; total time=   0.0s
[CV] END ...................max_depth=1, min_samples_split=3; total time=   0.0s
[CV] END ...................max_depth=1, min_samples_split=4; total time=   0.0s
[CV] END ...................max_depth=1, min_samples_split=4; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=10; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=10; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=11; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=11; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=11; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=11; total time=   0.0s
[CV] END ..................max_depth=1, min_samples_split=14; total time=   0.0s
[CV] END ..................max_depth=1, min_

In [23]:
print("En iyi parametreler: " + str(cart_cv_model.best_params_))

En iyi parametreler: {'max_depth': 5, 'min_samples_split': 19}


In [24]:
# bu parametreleri kullanarak final modelimizi oluşturalım
cart = tree.DecisionTreeClassifier(max_depth =5, min_samples_split =19)
# min_samples_split: bölünme için gereken örnek/gözlem sayısı

In [25]:
cart_tuned = cart.fit(X_train, y_train)

In [26]:
# y test tahmini değerleri
y_pred =cart_tuned.predict(X_test)

In [27]:
# doğruluk oranı
accuracy_score(y_test, y_pred)

0.7532467532467533

### Daha iyi anlaşılması için

In [1]:
import pandas as pd
# veri setimizi import edelim
diabetes = pd.read_csv("diabetes.csv")

In [2]:
df = diabetes.copy()
df = df.dropna()
y = df["Outcome"]
# X = df.drop(["Outcome"], axis=1)

In [4]:
y[:5]

0    1
1    0
2    1
3    0
4    1
Name: Outcome, dtype: int64

In [5]:
# daha iyi gözlem yapmak için 2 tane bağımsız değişken atadım.
X= df[["Pregnancies","Insulin"]]
# işlemin gerçekleşmesi içim DataFrame'e dönüştürdüm
X= pd.DataFrame(X)

In [6]:
X[:5]

Unnamed: 0,Pregnancies,Insulin
0,6,0
1,1,0
2,8,0
3,1,94
4,0,168


In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size=0.30,
                                                   random_state=42)

In [8]:
from sklearn.tree import DecisionTreeClassifier

In [9]:
# modeli kuralım
# daha iyi gözlemlemek için derinliği 2 yaptım
cart = DecisionTreeClassifier(max_depth=2)
# cart_model = cart.fit(X_train, y_train)
cart_model = cart.fit(X, y)

In [10]:
from skompiler import skompile
# karar kuralını çıkaralım
# tahmin fonksiyonunu çıkarsın ve python kodlarına dönüştürsün
print(skompile(cart_model.predict).to("python/code"))

((0 if x[1] <= 153.5 else 0) if x[0] <= 6.5 else 0 if x[1] <= 112.0 else 1)



In [15]:
# x yeni gelen değerdir
x = [1, 94]

In [16]:
# x'in diyabet hastası olup olmadığını tahmin edecek
((0 if x[1] <= 153.5 else 0) if x[0] <= 6.5 else 0 if x[1] <= 112.0 else 1)

0