# Karar Ağacı

Bu Kernel'de Python ve Titanic veri setini kullanan Karar Ağaçlarına bir göz atacağız. 

Buradaki en doğru Titanic hayatta kalma modeli olması amaçlanmamıştır.

Yapılacaklar:

- Karar Ağaçları ile Verilerden Öğrenmek
- Veri kümesi keşfi ve işleme
- Karar Ağaçları için ilgili özellikler
- Gini Impurity
- Çapraz doğrulama yardımıyla en iyi ağaç derinliğini bulmak
- Nihai modeli oluşturma ve görselleştirme

## Giriş

Makine Öğrenimi algoritmalarını uygularken, çözmeye çalıştığımız sorunu daima akılda tutmak çok önemlidir. 

Çoğu durumda, aradığınız en doğru ve sağlam model olabilir. Ancak bazen mevcut verilerden gerçekten içgörüler elde etmemiz gerekir ve bu durumlarda şeffaf, *Karar Ağaçları* gibi anlaşılması kolay modeller görevimizi büyük ölçüde basitleştirir.

Doğrudan bazı görevler için kullanılacak bir model oluşturmamız ve **yalnızca son sonuçlarını göstermemiz gerekiyorsa**, yeterince doğruysa bir tür "kara kutu" oluşturmayı gerçekten önemsemiyoruz (Örneğin: görüntü veya konuşma tanıma). Bu nedenle [*Derin Öğrenme*] [1] veya [*Topluluk Öğrenimi*] [2] (cf. [Anisotropik Çekirdek] [3]) gibi gelişmiş teknikler genellikle karmaşık görevler için kullanılır. 

Ancak KISS prensibini unutmamak gerekiyor! (Basit Tutun, Aptal Olun)! 

Her zaman karmaşıklık / doğruluk dengesini göz önünde bulundurun: karmaşık teknikler yalnızca önemli iyileştirmeler sağladıkları takdirde kullanılmalıdır. Daha basit modeller de fazla uyuma daha az eğilimlidir ve daha iyi genelleme eğilimindedir.

Ancak, **verilerden içgörü elde etmek** için Makine Öğrenimini kullanıyorsak, "kara kutu" modelleri neredeyse işe yaramaz ve daha basit, şeffaf tekniklere bağlı kalmak en iyisidir. 

Müşteri davranışını daha iyi anlamak isteyen bir süpermarket örneğini ele alalım: basit [*Apriori*] [4] algoritması, "takım elbise satın alan müşterilerin% 80'i kravat da satın aldı" gibi alakalı bilgileri hızlı bir şekilde sunabilir, böylece bir takım elbise satın alan müşterilere indirim sunarak kravat satışlarını artırılabilir. Elbette, karmaşık bir sınıflandırma algoritması, daha fazla özelliği hesaba katarak kravat satın alan müşterileri belirlemede daha başarılı olacaktır, ancak bu süpermarket için gerçekten yararlı mı?

*Karar Ağaçları* da verileri anlamamız gerektiğinde çok yardımcı olabilir. İyi bir örnek, elde edilen ağaçtaki her bir çiçek türünün özelliklerini öğrenebilseydik [sklearn belgeleri] [5] 'de yer alan Iris çiçeklerini sınıflandırmanın geleneksel problemidir. Şeffaflıkları ve nispeten düşük hesaplama maliyetleri göz önüne alındığında, *Karar Ağaçları*, diğer algoritmaları uygulamadan önce verilerinizi keşfetmek için de çok kullanışlıdır. Oluşturulan özelliklerin kalitesini kontrol etmek ve elde edilen ağacı görselleştirerek en alakalı olanları belirlemek için faydalıdırlar.

*Karar Ağaçlarının* ana dezavantajları, aşırı uyma eğilimleri, özellikler arasındaki ilişkileri kavrayamamaları ve açgözlü öğrenme algoritmalarının kullanılmasıdır. Bunları [*Rastgele Orman*] [6] 'da kullanmak bu sorunların bazılarının azaltılmasına yardımcı olur.

*Karar Ağaçları'na* ve bunların Makine Öğrenmesindeki yerlerine ilişkin bu kısa girişten sonra, bunları Titanik mücadelesine nasıl uygulayacağımızı görelim. İlk olarak, veri setini hazırlayacağız ve en alakalı özellikleri tartışacağız. Daha sonra aşırı uydurmayı önlemek için en iyi ağaç derinliğini bulacağız, son modeli oluşturacağız ve ortaya çıkan ağacın nasıl görselleştirileceğini açıklayacağız.

  [1]: https://en.wikipedia.org/wiki/Deep_learning
  [2]: https://en.wikipedia.org/wiki/Ensemble_learning
  [3]: https://www.kaggle.com/arthurtok/titanic/introduction-to-ensembling-stacking-in-python
  [4]: https://en.wikipedia.org/wiki/Apriori_algorithm
  [5]: http://scikit-learn.org/stable/modules/tree.html
  [6]: https://en.wikipedia.org/wiki/Random_forest

## Titanic veri kümesini hazırlama ##

Titanik mücadelesi için *test* veri setindeki bireylerin hayatta kalıp kalmadığını tahmin etmemiz gerekiyor. Ancak şu anki amacımız için, verilerin bize gemi enkazı hakkında ne söyleyebileceğini de bir *Sınıflandırma Ağacı* yardımıyla bulalım. Verileri yükleyelim ve kuş bakışı bir bakalım.

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day7-DecisionTree/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day7-DecisionTree/notebooks/"
DATASET_PATH = ROOT_DIR + "/datasets/titanic/"

In [None]:
# Imports needed for the script
import numpy as np
import pandas as pd
import re
import xgboost as xgb
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

import plotly.offline as py
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls

from sklearn import tree
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from IPython.display import Image as PImage
from subprocess import check_call
from PIL import Image, ImageDraw, ImageFont

# Loading the data
df_train = pd.read_csv(DATASET_PATH + 'train.csv')
df_test = pd.read_csv(DATASET_PATH + 'test.csv')

# Kolay erişim için test yolcu kimliklerimizi saklayın
PassengerId = df_test['PassengerId']

# Eğitim kümesine genel bakış
df_train.head(3)

Bu genel bakış sayesinde, veri setimizin bazı işlemlere ihtiyacı olduğunu görebiliriz. Survived sınıfı zaten ikili formattadır, bu nedenle ek formatlamaya gerek yoktur, ancak Ad, Bilet veya Kabin gibi özelliklerin çözmeye çalıştığımız soruna göre uyarlanması gerekir ve ayrıca mevcut olanı birleştirerek veya yeniden gruplandırarak bazı yeni özellikleri tasarlayabiliriz. Bu konuda zaten genişletilmiş çalışmalar var, bu yüzden sadece en iyi yaklaşımlardan birini kullanıyoruz.[1],[2],[3]


  [1]: https://www.kaggle.com/sinakhorami/titanic/titanic-best-working-classifier
  [2]: https://www.kaggle.com/arthurtok/titanic/introduction-to-ensembling-stacking-in-python
  [3]: https://www.kaggle.com/mrisdal/titanic/exploring-survival-on-the-titanic

In [None]:
# Daha sonra ilginç özellikleri araştırırken ihtiyaç duymamız ihtimaline karşı orijinal veri kümesini kopyalayın
# UYARI: Sadece referans vermek yerine veri çerçevesini gerçekten kopyalamaya dikkat edin
# "original_train = train", train değişkenine bir referans oluşturacak ('train'deki değişiklikler' original_train 'için geçerli olacaktır)
original_train = df_train.copy()# 'Copy ()' kullanılması, aynı değerlerle farklı bir nesne oluşturarak veri kümesini klonlamaya izin verir

full_data = [df_train, df_test]

# Titanik'te bir yolcunun kabini olup olmadığını söyleyen özellik
df_train['Has_Cabin'] = df_train["Cabin"].apply(lambda x: 0 if type(x) == float else 1)
df_test['Has_Cabin'] = df_test["Cabin"].apply(lambda x: 0 if type(x) == float else 1)

# SibSp ve Parch'ın bir kombinasyonu olarak FamilySize adlı yeni özellik oluşturun
for dataset in full_data:
    dataset['FamilySize'] = dataset['SibSp'] + dataset['Parch'] + 1
# Yeni özellik oluşturma FamilySize'dan yararlanılacak IsAlone
for dataset in full_data:
    dataset['IsAlone'] = 0
    dataset.loc[dataset['FamilySize'] == 1, 'IsAlone'] = 1
# Embarked sütunundaki tüm BOŞLUKLARI kaldırın
for dataset in full_data:
    dataset['Embarked'] = dataset['Embarked'].fillna('S')
# Fare sütunundaki tüm BOŞLUKLARI kaldırın
for dataset in full_data:
    dataset['Fare'] = dataset['Fare'].fillna(df_train['Fare'].median())

# Age sütunundaki tüm BOŞLUKLARI kaldırın
for dataset in full_data:
    age_avg = dataset['Age'].mean()
    age_std = dataset['Age'].std()
    age_null_count = dataset['Age'].isnull().sum()
    age_null_random_list = np.random.randint(age_avg - age_std, age_avg + age_std, size=age_null_count)
    # Next line has been improved to avoid warning
    dataset.loc[np.isnan(dataset['Age']), 'Age'] = age_null_random_list
    dataset['Age'] = dataset['Age'].astype(int)

# Yolcu isimlerinden başlıkları çıkarmak için işlevi tanımlayın
def get_title(name):
    title_search = re.search(' ([A-Za-z]+)\.', name)
   # Başlık varsa, çıkartın ve iade edin.
    if title_search:
        return title_search.group(1)
    return ""

for dataset in full_data:
    dataset['Title'] = dataset['Name'].apply(get_title)
    
# Tüm yaygın olmayan başlıkları tek bir gruplama "Rare" olarak gruplandırın
for dataset in full_data:
    dataset['Title'] = dataset['Title'].replace(['Lady', 'Countess','Capt', 'Col','Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Rare')

    dataset['Title'] = dataset['Title'].replace('Mlle', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Ms', 'Miss')
    dataset['Title'] = dataset['Title'].replace('Mme', 'Mrs')

for dataset in full_data:
    # Mapping Sex
    dataset['Sex'] = dataset['Sex'].map( {'female': 0, 'male': 1} ).astype(int)
    
    # Mapping titles
    title_mapping = {"Mr": 1, "Master": 2, "Mrs": 3, "Miss": 4, "Rare": 5}
    dataset['Title'] = dataset['Title'].map(title_mapping)
    dataset['Title'] = dataset['Title'].fillna(0)

    # Mapping Embarked
    dataset['Embarked'] = dataset['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)
    
    # Mapping Fare
    dataset.loc[ dataset['Fare'] <= 7.91, 'Fare'] 						        = 0
    dataset.loc[(dataset['Fare'] > 7.91) & (dataset['Fare'] <= 14.454), 'Fare'] = 1
    dataset.loc[(dataset['Fare'] > 14.454) & (dataset['Fare'] <= 31), 'Fare']   = 2
    dataset.loc[ dataset['Fare'] > 31, 'Fare'] 							        = 3
    dataset['Fare'] = dataset['Fare'].astype(int)
    
    # Mapping Age
    dataset.loc[ dataset['Age'] <= 16, 'Age'] 					       = 0
    dataset.loc[(dataset['Age'] > 16) & (dataset['Age'] <= 32), 'Age'] = 1
    dataset.loc[(dataset['Age'] > 32) & (dataset['Age'] <= 48), 'Age'] = 2
    dataset.loc[(dataset['Age'] > 48) & (dataset['Age'] <= 64), 'Age'] = 3
    dataset.loc[ dataset['Age'] > 64, 'Age'] ;

In [None]:
# Özellik seçimi: artık ilgili bilgileri içermeyen değişkenleri kaldırın
drop_elements = ['PassengerId', 'Name', 'Ticket', 'Cabin', 'SibSp']
df_train = df_train.drop(drop_elements, axis = 1)
df_test  = df_test.drop(drop_elements, axis = 1)

## İşlenmiş verileri görselleştirme ##

In [None]:
df_train.head(3)

Veri kümemiz, yalnızca sayısal değerler ve potansiyel olarak anlamlı özelliklerle artık eskisinden çok daha temiz. Şimdi veri setimizdeki tüm öznitelikler arasındaki Pearson Korelasyonunu çizerek değişkenlerimiz arasındaki ilişkiyi inceleyelim : [1]


  [1]: https://www.kaggle.com/arthurtok/titanic/introduction-to-ensembling-stacking-in-python

In [None]:
colormap = plt.cm.viridis
plt.figure(figsize=(12,12))
plt.title('Pearson Correlation of Features', y=1.05, size=15)
sns.heatmap(df_train.astype(float).corr(),linewidths=0.1,vmax=1.0, square=True, cmap=colormap, linecolor='white', annot=True)

Bu ısı haritası, ilk gözlem olarak çok kullanışlıdır çünkü her özelliğin tahmini değeri hakkında kolayca fikir edinebilirsiniz. 

Bu durumda, *Cinsiyet* ve *Başlık*, sınıfla (*Hayatta Kalan*) en yüksek korelasyonları (mutlak olarak) gösterir: Sırasıyla 0,54 ve 0,49. Ancak her ikisi arasındaki mutlak korelasyon da çok yüksektir (0.86, veri setimizdeki en yüksek değer), bu nedenle muhtemelen aynı bilgiyi taşıyorlar ve ikisini aynı model için girdi olarak kullanmak iyi bir fikir olmaz. Nihai karar ağacımızdaki ilk düğüm için bunlardan biri kullanılacak olan yüksek şanslar, bu yüzden önce bu özellikleri daha ayrıntılı inceleyelim ve karşılaştıralım.

*Title* VS *Sex*
-------

Özellikleri ve sınıfla olan ilişkilerini gruplayarak ve her grup için bazı temel istatistikleri hesaplayarak kolayca karşılaştırabilirsiniz. Aşağıdaki kod bunu tam olarak bir satırda yapar ve ikili bir sınıfla çalışırken her bir metriğin anlamını açıklar.

In [None]:
df_train[['Title', 'Survived']].groupby(['Title'], as_index=False).agg(['mean', 'count', 'sum'])

# "Survived" bir ikili sınıf (0 veya 1) olduğundan, Title özelliğine göre gruplandırılan bu ölçümler şunları temsil eder:
     # MEAN: hayatta kalma oranı
     # COUNT: toplam gözlem
     # SUM: hayatta kalan insanlar

# title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5} 

In [None]:
df_train[['Sex', 'Survived']].groupby(['Sex'], as_index=False).agg(['mean', 'count', 'sum'])

# Survived bir ikili özellik olduğundan, Sex özelliğine göre gruplandırılan bu ölçümler şunları temsil eder:
     # MEAN: hayatta kalma oranı
     # COUNT: toplam gözlem
     # SUM: hayatta kalan insanlar 
    
# sex_mapping = {{'female': 0, 'male': 1}} 

Veriler, genel olarak erkeklerden (% 18.89) daha az 'Mr' (% 15,67) hayatta kaldığını gösteriyor: * Bu nedenle, amacımız için *Title* özelliğinin *Sex* den daha yararlı görünüyor. Bunun nedeni, *Title*'ın çoğu durumda dolaylı olarak * Sex * hakkında bilgi içermesi olabilir. Bunu doğrulamak için, orijinal eğitim verilerinden yaptığımız kopyayı eşleştirmeler olmadan kullanabilir ve *Title* göre gruplanmış *Sex*  dağılımını kontrol edebiliriz.


In [None]:
# Her başlık için cinsiyet dağılımını kontrol etmek için 'orijinal_train' veri çerçevemizi kullanalım.
# Original_train veri kümesindeki değişiklikleri önlemek için tekrar copy () kullanıyoruz

title_and_sex = original_train.copy()[['Name', 'Sex']]

# Create 'Title' feature
title_and_sex['Title'] = title_and_sex['Name'].apply(get_title)

# Map 'Sex' as binary feature
title_and_sex['Sex'] = title_and_sex['Sex'].map( {'female': 0, 'male': 1} ).astype(int)

# Table with 'Sex' distribution grouped by 'Title'
title_and_sex[['Title', 'Sex']].groupby(['Title'], as_index=False).agg(['mean', 'count', 'sum'])

# Sex ikili bir özellik olduğundan, Title özelliğine göre gruplandırılan bu ölçümler şunları temsil eder:
    # MEAN: erkeklerin yüzdesi
    # COUNT: toplam gözlem
    # SUM: erkeklerin sayısı

Tek bir gözlem ('Dr' başlıklı bir kadın) haricinde, belirli bir Title için tüm gözlemlerin aynı Sex'i paylaştığını görüyoruz. Bu nedenle Title özelliği, Sex'te bulunan tüm bilgileri yakalar. Ek olarak, Title, bireylerin yaş, sosyal sınıf, kişilik, ... gibi diğer özelliklerini yakalayarak görevimiz için daha değerli olabilir.

Nadir başlıkları tek bir kategori altında toplayarak, Cinsiyet ile ilgili bazı bilgileri kaybettiğimiz doğrudur. "Nadir Erkek" ve "Nadir Kadın" olmak üzere iki kategori oluşturabiliriz, ancak "Rare" Başlıkların düşük olması nedeniyle bu ayrım neredeyse anlamsız olacaktır (% 2.6, 891 örnekten 23'ü).

Sex ve Title özelliklerinin bu derinlemesine analizi sayesinde, Sex özelliğinin Survived sınıfıyla korelasyonu daha yüksek olsa bile, Unvanın Sex bilgilerini taşıdığı için daha zengin bir özellik olduğunu ancak başka özellikler de eklediğini gördük. Bu nedenle, Title büyük olasılıkla son karar ağacımızdaki ilk özellik olacak ve bu ilk bölünmeden sonra Sex'i işe yaramaz hale getirecek.


## Gini Impurity ##

* Karar Ağaçları * ile çalışmaya başlamadan önce kısaca nasıl çalıştıklarını açıklayalım. Öğrenme algoritmalarının amacı her zaman ağacın her bir düğümü için en iyi bölünmeyi bulmaktır. Ancak belirli bir bölünmenin "iyiliğini" ölçmek öznel bir sorudur, bu nedenle pratikte bölünmeleri değerlendirmek için farklı ölçütler kullanılır. Yaygın olarak kullanılan bir ölçü [Information Gain] [1] 'dır. Diğer bir yaygın ölçü olan [Gini Impurity] [2] aletlerini kullanacağımız * sklearn * kitaplığı, şimdi bunu açıklayalım.

Gini Impurity, bir dizi öğenin bozukluğunu ölçer. Bir elemanın kümedeki tüm sınıfların dağılımına göre rastgele etiketlendiği varsayılarak bir elemanın yanlış etiketlenmesi olasılığı olarak hesaplanır. * Karar Ağaçları *, ortaya çıkan iki düğümde Gini İmpurity en çok azaltan ayrımı bulmaya çalışacaktır. Titanic örnek için şu şekilde hesaplanabilir.


  [1]: https://en.wikipedia.org/wiki/Information_gain_in_decision_trees
  [2]: https://en.wikipedia.org/wiki/Decision_tree_learning#Gini_impurity




In [None]:
# Define function to calculate Gini Impurity
def get_gini_impurity(survived_count, total_count):
    survival_prob = survived_count/total_count
    not_survival_prob = (1 - survival_prob)
    random_observation_survived_prob = survival_prob
    random_observation_not_survived_prob = (1 - random_observation_survived_prob)
    mislabelling_survided_prob = not_survival_prob * random_observation_survived_prob
    mislabelling_not_survided_prob = survival_prob * random_observation_not_survived_prob
    gini_impurity = mislabelling_survided_prob + mislabelling_not_survided_prob
    return gini_impurity

Örnek olarak * Sex * ve * Title * özelliklerimizi kullanalım ve her bir bölünmenin genel ağırlıklı Gini Impurity'i ne kadar azaltacağını hesaplayalım. İlk olarak, eğitim veri setimizdeki 891 gözlemin tamamını içeren başlangıç düğümünün Gini Impurity hesaplamamız gerekir. Yalnızca 342 gözlem hayatta kaldığından, hayatta kalma olasılığı yaklaşık% 38,38'dir (342/891).

In [None]:
# Gini Impurity of starting node
gini_impurity_starting_node = get_gini_impurity(342, 891)
gini_impurity_starting_node

Şimdi her iki bölünmeyi de simüle edeceğiz, ortaya çıkan düğümlerin safsızlığını hesaplayacağız ve ardından her bir bölünmenin aslında safsızlığı ne kadar azalttığını ölçmek için bölünmeden sonra ağırlıklı Gini Safsızlığını elde edeceğiz.

* Cinsiyete * göre ayrılırsak, aşağıdaki iki düğüme sahip oluruz:

  - Erkeklerle düğüm: Sadece 109'u hayatta kalan 577 gözlem
  - Kadınlarla düğüm: 233 hayatta kalan 314 gözlem

In [None]:
# 'Erkek' gözlemleri için düğümde Gini Impurity azalması
gini_impurity_men = get_gini_impurity(109, 577)
gini_impurity_men

In [None]:
# 'Kadın' gözlemleri için düğümde Gini Impurity azalması
gini_impurity_women = get_gini_impurity(233, 314)
gini_impurity_women

In [None]:
# Düğüm cinsiyete göre bölünürse Gini Impurity azalması
men_weight = 577/891
women_weight = 314/891
weighted_gini_impurity_sex_split = (gini_impurity_men * men_weight) + (gini_impurity_women * women_weight)

sex_gini_decrease = weighted_gini_impurity_sex_split - gini_impurity_starting_node
sex_gini_decrease

* Title * == 1 (== Mr) ile bölersek, aşağıdaki iki düğüme sahip oluruz:

  - Sadece Mr. olan düğüm: Sadece 81'i hayatta kalan 517 gözlem
  - Diğer başlıklara sahip düğüm: 261 hayatta kalan 374 gözlem

In [None]:
# Title == 1 == Mr ile gözlemler için düğümde Impurity azalması
gini_impurity_title_1 = get_gini_impurity(81, 517)
gini_impurity_title_1

In [None]:
# Title =! 1 =! Mr ile gözlemler için düğümde Impurity azalması
gini_impurity_title_others = get_gini_impurity(261, 374)
gini_impurity_title_others

In [None]:
# Düğüm Title == 1 == Mr ile gözlemler için bölünürse, Gini Impurity azalması
title_1_weight = 517/891
title_others_weight = 374/891
weighted_gini_impurity_title_split = (gini_impurity_title_1 * title_1_weight) + (gini_impurity_title_others * title_others_weight)

title_gini_decrease = weighted_gini_impurity_title_split - gini_impurity_starting_node
title_gini_decrease

Title özelliğinin Gini Impurity azaltmada Cinsiyetten biraz daha iyi olduğunu görüyoruz. Bu, önceki analizimizi doğruluyor ve artık Title'ın ilk bölünmede kullanılacağından eminiz. Bu nedenle, bilgiler Title özelliğine zaten dahil edildiği için cinsiyet ihmal edilecektir.

## Çapraz Doğrulama yardımıyla en iyi ağaç derinliğini bulma ##

Verileri keşfettikten sonra, çoğunun karar ağacımızla alakalı olabileceğini bulacağız. Bu, her Veri Bilimi projesi için kritik bir noktadır, çünkü çok fazla eğitim verisi kolaylıkla kötü model genellemesine neden olabilir (test / gerçek / görünmeyen gözlemlerde doğruluk). Aşırı uyum (eğitim verilerine aşırı derecede uyarlanmış bir model) yaygın bir nedendir. Diğer durumlarda, çok fazla veri, ya zamanla geliştikleri için ya da yüksek düzeyde ilişkili özellikler, modelin her birinin değerini düzgün bir şekilde yakalamasını engellediği için anlamlı ilişkileri de gizleyebilir.

Karar ağaçları söz konusu olduğunda, 'max_depth' parametresi, modelin her bir tahmin için kullanacağı maksimum öznitelik sayısını belirler (veri kümesindeki mevcut özelliklerin sayısına kadar). Bu parametre için en iyi değeri bulmanın iyi bir yolu, mümkün olan tüm derinlikleri yinelemek ve doğruluğu [Çapraz Doğrulama] [1] gibi sağlam bir yöntemle ölçmektir.

*Çapraz Doğrulama*, eğitim veri setini belirli sayıda "kat" a bölen bir model doğrulama tekniğidir. Her bölüm, eğitim ve test amacıyla farklı veriler kullanır ve modelin her seferinde farklı verilerle eğitilmesine ve test edilmesine olanak tanır. Bu, algoritmanın tüm kıvrımlarda mevcut tüm verilerle eğitilmesine ve test edilmesine izin vererek, herhangi bir bölünme önyargısından kaçınır ve seçilen modelin genelleştirilmesi hakkında iyi bir fikir verir. Ana dezavantajı, *Çapraz Doğrulamanın* modelin her kat için eğitilmesini gerektirmesidir, bu nedenle hesaplama maliyeti, karmaşık modeller veya büyük veri kümeleri için çok yüksek olabilir.


  [1]: https://en.wikipedia.org/wiki/Cross-validation_(statistics)


In [None]:
cv = KFold(n_splits=10)            # Desired number of Cross Validation folds
accuracies = list()
max_attributes = len(list(df_test))
depth_range = range(1, max_attributes + 1)

# 1'den maksimum özniteliğe maks_depthleri test etme
# Uncomment prints for details about each Cross Validation pass
for depth in depth_range:
    fold_accuracy = []
    tree_model = tree.DecisionTreeClassifier(max_depth = depth)
    # print("Current max depth: ", depth, "\n")
    for train_fold, valid_fold in cv.split(df_train):
        f_train = df_train.loc[train_fold] # Extract train data with cv indices
        f_valid = df_train.loc[valid_fold] # Extract valid data with cv indices

        model = tree_model.fit(X = f_train.drop(['Survived'], axis=1), 
                               y = f_train["Survived"]) # We fit the model with the fold train data
                               
        valid_acc = model.score(X = f_valid.drop(['Survived'], axis=1), 
                                y = f_valid["Survived"])# We calculate accuracy with the fold validation data
        fold_accuracy.append(valid_acc)

    avg = sum(fold_accuracy)/len(fold_accuracy)
    accuracies.append(avg)
    # print("Accuracy per fold: ", fold_accuracy, "\n")
    # print("Average accuracy: ", avg)
    # print("\n")
    
# Just to show results conveniently
df = pd.DataFrame({"Max Depth": depth_range, "Average Accuracy": accuracies})
df = df[["Max Depth", "Average Accuracy"]]
print(df.to_string(index=False))

Bu nedenle, en iyi maksimum derinlik parametresi 3 (10 kat boyunca% 82,8 ortalama doğruluk) gibi görünmektedir ve modeli daha fazla veri ile beslemek, muhtemelen aşırı uydurma nedeniyle en kötü sonuçlara yol açmaktadır. Bu nedenle, son modelimiz için max_depth parametresi olarak 3 kullanacağız.

## Final Tree ##

In [None]:
# Create Numpy arrays of train, test and target (Survived) dataframes to feed into our models
# Modellerimizi beslemek için Numpy dizileri oluşturalım: eğitim, test ve target (Survived) dataframes
y_train = df_train['Survived']
x_train = df_train.drop(['Survived'], axis=1).values 
x_test = df_test.values

# Create Decision Tree with max_depth = 3
decision_tree = tree.DecisionTreeClassifier(max_depth = 3)
decision_tree.fit(x_train, y_train)

# Predicting results for test dataset
y_pred = decision_tree.predict(x_test)
submission = pd.DataFrame({
        "PassengerId": PassengerId,
        "Survived": y_pred
    })
submission.to_csv('submission.csv', index=False)

# Export our trained model as a .dot file
with open("tree1.dot", 'w') as f:
     f = tree.export_graphviz(decision_tree,
                              out_file=f,
                              max_depth = 3,
                              impurity = True,
                              feature_names = list(df_train.drop(['Survived'], axis=1)),
                              class_names = ['Died', 'Survived'],
                              rounded = True,
                              filled= True )
        
#Convert .dot to .png to allow display in web notebook
check_call(['dot','-Tpng','tree1.dot','-o','tree1.png'])

# Annotating chart with PIL
img = Image.open("tree1.png")
draw = ImageDraw.Draw(img)
font = ImageFont.truetype('/usr/share/fonts/truetype/liberation/LiberationSerif-Bold.ttf', 26)
draw.text((10, 0), # Drawing offset (position)
          '"Title <= 1.5" corresponds to "Mr." title', # Text to draw
          (0,0,255), # RGB desired color
          font=font) # ImageFont object with desired font
img.save('sample-out.png')
PImage("sample-out.png")

# Code to check available fonts and respective paths
# import matplotlib.font_manager
# matplotlib.font_manager.findSystemFonts(fontpaths=None, fontext='ttf')

In [None]:
acc_decision_tree = round(decision_tree.score(x_train, y_train) * 100, 2)
acc_decision_tree

Nihayet Karar Ağacımız çizildi! Eğitim veri setinde % 82,38 doğruluk elde etti. Grafiğin nasıl okunacağını açıklamaya başlayalım.

Her düğümün ilk satırı (son satırdakiler hariç) bölme koşulunu "*feature* <= *value*" biçiminde gösterir.

Daha sonra, bu çekirdekte zaten açıklanmış olan düğümün Gini Impurtiy buluyoruz. "Samples", düğümde bulunan gözlemlerin sayısıdır.

"Value", örneklerin sınıf dağılımını gösterir ([count non_survived, count survived]).

Son olarak, "class", her düğümün baskın sınıfına karşılık gelir ve modelimiz bir gözlemi bu şekilde sınıflandırır. Renk aynı zamanda sınıfı temsil eder, opaklık numunelerin gerçek dağılımı ile artar.

Modelimiz bu nedenle 4 basit kuralla özetlenebilir:

* Gözlemimiz de "Mr" Title'ını içeriyorsa, onu hayatta kalmamış olarak sınıflandırırız (ağacın sol tarafındaki tüm dallar turuncu bir düğüme yol açar)
* "Mr." Title'ını içermiyorsa ve FamilySize 4 veya daha küçükse, o zaman hayatta kalmış olarak sınıflandırıyoruz.
* "Mr." Title'ını içermiyorsa, FamilySize 4'ten fazla ve Pclass 2 veya daha küçükse, o zaman hayatta kalan olarak sınıflandırıyoruz.
* "Mr" Title'ını içermiyorsa, FamilySize 4'ten büyükse ve Pclass 2'den fazlaysa, onu hayatta kalmamış olarak sınıflandırıyoruz.


Bu kurallar sayesinde gemi enkazı hakkında bazı içgörüler elde edebiliriz. Görünüşe göre "Baylar" unvanlarını onurlandırdılar ve "Usta" veya "Dr." gibi daha egzotik unvanlarla kadın ve erkekler lehine kendilerini feda ettiler. Ayrıca, daha küçük ailelerin hayatta kalma şanslarının daha yüksek olduğunu da not edebiliriz, çünkü daha büyük aileler bir arada kalmaya veya kayıp üyeleri aramaya çalıştıkları için cankurtaran sandallarında yer kalmamış olabilir. Son olarak, 3. sınıf yolcuların hayatta kalma şanslarının da daha az olduğunu gözlemleyebiliriz, bu nedenle muhtemelen üst sosyal sosyal sınıflara ait yolcular ayrıcalıklıydı veya sadece 3. sınıf kabinler cankurtaran botlarından daha uzakta olabilirdi.