## **0. Giriş**

**Titanic: Machine Learning from Disaster**, Kaggle'daki veri bilimi yarışmalarından popüler olanlarındandır.

Bu notebook'da ise bu veri kümesi üzerinden, **Keşfedici Veri Analizi** ve **Özellik Mühendisliği** konularına odaklanan başlangıç ​​düzeyinde ama bütüncül bir çalışma gerçekleştirilecektir.

Titanik veri seti, ön işleme ihtiyaç duyan ve Titanik batarken yolcuların hayatta kalmasını etkileyen bazı gizli faktörlerin bulmunmasına ihtiyaç duyulan bir veri kümesidir. Dolayısıyla feature engineering ile keşfedilmeyi bekleyen bir çok gizli özellik vardır.

Bu notebook temelde **3** ana bölümden oluşur; **Keşfedici Veri Analizi**, **Özellik Mühendisliği** ve **Model**.



In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")

from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import StratifiedKFold

import string
import warnings
warnings.filterwarnings('ignore')

SEED = 42

In [None]:
#from google.colab import drive
#drive.mount('/content/drive')

In [None]:
#ROOT_DIR = "/content/drive/MyDrive/CASGEM-Egitim/Egitim-Part1/Day3-FeatureSelection/notebooks"
ROOT_DIR = "https://media.githubusercontent.com/media/yapay-ogrenme/casgem-eu-project-training-on-data-mining/main/PART1/Day3-FeatureSelection/notebooks"
DATASET_PATH = ROOT_DIR + "/datasets/"

* Eğitim setinde **891** satır ve test setinde **418** satır vardır
* Eğitim setinin **12** özelliği ve test setinin **11** özelliği vardır
* Eğitim setindeki ekstra bir özellik, hedef değişken olan `Survived` özelliğidir.

In [None]:
def concat_df(train_data, test_data):
    # Returns a concatenated df of training and test set
    return pd.concat([train_data, test_data], sort=True).reset_index(drop=True)

def divide_df(all_data):
    # Returns divided dfs of training and test set
    return all_data.loc[:890], all_data.loc[891:].drop(['Survived'], axis=1)

df_train = pd.read_csv(DATASET_PATH + '/titanic/train.csv')
df_test = pd.read_csv(DATASET_PATH + '/titanic/test.csv')
df_all = concat_df(df_train, df_test)

df_train.name = 'Training Set'
df_test.name = 'Test Set'
df_all.name = 'All Set' 

dfs = [df_train, df_test]

print('Number of Training Examples = {}'.format(df_train.shape[0]))
print('Number of Test Examples = {}\n'.format(df_test.shape[0]))
print('Training X Shape = {}'.format(df_train.shape))
print('Training y Shape = {}\n'.format(df_train['Survived'].shape[0]))
print('Test X Shape = {}'.format(df_test.shape))
print('Test y Shape = {}\n'.format(df_test.shape[0]))
print(df_train.columns)
print(df_test.columns)

## **1. Keşfedici Veri Analizi**

### **1.1 Genel Bakış**
* `PassengerId` satırın benzersiz kimliğidir ve hedef üzerinde herhangi bir etkisi yoktur
* `Survived`, tahmin etmeye çalıştığımız hedef değişkendir (**0** veya **1**):
     - **1 = Survived (Hayatta Kaldı)**
     - **0 = Not Survived (Hayatta Kalamadı)**
* `Pclass` (Yolcu Sınıfı), yolcunun sosyo-ekonomik durumudur ve **3** benzersiz değere (**1**, **2** or **3**): sahip kategorik bir sıralama özelliğidir.:
     - **1 = Upper Class (Üst Sınıf)**
     - **2 = Middle Class (Orta Sınıf)**
     - **3 = Alt Sınıf (Lower Class)**
* `Name` (İsim), `Sex`(Cinsiyet) ve `Age` (Yaş) açıklayıcıdır
* `SibSp` yolcuların kardeş ve eşlerinin toplam sayısıdır.
* `Parch`, yolcuların ebeveyn ve çocuklarının toplam sayısıdır.
* `Ticket`(Bilet) yolcunun bilet numarasıdır.
* `Fare` (Ücret) yolcu ücretidir
* `Cabin`(Kabin) yolcunun kabin numarasıdır.
* `Embarked` (Yüklendi), biniş limanıdır ve **3** benzersiz değere (**C**, **Q** veya **S**) sahip kategorik bir özelliktir:
     - **C = Cherbourg**
     - **Q = Queenstown**
     - **S = Southampton**

In [None]:
print(df_train.info())
df_train.sample(3)

In [None]:
print(df_test.info())
df_test.sample(3)

### **1.2 Eksik Değerler (Missing Values)**

Aşağıdan görüldüğü gibi, bazı sütunlarda eksik değerler var. display_missing işlevi, hem eğitim hem de test kümesindeki her sütundaki eksik değerlerin sayısını gösterir.

* Eğitim setinin `Age`, `Cabin` ve `Embarked` (Yaş, Kabin ve Biniş) sütunlarında eksik değerler var.

* Test setinde `Age`, `Cabin` ve `Fare` (Yaş, Kabin ve Ücret) sütunlarında eksik değerler var.

Eksik değerlerle uğraşırken birleştirilmiş eğitim ve test seti üzerinde çalışmak uygundur, aksi takdirde doldurulan veriler eğitim veya test seti örneklerinde overfit olabilir. `Age`, `Embarked` ve `Fare` (Yaş, Biniş ve Ücret) sütunlarındaki eksik değerlerin sayısı toplama kıyasla daha küçüktür, ancak `Cabin` sütununun (Kabin) kabaca **80%**'i eksiktir. `Age`, `Embarked` ve `Fare` (Yaş, Biniş ve Ücret) sütunlarındaki eksik değerler, tanımlayıcı istatistiksel ölçülerle doldurulabilir ancak bu, `Cabin` (Kabin) için işe yaramaz.


In [None]:
def display_missing(df):    
    for col in df.columns.tolist():          
        print('{} column missing values: {}'.format(col, df[col].isnull().sum()))
    print('\n')
    
for df in dfs:
    print('{}'.format(df.name))
    display_missing(df)

#### **1.2.1 Age (Yaş)**

`Age`(Yaş) sütunundaki eksik değerler ortanca (median) yaşla doldurulur, ancak tüm veri kümesinin ortanca yaşının kullanılması iyi bir seçim değildir. `Pclass` gruplarının medyan yaşı, `Age` **(0.408106)** ve `Survived` **(0.338481)** ile yüksek korelasyonu nedeniyle en iyi seçimdir. Ayrıca yaşları diğer özellikler yerine yolcu sınıflarına göre gruplandırmak daha mantıklı.


In [None]:
df_all_corr = df_all.corr().abs().unstack().sort_values(kind="quicksort", ascending=False).reset_index()
df_all_corr.rename(columns={"level_0": "Feature 1", "level_1": "Feature 2", 0: 'Correlation Coefficient'}, inplace=True)
df_all_corr[df_all_corr['Feature 1'] == 'Age']

Daha doğru olması için, eksik `Age`(Yaş) değerleri doldurulurken `groupby`ın ikinci seviyesi olarak `Sex` özelliği kullanılır. Aşağıdan görüldüğü gibi, `Pclass` ve `Sex` gruplarının farklı `Age` medyan değerleri vardır. Yolcu sınıfı arttığında hem erkek hem de kadınlar için ortanca yaş da artmaktadır. Bununla birlikte, dişiler erkeklerden biraz daha düşük medyan `Age`a sahip olma eğilimindedir. Aşağıdaki ortanca yaşlar, `Age` özelliğindeki eksik değerleri doldurmak için kullanılır.


In [None]:
age_by_pclass_sex = df_all.groupby(['Sex', 'Pclass']).median()['Age']

for pclass in range(1, 4):
    for sex in ['female', 'male']:
        print('Median age of Pclass {} {}s: {}'.format(pclass, sex, age_by_pclass_sex[sex][pclass]))
        
print('Median age of all passengers: {}'.format(df_all['Age'].median()))

# Filling the missing values in Age with the medians of Sex and Pclass groups
df_all['Age'] = df_all.groupby(['Sex', 'Pclass'])['Age'].apply(lambda x: x.fillna(x.median()))

#### **1.2.2 Embarked (Biniş)**

`Embarked` (Biniş) kategorik bir özelliktir ve tüm veri setinde yalnızca **2** eksik değer vardır. Bu yolcuların ikisi de kadın, üst sınıf ve aynı bilet numarasına sahip. Bu, birbirlerini tanıdıkları ve aynı limandan birlikte yola çıktıkları anlamına gelir. Üst sınıf bir kadın yolcu için `Embarked` modunun değeri **C (Cherbourg)**'dur, ancak bu onların o limandan bindikleri anlamına gelmez.


In [None]:
df_all[df_all['Embarked'].isnull()]

Google'da **Stone, Mrs. George Nelson (Martha Evelyn)**'i aradığımda, bu sayfada hizmetçisi **Amelie Icard** ile **S (Southampton)**'dan yola çıktığını gördüm [Martha Evelyn Stone: Titanic Survivor](https://www.encyclopedia-titanica.org/titanic-survivor/martha-evelyn-stone.html).

> *Mrs Stone, 10 Nisan 1912'de Southampton'da Titanik'e bindi ve hizmetçisi Amelie Icard ile birinci sınıfta seyahat ediyordu. B-28 kabinini işgal etti.*

`Embarked` bölümündeki eksik değerler bu bilgilerle **S** ile doldurulur.


In [None]:
# Filling the missing values in Embarked with S
df_all['Embarked'] = df_all['Embarked'].fillna('S')

#### **1.2.3 Fare (Ücret)**
`Fare`(Ücret) değeri eksik olan yalnızca bir yolcu var. Ücret'in aile büyüklüğü (`Parch` ve `SibSp`) ve `Pclass` özellikleri ile ilgili olduğunu varsayabiliriz. Üçüncü sınıf bileti olan ve ailesi olmayan bir erkeğin medyan `Fare` (Ücret) değeri, eksik değeri doldurmak için mantıklı bir seçimdir.


In [None]:
df_all[df_all['Fare'].isnull()]

In [None]:
med_fare = df_all.groupby(['Pclass', 'Parch', 'SibSp']).Fare.median()[3][0][0]
# Filling the missing value in Fare with the median Fare of 3rd class alone passenger
df_all['Fare'] = df_all['Fare'].fillna(med_fare)

#### **1.2.4 Cabin (Kabin)**
`Cabin` biraz zor ve daha fazla araştırmaya ihtiyacı olan bir özellik. `Cabin` özelliğinin büyük bir kısmı eksik ve bu özelliğin kendisi tamamen göz ardı edilemez çünkü bazı kabinlerin hayatta kalma oranları daha yüksek olabilir. `Cabin` değerlerinin ilk harfinin kabinlerin bulunduğu güverte olduğu biliniyor. Bu güverteler esas olarak bir yolcu sınıfı için ayrılmıştı, ancak bazıları birden fazla yolcu sınıfı tarafından da kullanılıyordu.
![alt text](https://vignette.wikia.nocookie.net/titanic/images/f/f9/Titanic_side_plan.png/revision/latest?cb=20180322183733)

* Tekne Güvertesinde **T, U, W, X, Y, Z** olarak etiketlenmiş **6** oda vardı ancak veri setinde sadece **T** kabini de mevcut
* **A**, **B** ve **C** güverteleri sadece 1. sınıf yolcular içindi
* **D** ve **E** desteleri tüm sınıflar içindi
* **F** ve **G** güverteleri hem 2. hem de 3. sınıf yolcular içindi
* **A**'dan **G**'ye giderken, hayatta kalma faktörü olabilecek merdivenlere olan mesafe artar


In [None]:
# Creating Deck column from the first letter of the Cabin column (M stands for Missing)
df_all['Deck'] = df_all['Cabin'].apply(lambda s: s[0] if pd.notnull(s) else 'M')

df_all_decks = df_all.groupby(['Deck', 'Pclass']).count().drop(columns=['Survived', 'Sex', 'Age', 'SibSp', 'Parch', 
                                                                        'Fare', 'Embarked', 'Cabin', 'PassengerId', 'Ticket']).rename(columns={'Name': 'Count'}).transpose()

def get_pclass_dist(df):
    
    # Creating a dictionary for every passenger class count in every deck
    deck_counts = {'A': {}, 'B': {}, 'C': {}, 'D': {}, 'E': {}, 'F': {}, 'G': {}, 'M': {}, 'T': {}}
    decks = df.columns.levels[0]    
    
    for deck in decks:
        for pclass in range(1, 4):
            try:
                count = df[deck][pclass][0]
                deck_counts[deck][pclass] = count 
            except KeyError:
                deck_counts[deck][pclass] = 0
                
    df_decks = pd.DataFrame(deck_counts)    
    deck_percentages = {}

    # Creating a dictionary for every passenger class percentage in every deck
    for col in df_decks.columns:
        deck_percentages[col] = [(count / df_decks[col].sum()) * 100 for count in df_decks[col]]
        
    return deck_counts, deck_percentages

def display_pclass_dist(percentages):
    
    df_percentages = pd.DataFrame(percentages).transpose()
    deck_names = ('A', 'B', 'C', 'D', 'E', 'F', 'G', 'M', 'T')
    bar_count = np.arange(len(deck_names))  
    bar_width = 0.85
    
    pclass1 = df_percentages[0]
    pclass2 = df_percentages[1]
    pclass3 = df_percentages[2]
    
    plt.figure(figsize=(20, 10))
    plt.bar(bar_count, pclass1, color='#b5ffb9', edgecolor='white', width=bar_width, label='Passenger Class 1')
    plt.bar(bar_count, pclass2, bottom=pclass1, color='#f9bc86', edgecolor='white', width=bar_width, label='Passenger Class 2')
    plt.bar(bar_count, pclass3, bottom=pclass1 + pclass2, color='#a3acff', edgecolor='white', width=bar_width, label='Passenger Class 3')

    plt.xlabel('Deck', size=15, labelpad=20)
    plt.ylabel('Passenger Class Percentage', size=15, labelpad=20)
    plt.xticks(bar_count, deck_names)    
    plt.tick_params(axis='x', labelsize=15)
    plt.tick_params(axis='y', labelsize=15)
    
    plt.legend(loc='upper left', bbox_to_anchor=(1, 1), prop={'size': 15})
    plt.title('Passenger Class Distribution in Decks', size=18, y=1.05)   
    
    plt.show()    

all_deck_count, all_deck_per = get_pclass_dist(df_all_decks)
display_pclass_dist(all_deck_per)

* **A**, **B** ve **C** güvertelerinin **%100**'ü 1. sınıf yolcudur
* Güverte **D**'nin **%87**'si 1. sınıf ve **%13**'ü 2. sınıf yolculara aittir.
* Güverte **E**'nin **%83**'ü 1. sınıf, **%10**'u 2. sınıf ve **%7**'si 3. sınıf yolculara aittir.
* Güverte **F**'nin **%62**'i 2. sınıf ve **%38**'i 3. sınıf yolculara aittir.
* **G** güvertesinin %100**'ü 3. sınıf yolculardır.
* **T** kabininde tekne güvertesinde 1 kişi olup 1. sınıf yolcudur. **T** kabin yolcusu **A** güverte yolcularına en yakın benzerliğe sahip olduğundan **A** güvertesi ile gruplandırılmıştır.
* **M** olarak etiketlenen yolcular, `Cabin` özelliğinde eksik olan değerlerdir. Bu yolcuların gerçek `Deck`(Güverte)sini bulmanın mümkün değildir, bu yüzden **M**'yi güverte gibi kullanabiliriz.


In [None]:
# Passenger in the T deck is changed to A
idx = df_all[df_all['Deck'] == 'T'].index
df_all.loc[idx, 'Deck'] = 'A'

In [None]:
df_all_decks_survived = df_all.groupby(['Deck', 'Survived']).count().drop(columns=['Sex', 'Age', 'SibSp', 'Parch', 'Fare', 
                                                                                   'Embarked', 'Pclass', 'Cabin', 'PassengerId', 'Ticket']).rename(columns={'Name':'Count'}).transpose()

def get_survived_dist(df):
    
    # Creating a dictionary for every survival count in every deck
    surv_counts = {'A':{}, 'B':{}, 'C':{}, 'D':{}, 'E':{}, 'F':{}, 'G':{}, 'M':{}}
    decks = df.columns.levels[0]    

    for deck in decks:
        for survive in range(0, 2):
            surv_counts[deck][survive] = df[deck][survive][0]
            
    df_surv = pd.DataFrame(surv_counts)
    surv_percentages = {}

    for col in df_surv.columns:
        surv_percentages[col] = [(count / df_surv[col].sum()) * 100 for count in df_surv[col]]
        
    return surv_counts, surv_percentages

def display_surv_dist(percentages):
    
    df_survived_percentages = pd.DataFrame(percentages).transpose()
    deck_names = ('A', 'B', 'C', 'D', 'E', 'F', 'G', 'M')
    bar_count = np.arange(len(deck_names))  
    bar_width = 0.85    

    not_survived = df_survived_percentages[0]
    survived = df_survived_percentages[1]
    
    plt.figure(figsize=(20, 10))
    plt.bar(bar_count, not_survived, color='#b5ffb9', edgecolor='white', width=bar_width, label="Not Survived")
    plt.bar(bar_count, survived, bottom=not_survived, color='#f9bc86', edgecolor='white', width=bar_width, label="Survived")
 
    plt.xlabel('Deck', size=15, labelpad=20)
    plt.ylabel('Survival Percentage', size=15, labelpad=20)
    plt.xticks(bar_count, deck_names)    
    plt.tick_params(axis='x', labelsize=15)
    plt.tick_params(axis='y', labelsize=15)
    
    plt.legend(loc='upper left', bbox_to_anchor=(1, 1), prop={'size': 15})
    plt.title('Survival Percentage in Decks', size=18, y=1.05)
    
    plt.show()

all_surv_count, all_surv_per = get_survived_dist(df_all_decks_survived)
display_surv_dist(all_surv_per)

Daha önceden öngördüğümüz gibi, her güvertenin farklı hayatta kalma oranları var ve bu bilgi atılamayacak kadar değerli.

Güverte **B**, **C**, **D** ve **E** en yüksek hayatta kalma oranlarına sahiptir. Bu güvertelerde çoğunlukla 1. sınıf yolcular bulunuyor. 

**M**, çoğunlukla 2. ve 3. sınıf yolcuların bulunduğu güvertedir ve en düşük hayatta kalma oranına sahiptir.

Sonuç olarak, 1. sınıf yolcuların kullandığı kabinler, 2. ve 3. sınıf yolcuların kullandığı kabinlere göre daha yüksek hayatta kalma oranlarına sahiptir.

Bana göre **M** (Eksik `Kabin` değerleri) olarak etiketlenmiş kişiler kabin verileri alınamadığı için en düşük hayatta kalma oranına sahip. Bu nedenle, bu grubu **M** olarak etiketlemenin, eksik verileri ele almanın makul bir yolu olduğuna inanıyoruz. Ortak özelliklere sahip benzersiz bir gruptur.

`Deck` (Güverte) özelliği şu anda yüksek kardinaliteye sahip olduğundan, bazı değerler benzerliklerine göre gruplandırılmıştır.

* **A**, **B** ve **C** güverteleri **ABC** olarak etiketlenmiştir çünkü hepsinde sadece 1. sınıf yolcu vardır **D** ve **E** güverteleri **DE** olarak etiketlenmiştir çünkü her ikisi de benzer yolcu sınıfı dağılımına ve aynı hayatta kalma oranına sahiptir. **F** ve **G** güverteleri yukarıdaki aynı nedenden dolayı **FG** olarak etiketlenmiştir. **M** güvertesi diğerlerinden çok farklı olduğu ve hayatta kalma oranı en düşük olduğu için diğer güvertelerle gruplandırılmasına gerek yoktur.



In [None]:
df_all['Deck'] = df_all['Deck'].replace(['A', 'B', 'C'], 'ABC')
df_all['Deck'] = df_all['Deck'].replace(['D', 'E'], 'DE')
df_all['Deck'] = df_all['Deck'].replace(['F', 'G'], 'FG')

df_all['Deck'].value_counts()

`Age`, `Embarked`, `Fare` ve `Deck` (Yaş,Biniş,Ücret ve Güverte) özelliklerindeki eksik değerler doldurulduktan sonra hem eğitim hem de test setinde eksik değer kalmaz. `Cabin` yerine `Deck` özelliği kullanıldığı için, `Cabin` özelliği atılır.


In [None]:
# Dropping the Cabin feature
df_all.drop(['Cabin'], inplace=True, axis=1)

df_train, df_test = divide_df(df_all)
dfs = [df_train, df_test]

for df in dfs:
    display_missing(df)

### **1.3 Hedef Dağılımı**
* **%38,38** (342/891) eğitim seti **Sınıf 1**
* **%61,62** (549/891) eğitim seti **Sınıf 0**


In [None]:
survived = df_train['Survived'].value_counts()[1]
not_survived = df_train['Survived'].value_counts()[0]
survived_per = survived / df_train.shape[0] * 100
not_survived_per = not_survived / df_train.shape[0] * 100

print('{} of {} passengers survived and it is the {:.2f}% of the training set.'.format(survived, df_train.shape[0], survived_per))
print('{} of {} passengers didnt survive and it is the {:.2f}% of the training set.'.format(not_survived, df_train.shape[0], not_survived_per))

plt.figure(figsize=(10, 8))
sns.countplot(df_train['Survived'])

plt.xlabel('Survival', size=15, labelpad=15)
plt.ylabel('Passenger Count', size=15, labelpad=15)
plt.xticks((0, 1), ['Not Survived ({0:.2f}%)'.format(not_survived_per), 'Survived ({0:.2f}%)'.format(survived_per)])
plt.tick_params(axis='x', labelsize=13)
plt.tick_params(axis='y', labelsize=13)

plt.title('Training Set Survival Distribution', size=15, y=1.05)

plt.show()

### **1.4 Korelasyon**

Özellikler birbirleriyle yüksek oranda ilişkilidir ve birbirlerine bağımlıdır. Özellikler arasındaki en yüksek korelasyon, eğitim setinde **0.549500** ve test setinde **0.577147**'dir ( `Fare` ve `Pclass`'(Ücret ve Pclass) arasında). Diğer özellikler de oldukça ilişkilidir. Eğitim setinde **9** ve test setinde **0,1**'den yüksek **6** korelasyon vardır.


In [None]:
df_train_corr = df_train.drop(['PassengerId'], axis=1).corr().abs().unstack().sort_values(kind="quicksort", ascending=False).reset_index()
df_train_corr.rename(columns={"level_0": "Feature 1", "level_1": "Feature 2", 0: 'Correlation Coefficient'}, inplace=True)
df_train_corr.drop(df_train_corr.iloc[1::2].index, inplace=True)
df_train_corr_nd = df_train_corr.drop(df_train_corr[df_train_corr['Correlation Coefficient'] == 1.0].index)

df_test_corr = df_test.corr().abs().unstack().sort_values(kind="quicksort", ascending=False).reset_index()
df_test_corr.rename(columns={"level_0": "Feature 1", "level_1": "Feature 2", 0: 'Correlation Coefficient'}, inplace=True)
df_test_corr.drop(df_test_corr.iloc[1::2].index, inplace=True)
df_test_corr_nd = df_test_corr.drop(df_test_corr[df_test_corr['Correlation Coefficient'] == 1.0].index)

In [None]:
# Training set high correlations
corr = df_train_corr_nd['Correlation Coefficient'] > 0.1
df_train_corr_nd[corr]

In [None]:
# Test set high correlations
corr = df_test_corr_nd['Correlation Coefficient'] > 0.1
df_test_corr_nd[corr]

In [None]:
fig, axs = plt.subplots(nrows=2, figsize=(20, 20))

sns.heatmap(df_train.drop(['PassengerId'], axis=1).corr(), ax=axs[0], annot=True, square=True, cmap='coolwarm', annot_kws={'size': 14})
sns.heatmap(df_test.drop(['PassengerId'], axis=1).corr(), ax=axs[1], annot=True, square=True, cmap='coolwarm', annot_kws={'size': 14})

for i in range(2):    
    axs[i].tick_params(axis='x', labelsize=14)
    axs[i].tick_params(axis='y', labelsize=14)
    
axs[0].set_title('Training Set Correlations', size=15)
axs[1].set_title('Test Set Correlations', size=15)

plt.show()

### **1.5 Özelliklerde Hedef Dağılımı**

#### **1.5.1 Continuous Features (Sürekli Özellikler)**

Sürekli özelliklerin her ikisi de (`Age` ve `Fare`(Yaş ve Ücret)), bir karar ağacının öğrenmesi için iyi bölünme noktalarına ve sivri uçlara sahiptir. Her iki özellik için olası bir sorun, dağılımın eğitim setinde daha fazla ani ve tümseklere sahip olması, ancak test setinde daha düzgün olmasıdır. Bu nedenle model test setine genelleme yapamayabilir.

* `Age`(Yaş) özelliğinin dağılımı, 15 yaşından küçük çocukların diğer yaş gruplarından herhangi birine göre daha yüksek bir hayatta kalma oranına sahip olduğunu açıkça göstermektedir.
* `Fare` özelliğinin dağılımında, dağıtım kuyruklarında hayatta kalma oranı daha yüksektir. Aşırı büyük aykırı değerler nedeniyle dağılım da pozitif çarpıklığa sahiptir.


In [None]:
cont_features = ['Age', 'Fare']
surv = df_train['Survived'] == 1

fig, axs = plt.subplots(ncols=2, nrows=2, figsize=(20, 20))
plt.subplots_adjust(right=1.5)

for i, feature in enumerate(cont_features):    
    # Distribution of survival in feature
    sns.distplot(df_train[~surv][feature], label='Not Survived', hist=True, color='#e74c3c', ax=axs[0][i])
    sns.distplot(df_train[surv][feature], label='Survived', hist=True, color='#2ecc71', ax=axs[0][i])
    
    # Distribution of feature in dataset
    sns.distplot(df_train[feature], label='Training Set', hist=False, color='#e74c3c', ax=axs[1][i])
    sns.distplot(df_test[feature], label='Test Set', hist=False, color='#2ecc71', ax=axs[1][i])
    
    axs[0][i].set_xlabel('')
    axs[1][i].set_xlabel('')
    
    for j in range(2):        
        axs[i][j].tick_params(axis='x', labelsize=20)
        axs[i][j].tick_params(axis='y', labelsize=20)
    
    axs[0][i].legend(loc='upper right', prop={'size': 20})
    axs[1][i].legend(loc='upper right', prop={'size': 20})
    axs[0][i].set_title('Distribution of Survival in {}'.format(feature), size=20, y=1.05)

axs[1][0].set_title('Distribution of {} Feature'.format('Age'), size=20, y=1.05)
axs[1][1].set_title('Distribution of {} Feature'.format('Fare'), size=20, y=1.05)
        
plt.show()

#### **1.5.2 Categorical Features (Kategorik Özellikler)**

Her kategorik özellik, yüksek ölüm oranına sahip en az bir sınıfa sahiptir. Bu sınıflar, yolcunun hayatta kalan mı yoksa mağdur mu olduğunu tahmin etmek için çok faydalıdır. En iyi kategorik özellikler, en homojen dağılımlara sahip oldukları için `Pclass` ve `Sex`tir.

* **Southampton**'dan uçağa binen yolcular, diğer limanlardan farklı olarak daha düşük bir hayatta kalma oranına sahiptir. **Cherbourg**'dan kalkan yolcuların yarısından fazlası hayatta kaldı. Bu gözlem `Pclass` özelliği ile ilgili olabilir.
* `Parch` ve `SibSp` özellikleri, sadece bir aile üyesi olan yolcuların hayatta kalma oranının daha yüksek olduğunu gösteriyor


In [None]:
cat_features = ['Embarked', 'Parch', 'Pclass', 'Sex', 'SibSp', 'Deck']

fig, axs = plt.subplots(ncols=2, nrows=3, figsize=(20, 20))
plt.subplots_adjust(right=1.5, top=1.25)

for i, feature in enumerate(cat_features, 1):    
    plt.subplot(2, 3, i)
    sns.countplot(x=feature, hue='Survived', data=df_train)
    
    plt.xlabel('{}'.format(feature), size=20, labelpad=15)
    plt.ylabel('Passenger Count', size=20, labelpad=15)    
    plt.tick_params(axis='x', labelsize=20)
    plt.tick_params(axis='y', labelsize=20)
    
    plt.legend(['Not Survived', 'Survived'], loc='upper center', prop={'size': 18})
    plt.title('Count of Survival in {} Feature'.format(feature), size=20, y=1.05)

plt.show()

### **1.6 Sonuç**

Özelliklerin çoğu birbiriyle ilişkilidir. Bu ilişki, özellik dönüşümü ve özellik etkileşimi ile yeni özellikler oluşturmak için kullanılabilir. `Survived` özelliği ile yüksek korelasyonlar nedeniyle hedef kodlama da çok yararlı olabilir.

Bölünmüş noktalar ve sivri uçlar, sürekli özelliklerde görülebilir. Bir karar ağacı modeli ile kolayca yakalanabilirler, ancak doğrusal modeller onları tespit edemeyebilir.

Kategorik özellikler, farklı hayatta kalma oranları ile çok farklı dağılımlara sahiptir. Bu özellikler one-hot olarak kodlanabilir. Bu özelliklerden bazıları, yeni özellikler oluşturmak için birbirleriyle birleştirilebilir.

`Deck`(Güverte) adında yeni bir özellik oluşturuldu ve **Keşifsel Veri Analizi** bölümünde `Cabin` özelliği kaldırıldı.


In [None]:
df_all = concat_df(df_train, df_test)
df_all.head()

## **2. Feature Engineering (Özellik Mühendisliği)**

### **2.1 Binning Continuous Features**

#### **2.1.1 Fare (Ücret)**

`Fare` özelliği olumlu bir şekilde çarpıktır ve sağ uçta hayatta kalma oranı son derece yüksektir. `Fare` özelliği için **13** nicel tabanlı binler kullanılır. Binler çok fazla olmasına rağmen, yeterli miktarda bilgi kazancı sağlarlar. Grafiğin sol tarafındaki gruplar en düşük hayatta kalma oranına ve grafiğin sağ tarafındaki gruplar en yüksek hayatta kalma oranına sahiptir. Bu yüksek hayatta kalma oranı dağılım grafiğinde görünmüyordu. Ortada da bu süreçte yakalanan, hayatta kalma oranı yüksek, sıra dışı bir grup **(15.742, 23.25]** var.


In [None]:
df_all['Fare'] = pd.qcut(df_all['Fare'], 13)

In [None]:
fig, axs = plt.subplots(figsize=(22, 9))
sns.countplot(x='Fare', hue='Survived', data=df_all)

plt.xlabel('Fare', size=15, labelpad=20)
plt.ylabel('Passenger Count', size=15, labelpad=20)
plt.tick_params(axis='x', labelsize=10)
plt.tick_params(axis='y', labelsize=15)

plt.legend(['Not Survived', 'Survived'], loc='upper right', prop={'size': 15})
plt.title('Count of Survival in {} Feature'.format('Fare'), size=15, y=1.05)

plt.show()

#### **2.1.2 Age (Yaş)**
`Age` özelliği, bazı ani yükselmeler ve tümsekler ile normal bir dağılıma sahiptir ve `Age` için **10** nicel tabanlı kutular kullanılır. İlk kutu en yüksek hayatta kalma oranına ve 4. kutu en düşük hayatta kalma oranına sahiptir. Bunlar dağıtımdaki en büyük artışlardı. Bu süreçte yakalanan, yüksek hayatta kalma oranına sahip alışılmadık bir **(34.0, 40.0]** grubu da var.



In [None]:
df_all['Age'] = pd.qcut(df_all['Age'], 10)

In [None]:
fig, axs = plt.subplots(figsize=(22, 9))
sns.countplot(x='Age', hue='Survived', data=df_all)

plt.xlabel('Age', size=15, labelpad=20)
plt.ylabel('Passenger Count', size=15, labelpad=20)
plt.tick_params(axis='x', labelsize=15)
plt.tick_params(axis='y', labelsize=15)

plt.legend(['Not Survived', 'Survived'], loc='upper right', prop={'size': 15})
plt.title('Survival Counts in {} Feature'.format('Age'), size=15, y=1.05)

plt.show()

### **2.2 Frequency Encoding (Frekans Kodlama)**

`Family_Size`, `SibSp`, `Parch` and **1** eklenerek oluşturulur. `SibSp` kardeşlerin ve eşlerin sayısıdır ve `Parch` ebeveynlerin ve çocukların sayısıdır. Ailelerin toplam büyüklüğünü bulmak için bu sütunlar eklenir.

Sonuna **1** eklenmesi mevcut yolcudan dolayıdır. Grafikler, farklı değerlerin farklı hayatta kalma oranlarına sahip olması nedeniyle, aile boyutunun hayatta kalmanın bir göstergesi olduğunu açıkça göstermiştir.

* Aile Boyutu **1** ise **Alone** (Yalnız) olarak etiketlenmiştir.
* Aile Boyutu **2**, **3** ve **4** ise **Small** (Küçük) olarak etiketlenmiştir.
* Aile Büyüklüğü **5** ve **6** ise **Medium** (Orta) olarak etiketlenmiştir.
* Aile Boyu **7**, **8** ve **11** ise **Large** (Büyük) olarak etiketlenmiştir.


In [None]:
df_all['Family_Size'] = df_all['SibSp'] + df_all['Parch'] + 1

fig, axs = plt.subplots(figsize=(20, 20), ncols=2, nrows=2)
plt.subplots_adjust(right=1.5)

sns.barplot(x=df_all['Family_Size'].value_counts().index, y=df_all['Family_Size'].value_counts().values, ax=axs[0][0])
sns.countplot(x='Family_Size', hue='Survived', data=df_all, ax=axs[0][1])

axs[0][0].set_title('Family Size Feature Value Counts', size=20, y=1.05)
axs[0][1].set_title('Survival Counts in Family Size ', size=20, y=1.05)

family_map = {1: 'Alone', 2: 'Small', 3: 'Small', 4: 'Small', 5: 'Medium', 6: 'Medium', 7: 'Large', 8: 'Large', 11: 'Large'}
df_all['Family_Size_Grouped'] = df_all['Family_Size'].map(family_map)

sns.barplot(x=df_all['Family_Size_Grouped'].value_counts().index, y=df_all['Family_Size_Grouped'].value_counts().values, ax=axs[1][0])
sns.countplot(x='Family_Size_Grouped', hue='Survived', data=df_all, ax=axs[1][1])

axs[1][0].set_title('Family Size Feature Value Counts After Grouping', size=20, y=1.05)
axs[1][1].set_title('Survival Counts in Family Size After Grouping', size=20, y=1.05)

for i in range(2):
    axs[i][1].legend(['Not Survived', 'Survived'], loc='upper right', prop={'size': 20})
    for j in range(2):
        axs[i][j].tick_params(axis='x', labelsize=20)
        axs[i][j].tick_params(axis='y', labelsize=20)
        axs[i][j].set_xlabel('')
        axs[i][j].set_ylabel('')

plt.show()

Analiz edilecek çok fazla benzersiz `Ticket` değeri olduğundan, bunları frekanslarına göre gruplandırmak işleri kolaylaştırır.

**Bu özelliğin `Family_Size` dan farkı nedir?** Birçok yolcu gruplar halinde seyahat etti. Bu gruplar arkadaş, dadı, hizmetçi vb. kişilerden oluşur. Aileden sayılmazlar ama aynı bileti kullanırlardı.

**Biletleri neden öneklerine göre gruplandırmıyorsunuz?** Eğer `Ticket` özelliğindeki öneklerin bir anlamı varsa, o zaman zaten `Pclass` veya `Embarked` özelliklerinde yakalanmıştır çünkü bu, `Ticket` özelliğinden türetilebilecek tek mantıksal bilgi olabilir. .

Aşağıdaki grafiğe göre **2**,**3** ve **4** üyeli grupların hayatta kalma oranları daha yüksekti. Yalnız seyahat eden yolcular en düşük hayatta kalma oranına sahiptir. **4** grup üyesinden sonra hayatta kalma oranı önemli ölçüde azalır. Bu model, `Family_Size` özelliğine çok benzer, ancak küçük farklılıklar vardır. `Ticket_Frequency` değerleri `Family_Size` gibi gruplandırılmaz çünkü bu temelde aynı özelliği mükemmel bir korelasyonla yaratacaktır. Bu tür bir özellik herhangi bir ek bilgi kazancı sağlamayacaktır.


In [None]:
df_all['Ticket_Frequency'] = df_all.groupby('Ticket')['Ticket'].transform('count')

In [None]:
fig, axs = plt.subplots(figsize=(12, 9))
sns.countplot(x='Ticket_Frequency', hue='Survived', data=df_all)

plt.xlabel('Ticket Frequency', size=15, labelpad=20)
plt.ylabel('Passenger Count', size=15, labelpad=20)
plt.tick_params(axis='x', labelsize=15)
plt.tick_params(axis='y', labelsize=15)

plt.legend(['Not Survived', 'Survived'], loc='upper right', prop={'size': 15})
plt.title('Count of Survival in {} Feature'.format('Ticket Frequency'), size=15, y=1.05)

plt.show()

### **2.3 Title & Is Married (Ünvan ve Evlilik Durumu)**

`Title`, `Name` özelliğinden önceki önek çıkarılarak oluşturulur. Aşağıdaki grafiğe göre, çok az kez ortaya çıkan birçok ünvan (title) var. Bu başlıklardan bazıları doğru görünmüyor ve değiştirilmeleri gerekiyor. **Miss**, **Mrs**, **Ms**, **Mlle**, **Lady**, **Mme**, **the Countess**, **Dona** unvanları hepsi kadın olduğu için **Miss/Mrs/Ms** ile değiştirildi. **Mlle**, **Mme** ve **Dona** gibi değerler aslında yolcuların adıdır, ancak `Name` özelliği virgülle ayrıldığı için ünvan olarak sınıflandırılırlar. **Dr**, **Col**, **Major**, **Jonkheer**, **Capt**, **Sir**, **Don** ve **Rev** unvanları **Dr/Military/Noble/Clergy** ile değiştirilmiştir. Çünkü bu yolcular benzer özelliklere sahiptir. **Master** benzersiz bir unvandır. **26** yaşından küçük erkek yolculara verilir. Tüm erkekler arasında en yüksek hayatta kalma oranına sahiptirler.

`Is_Married`, **Mrs** ünvanına dayalı bir ikili özelliktir. **Mrs** unvanı, diğer kadın unvanları arasında en yüksek hayatta kalma oranına sahiptir. Bu ünvanın bir özellik olması gerekiyor çünkü tüm kadın ünvanlar birbiriyle gruplandırılıyor.


In [None]:
df_all['Title'] = df_all['Name'].str.split(', ', expand=True)[1].str.split('.', expand=True)[0]
df_all['Is_Married'] = 0
df_all['Is_Married'].loc[df_all['Title'] == 'Mrs'] = 1

In [None]:
fig, axs = plt.subplots(nrows=2, figsize=(20, 20))
sns.barplot(x=df_all['Title'].value_counts().index, y=df_all['Title'].value_counts().values, ax=axs[0])

axs[0].tick_params(axis='x', labelsize=10)
axs[1].tick_params(axis='x', labelsize=15)

for i in range(2):    
    axs[i].tick_params(axis='y', labelsize=15)

axs[0].set_title('Title Feature Value Counts', size=20, y=1.05)

df_all['Title'] = df_all['Title'].replace(['Miss', 'Mrs','Ms', 'Mlle', 'Lady', 'Mme', 'the Countess', 'Dona'], 'Miss/Mrs/Ms')
df_all['Title'] = df_all['Title'].replace(['Dr', 'Col', 'Major', 'Jonkheer', 'Capt', 'Sir', 'Don', 'Rev'], 'Dr/Military/Noble/Clergy')

sns.barplot(x=df_all['Title'].value_counts().index, y=df_all['Title'].value_counts().values, ax=axs[1])
axs[1].set_title('Title Feature Value Counts After Grouping', size=20, y=1.05)

plt.show()

### **2.4 Target Encoding (Hedef Kodlama)**
Yolcuların soyadlarını `Name` özelliğinden çıkarmak için `extract_surname` işlevi kullanılır. Çıkarılan soyadı ile `Family` özelliği oluşturulur. Bu, aynı ailedeki yolcuları gruplamak için gereklidir.


In [None]:
def extract_surname(data):    
    
    families = []
    
    for i in range(len(data)):        
        name = data.iloc[i]

        if '(' in name:
            name_no_bracket = name.split('(')[0] 
        else:
            name_no_bracket = name
            
        family = name_no_bracket.split(',')[0]
        title = name_no_bracket.split(',')[1].strip().split(' ')[0]
        
        for c in string.punctuation:
            family = family.replace(c, '').strip()
            
        families.append(family)
            
    return families

df_all['Family'] = extract_surname(df_all['Name'])
df_train = df_all.loc[:890]
df_test = df_all.loc[891:]
dfs = [df_train, df_test]

Test setinde `Survived` özelliği olmadığı için eğitim setindeki ailelerden `Family_Survival_Rate`(Aile_Hayatta Kalma_Oranı) hesaplanır. Hem eğitim hem de test setinde (`un_unique_families`) meydana gelen aile adlarının bir listesi oluşturulur. O listede 1'den fazla üyesi olan aileler için hayatta kalma oranı hesaplanır ve `Family_Survival_Rate` özelliğinde saklanır.

Test setine özgü aileler için ekstra bir ikili özellik `Family_Survival_Rate_NA` oluşturulur. Bu özellik aynı zamanda gereklidir çünkü bu ailelerin hayatta kalma oranlarını hesaplamanın bir yolu yoktur. Bu özellik, hayatta kalma oranlarını geri almanın bir yolu olmadığı için aile hayatta kalma oranının bu yolcular için geçerli olmadığını ima eder.

`Ticket_Survival_Rate` ve `Ticket_Survival_Rate_NA` özellikleri de aynı yöntemle oluşturulur. `Ticket_Survival_Rate` ve `Family_Survival_Rate` değerlerinin ortalaması alınır ve `Survival_Rate` olur ve `Ticket_Survival_Rate_NA` ve `Family_Survival_Rate_NA` nında ortalaması alınır ve `Survival_Rate_NA` olur.


In [None]:
# Creating a list of families and tickets that are occuring in both training and test set
non_unique_families = [x for x in df_train['Family'].unique() if x in df_test['Family'].unique()]
non_unique_tickets = [x for x in df_train['Ticket'].unique() if x in df_test['Ticket'].unique()]

df_family_survival_rate = df_train.groupby('Family')['Survived', 'Family','Family_Size'].median()
df_ticket_survival_rate = df_train.groupby('Ticket')['Survived', 'Ticket','Ticket_Frequency'].median()

family_rates = {}
ticket_rates = {}

for i in range(len(df_family_survival_rate)):
    # Checking a family exists in both training and test set, and has members more than 1
    if df_family_survival_rate.index[i] in non_unique_families and df_family_survival_rate.iloc[i, 1] > 1:
        family_rates[df_family_survival_rate.index[i]] = df_family_survival_rate.iloc[i, 0]

for i in range(len(df_ticket_survival_rate)):
    # Checking a ticket exists in both training and test set, and has members more than 1
    if df_ticket_survival_rate.index[i] in non_unique_tickets and df_ticket_survival_rate.iloc[i, 1] > 1:
        ticket_rates[df_ticket_survival_rate.index[i]] = df_ticket_survival_rate.iloc[i, 0]

In [None]:
mean_survival_rate = np.mean(df_train['Survived'])

train_family_survival_rate = []
train_family_survival_rate_NA = []
test_family_survival_rate = []
test_family_survival_rate_NA = []

for i in range(len(df_train)):
    if df_train['Family'][i] in family_rates:
        train_family_survival_rate.append(family_rates[df_train['Family'][i]])
        train_family_survival_rate_NA.append(1)
    else:
        train_family_survival_rate.append(mean_survival_rate)
        train_family_survival_rate_NA.append(0)
        
for i in range(len(df_test)):
    if df_test['Family'].iloc[i] in family_rates:
        test_family_survival_rate.append(family_rates[df_test['Family'].iloc[i]])
        test_family_survival_rate_NA.append(1)
    else:
        test_family_survival_rate.append(mean_survival_rate)
        test_family_survival_rate_NA.append(0)
        
df_train['Family_Survival_Rate'] = train_family_survival_rate
df_train['Family_Survival_Rate_NA'] = train_family_survival_rate_NA
df_test['Family_Survival_Rate'] = test_family_survival_rate
df_test['Family_Survival_Rate_NA'] = test_family_survival_rate_NA

train_ticket_survival_rate = []
train_ticket_survival_rate_NA = []
test_ticket_survival_rate = []
test_ticket_survival_rate_NA = []

for i in range(len(df_train)):
    if df_train['Ticket'][i] in ticket_rates:
        train_ticket_survival_rate.append(ticket_rates[df_train['Ticket'][i]])
        train_ticket_survival_rate_NA.append(1)
    else:
        train_ticket_survival_rate.append(mean_survival_rate)
        train_ticket_survival_rate_NA.append(0)
        
for i in range(len(df_test)):
    if df_test['Ticket'].iloc[i] in ticket_rates:
        test_ticket_survival_rate.append(ticket_rates[df_test['Ticket'].iloc[i]])
        test_ticket_survival_rate_NA.append(1)
    else:
        test_ticket_survival_rate.append(mean_survival_rate)
        test_ticket_survival_rate_NA.append(0)
        
df_train['Ticket_Survival_Rate'] = train_ticket_survival_rate
df_train['Ticket_Survival_Rate_NA'] = train_ticket_survival_rate_NA
df_test['Ticket_Survival_Rate'] = test_ticket_survival_rate
df_test['Ticket_Survival_Rate_NA'] = test_ticket_survival_rate_NA

In [None]:
for df in [df_train, df_test]:
    df['Survival_Rate'] = (df['Ticket_Survival_Rate'] + df['Family_Survival_Rate']) / 2
    df['Survival_Rate_NA'] = (df['Ticket_Survival_Rate_NA'] + df['Family_Survival_Rate_NA']) / 2    

### **2.5 Feature Transformation (Özellik Dönüşümü)**

#### **2.5.1 Sayısal Olmayan Özelliklerde Etiket Kodlama**
`Embarked`, `Sex`, `Deck` , `Title` ve `Family_Size_Grouped` nesne türüdür ve `Age` ve `Fare` özellikleri kategori türüdür. `LabelEncoder` ile sayısal türe dönüştürülürler. `LabelEncoder` temel olarak **0** ile **n** arasındaki sınıfları etiketler. Bu süreç, modellerin bu özelliklerden öğrenmesi için gereklidir.


In [None]:
non_numeric_features = ['Embarked', 'Sex', 'Deck', 'Title', 'Family_Size_Grouped', 'Age', 'Fare']

for df in dfs:
    for feature in non_numeric_features:        
        df[feature] = LabelEncoder().fit_transform(df[feature])

#### **2.5.2 One-Hot Encoding the Categorical Features (Kategorik Özellikleri One-Hot Kodlama)**

Kategorik özellikler (`Pclass`, `Sex`, `Deck`, `Embarked`, `Title`) `OneHotEncoder` ile one-hot kodlanmış özelliklere dönüştürülür. `Age` ve`Fare` özellikleri, öncekilerden farklı olarak sıralı oldukları için dönüştürülmez.


In [None]:
cat_features = ['Pclass', 'Sex', 'Deck', 'Embarked', 'Title', 'Family_Size_Grouped']
encoded_features = []

for df in dfs:
    for feature in cat_features:
        encoded_feat = OneHotEncoder().fit_transform(df[feature].values.reshape(-1, 1)).toarray()
        n = df[feature].nunique()
        cols = ['{}_{}'.format(feature, n) for n in range(1, n + 1)]
        encoded_df = pd.DataFrame(encoded_feat, columns=cols)
        encoded_df.index = df.index
        encoded_features.append(encoded_df)

df_train = pd.concat([df_train, *encoded_features[:6]], axis=1)
df_test = pd.concat([df_test, *encoded_features[6:]], axis=1)

### **2.6 Sonuç**
`Age` ve `Fare` özellikleri gruplandırılmıştır. Binning, aykırı değerlerle başa çıkmaya yardımcı oldu ve bu özelliklerde bazı homojen grupları ortaya çıkardı. `Family_Size`, `Parch` ve `SibSp` özellikleri ve **1** eklenerek oluşturulur. `Ticket_Frequency`, `Ticket` değerlerinin oluşumu sayılarak oluşturulur.

`Name` özelliği çok kullanışlıdır. İlk olarak, isimlerdeki başlık önekinden `Title` ve `Is_Married` özellikleri oluşturulur. İkinci olarak, yolcuların soyadını kodlayan hedef tarafından `Family_Survival_Rate` ve `Family_Survival_Rate_NA` özellikleri oluşturulur. `Ticket_Survival_Rate`, `Ticket` özelliğini kodlayan hedef tarafından oluşturulur. `Survival_Rate` özelliği, `Family_Survival_Rate` ve `Ticket_Survival_Rate` özelliklerinin ortalaması alınarak oluşturulur.

Son olarak, sayısal olmayan türdeki özellikler etiket kodludur ve kategorik özellikler tek sıcak kodludur. **5** yeni özellik (`Family_Size`, `Title`, `Is_Married`, `Survival_Rate` ve `Survival_Rate_NA`) oluşturuldu ve kodlamadan sonra gereksiz özellikler kaldırıldı.


In [None]:
df_all = concat_df(df_train, df_test)
drop_cols = ['Deck', 'Embarked', 'Family', 'Family_Size', 'Family_Size_Grouped', 'Survived',
             'Name', 'Parch', 'PassengerId', 'Pclass', 'Sex', 'SibSp', 'Ticket', 'Title',
            'Ticket_Survival_Rate', 'Family_Survival_Rate', 'Ticket_Survival_Rate_NA', 'Family_Survival_Rate_NA']

df_all.drop(columns=drop_cols, inplace=True)

df_all.head()

## **3. Model**

In [None]:
X_train = StandardScaler().fit_transform(df_train.drop(columns=drop_cols))
y_train = df_train['Survived'].values
X_test = StandardScaler().fit_transform(df_test.drop(columns=drop_cols))

print('X_train shape: {}'.format(X_train.shape))
print('y_train shape: {}'.format(y_train.shape))
print('X_test shape: {}'.format(X_test.shape))

### **3.1 Random Forest**

2 `RandomForestClassifier` oluşturuldu. Bunlardan biri tek model, diğeri ise k-fold cross validation içindir.

`single_best_model`in en yüksek doğruluğu, genel liderlik tablosunda **0.82775**'tir. Ancak, k-fold cross validation da daha iyi performans göstermez. Denemeye ve hiperparametre ayarlamaya başlamak için iyi bir modeldir.

`leaderboard_model`in en yüksek doğruluğu, 5-fold cross validation ile genel liderlik tablosunda **0.83732**'dir. Bu model skor tablosu puanı için oluşturulmuştur ve biraz fazla overfit şekilde ayarlanmıştır. Overfit olacak şekilde tasarlanmıştır, çünkü her folddaki "X_test"in tahmini olasılıkları **N**'ye (fold sayısı) bölünecektir. Bu model tek bir model olarak kullanılırsa çok sayıda örneği doğru tahmin etmek zor olacaktır.

**Hangi modeli kullanmalıyım?**
* `leaderboard_model` test setine overfit oluyor, bu nedenle gerçek hayattaki projelerde bu gibi modellerin kullanılması önerilmez.
* `single_best_model`, karar ağaçları hakkında denemeye ve öğrenmeye başlamak için iyi bir modeldir.


In [None]:
single_best_model = RandomForestClassifier(criterion='gini', 
                                           n_estimators=1100,
                                           max_depth=5,
                                           min_samples_split=4,
                                           min_samples_leaf=5,
                                           max_features='auto',
                                           oob_score=True,
                                           random_state=SEED,
                                           n_jobs=-1,
                                           verbose=1)

leaderboard_model = RandomForestClassifier(criterion='gini',
                                           n_estimators=1750,
                                           max_depth=7,
                                           min_samples_split=6,
                                           min_samples_leaf=6,
                                           max_features='auto',
                                           oob_score=True,
                                           random_state=SEED,
                                           n_jobs=-1,
                                           verbose=1) 

`StratifiedKFold`, hedef değişkeni katmanlaştırmak için kullanılır. Kıvrımlar, hedef değişkende (`Survived`) her sınıf için örneklem yüzdesi korunarak yapılır.


In [None]:
N = 5
oob = 0
probs = pd.DataFrame(np.zeros((len(X_test), N * 2)), columns=['Fold_{}_Prob_{}'.format(i, j) for i in range(1, N + 1) for j in range(2)])
importances = pd.DataFrame(np.zeros((X_train.shape[1], N)), columns=['Fold_{}'.format(i) for i in range(1, N + 1)], index=df_all.columns)
fprs, tprs, scores = [], [], []

skf = StratifiedKFold(n_splits=N, random_state=N, shuffle=True)

for fold, (trn_idx, val_idx) in enumerate(skf.split(X_train, y_train), 1):
    print('Fold {}\n'.format(fold))
    
    # Fitting the model
    leaderboard_model.fit(X_train[trn_idx], y_train[trn_idx])
    
    # Computing Train AUC score
    trn_fpr, trn_tpr, trn_thresholds = roc_curve(y_train[trn_idx], leaderboard_model.predict_proba(X_train[trn_idx])[:, 1])
    trn_auc_score = auc(trn_fpr, trn_tpr)
    # Computing Validation AUC score
    val_fpr, val_tpr, val_thresholds = roc_curve(y_train[val_idx], leaderboard_model.predict_proba(X_train[val_idx])[:, 1])
    val_auc_score = auc(val_fpr, val_tpr)  
      
    scores.append((trn_auc_score, val_auc_score))
    fprs.append(val_fpr)
    tprs.append(val_tpr)
    
    # X_test probabilities
    probs.loc[:, 'Fold_{}_Prob_0'.format(fold)] = leaderboard_model.predict_proba(X_test)[:, 0]
    probs.loc[:, 'Fold_{}_Prob_1'.format(fold)] = leaderboard_model.predict_proba(X_test)[:, 1]
    importances.iloc[:, fold - 1] = leaderboard_model.feature_importances_
        
    oob += leaderboard_model.oob_score_ / N
    print('Fold {} OOB Score: {}\n'.format(fold, leaderboard_model.oob_score_))   
    
print('Average OOB Score: {}'.format(oob))

### **3.2 Feature Importance (Özelliğin Önemi)**

In [None]:
importances['Mean_Importance'] = importances.mean(axis=1)
importances.sort_values(by='Mean_Importance', inplace=True, ascending=False)

plt.figure(figsize=(15, 20))
sns.barplot(x='Mean_Importance', y=importances.index, data=importances)

plt.xlabel('')
plt.tick_params(axis='x', labelsize=15)
plt.tick_params(axis='y', labelsize=15)
plt.title('Random Forest Classifier Mean Feature Importance Between Folds', size=15)

plt.show()

### **3.3 ROC Curve**

In [None]:
def plot_roc_curve(fprs, tprs):
    
    tprs_interp = []
    aucs = []
    mean_fpr = np.linspace(0, 1, 100)
    f, ax = plt.subplots(figsize=(15, 15))
    
    # Plotting ROC for each fold and computing AUC scores
    for i, (fpr, tpr) in enumerate(zip(fprs, tprs), 1):
        tprs_interp.append(np.interp(mean_fpr, fpr, tpr))
        tprs_interp[-1][0] = 0.0
        roc_auc = auc(fpr, tpr)
        aucs.append(roc_auc)
        ax.plot(fpr, tpr, lw=1, alpha=0.3, label='ROC Fold {} (AUC = {:.3f})'.format(i, roc_auc))
        
    # Plotting ROC for random guessing
    plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='r', alpha=0.8, label='Random Guessing')
    
    mean_tpr = np.mean(tprs_interp, axis=0)
    mean_tpr[-1] = 1.0
    mean_auc = auc(mean_fpr, mean_tpr)
    std_auc = np.std(aucs)
    
    # Plotting the mean ROC
    ax.plot(mean_fpr, mean_tpr, color='b', label='Mean ROC (AUC = {:.3f} $\pm$ {:.3f})'.format(mean_auc, std_auc), lw=2, alpha=0.8)
    
    # Plotting the standard deviation around the mean ROC Curve
    std_tpr = np.std(tprs_interp, axis=0)
    tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
    tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
    ax.fill_between(mean_fpr, tprs_lower, tprs_upper, color='grey', alpha=.2, label='$\pm$ 1 std. dev.')
    
    ax.set_xlabel('False Positive Rate', size=15, labelpad=20)
    ax.set_ylabel('True Positive Rate', size=15, labelpad=20)
    ax.tick_params(axis='x', labelsize=15)
    ax.tick_params(axis='y', labelsize=15)
    ax.set_xlim([-0.05, 1.05])
    ax.set_ylim([-0.05, 1.05])

    ax.set_title('ROC Curves of Folds', size=20, y=1.02)
    ax.legend(loc='lower right', prop={'size': 13})
    
    plt.show()

plot_roc_curve(fprs, tprs)