## Дерево решений

Задание
1. Там, где написано "Ваш код", нужно реализовать метод или часть метода
2. Там, где написано "Что делает этот блок кода?", нужно разобраться в блоке кода и в комментарии написать, что он делает
3. Добиться, чтобы в пункте "Проверка скорости работы" Ваша реализация работала чуть быстрее, чем у дерева из sklearn (это возможно, так как мы реализуем только малую часть функциональности)
4. Добиться, чтобы в пункте "Проверка качества работы" Ваша реализация работала так же или качественнее, чем у дерева из sklearn
5. Применить реализованное дерево решений для задачи Titanic на kaggle. Применить для той же задачи дерево решений из sklearn. Применить кросс-валидацию для подбора параметров. Сравнить с результатами предыдущих моделей. Если результат улучшился - сделать сабмит. Написать отчет о результатах.

In [225]:
from time import time

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy import optimize
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier
from sklearn.base import BaseEstimator, ClassifierMixin

from sklearn.model_selection import KFold, cross_val_score, GridSearchCV

%matplotlib inline

In [230]:
class MyDecisionTreeClassifier(BaseEstimator, ClassifierMixin):
    NON_LEAF_TYPE = 0
    LEAF_TYPE = 1

    def __init__(self, min_samples_split=2,max_depth=None, sufficient_share=1.0, criterion='gini', max_features=None):
        self.tree = dict()
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.sufficient_share = sufficient_share
        self.num_class = -1
        self.criterion = criterion
        self.max_features = max_features
        if criterion == 'gini':
            self.G_function = self.__gini
        elif criterion == 'entropy':
            self.G_function = self.__entropy
        elif criterion == 'misclass':
            self.G_function = self.__misclass
        else:
            print('invalid criterion name')
            raise

        if max_features == 'sqrt':
            self.get_feature_ids = self.__get_feature_ids_sqrt
        elif max_features == 'log2':
            self.get_feature_ids = self.__get_feature_ids_log2
        elif max_features == None:
            self.get_feature_ids = self.__get_feature_ids_N
        else:
            print('invalid max_features name')
            raise
    @staticmethod
    def __gini( l_c, l_s, r_c, r_s):
        l_s = l_s.astype('float')
        r_s = r_s.astype('float')
        
        imp_left =(1 - ((l_c / r_c) ** 2).sum(axis=1)).reshape(-1,1)
        imp_right =(1 - ((r_c / r_s) ** 2).sum(axis=1)).reshape(-1,1) 
        
        total_s = l_s + r_s
        return imp_left * (l_s / total_s) + imp_right * (r_s / total_s)
    @staticmethod
    def __entropy( l_c, l_s, r_c, r_s):
        l_s = l_s.astype('float')
        r_s = r_s.astype('float')
        p_l = l_c / l_s
        p_r = r_c / r_s
        
        imp_left = (- np.nansum(p_l * np.log2(p_l),axis=1)).reshape(-1,1)
        imp_right = (- np.nansum(p_r * np.log2(p_r),axis=1)).reshape(-1,1)
        
        total_s = l_s + r_s
        return imp_left * (l_s / total_s) + imp_right * (r_s / total_s) 
    @staticmethod
    def __misclass(l_c, l_s, r_c, r_s):
        l_s = l_s.astype('float')
        r_s = r_s.astype('float')

        p_l = (l_c / l_s).max(axis=1)
        p_r = (r_c / r_s).max(axis=1)
        
        imp_left = (1 - p_l).reshape(-1,1)
        imp_right = (1 - p_r).reshape(-1,1)

        total_s = l_s + r_s

        #imp_left * (l_s / total_s) + imp_right * (r_s / total_s)
        return imp_left * (l_s / total_s) + imp_right * (r_s / total_s)

    def __get_feature_ids_sqrt(self, n_feature):
        feature_ids = range(n_feature)
        np.random.shuffle(feature_ids)
        max_features = max(1, int(np.sqrt(n_feature)))
        return feature_ids[:max_features]
        
    def __get_feature_ids_log2(self, n_feature):
        feature_ids = range(n_feature)
        np.random.shuffle(feature_ids)
        max_features = max(1, int(np.log2(n_feature)))
        return feature_ids[:max_features]

    def __get_feature_ids_N(self, n_feature):
        return list(range(n_feature))
    
    def __sort_samples(self, x, y):
        sorted_idx = x.argsort()
        return x[sorted_idx], y[sorted_idx]

    def __div_samples(self, x, y, feature_id, threshold):
        left_mask = x[:, feature_id] > threshold
        right_mask = ~left_mask
        return x[left_mask], x[right_mask], y[left_mask], y[right_mask]

    def __find_threshold(self, x, y):
        # Что делает этот блок кода?
        #Сортировка признака и таргета по возрастанию признака
        sorted_x, sorted_y = self.__sort_samples(x, y)
        #Количество уникальных классов таргета
        class_number = np.unique(y).shape[0]
        
        # Что делает этот блок кода?
        #Подготавливаем данные для разбиения. Учитываем ограничения на минимание количество сэмплов, необходимое для разграничения
        splitted_sorted_y = sorted_y[self.min_samples_split:-self.min_samples_split]
        #Определяем места, где меняется класс. Потом добавляем min_samples_split, чтобы сохранить исходные границы в первоначальном массиве
        r_border_ids = np.where(splitted_sorted_y[:-1] != splitted_sorted_y[1:])[0] + (self.min_samples_split + 1)
        
        #Если класс не меняет свои значения, то не делаем ничего
        if len(r_border_ids) == 0:
            return float('+inf'), None
        
        # Что делает этот блок кода?
        #считаем какое количество элементов в каждой подгруппе, где меняется признак
        eq_el_count = r_border_ids - np.append([self.min_samples_split], r_border_ids[:-1])
        #создаем массив-маску где количество строк - это количество мест в массиве, где меняется класс, а количество столбов - это количество классов
        one_hot_code = np.zeros((r_border_ids.shape[0], class_number))
        #ставим метки,показывающие, что  в этом месте, до того как класс поменялся, был этот класс. То есть, если при первом изменении класса до этого шел класс 0, то в one_hot_code[0][0] будет 1, а на one_hot_code[0][0] будет 0 
        one_hot_code[np.arange(r_border_ids.shape[0]), sorted_y[r_border_ids - 1]] = 1
        #с помощью ранее посчитннаго количество элементов класса до каждого смены класса, мы перемножаем два массива, в итоге получаем маску, которая показывает сколько элементов заданного класса было в каждой из мест-подгрупп смен классов
        class_increments = one_hot_code * eq_el_count.reshape(-1, 1)
        #чтобы учесть еще, что мы дополнительно резервировали место под min_samples_split, и там также стоят элементы класса, мы в 0 позиию маски также прибавляем количество элементов каждого из класса в min_samples_split в 
        class_increments[0] = class_increments[0] + np.bincount(sorted_y[:self.min_samples_split], minlength=class_number)
        
        # Что делает этот блок кода?
        #считает количество элементов каждого из класса кумулятивно при в каждой подгруппе смены класса. Значения считаются слева, то есть при каждой смены класса считает, сколько элементов класса было до
        l_class_count = np.cumsum(class_increments, axis=0)    
        #то же, только теперь считает сколько элементов класса было после
        r_class_count = np.bincount(y) - l_class_count
        #размеры подгрупп смен класса слева
        l_sizes = r_border_ids.reshape(l_class_count.shape[0], 1)
        #тоже только справа
        r_sizes = sorted_y.shape[0] - l_sizes

        # Что делает этот блок кода?
        # передает полученные разбиения функции, которая подсчитает меру разнородности для каждого из разбиений и вычисляем индекс для разбиения с наименьшим значением функции
        gs = self.G_function(l_class_count, l_sizes, r_class_count, r_sizes)
        idx = np.argmin(gs)

        # Что делает этот блок кода?
        left_el_id = l_sizes[idx][0]
        # возвращаем минимальное значение функции G_function и среднее значение признака на границе разбиения
        return gs[idx], (sorted_x[left_el_id-1] + sorted_x[left_el_id]) / 2.0
    
    def __make_leaf(self, top_label, prob):       
        return (
            self.LEAF_TYPE, 
            top_label,
            prob
        )
    
    def __make_non_leaf(self, feature_id, threshold):       
        return (
            self.NON_LEAF_TYPE, 
            feature_id,
            threshold
        )

    def __fit_node(self, x, y, node_id, depth, pred_f=-1):
        
        label, cnt = np.unique(y, return_counts=True)
        idx = np.argmax(cnt)
        top_label = label[idx]
        top_cnt = cnt[idx]
        prob = (cnt/cnt.sum())[idx]

        if depth == self.max_depth:
            self.tree[node_id] = self.__make_leaf( top_label, prob)
            return

        if len(y) < self.min_samples_split:
            self.tree[node_id] = self.__make_leaf(top_label, prob)
            return
        
        if len(np.unique(y)) == 1:
            self.tree[node_id] = self.__make_leaf(top_label, prob)
            return

        if top_cnt/len(y) >= self.sufficient_share:
            self.tree[node_id] = self.__make_leaf(top_label, prob)
            return
        
        n_samples, n_features = x.shape

        splits = []
        for f_id in self.get_feature_ids(n_features):
            gvalue, threshold = self.__find_threshold(x[:, f_id], y)

            if threshold is not None:
                splits.append((f_id, threshold, gvalue))
  
        if len(splits) == 0:
            self.tree[node_id] = self.__make_leaf(top_label, prob)
            return
        
        best_split = min(splits, key=lambda x: x[2])

        x_l, x_r, y_l, y_r = self.__div_samples(x, y, feature_id=best_split[0],threshold=best_split[1])
        
        if len(y_l) == 0 or len(y_r) == 0:
            self.tree[node_id] =  self.__make_leaf(top_label, prob)
            return

        self.tree[node_id] = self.__make_non_leaf(feature_id=best_split[0],threshold=best_split[1])

        self.__fit_node(x_l, y_l, 2*node_id+1, depth+1)
        self.__fit_node(x_r, y_r, 2*node_id+2, depth+1) 
        
    
    def fit(self, x, y=None):
        self.num_class = np.unique(y).size
        self.__fit_node(x, y, 0, 0) 

    def __predict_class(self, x, node_id):
        node = self.tree[node_id]

        if node[0] == self.__class__.NON_LEAF_TYPE:
            _, feature_id, threshold = node
            if x[feature_id] > threshold:
                return self.__predict_class(x, 2 * node_id + 1)
            else:
                return self.__predict_class(x, 2 * node_id + 2)
        else:
            return node[1]

    def __predict_probs(self, x, node_id):
        node = self.tree[node_id]
        
        if node[0] == self.__class__.NON_LEAF_TYPE:
            _, feature_id, threshold = node
            if x[feature_id] > threshold:
                return self.__predict_probs(x, 2 * node_id + 1)
            else:
                return self.__predict_probs(x, 2 * node_id + 2)
        else:
            return node[2]
        
    def predict(self, X, y=None):
        return np.array([self.__predict_class(x, 0) for x in X])
    
    def predict_probs(self, X):
        return np.array([self.__predict_probs(x, 0) for x in X])

    def fit_predict(self, x_train, y_train, predicted_x):
        self.fit(x_train, y_train)
        return self.predict(predicted_x)

In [94]:
df = pd.read_csv('./cs-training.csv', sep=',').dropna()
df.shape
df = df.iloc[:100000]


In [95]:
df.shape

(100000, 11)

In [96]:
x = df.as_matrix(columns=df.columns[1:])
y = df.as_matrix(columns=df.columns[:1])
y = y.reshape(y.shape[0])

  """Entry point for launching an IPython kernel.
  


In [84]:
my_clf = MyDecisionTreeClassifier(min_samples_split=2,criterion='misclass')
clf = DecisionTreeClassifier(min_samples_split=2)

## Проверка скорости работы

In [78]:
t1 = time()
my_clf.fit(x, y)
t2 = time()
print(t2 - t1)

t1 = time()
clf.fit(x, y)
t2 = time()
print(t2 - t1)

0.6999695301055908
1.1838865280151367


Проверка, используя другой критерий

In [99]:
my_clf = MyDecisionTreeClassifier(min_samples_split=2)
clf = DecisionTreeClassifier(min_samples_split=2)

In [100]:
t1 = time()
my_clf.fit(x, y)
t2 = time()
print(t2 - t1)

t1 = time()
clf.fit(x, y)
t2 = time()
print(t2 - t1)



0.591094970703125
0.9253332614898682


## Проверка качества работы

In [79]:
gkf = KFold(n_splits=5, shuffle=True)

In [80]:
for train, test in gkf.split(x, y):
    X_train, y_train = x[train], y[train]
    X_test, y_test = x[test], y[test]
    my_clf.fit(X_train, y_train)
    print(accuracy_score(y_pred=clf.predict(X_test), y_true=y_test))

1.0
0.9999584268728694
0.9999584268728694
1.0
1.0


In [81]:
for train, test in gkf.split(x, y):
    X_train, y_train = x[train], y[train]
    X_test, y_test = x[test], y[test]
    clf.fit(X_train, y_train)
    print(accuracy_score(y_pred=clf.predict(X_test), y_true=y_test))

0.8905795293922009
0.8903716637565477
0.8923671738588177
0.8907458219007234
0.8928615973059494


# Применить для задачи Titanic 

In [277]:
df_train = pd.read_csv('train.csv', index_col='PassengerId')
df_test = pd.read_csv('test.csv', index_col='PassengerId')

In [278]:
df_train.shape

(891, 11)

In [279]:
df_train.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [280]:
from sklearn.preprocessing import LabelEncoder

In [281]:
df_train['Age'].fillna(df_train['Age'].median(), inplace = True)
df_train['Fare'].fillna(df_train['Fare'].median(), inplace = True)
df_train['Embarked'].fillna(df_train['Embarked'].mode()[0], inplace = True)

le_em = LabelEncoder()
le_sex = LabelEncoder()
df_train['Embarked'] = le.fit_transform(df_train['Embarked'])
df_train['Sex'] = le_sex.fit_transform(df_train['Sex'])

df_train.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

In [282]:
df_test['Age'].fillna(df_test['Age'].median(), inplace = True)
df_test['Fare'].fillna(df_test['Fare'].median(), inplace = True)
df_test['Embarked'].fillna(df_test['Embarked'].mode()[0], inplace = True)


df_test['Embarked'] = le.transform(df_test['Embarked'])
df_test['Sex'] = le_sex.transform(df_test['Sex'])

df_test.drop(['Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

In [283]:
X = df_train.drop(['Survived'], axis=1).values
y = df_train['Survived'].values.ravel()

In [284]:
X.shape

(891, 7)

In [285]:
y.shape

(891,)

In [286]:
clf = DecisionTreeClassifier()
my_clf = MyDecisionTreeClassifier()

In [287]:
gkf = KFold(n_splits=7, shuffle=True, random_state=42)

In [288]:
scores = []
for train, test in gkf.split(X, y.reshape(-1,1)):
    X_train, y_train = x[train], y[train]
    X_test, y_test = x[test], y[test]

    my_clf.fit(X_train, y_train)
    scores.append(accuracy_score(y_pred=my_clf.predict(X_test), y_true=y_test))



In [289]:
np.mean(scores)

0.6162208239595051

In [290]:
scores = []
for train, test in gkf.split(X, y.reshape(-1,1)):
    X_train, y_train = x[train], y[train]
    X_test, y_test = x[test], y[test]

    clf.fit(X_train, y_train)
    scores.append(accuracy_score(y_pred=clf.predict(X_test), y_true=y_test))

In [291]:
np.mean(scores)

0.5319881889763779

Пока что,наша модель работает лучше

In [292]:
parameters = [
    {
        'min_samples_split': [4],
        'criterion': ['gini', 'entropy'],
        'max_depth': np.arange(2, 13)
    }, 
    {
        'min_samples_split': [6],
        'criterion': ['gini', 'entropy'],
        'max_depth': np.arange(2, 13)
    }, 
    {
        'min_samples_split': [8],
        'criterion': ['gini', 'entropy'],
        'max_depth': np.arange(2, 13)
    }, 
    {
        'min_samples_split': [10],
        'criterion': ['gini', 'entropy'],
        'max_depth': np.arange(2, 13)
    }, 
    {
        'min_samples_split': [12],
        'criterion': ['gini', 'entropy'],
        'max_depth': np.arange(2, 13)
    }
]

In [293]:
grid_search = GridSearchCV(MyDecisionTreeClassifier(), parameters, scoring='accuracy',  cv=gkf, n_jobs=-1, verbose=1, iid=False)



In [294]:
grid_search.fit(X, y)

Fitting 7 folds for each of 110 candidates, totalling 770 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done 484 tasks      | elapsed:    1.8s
[Parallel(n_jobs=-1)]: Done 770 out of 770 | elapsed:    2.9s finished


GridSearchCV(cv=KFold(n_splits=7, random_state=42, shuffle=True),
       error_score='raise-deprecating',
       estimator=MyDecisionTreeClassifier(criterion='gini', max_depth=None, max_features=None,
             min_samples_split=2, sufficient_share=1.0),
       fit_params=None, iid=False, n_jobs=-1,
       param_grid=[{'min_samples_split': [4], 'criterion': ['gini', 'entropy'], 'max_depth': array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])}, {'min_samples_split': [6], 'criterion': ['gini', 'entropy'], 'max_depth': array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])}, {'min_samples_split': [8], 'crit...'criterion': ['gini', 'entropy'], 'max_depth': array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring='accuracy', verbose=1)

In [295]:
print('Best score of my classifier:', grid_search.best_score_)
print('Best parameters of my classifier:\n', grid_search.best_params_)

Best score of my classifier: 0.6184705427446568
Best parameters of my classifier:
 {'criterion': 'gini', 'max_depth': 4, 'min_samples_split': 6}


In [296]:
grid_search_skl = GridSearchCV(DecisionTreeClassifier(), parameters, scoring='accuracy', cv=gkf, n_jobs=-1, verbose=1, iid=False)
grid_search_skl.fit(X, y)

Fitting 7 folds for each of 110 candidates, totalling 770 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 4 concurrent workers.
[Parallel(n_jobs=-1)]: Done 770 out of 770 | elapsed:    0.9s finished


GridSearchCV(cv=KFold(n_splits=7, random_state=42, shuffle=True),
       error_score='raise-deprecating',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best'),
       fit_params=None, iid=False, n_jobs=-1,
       param_grid=[{'min_samples_split': [4], 'criterion': ['gini', 'entropy'], 'max_depth': array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])}, {'min_samples_split': [6], 'criterion': ['gini', 'entropy'], 'max_depth': array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])}, {'min_samples_split': [8], 'crit...'criterion': ['gini', 'entropy'], 'max_depth': array([ 2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn

In [297]:
print('Best score of library classifier:', grid_search_skl.best_score_)
print('Best parameters of library classifier:\n', grid_search_skl.best_params_)

Best score of library classifier: 0.826033464566929
Best parameters of library classifier:
 {'criterion': 'entropy', 'max_depth': 9, 'min_samples_split': 10}


После перебора параметров, модель из библиотеки показала лучший результат.