## Дерево решений

Реализовать алгоритм дерева решений для бинарной классификации:

* заполнить отсутсвующие методы и реализовать простой вариант алгоритма с перебором всех признаков, всех вариантов разбиений
* Применить сортировку по признаку и делать расчеты только при изменении целевой переменной.
* реализовать и описать(!) список модификаций, которые могли бы ускорить работу дерева

В представленном ниже коде реализованы методы для выполнения предсказания вероятности и классов и для разделения выборки. По ним можно получить подсказки о возможном варианте хранения внутренней структуры дерева. Методы можно использовать, можно полностью изменить.

Проверку проделать на датасете Iris.

Ниже есть блоки кода для сравнения корректности и скорости работы с реализацией из sklearn.

Применить реализованное дерево решений для задачи Titanic на kaggle. Применить для той же задачи дерево решений из sklearn. Применить кросс-валидацию для подбора параметров. Сравнить с результатами предыдущих моделей (на кросс-валидации!). Если результат улучшился - сделать сабмит. Написать отчет о результатах.

Дополнительное задание (\*):
* реализовать разные критерии останова
* реализовать суррогатный сплит
* реализовать разбиение на любое количество узлов (параметр)


In [152]:
from time import time

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy import optimize
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier
from collections import Counter
import random
from scipy import stats

%matplotlib inline

In [46]:
class MyDecisionTreeClassifier:
    NON_LEAF_TYPE = 0
    LEAF_TYPE = 1

    def __init__(self,
                 min_samples_split=2,
                 max_depth=None,
                 sufficient_share=1.0,
                 criterion='gini',
                 max_features=None):
        self.tree = dict()
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.sufficient_share = sufficient_share
        self.num_class = -1
        if criterion == 'gini':
            self.G_function = self.__gini
        elif criterion == 'entropy':
            self.G_function = self.__entropy
        elif criterion == 'misclass':
            self.G_function = self.__misclass
        else:
            raise ValueError('invalid criterion name')

        if max_features == 'sqrt':
            self.get_feature_ids = self.__get_feature_ids_sqrt
        elif max_features == 'log2':
            self.get_feature_ids = self.__get_feature_ids_log2
        elif max_features == None:
            self.get_feature_ids = self.__get_feature_ids_N
        else:
            raise ValueError('invalid max_features name')

    def __gini(self, l_c, l_s, r_c, r_s):
        l_s = l_s.astype('float')
        r_s = r_s.astype('float')
        # 1. Мера неопределенности родительского узла
        i_p = self.__gini_p((l_c + r_c) / (l_s + r_s))
        # 2. Мера неопределенности левого дочернего узла
        i_l = self.__gini_p(l_c / l_s)
        # 3. Мера неопределенности правого дочернего узла
        i_r = self.__gini_p(r_c / r_s)
        return self.__impurity(i_p, i_l, i_r, l_s, r_s)
    
    def __entropy(self, l_c, l_s, r_c, r_s):
        l_s = l_s.astype('float')
        r_s = r_s.astype('float')
        # 1. Мера неопределенности родительского узла
        i_p = self.__entropy_p((l_c + r_c) / (l_s + r_s))
        # 2. Мера неопределенности левого дочернего узла
        i_l = self.__entropy_p(l_c / l_s)
        # 3. Мера неопределенности правого дочернего узла
        i_r = self.__entropy_p(r_c / r_s)
        return self.__impurity(i_p, i_l, i_r, l_s, r_s)

    def __misclass(self, l_c, l_s, r_c, r_s):
        l_s = l_s.astype('float')
        r_s = r_s.astype('float')
        # 1. Мера неопределенности родительского узла
        i_p = self.__misclass_p((l_c + r_c) / (l_s + r_s))
        # 2. Мера неопределенности левого дочернего узла
        i_l = self.__misclass_p(l_c / l_s)
        # 3. Мера неопределенности правого дочернего узла
        i_r = self.__misclass_p(r_c / r_s)
        return self.__impurity(i_p, i_l, i_r, l_s, r_s)

    def __get_feature_ids_sqrt(self, n_feature):
        feature_ids = range(n_feature)
        np.random.shuffle(feature_ids)
        max_features = max(1, int(np.sqrt(n_feature)))
        return feature_ids[:max_features]
        
    def __get_feature_ids_log2(self, n_feature):
        feature_ids = range(n_feature)
        np.random.shuffle(feature_ids)
        max_features = max(1, int(np.log2(n_feature)))
        return feature_ids[:max_features]

    def __get_feature_ids_N(self, n_feature):
        return range(n_feature)
    
    def __sort_samples(self, x, y):
        sorted_idx = x.argsort()
        return x[sorted_idx], y[sorted_idx]

    def __div_samples(self, x, y, feature_id, threshold):
        left_mask = x[:, feature_id] > threshold
        right_mask = ~left_mask
        return x[left_mask], x[right_mask], y[left_mask], y[right_mask]

    def __find_threshold(self, x, y):
        # Сортируем значения свойства по возрастанию и приводим к аналогичной последовательности целевые переменные.
        sorted_x, sorted_y = self.__sort_samples(x, y)
        # Количество меток класса.
        class_number = np.unique(y).shape[0]

        # Здесь, по всей видимости, мы обрезаем образцы с учетом параметра min_samples_split, для того, 
        # чтобы в середине осталось необходимое количество образцов размера min_samples_split. 
        # Хотя это немного странный подход, можно проверять min_samples_split заранее.
        # И еще интересный момент, если min_samples_split = 2, то такой код отрежет 4
        # элемента, т.е. остановит расщепление заранее если в узле 4 или 5 элементов.
        # Непонятно баг это или фича.
        splitted_sorted_y = sorted_y[self.min_samples_split:-self.min_samples_split]
        # Сравниваем каждый элемент с предыдущим, таким образом мы получаем информацию о том насколько неоднородная выборка,
        # это будет иметь влияния на вычисление меры неоднородности.
        r_border_ids = np.where(splitted_sorted_y[:-1] != splitted_sorted_y[1:])[0] + (self.min_samples_split + 1)
        
        # Если выборка однородная, то нет необходимости делать расщепление.
        if len(r_border_ids) == 0:
            return float('+inf'), None
        
        # Что происходит деталях объяснить не так легко, но судя по отладочной информации, 
        # основной смысл данного участка кода - сформировать различные варианты разбиения классов, 
        # на основе которых можно вычислить различные меры неоднородности и выбрать из них наиболее оптимальную.
        eq_el_count = r_border_ids - np.append([self.min_samples_split], r_border_ids[:-1])
        one_hot_code = np.zeros((r_border_ids.shape[0], class_number))
        one_hot_code[np.arange(r_border_ids.shape[0]), sorted_y[r_border_ids - 1]] = 1
        class_increments = one_hot_code * eq_el_count.reshape(-1, 1)
        class_increments[0] = class_increments[0] \
            + np.bincount(sorted_y[:self.min_samples_split], minlength=class_number)

        # Здесь создаются различные варианты разбиения классов по узлам дерева:
        # l_class_count - варианты разбиения для левого узла
        # r_class_count - варианты разбиения для правого узла
        # l_sizes - общее число образцов в левом узле
        # r_sizes - общее число образцов в правом узле
        l_class_count = np.cumsum(class_increments, axis=0)        
        r_class_count = np.bincount(y) - l_class_count
        l_sizes = r_border_ids.reshape(l_class_count.shape[0], 1)
        r_sizes = sorted_y.shape[0] - l_sizes

        # Вычисляем возможные меры неоднородности для всех вариантов разбиения классов.
        # Выбираем индекс наименьшей из них, как наиболее оптимальный. 
        gs = self.G_function(l_class_count, l_sizes, r_class_count, r_sizes)
        idx = np.argmin(gs)
    
        # По индексу лучшей неоднородности, определяем количество элементов в левом узле.
        # Возвращаем значение лучшей меры неоднородности и среднее значение элемента выборки 
        # (сам элемент и его сосед слева), который и будет являться тем самым параметром threshold, 
        # по которому будет определяться разделение выборки на правый и левый узлы.
        left_el_id = l_sizes[idx][0]
        return gs[idx], (sorted_x[left_el_id-1] + sorted_x[left_el_id]) / 2.0

    def __fit_node(self, x, y, node_id, depth, pred_f=-1):
        # Если узел содержит только образцы одного класса, то останавливаем расщепление.
        if np.unique(y).shape[0] == 1:
            self.tree[node_id] = (
                self.LEAF_TYPE,
                y[0],
                0,
                0,
                y,
                'Node contains only samples of one class',
            )
            return

        # Если доля образцов одного класса больше или равна необходимой доли для расщепления, то останавливаем расщепление.
        most_common_y = Counter(y).most_common(1).pop()
        if most_common_y[1] >= self.sufficient_share * y.shape[0]:
            self.tree[node_id] = (
                self.LEAF_TYPE,
                most_common_y[0],
                0,
                0,
                y,
                'Samples of one class is greater than or equal sufficient_share',
            )
            return

        # Если достигнута максимальная глубина дерева, то останавливаем расщепление.
        # Делаем предсказание по классу с наибольшим количеством образцов.
        if self.max_depth == depth:
            self.tree[node_id] = (
                self.LEAF_TYPE,
                most_common_y[0],
                0,
                0,
                y,
                'Maximum depth of the tree',
            )
            return

        # Если количество образцов меньше требуемого для разделения узла, то останавливаем расщепление.
        # Делаем предсказание по классу с наибольшим количеством образцов.
        if y.shape[0] < self.min_samples_split:
            self.tree[node_id] = (
                self.LEAF_TYPE,
                most_common_y[0],
                0,
                0,
                y,
                'Number of samples is less than min_samples_split',
            )
            return
        
        n_samples, n_features = x.shape
        split_data = []
        # Ищем признак по которому будем делать разбиение (который ведет к самому большому приросту информации).
        # Для этого необходимо вычислить для каждого признака меру неоднородности (impurity).
        # Чем ниже неоднородность, тем выше прирост информации.
        # Также здесь мы вычисляем порог (threshold), 
        # по которому будем определять идти в правый узел дерева или левый (т.к. дерево у нас бинарное).
        for feature_id in self.get_feature_ids(n_features):
            impurity, threshold = self.__find_threshold(x[:,feature_id], y)
            if threshold is not None:
                split_data.append((impurity, threshold, feature_id,))

        # Если недостаточно данных для разбиения, например, 
        # достигнут предел минимального количества образцов, то останавливаем расщепление.
        # Делаем предсказание по классу с наибольшим количеством образцов.
        if not split_data:
            self.tree[node_id] = (
                self.LEAF_TYPE,
                most_common_y[0],
                0,
                0,
                y,
                'Empty split data',
            )
            return

        best_split = min(split_data, key=lambda x: x[0])
            
        x_left, x_right, y_left, y_right = self.__div_samples(x, y, best_split[2], best_split[1])

        # Если после расщепления, какой либо узел оказался пустой, то значит, данный узел расщепить невозможно, 
        # поэтому он будет являться листом.
        # Делаем предсказание по классу с наибольшим количеством образцов.
        if y_left.shape[0] == 0 or y_right.shape[0] == 0:
            self.tree[node_id] = (
                self.LEAF_TYPE,
                most_common_y[0],
                0,
                0,
                y,
                'After splitting one of the nodes is empty',
            )
            return
        else:
            self.tree[node_id] = (self.NON_LEAF_TYPE, best_split[2], best_split[1], best_split[0], y, None)
            self.__fit_node(x_left, y_left, 2 * node_id + 1, depth + 1)
            self.__fit_node(x_right, y_right, 2 * node_id + 2, depth + 1)
    
    def fit(self, x, y):
        self.num_class = np.unique(y).size
        self.__fit_node(x, y, 0, 0) 

    def __predict_class(self, x, node_id):
        node = self.tree[node_id]
        if node[0] == self.__class__.NON_LEAF_TYPE:
            _, feature_id, threshold, *_ = node
            if x[feature_id] > threshold:
                return self.__predict_class(x, 2 * node_id + 1)
            else:
                return self.__predict_class(x, 2 * node_id + 2)
        else:
            return node[1]

    def __predict_probs(self, x, node_id):
        node = self.tree[node_id]
        if node[0] == self.__class__.NON_LEAF_TYPE:
            _, feature_id, threshold, *_ = node
            if x[feature_id] > threshold:
                return self.__predict_probs(x, 2 * node_id + 1)
            else:
                return self.__predict_probs(x, 2 * node_id + 2)
        else:
            # Изначально было node[2], похоже опечатка...
            return node[1]
        
    def predict(self, X):
        return np.array([self.__predict_class(x, 0) for x in X])
    
    def predict_probs(self, X):
        return np.array([self.__predict_probs(x, 0) for x in X])

    def fit_predict(self, x_train, y_train, predicted_x):
        self.fit(x_train, y_train)
        return self.predict(predicted_x)

    @staticmethod
    def __gini_p(p):
        return 1 - (p ** 2).sum(axis=1)

    @staticmethod
    def __entropy_p(p):
        return - np.nansum(p * np.log2(p), axis=1)

    @staticmethod
    def __misclass_p(p):   
        return 1 - p.max(axis=1)

    @staticmethod
    def __impurity(i_p, i_l, i_r, l_s, r_s):
        t_s = l_s + r_s
        return i_p - (np.squeeze(np.asarray(l_s / t_s)) * i_l) - (np.squeeze(np.asarray(r_s / t_s)) * i_r)

In [2]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [122]:
iris = load_iris()
X = iris.data # petal length and width
y = iris.target

In [29]:
X.shape

(100, 2)

In [30]:
y.shape

(100,)

In [47]:
my_clf = MyDecisionTreeClassifier(min_samples_split=2)
clf = DecisionTreeClassifier(min_samples_split=2)

## Проверка скорости работы

In [48]:
t1 = time()
my_clf.fit(X, y)
t2 = time()
print(t2 - t1)

t1 = time()
clf.fit(X, y)
t2 = time()
print(t2 - t1)

0.0042760372161865234
0.0007078647613525391


## Проверка качества работы

In [37]:
gkf = KFold(n_splits=5, shuffle=True)

In [49]:
for train, test in gkf.split(X, y):
    X_train, y_train = X[train], y[train]
    X_test, y_test = X[test], y[test]
    my_clf.fit(X_train, y_train)
    print(accuracy_score(y_pred=my_clf.predict(X_test), y_true=y_test))

0.9
0.75
0.85
0.95
0.85


In [41]:
for train, test in gkf.split(X, y):
    X_train, y_train = X[train], y[train]
    X_test, y_test = X[test], y[test]
    clf.fit(X_train, y_train)
    print(accuracy_score(y_pred=clf.predict(X_test), y_true=y_test))

0.95
1.0
0.95
0.95
0.95


## Тестирую Новый Алгоритм

In [585]:
iris = load_iris()

# Попробую пока что разобратся на бинарной классификации
X = iris.data # petal length and width
target = iris.target


## Итак посчитаем Энтропию на игрушечном примере

In [None]:
W = [1,1,1,0,0,0,0,0,0,0]

In [260]:
# Нам нужно получить разбиение нашей выборки по значению
splits = split(X[:, 2], target['y'], 4)
splits
# Предположим мы попали в такое разбиение! Они все будут перебиратся если что

(array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]),
 array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]))

In [261]:
# Энтропия всей выборки
f_entropy(target['y'])

0.6931471805599453

In [262]:
# "Энтропия левой части
f_entropy(splits[0])

0.4718902859406985

In [263]:
# "Энтропия правой части
f_entropy(splits[1])

0.0

In [264]:
information_gain(target['y'],splits)

0.4052941061361192

In [288]:
f_entropy(y)

0.6931471805599453

In [139]:
splits = split(X[:, 2], target['y'], 2)

In [269]:
gain = information_gain(target['y'], splits)
gain

0.4052941061361192

In [341]:
def f_entropy(p):
    # Convert values to probability
    p = np.bincount(p) / float(p.shape[0])

    ep = stats.entropy(p)
    if ep == -float('inf'):
        return 0.0
    return ep


def information_gain(y, splits):
    splits_entropy = sum([f_entropy(split) * (float(split.shape[0]) / y.shape[0]) for split in splits])
    return f_entropy(y) - splits_entropy


def split(X, y, value):
    left_mask = (X < value)
    right_mask = (X >= value)
    return y[left_mask], y[right_mask]

def find_splits(X):
        """Find all possible split values."""
        split_values = set()

        # Отбираем уникальные значения переменной
        x_unique = list(np.unique(X))
        
        for i in range(1, len(x_unique)):
            
            # Отбираем промежутки между этими переменныеми
            average = (x_unique[i - 1] + x_unique[i]) / 2.0
            split_values.add(average)

        return list(split_values)

def find_best_split(X, target, n_features):
        """Find best feature and value for a split. Greedy algorithm."""

        # Sample random subset of features
        # subset = random.sample(list(range(0, X.shape[1])), n_features)
        max_gain, max_col, max_val = None, None, None

        for column in subset:
            
            # Здесь мы ищем уникальные значения и возвращаем промежутки между ними
            split_values = find_splits(X[:, column])
            
            for value in split_values:
                    # Разделяем выборку по признаку и значению/ тоже самое и с целевой меткой
                    splits = split(X[:, column], target, value)
                    
                    # Считаем Прирост информации для этого разбиения
                    gain = information_gain(target, splits)
                
                    # условие останова по приросту информации
                    # Если новый gain больше предыдущего то мы продолжаем! искать, если нет то останаваливаемся
                    
                    if (max_gain is None) or (gain > max_gain):
                        
                        max_col, max_val, max_gain = column, value, gain
                        
                        
               # Возвращаем колонку значение и прирост информации     
        return max_col, max_val, max_gain

In [356]:
find_best_split(X,target,4)

(2, 2.45, 0.6931471805599453)

## Хорошо Я могу найти лучшее разбиение! Что дальше? Нужно сделать этот процесс рекурсивным и прописать правила образования листьев

## Коека рабочий вариант

In [835]:
class Tree(object):
    """Recursive implementation of decision tree."""

    def __init__(self,max_features=None, min_samples_split=2, max_depth=None):
        
        self.impurity = None
        self.threshold = None
        self.column_index = None
        self.outcome = None
        self.max_features = max_features
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        
        self.left_child = None
        self.right_child = None
        
        
         
       
        
    # Проверяем узел это или лист   
        
    @property
    def is_terminal(self):
        return not bool(self.left_child and self.right_child)    
        
        # Считаем энтропию

    def f_entropy(self,p):
        
        p = np.bincount(p) / float(p.shape[0])

        ep = stats.entropy(p)
        if ep == -float('inf'):
            return 0.0
        return ep

        # Выводим Прирост информации
        
    def information_gain(self, y, splits):
        splits_entropy = sum([self.f_entropy(split) * (float(split.shape[0]) / y.shape[0]) for split in splits])
        return self.f_entropy(y) - splits_entropy

        # Делаем сплит по  значению
        
    def split(self, X, y, value):
        left_mask = (X < value)
        right_mask = (X >= value)
        return y[left_mask], y[right_mask]
    
    
    def get_split_mask(self,X, column, value):
        left_mask = (X[:, column] < value)
        right_mask = (X[:, column] >= value)
        return left_mask, right_mask
    
    
    def split_dataset(self,X, target, column, value, return_X=True):
        
        left_mask, right_mask = self.get_split_mask(X, column, value)

        left, right = [], []
        
        left = target[left_mask]
        right = target[right_mask]

        if return_X:
            left_X, right_X = X[left_mask], X[right_mask]
            return left_X, right_X, left, right
        else:
            return left, right
    
    
    
        # Отбираем все промежуточные значения где можно сделать сплит
    def find_splits(self, X):
        """Find all possible split values."""
        split_values = set()
        x_unique = list(np.unique(X))
        
        for i in range(1, len(x_unique)):
            average = (x_unique[i - 1] + x_unique[i]) / 2.0
            split_values.add(average)

        return list(split_values)
    
    
    
    
        # Отбираем лучшее разбиение по приросту информации(Чем ближе к энтропии таргета тем лучше)
        
    def find_best_split(self,X, target, n_features):
        """Find best feature and value for a split. Greedy algorithm."""

        # Случайные признаки
        subset = random.sample(list(range(0, X.shape[1])), n_features)
        max_gain, max_col, max_val = None, None, None

        for column in subset:
            
            # Здесь мы ищем уникальные значения и возвращаем промежутки между ними
            split_values = self.find_splits(X[:, column])
            
            for value in split_values:
                    # Разделяем выборку по признаку и значению/ тоже самое и с целевой меткой
                    splits = self.split(X[:, column], target, value)
                    
                    # Считаем Прирост информации для этого разбиения
                    gain = self.information_gain(target, splits)
                
                    # условие останова по приросту информации
                    # Если новый gain больше предыдущего то мы продолжаем! искать, если нет то останаваливаемся
                    
                    if (max_gain is None) or (gain > max_gain):
                        
                        max_col, max_val, max_gain = column, value, gain
                        
                        
               # Возвращаем колонку значение и прирост информации     
        return max_col, max_val, max_gain

    def train(self,X, target, max_features=None, min_samples_split=2, max_depth=None):
        """Build a decision tree from training set.
        Parameters
        ----------
        X : array-like
            Feature dataset.
        target : dictionary or array-like
            Target values.
        max_features : int or None
            The number of features to consider when looking for the best split.
        min_samples_split : int
            The minimum number of samples required to split an internal node.
        max_depth : int
            Maximum depth of the tree.
        minimum_gain : float, default 0.01
            Minimum gain required for splitting.
        loss : function, default None
            Loss function for gradient boosting.
        """
        
        

        # Здесь мы прописываем условия развития дерева
        
        try:
            # Заканчиваем если Кол-во объектов, Максимальная глубина
            assert (X.shape[0] > min_samples_split)
            assert (max_depth > 0)

            if max_features is None:
                max_features = X.shape[1]
                
            column, value, gain = self.find_best_split(X, target, max_features)
            
            
            assert gain is not None
        

            self.column_index = column
            self.threshold = value
            self.impurity = gain

            # Split dataset
            left_X, right_X, left_target, right_target = self.split_dataset(X, target, column, value)

            # Grow left and right child
            self.left_child = Tree()
            self.left_child.train(left_X, left_target, max_features, min_samples_split, max_depth - 1)

            self.right_child = Tree()
            self.right_child.train(right_X, right_target, max_features, min_samples_split, max_depth - 1)
            
        except AssertionError:
            self._calculate_leaf_value(target)

    def _calculate_leaf_value(self, target):
        """Find optimal value for leaf."""
        
        # Задаем вероятность отнесения к классу в узле
        # self.outcome = stats.itemfreq(target)[:, 1] / float(target.shape[0])
        
        # Определяем Максимально встречающийся класс
        
        self.outcome = np.max(target)
        

    def predict_row(self, row):
        """Predict single row."""
#         Если узел то движемся дальше
        if not self.is_terminal:
            if row[self.column_index] < self.threshold:
                return self.left_child.predict_row(row)
            else:
                return self.right_child.predict_row(row)
            
#             Если лист то возвращаем максимальный класс
        
        return self.outcome

    def predict(self, X):
        result = np.zeros(X.shape[0])
        for i in range(X.shape[0]):
            result[i] = self.predict_row(X[i, :])
        return result

In [810]:
Test_Tree = Tree()

In [811]:
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold

x_train, x_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3, stratify=y, random_state=17)

In [812]:
Test_Tree.train(x_train,y_train,max_depth = 4)

2 2.45 0.6365141682948128
1 2.5999999999999996 0.0
0 --------ВозвратКласса
0 5.75 0.0
2 1.45 0.0
0 --------ВозвратКласса
0 --------ВозвратКласса
0 --------ВозвратКласса
2 4.75 0.581997376922989
1 2.25 0.0
1 --------ВозвратКласса
3 1.45 0.0
1 --------ВозвратКласса
1 --------ВозвратКласса
3 1.7000000000000002 0.10706489850859616
2 4.95 0.21951214867965618
1 --------ВозвратКласса
2 --------ВозвратКласса
3 1.85 0.0
2 --------ВозвратКласса
2 --------ВозвратКласса


In [813]:
Titanic_tree = Tree()

In [814]:
Titanic_tree.train(x_train_full,y_train_full.values,max_depth = 4)

0 0.5 0.150592892745533
1 1.5 0.1446051606241726
6 -0.07616583290803644 0.028171407647627433
3 0.5 0.046687354242364865
1 --------ВозвратКласса
1 --------ВозвратКласса
5 -2.126150089122424 0.07081055490819625
0 --------ВозвратКласса
1 --------ВозвратКласса
6 -0.1641004431432998 0.10710026784250681
6 -0.48832777782140896 0.04206281333529227
1 --------ВозвратКласса
1 --------ВозвратКласса
6 -0.1278469208162656 0.0
0 --------ВозвратКласса
0 --------ВозвратКласса
1 0.5 0.033320352237823536
5 1.7951836700987749 0.05179265657323706
6 -0.13828020116168832 0.05428601284374357
0 --------ВозвратКласса
1 --------ВозвратКласса
2 0.5 0.15829761474955373
0 --------ВозвратКласса
1 --------ВозвратКласса
5 -1.3108232678982144 0.028437569492038628
2 2.5 0.3968526217659485
1 --------ВозвратКласса
1 --------ВозвратКласса
2 1.5 0.005045947338773338
1 --------ВозвратКласса
0 --------ВозвратКласса


In [655]:
clf = DecisionTreeClassifier(min_samples_split=2)

In [656]:
t1 = time()
Test_Tree.fit(X, y)
t2 = time()
print(t2 - t1)

t1 = time()
clf.fit(X, y)
t2 = time()
print(t2 - t1)

0.11177492141723633
0.0007841587066650391


In [657]:
# Скорость отстой!

In [659]:
gkf = KFold(n_splits=5, shuffle=True)

for train, test in gkf.split(X, y):
    X_train, y_train = X[train], y[train]
    X_test, y_test = X[test], y[test]   
    Test_Tree.fit(X_train, y_train)
    print(accuracy_score(y_pred=Test_Tree.predict(X_test), y_true=y_test))

0.9666666666666667
0.9666666666666667
0.9
1.0
0.9


In [660]:
# Качество на уровне

In [658]:
gkf = KFold(n_splits=5, shuffle=True)

for train, test in gkf.split(X, y):
    X_train, y_train = X[train], y[train]
    X_test, y_test = X[test], y[test]   
    clf.fit(X_train, y_train)
    print(accuracy_score(y_pred=clf.predict(X_test), y_true=y_test))

0.9666666666666667
0.9666666666666667
0.9
0.9
0.9


In [661]:
df_train = pd.read_csv('/Users/imac/Desktop/Python/Otus/Lesson8_Future_Eng_Titanick/train.csv', index_col = 'PassengerId')
df_test = pd.read_csv('/Users/imac/Desktop/Python/Otus/Lesson8_Future_Eng_Titanick/test.csv', index_col = 'PassengerId')

# Объеденим 2 фрейма чтобы можно было преобразовывать спокойно, но запомним индексы

idx_train = df_train.shape

idx_split = df_train.shape[0]
idx_split

891

In [662]:
Data = pd.concat([df_train, df_test])

In [663]:
# Сразу выделяю целевой класс
Y_TRAIN = df_train['Survived']

In [664]:
from sklearn.preprocessing import  LabelEncoder, LabelBinarizer, OneHotEncoder
from sklearn.pipeline import make_union, make_pipeline
from sklearn.preprocessing import FunctionTransformer, StandardScaler, Imputer
from sklearn.preprocessing import CategoricalEncoder
from sklearn.base import BaseEstimator, TransformerMixin


class Simple_pipeline(BaseEstimator):
    
    def __init__(self, df):
        self.df = df
        
        # Embarked содержит 2 пропуска! Я решил заполнить их самым частым признаком
        # Возможно так делать не корректно но я хотел добавить именно строковый элемент,
        # чтобы можно было преобразовать сразу CategoricalEncoder

    def embarked_fill(self, df):
        max_count_embarked = df['Embarked'].value_counts().index[0]
        df['Embarked'] = df['Embarked'].fillna(max_count_embarked)
        return df['Embarked'].values.reshape(-1,1)


    def get_sex_pclass_col(self, df):
        # Pclass,SibSp,Parch уже числовые поэтому CategoricalEncoder для них сделает просто onehot
        return df[['Sex','Pclass','SibSp','Parch']]

    def get_num_cols(self, df):
        return df[['Age', 'Fare']]
    
    def get_pipline(self):

        pipeline = make_union(*[
            make_pipeline(FunctionTransformer(self.get_sex_pclass_col, validate=False), 
                          CategoricalEncoder(encoding='ordinal')),
            
            make_pipeline(FunctionTransformer(self.embarked_fill, validate=False),
                          CategoricalEncoder(encoding='ordinal')), 

            make_pipeline(FunctionTransformer(self.get_num_cols, validate=False), Imputer(strategy='mean'),StandardScaler())
        ])
        
        return pipeline.fit_transform(self.df)

In [665]:
X_Data_full = Simple_pipeline(Data).get_pipline()



In [836]:
Titanic_tree = Tree()

In [825]:
x_train_full, x_valid_full, y_train_full, y_valid_full = train_test_split(X_Data_full[:idx_split], Y_TRAIN,
                                                    test_size=0.3, stratify=Y_TRAIN, random_state=17)

In [849]:
Titanic_tree.train(x_train_full,y_train_full,max_depth = 25)

In [850]:
print(accuracy_score(Titanic_tree.predict(x_valid_full),y_valid_full))

0.7649253731343284


In [839]:
clf.fit(x_train_full,y_train_full)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [840]:
print(accuracy_score(y_pred=clf.predict(x_valid_full), y_true=y_valid_full))

0.7835820895522388


# Применить для задачи Titanic 