In [8]:
from time import time

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

from scipy import optimize
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold
from sklearn.tree import DecisionTreeClassifier
from collections import Counter
import random
from scipy import stats

random.seed(111)

In [114]:
class Tree(object):
    """Recursive implementation of decision tree."""

    def __init__(self,max_features=None, min_samples_split=2, max_depth=None):
        
        self.impurity = None
        self.threshold = None
        self.column_index = None
        self.outcome = None
        self.max_features = max_features
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        
        self.left_child = None
        self.right_child = None
         
        
    # Проверяем узел это или лист   
        
    @property
    def is_terminal(self):
        return not bool(self.left_child and self.right_child)    
        
        # Считаем энтропию

    def f_entropy(self,p):
        
        p = np.bincount(p) / float(p.shape[0])

        ep = stats.entropy(p)
        if ep == -float('inf'):
            return 0.0
        return ep

        # Выводим Прирост информации
        
    def information_gain(self, y, splits):
        splits_entropy = sum([self.f_entropy(split) * (float(split.shape[0]) / y.shape[0]) for split in splits])
        return self.f_entropy(y) - splits_entropy

        # Делаем сплит по  значению
        
    def split(self, X, y, value):
        left_mask = (X < value)
        right_mask = (X >= value)
        return y[left_mask], y[right_mask]
    
    
    def get_split_mask(self,X, column, value):
        left_mask = (X[:, column] < value)
        right_mask = (X[:, column] >= value)
        return left_mask, right_mask
    
    
    def split_dataset(self,X, target, column, value, return_X=True):
        
        left_mask, right_mask = self.get_split_mask(X, column, value)

        left, right = [], []
        
        left = target[left_mask]
        right = target[right_mask]

        if return_X:
            left_X, right_X = X[left_mask], X[right_mask]
            return left_X, right_X, left, right
        else:
            return left, right
    
    
    
        # Отбираем все промежуточные значения где можно сделать сплит
    def find_splits(self, X):
        """Find all possible split values."""
        split_values = set()
        x_unique = list(np.unique(X))
        
        for i in range(1, len(x_unique)):
            average = (x_unique[i - 1] + x_unique[i]) / 2.0
            split_values.add(average)

        return list(split_values)
    
    
    
    
        # Отбираем лучшее разбиение по приросту информации(Чем ближе к энтропии таргета тем лучше)
        
    def find_best_split(self,X, target, n_features):
        """Find best feature and value for a split. Greedy algorithm."""

        # Случайные признаки
        subset = random.sample(list(range(0, X.shape[1])), n_features)
        max_gain, max_col, max_val = None, None, None

        for column in subset:
            
            # Здесь мы ищем уникальные значения и возвращаем промежутки между ними
            split_values = self.find_splits(X[:, column])
            
            for value in split_values:
                    # Разделяем выборку по признаку и значению/ тоже самое и с целевой меткой
                    splits = self.split(X[:, column], target, value)
                    
                    # Считаем Прирост информации для этого разбиения
                    gain = self.information_gain(target, splits)
                
                    # условие останова по приросту информации
                    # Если новый gain больше предыдущего то мы продолжаем! искать, если нет то останаваливаемся
                    
                    if (max_gain is None) or (gain > max_gain):
                        
                        max_col, max_val, max_gain = column, value, gain
                        
                        
               # Возвращаем колонку значение и прирост информации     
        return max_col, max_val, max_gain

    def train(self,X, target, max_features=None, min_samples_split=2, max_depth = None):
        """Build a decision tree from training set.
        Parameters
        ----------
        X : array-like
            Feature dataset.
        target : dictionary or array-like
            Target values.
        max_features : int or None
            The number of features to consider when looking for the best split.
        min_samples_split : int
            The minimum number of samples required to split an internal node.
        max_depth : int
            Maximum depth of the tree.
        minimum_gain : float, default 0.01
            Minimum gain required for splitting.
        loss : function, default None
            Loss function for gradient boosting.
        """
        
        

        # Здесь мы прописываем условия развития дерева
        
        try:
            # Заканчиваем если Кол-во объектов, Максимальная глубина
            assert (X.shape[0] > min_samples_split)
            
            # если глубина не заданна то растем на всю катушку!
            if max_depth is not None:
                assert (max_depth > 0)
                max_depth = max_depth - 1

            if max_features is None:
                max_features = X.shape[1]
                
            column, value, gain = self.find_best_split(X, target, max_features)
            
            
            assert gain is not None
        

            self.column_index = column
            self.threshold = value
            self.impurity = gain

            # Делим датасет по лучшему сплиту
            left_X, right_X, left_target, right_target = self.split_dataset(X, target, column, value)

            # Создаем Левое и правое дерево! Здесь можно ускорить за счет распаралеривония
            
            
            self.left_child = Tree()
            self.left_child.train(left_X, left_target, max_features, min_samples_split, max_depth)

            self.right_child = Tree()
            self.right_child.train(right_X, right_target, max_features, min_samples_split, max_depth)
            
        except AssertionError:
            self._calculate_leaf_value(target)
            
    def fit(self,X,y):
        
        # Передаем все параметры в метод трайн
        self.train(X, y, self.max_features,self.min_samples_split, self.max_depth)

    def _calculate_leaf_value(self, target):
        """Find optimal value for leaf."""
        
        # Задаем вероятность отнесения к классу в узле
        # self.outcome = stats.itemfreq(target)[:, 1] / float(target.shape[0])
        
        # Определяем Максимально встречающийся класс
        
        self.outcome = np.max(target)
        

    def predict_row(self, row):
        """Predict single row."""
        #  Если узел то движемся дальше
        if not self.is_terminal:
            if row[self.column_index] < self.threshold:
                return self.left_child.predict_row(row)
            else:
                return self.right_child.predict_row(row)
            
        # Если лист то возвращаем максимальный класс
        
        return self.outcome

    def predict(self, X):
        result = np.zeros(X.shape[0])
        for i in range(X.shape[0]):
            result[i] = self.predict_row(X[i, :])
        return result

In [112]:
iris = load_iris()

# Попробую пока что разобратся на бинарной классификации
X = iris.data # petal length and width
target = iris.target

In [115]:
tree = Tree()
tree.fit(X,target)

In [116]:
gkf = KFold(n_splits=5, shuffle=True)

for train, test in gkf.split(X, target):
    X_train, y_train = X[train], target[train]
    X_test, y_test = X[test], target[test]   
    tree.fit(X_train, y_train)
    print(accuracy_score(tree.predict(X_test), y_test))

0.9666666666666667
1.0
1.0
0.9333333333333333
0.9


In [62]:
df_train = pd.read_csv('/Users/imac/Desktop/Python/Otus/Lesson8_Future_Eng_Titanick/train.csv', index_col = 'PassengerId')
df_test = pd.read_csv('/Users/imac/Desktop/Python/Otus/Lesson8_Future_Eng_Titanick/test.csv', index_col = 'PassengerId')

# Объеденим 2 фрейма чтобы можно было преобразовывать спокойно, но запомним индексы

idx_train = df_train.shape

idx_split = df_train.shape[0]
Data = pd.concat([df_train, df_test])
# Сразу выделяю целевой класс
Y_TRAIN = df_train['Survived']

In [63]:
from sklearn.preprocessing import  LabelEncoder, LabelBinarizer, OneHotEncoder
from sklearn.pipeline import make_union, make_pipeline
from sklearn.preprocessing import FunctionTransformer, StandardScaler, Imputer
from sklearn.preprocessing import CategoricalEncoder
from sklearn.base import BaseEstimator, TransformerMixin


class Simple_pipeline(BaseEstimator):
    
    def __init__(self, df):
        self.df = df
        
        # Embarked содержит 2 пропуска! Я решил заполнить их самым частым признаком
        # Возможно так делать не корректно но я хотел добавить именно строковый элемент,
        # чтобы можно было преобразовать сразу CategoricalEncoder

    def embarked_fill(self, df):
        max_count_embarked = df['Embarked'].value_counts().index[0]
        df['Embarked'] = df['Embarked'].fillna(max_count_embarked)
        return df['Embarked'].values.reshape(-1,1)


    def get_sex_pclass_col(self, df):
        # Pclass,SibSp,Parch уже числовые поэтому CategoricalEncoder для них сделает просто onehot
        return df[['Sex','Pclass','SibSp','Parch']]

    def get_num_cols(self, df):
        return df[['Age', 'Fare']]
    
    def get_pipline(self):

        pipeline = make_union(*[
            make_pipeline(FunctionTransformer(self.get_sex_pclass_col, validate=False), 
                          CategoricalEncoder(encoding='ordinal')),
            
            make_pipeline(FunctionTransformer(self.embarked_fill, validate=False),
                          CategoricalEncoder(encoding='ordinal')), 

            make_pipeline(FunctionTransformer(self.get_num_cols, validate=False), Imputer(strategy='mean'),StandardScaler())
        ])
        
        return pipeline.fit_transform(self.df)

In [65]:
from sklearn.model_selection import train_test_split, cross_val_score, StratifiedKFold
X_Data_full = Simple_pipeline(Data).get_pipline()
x_train_full, x_valid_full, y_train_full, y_valid_full = train_test_split(X_Data_full[:idx_split], Y_TRAIN,
                                                    test_size=0.3, stratify=Y_TRAIN, random_state=17)



In [117]:
Titanic_tree = Tree()

In [118]:
Titanic_tree.fit(x_train_full,y_train_full)

In [119]:
print(accuracy_score(Titanic_tree.predict(x_valid_full),y_valid_full))

0.7686567164179104


In [120]:
clf = DecisionTreeClassifier()
clf.fit(x_train_full,y_train_full)
print(accuracy_score(y_pred=clf.predict(x_valid_full), y_true=y_valid_full))

0.7723880597014925
