In [1]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd 
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import accuracy_score, recall_score, precision_score, roc_auc_score, confusion_matrix
import pickle 
from scipy.stats import mode
from collections import Counter
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier


In [2]:
dataset = pd.read_csv('remastered_dataset.csv')

In [3]:
X_train, X_test, y_train, y_test = train_test_split(np.array(dataset.drop('TenYearCHD',axis=1)), np.array(dataset['TenYearCHD']), test_size=0.2, stratify=np.array(dataset['TenYearCHD']))

# Мягкое и жесткое голосование

#### Мягкое голосование 


In [4]:
models = []
names = ['sklearn_K_Nearest_Neighbors_Classifier_best_model.pkl',
         'sklearn_LogisticRegression_best_model.pkl',
         'sklearn_NaiveBayes_best_model.pkl',
         'sklearn_SVC_best_model.pkl']
    
for i in names:
    
    models.append(pickle.load(open(i, 'rb')) )
    
predicts = []

for i in models:
    
    predicts.append(i.predict_proba(X_train)[:,1])
    
    
result = np.zeros(predicts[0].shape)

for i in range(len(predicts)):
    result = result + predicts[i]

        
result = result / len(predicts)
    
    
for i in range(len(result)):
    
    if result[i]>=0.5:
        
        result[i] = 1
    else:
        
        result[i] = 0
    


In [5]:
print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,result))
print('recall_score на обучающей выборки = ',recall_score(y_train,result))
print('precision_score на обучающей выборки = ',precision_score(y_train,result))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,result))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,result))

accuracy_score на обучающей выборки =  0.8569321533923304
recall_score на обучающей выборки =  0.09902912621359224
precision_score на обучающей выборки =  0.7083333333333334
roc_auc_score на обучающей выборки =  0.5458623891937527
confusion_matrix на обучающей выборки = 
 [[2854   21]
 [ 464   51]]


In [6]:
models = []
names = ['sklearn_K_Nearest_Neighbors_Classifier_best_model.pkl',
         'sklearn_LogisticRegression_best_model.pkl',
         'sklearn_NaiveBayes_best_model.pkl',
         'sklearn_SVC_best_model.pkl']
    
for i in names:
    
    models.append(pickle.load(open(i, 'rb')) )
    
predicts = []

for i in models:
    
    predicts.append(i.predict_proba(X_test)[:,1])
    
    
result = np.zeros(predicts[0].shape)

for i in range(len(predicts)):
    result = result + predicts[i]

        
result = result / len(predicts)
    
    
for i in range(len(result)):
    
    if result[i]>=0.5:
        
        result[i] = 1
    else:
        
        result[i] = 0
    


In [7]:
print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,result))
print('recall_score на тестовой выборки = ',recall_score(y_test,result))
print('precision_score на тестовой выборки = ',precision_score(y_test,result))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,result))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,result))

accuracy_score на тестовой выборки =  0.8525943396226415
recall_score на тестовой выборки =  0.06976744186046512
precision_score на тестовой выборки =  0.6428571428571429
roc_auc_score на тестовой выборки =  0.5314066694698709
confusion_matrix на тестовой выборки = 
 [[714   5]
 [120   9]]


#### Жесткое голосование 


In [8]:
models = []
names = ['sklearn_K_Nearest_Neighbors_Classifier_best_model.pkl',
         'sklearn_LogisticRegression_best_model.pkl',
         'sklearn_NaiveBayes_best_model.pkl',
         'sklearn_SVC_best_model.pkl']
    
for i in names:
    
    models.append(pickle.load(open(i, 'rb')) )
    
predicts = []

for i in models:
    
    predicts.append(i.predict(X_train))

    
predicts = [int(i) for i in mode(np.array(predicts).T,axis=1)[0]]

In [9]:
print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,predicts))
print('recall_score на обучающей выборки = ',recall_score(y_train,predicts))
print('precision_score на обучающей выборки = ',precision_score(y_train,predicts))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,predicts))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,predicts))

accuracy_score на обучающей выборки =  0.8563421828908555
recall_score на обучающей выборки =  0.06990291262135923
precision_score на обучающей выборки =  0.8181818181818182
roc_auc_score на обучающей выборки =  0.5335601519628536
confusion_matrix на обучающей выборки = 
 [[2867    8]
 [ 479   36]]


In [10]:
models = []
names = ['sklearn_K_Nearest_Neighbors_Classifier_best_model.pkl',
         'sklearn_LogisticRegression_best_model.pkl',
         'sklearn_NaiveBayes_best_model.pkl',
         'sklearn_SVC_best_model.pkl']
    
for i in names:
    
    models.append(pickle.load(open(i, 'rb')) )
    
predicts = []

for i in models:
    
    predicts.append(i.predict(X_test))

    
predicts = [int(i) for i in mode(np.array(predicts).T,axis=1)[0]]

In [11]:
print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,predicts))
print('recall_score на тестовой выборки = ',recall_score(y_test,predicts))
print('precision_score на тестовой выборки = ',precision_score(y_test,predicts))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,predicts))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,predicts))

accuracy_score на тестовой выборки =  0.847877358490566
recall_score на тестовой выборки =  0.046511627906976744
precision_score на тестовой выборки =  0.5
roc_auc_score на тестовой выборки =  0.5190833522010545
confusion_matrix на тестовой выборки = 
 [[713   6]
 [123   6]]


#### Выводы 
- Мягкое голосование показало себя лучше 

# Дерево решений

In [12]:
class Node:
    
    def __init__(self, feature=None, threshold=None, data_left=None, data_right=None, gain=None, value=None):
        self.feature = feature
        self.threshold = threshold
        self.data_left = data_left
        self.data_right = data_right
        self.gain = gain
        self.value = value


class Custom_DecisionTree:

    def __init__(self, min_samples_split=2, max_depth=5):
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        self.root = None
        
    @staticmethod
    def _entropy(s):
        
        counts = np.bincount(np.array(s, dtype=np.int64))
        percentages = counts / len(s)

        entropy = 0
        for pct in percentages:
            if pct > 0:
                entropy += pct * np.log2(pct)
        return -entropy
    
    def _information_gain(self, parent, left_child, right_child):
        
        num_left = len(left_child) / len(parent)
        num_right = len(right_child) / len(parent)
        
        return self._entropy(parent) - (num_left * self._entropy(left_child) + num_right * self._entropy(right_child))
    
    def _best_split(self, X, y):
        
        best_split = {}
        best_info_gain = -1
        n_rows, n_cols = X.shape
        
        for f_idx in range(n_cols):
            X_curr = X[:, f_idx]
            for threshold in np.unique(X_curr):
                
                df = np.concatenate((X, y.reshape(1, -1).T), axis=1)
                df_left = np.array([row for row in df if row[f_idx] <= threshold])
                df_right = np.array([row for row in df if row[f_idx] > threshold])

                if len(df_left) > 0 and len(df_right) > 0:
                    y = df[:, -1]
                    y_left = df_left[:, -1]
                    y_right = df_right[:, -1]

                   
                    gain = self._information_gain(y, y_left, y_right)
                    if gain > best_info_gain:
                        best_split = {
                            'feature_index': f_idx,
                            'threshold': threshold,
                            'df_left': df_left,
                            'df_right': df_right,
                            'gain': gain
                        }
                        best_info_gain = gain
        return best_split
    
    def _build(self, X, y, depth=0):
        
        n_rows, n_cols = X.shape
        
        if n_rows >= self.min_samples_split and depth <= self.max_depth:
            best = self._best_split(X, y)
            if best['gain'] > 0:
                
                left = self._build(
                    X=best['df_left'][:, :-1], 
                    y=best['df_left'][:, -1], 
                    depth=depth + 1
                )
                right = self._build(
                    X=best['df_right'][:, :-1], 
                    y=best['df_right'][:, -1], 
                    depth=depth + 1
                )
                return Node(
                    feature=best['feature_index'], 
                    threshold=best['threshold'], 
                    data_left=left, 
                    data_right=right, 
                    gain=best['gain']
                )
        
        return Node(
            value=Counter(y).most_common(1)[0][0]
        )
    
    def fit(self, X, y):
        
        
        self.root = self._build(X, y)
        
    def _predict(self, x, tree):
       
        
        if tree.value != None:
            return tree.value
        feature_value = x[tree.feature]
        
        
        if feature_value <= tree.threshold:
            return self._predict(x=x, tree=tree.data_left)
        
        
        if feature_value > tree.threshold:
            return self._predict(x=x, tree=tree.data_right)
        
    def predict(self, X):
        
        
        return [self._predict(x, self.root) for x in X]

In [13]:
model = Custom_DecisionTree()
model.fit(X_train,y_train)



print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,model.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,model.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,model.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,model.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,model.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,model.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,model.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,model.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,model.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,model.predict(X_test)))

accuracy_score на обучающей выборки =  0.868141592920354
recall_score на обучающей выборки =  0.1650485436893204
precision_score на обучающей выборки =  0.8333333333333334
roc_auc_score на обучающей выборки =  0.5795677501055297
confusion_matrix на обучающей выборки = 
 [[2858   17]
 [ 430   85]]
accuracy_score на тестовой выборки =  0.8254716981132075
recall_score на тестовой выборки =  0.023255813953488372
precision_score на тестовой выборки =  0.12
roc_auc_score на тестовой выборки =  0.4963288805511531
confusion_matrix на тестовой выборки = 
 [[697  22]
 [126   3]]


In [14]:
model = DecisionTreeClassifier()
model.fit(X_train,y_train)



print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,model.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,model.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,model.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,model.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,model.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,model.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,model.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,model.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,model.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,model.predict(X_test)))

accuracy_score на обучающей выборки =  1.0
recall_score на обучающей выборки =  1.0
precision_score на обучающей выборки =  1.0
roc_auc_score на обучающей выборки =  1.0
confusion_matrix на обучающей выборки = 
 [[2875    0]
 [   0  515]]
accuracy_score на тестовой выборки =  0.7747641509433962
recall_score на тестовой выборки =  0.24806201550387597
precision_score на тестовой выборки =  0.25396825396825395
roc_auc_score на тестовой выборки =  0.5586624402971396
confusion_matrix на тестовой выборки = 
 [[625  94]
 [ 97  32]]


#### Выводы 
- Моя модель показала себя хуже на обучающей выборке, но лучше на тестовой 
- Обе модели могут хорошо применяться в задачах бинарной классификации, где слабо представлен один из классов

# Случайный лес

In [24]:
class Custom_RandomForest:
    
    def __init__(self, num_trees=15, min_samples_split=2, max_depth=2):
        self.num_trees = num_trees
        self.min_samples_split = min_samples_split
        self.max_depth = max_depth
        
        self.decision_trees = []
        
    @staticmethod
    def _sample(X, y):
        
        n_rows, n_cols = X.shape
        
        samples = np.random.choice(a=n_rows, size=n_rows, replace=True)
        return X[samples], y[samples]
        
    def fit(self, X, y):
        
        
        if len(self.decision_trees) > 0:
            self.decision_trees = []
            
        
        num_built = 0
        while num_built < self.num_trees:
            try:
                clf = Custom_DecisionTree(
                    min_samples_split=self.min_samples_split,
                    max_depth=self.max_depth
                )
                
                _X, _y = self._sample(X, y)
                
                clf.fit(_X, _y)
                
                self.decision_trees.append(clf)
                num_built += 1
            except Exception as e:
                continue
    
    def predict(self, X):
        
        
        y = []
        for tree in self.decision_trees:
            y.append(tree.predict(X))
        
       
        y = np.swapaxes(a=y, axis1=0, axis2=1)
        
        
        predictions = []
        for preds in y:
            counter = Counter(preds)
            predictions.append(counter.most_common(1)[0][0])
        return predictions

In [26]:
model = Custom_RandomForest()
model.fit(X_train,y_train)



print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,model.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,model.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,model.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,model.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,model.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,model.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,model.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,model.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,model.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,model.predict(X_test)))

accuracy_score на обучающей выборки =  0.8489675516224189
recall_score на обучающей выборки =  0.005825242718446602
precision_score на обучающей выборки =  1.0
roc_auc_score на обучающей выборки =  0.5029126213592233
confusion_matrix на обучающей выборки = 
 [[2875    0]
 [ 512    3]]
accuracy_score на тестовой выборки =  0.847877358490566
recall_score на тестовой выборки =  0.0
precision_score на тестовой выборки =  0.0
roc_auc_score на тестовой выборки =  0.5
confusion_matrix на тестовой выборки = 
 [[719   0]
 [129   0]]


In [27]:
model = RandomForestClassifier()
model.fit(X_train,y_train)



print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,model.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,model.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,model.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,model.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,model.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,model.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,model.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,model.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,model.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,model.predict(X_test)))

accuracy_score на обучающей выборки =  1.0
recall_score на обучающей выборки =  1.0
precision_score на обучающей выборки =  1.0
roc_auc_score на обучающей выборки =  1.0
confusion_matrix на обучающей выборки = 
 [[2875    0]
 [   0  515]]
accuracy_score на тестовой выборки =  0.8443396226415094
recall_score на тестовой выборки =  0.03875968992248062
precision_score на тестовой выборки =  0.38461538461538464
roc_auc_score на тестовой выборки =  0.5138165626246618
confusion_matrix на тестовой выборки = 
 [[711   8]
 [124   5]]


#### Выводы 
- Обе модели не могут хорошо применяться в задачах бинарной классификации, где слабо представлен один из классов

# GradientBoostingClassifier

In [28]:
model = GradientBoostingClassifier()
model.fit(X_train,y_train)



print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,model.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,model.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,model.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,model.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,model.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,model.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,model.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,model.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,model.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,model.predict(X_test)))

accuracy_score на обучающей выборки =  0.879646017699115
recall_score на обучающей выборки =  0.21553398058252426
precision_score на обучающей выборки =  0.9652173913043478
roc_auc_score на обучающей выборки =  0.607071338117349
confusion_matrix на обучающей выборки = 
 [[2871    4]
 [ 404  111]]
accuracy_score на тестовой выборки =  0.839622641509434
recall_score на тестовой выборки =  0.06976744186046512
precision_score на тестовой выборки =  0.36
roc_auc_score на тестовой выборки =  0.5237571562570753
confusion_matrix на тестовой выборки = 
 [[703  16]
 [120   9]]
