In [1]:
import warnings
warnings.filterwarnings("ignore")
import pandas as pd 
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.metrics import accuracy_score, recall_score, precision_score, roc_auc_score, confusion_matrix
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
import pickle 
from sklearn.base import BaseEstimator,ClassifierMixin
import random as rnd
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from scipy.stats import mode


In [2]:
dataset = pd.read_csv('remastered_dataset.csv')

In [3]:
X_train, X_test, y_train, y_test = train_test_split(np.array(dataset.drop('TenYearCHD',axis=1)), np.array(dataset['TenYearCHD']), test_size=0.2, stratify=np.array(dataset['TenYearCHD']))

## Logistic Regression

In [4]:
class Custom_LogisticRegression(BaseEstimator, ClassifierMixin):
    def __init__(self,lr=0.01, iterations=1000):      
        
        self.lr = lr 
        self.iterations = iterations
        
        
         
    def sigmoid(self, x, weight):
        z = np.dot(x, weight)
        return 1 / (1 + np.exp(-z))
     
    def loss(self, h, y):
        return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()
     
    def gradient_descent(self, X, h, y):
        return np.dot(X.T, (h - y)) / y.shape[0]
 
     
    def fit(self,x,y,):
        
        self.intercept = np.ones((x.shape[0], 1))  
        self.x = np.concatenate((self.intercept, x), axis=1)
        self.weight = np.zeros(self.x.shape[1])
        self.y = y
        
        for i in range(self.iterations):
            sigma = self.sigmoid(self.x, self.weight)
             
            loss = self.loss(sigma,self.y)
 
            dW = self.gradient_descent(self.x , sigma, self.y)
             
            self.weight -= self.lr * dW
 
        return
     
    def predict(self, x_new ,):
        treshold = 0.5
        intercept = self.intercept[:len(x_new)]
        x_new = np.concatenate((intercept, x_new), axis=1)
        result = self.sigmoid(x_new, self.weight)
        
        result = result >= treshold
        y_pred = np.zeros(result.shape[0])
        for i in range(len(y_pred)):
            if result[i] == True: 
                y_pred[i] = 1
            else:
                continue
                 
        return y_pred

In [5]:
model = Custom_LogisticRegression()
params = {'iterations':[100,500,1000,2000],'lr':[1,0.1,0.01,0.001,0.0001,0.14]}
name = 'custom_LogisticRegression'
grid = GridSearchCV(estimator=model,param_grid =params,cv=5 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.8480825958702065
recall_score на обучающей выборки =  0.0
precision_score на обучающей выборки =  0.0
roc_auc_score на обучающей выборки =  0.5
confusion_matrix на обучающей выборки = 
 [[2875    0]
 [ 515    0]]
accuracy_score на тестовой выборки =  0.847877358490566
recall_score на тестовой выборки =  0.0
precision_score на тестовой выборки =  0.0
roc_auc_score на тестовой выборки =  0.5
confusion_matrix на тестовой выборки = 
 [[719   0]
 [129   0]]


In [6]:
model = LogisticRegression()

params = {'max_iter':[100,500,1000,2000],}
name = 'sklearn_LogisticRegression'
grid = GridSearchCV(estimator=model,param_grid =params,cv=3 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.8545722713864307
recall_score на обучающей выборки =  0.07572815533980583
precision_score на обучающей выборки =  0.6964285714285714
roc_auc_score на обучающей выборки =  0.5349075559307725
confusion_matrix на обучающей выборки = 
 [[2858   17]
 [ 476   39]]
accuracy_score на тестовой выборки =  0.8561320754716981
recall_score на тестовой выборки =  0.08527131782945736
precision_score на тестовой выборки =  0.7333333333333333
roc_auc_score на тестовой выборки =  0.5398540177464394
confusion_matrix на тестовой выборки = 
 [[715   4]
 [118  11]]


### Выводы 
- Исходя из метрик, можно сделать вывод, что моя модель плохо пременима в ситуации, когда один из классов плохо представлен в выборке 
- Переобучение не наблюдается 

## SVM

In [7]:
class Custom_SVM(BaseEstimator, ClassifierMixin):
    
    def __init__(self, max_iter=10, kernel_type='linear', C=1.0, epsilon=0.001):
        self.kernels = {
            'linear' : self.kernel_linear,
            'quadratic' : self.kernel_quadratic
        }
        self.max_iter = max_iter
        self.kernel_type = kernel_type
        self.C = C
        self.epsilon = epsilon
    def fit(self, X, y):
        n = X.shape[0]
        
        y = [1 if i ==1 else -1 for i in y]
        
        alpha = np.zeros((n))
        
        kernel = self.kernels[self.kernel_type]
        
        
        iteration = 0
        while True:
            iteration += 1
            
            alpha_prev = np.copy(alpha)
            
            for j in range(0, n):
                
                i = self.get_rnd_int(0, n-1, j) 
                
                x_i = X[i,:]
                x_j = X[j,:]
                y_i = y[i]
                y_j = y[j]
                
                k_ij = kernel(x_i, x_i) + kernel(x_j, x_j) - 2 * kernel(x_i, x_j)
                
                if k_ij == 0:
                    continue
                
                alpha_prime_j, alpha_prime_i = alpha[j], alpha[i]
                (L, H) = self.compute_L_H(self.C, alpha_prime_j, alpha_prime_i, y_j, y_i)

                self.w = self.calc_w(alpha, y, X)
                self.b = self.calc_b(X, y, self.w)

                E_i = self.E(x_i, y_i, self.w, self.b)
                E_j = self.E(x_j, y_j, self.w, self.b)

                alpha[j] = alpha_prime_j + float(y_j * (E_i - E_j))/k_ij
                alpha[j] = max(alpha[j], L)
                alpha[j] = min(alpha[j], H)

                alpha[i] = alpha_prime_i + y_i*y_j * (alpha_prime_j - alpha[j])

            diff = np.linalg.norm(alpha - alpha_prev)
            if diff < self.epsilon:
                break

            if iteration >= self.max_iter:
                return
            
        self.b = self.calc_b(X, y, self.w)
        if self.kernel_type == 'linear':
            self.w = self.calc_w(alpha, y, X)
            
            
    def predict(self, X):
        return [1 if i>=0 else 0 for i in self.h(X, self.w, self.b)]
    
    
    
    
    def calc_b(self, X, y, w):
        b_tmp = y - np.dot(w.T, X.T)
        return np.mean(b_tmp)
    
    def calc_w(self, alpha, y, X):
        return np.dot(alpha * y, X)
    
    def h(self, X, w, b):
        return np.sign(np.dot(w.T, X.T) + b).astype(int)
    
    def E(self, x_k, y_k, w, b):
        return self.h(x_k, w, b) - y_k
    
    def compute_L_H(self, C, alpha_prime_j, alpha_prime_i, y_j, y_i):
        if(y_i != y_j):
            return (max(0, alpha_prime_j - alpha_prime_i), min(C, C - alpha_prime_i + alpha_prime_j))
        else:
            return (max(0, alpha_prime_i + alpha_prime_j - C), min(C, alpha_prime_i + alpha_prime_j))
        
    def get_rnd_int(self, a,b,z):
        i = z
        cnt=0
        while i == z and cnt<1000:
            i = rnd.randint(a,b)
            cnt=cnt+1
        return i
    
    def kernel_linear(self, x1, x2):
        return np.dot(x1, x2.T)
    def kernel_quadratic(self, x1, x2):
        return (np.dot(x1, x2.T) ** 2)
    
    
    

In [8]:
%%time
model = Custom_SVM()
params = {'max_iter':[i for i in range(1,11,1)]+[10, 15, 30, 100, 150], 'kernel_type':['linear','quadratic'], 'C':[1.0,0.01,0.001]}
name = 'Custom_SVM'
grid =   GridSearchCV(estimator=model,param_grid =params,cv=5 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

recall_score на обучающей выборки =  0.0
precision_score на обучающей выборки =  0.0
roc_auc_score на обучающей выборки =  0.5
confusion_matrix на обучающей выборки = 
 [[2875    0]
 [ 515    0]]
accuracy_score на тестовой выборки =  0.847877358490566
recall_score на тестовой выборки =  0.0
precision_score на тестовой выборки =  0.0
roc_auc_score на тестовой выборки =  0.5
confusion_matrix на тестовой выборки = 
 [[719   0]
 [129   0]]
Wall time: 2h 34min 44s


In [9]:
%%time
model = SVC(probability=True)

params = {'max_iter':[i for i in range(1,11,1)]+[10, 15, 30, 100, 150],'C':[1.0,0.8,0.5,0.1],'kernel':['linear','rbf']}
name = 'sklearn_SVC'
grid = GridSearchCV(estimator=model,param_grid =params,cv=3 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.35575221238938054
recall_score на обучающей выборки =  0.4446601941747573
precision_score на обучающей выборки =  0.1076633756464504
roc_auc_score на обучающей выборки =  0.39224314056563947
confusion_matrix на обучающей выборки = 
 [[ 977 1898]
 [ 286  229]]
accuracy_score на тестовой выборки =  0.37264150943396224
recall_score на тестовой выборки =  0.4186046511627907
precision_score на тестовой выборки =  0.10567514677103718
roc_auc_score на тестовой выборки =  0.39149982210434386
confusion_matrix на тестовой выборки = 
 [[262 457]
 [ 75  54]]
Wall time: 16.7 s


### Выводы 
- Исходя из метрик, можно сделать вывод, что моя модель плохо пременима в ситуации, когда один из классов плохо представлен в выборке 
- Точность моей модели выше чем модели из sklearn
- Переобучение не наблюдается

## KNN

In [10]:
class Custom_K_Nearest_Neighbors_Classifier(BaseEstimator, ClassifierMixin): 
      
    def __init__( self, K =3) :
          
        self.K = K
          
          
    def fit( self, X_train, Y_train ) :
          
        self.X_train = X_train
          
        self.Y_train = Y_train
          
          
        self.m, self.n = X_train.shape
      
          
    def predict( self, X_test ) :
          
        self.X_test = X_test
          
          
        self.m_test, self.n = X_test.shape
          
          
        Y_predict = np.zeros( self.m_test )
          
        for i in range( self.m_test ) :
              
            x = self.X_test[i]
              
              
            neighbors = np.zeros( self.K )
              
            neighbors = self.find_neighbors( x )
              
              
            Y_predict[i] = mode( neighbors )[0][0]    
              
        return Y_predict
      
            
    def find_neighbors( self, x ) :
          
          
        euclidean_distances = np.zeros( self.m )
          
        for i in range( self.m ) :
              
            d = self.euclidean( x, self.X_train[i] )
              
            euclidean_distances[i] = d
          
          
        inds = euclidean_distances.argsort()
          
        Y_train_sorted = self.Y_train[inds]
          
        return Y_train_sorted[:self.K]
      
              
    def euclidean( self, x, x_train ) :
          
        return np.sqrt( np.sum( np.square( x - x_train ) ) )
  


In [11]:
model = Custom_K_Nearest_Neighbors_Classifier()
params = {'K':[2,3,4,5]}
name = 'Custom_K_Nearest_Neighbors_Classifier'
grid = GridSearchCV(estimator=model,param_grid =params,cv=5 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.8648967551622418
recall_score на обучающей выборки =  0.13398058252427184
precision_score на обучающей выборки =  0.8518518518518519
roc_auc_score на обучающей выборки =  0.5649033347403968
confusion_matrix на обучающей выборки = 
 [[2863   12]
 [ 446   69]]
accuracy_score на тестовой выборки =  0.8384433962264151
recall_score на тестовой выборки =  0.05426356589147287
precision_score на тестовой выборки =  0.3181818181818182
roc_auc_score на тестовой выборки =  0.5167006285646516
confusion_matrix на тестовой выборки = 
 [[704  15]
 [122   7]]


In [12]:
model = KNeighborsClassifier()

params = {'n_neighbors':[2,3,4,5]}
name = 'sklearn_K_Nearest_Neighbors_Classifier'
grid = GridSearchCV(estimator=model,param_grid =params,cv=3 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.8648967551622418
recall_score на обучающей выборки =  0.13398058252427184
precision_score на обучающей выборки =  0.8518518518518519
roc_auc_score на обучающей выборки =  0.5649033347403968
confusion_matrix на обучающей выборки = 
 [[2863   12]
 [ 446   69]]
accuracy_score на тестовой выборки =  0.8384433962264151
recall_score на тестовой выборки =  0.05426356589147287
precision_score на тестовой выборки =  0.3181818181818182
roc_auc_score на тестовой выборки =  0.5167006285646516
confusion_matrix на тестовой выборки = 
 [[704  15]
 [122   7]]


### Выводы 
- Исходя из метрик, можно сделать вывод, что моя модель может применяться в задачах бинарной классификации, когда один из классов слабо представлен
- На удиление метрики моей модели и модели из sklearn совпали
- Переобучение не наблюдается

# Наивный баисовский классификатор 

In [13]:
class Custom_NaiveBayes(BaseEstimator, ClassifierMixin):
    def fit(self, X, y):
        n_samples, n_features = X.shape
        self._classes = np.unique(y)
        n_classes = len(self._classes)
        self._mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self._var = np.zeros((n_classes, n_features), dtype=np.float64)
        self._priors =  np.zeros(n_classes, dtype=np.float64)

        for i, c in enumerate(self._classes):
            X_for_class_c = X[y==c]
            self._mean[i, :] = X_for_class_c.mean(axis=0)
            self._var[i, :] = X_for_class_c.var(axis=0)
            self._priors[i] = X_for_class_c.shape[0] / float(n_samples)

    def _calculate_likelihood(self, class_idx, x):
        mean = self._mean[class_idx]
        var = self._var[class_idx]
        num = np.exp(- (x-mean)**2 / (2 * var))
        denom = np.sqrt(2 * np.pi * var)
        return num / denom 
 
    def predict(self, X):
        y_pred = [self._classify_sample(x) for x in X]
        return np.array(y_pred)

    def _classify_sample(self, x):
        posteriors = []
         
        for i, c in enumerate(self._classes):
            prior = np.log(self._priors[i])
            posterior = np.sum(np.log(self._calculate_likelihood(i, x)))
            posterior = prior + posterior
            posteriors.append(posterior)
         
        return self._classes[np.argmax(posteriors)]

In [14]:
model = Custom_NaiveBayes()
params = {}
name = 'Custom_NaiveBayes'
grid = GridSearchCV(estimator=model,param_grid =params,cv=3 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.8480825958702065
recall_score на обучающей выборки =  0.0
precision_score на обучающей выборки =  0.0
roc_auc_score на обучающей выборки =  0.5
confusion_matrix на обучающей выборки = 
 [[2875    0]
 [ 515    0]]
accuracy_score на тестовой выборки =  0.847877358490566
recall_score на тестовой выборки =  0.0
precision_score на тестовой выборки =  0.0
roc_auc_score на тестовой выборки =  0.5
confusion_matrix на тестовой выборки = 
 [[719   0]
 [129   0]]


In [15]:
model = GaussianNB()

params = {}
name = 'sklearn_NaiveBayes'
grid = GridSearchCV(estimator=model,param_grid =params,cv=5 )  
grid.fit(X_train,y_train)

with open(name+'_best_params.txt', 'w') as f:
    f.write(str(grid.best_estimator_))
    
pkl_filename = name+'_best_model.pkl'
    
with open(pkl_filename, 'wb') as file: 
    pickle.dump(grid.best_estimator_, file)


print('accuracy_score на обучающей выборки = ',accuracy_score(y_train,grid.predict(X_train)))
print('recall_score на обучающей выборки = ',recall_score(y_train,grid.predict(X_train)))
print('precision_score на обучающей выборки = ',precision_score(y_train,grid.predict(X_train)))
print('roc_auc_score на обучающей выборки = ',roc_auc_score(y_train,grid.predict(X_train)))
print('confusion_matrix на обучающей выборки = \n',confusion_matrix(y_train,grid.predict(X_train)))

print('accuracy_score на тестовой выборки = ',accuracy_score(y_test,grid.predict(X_test)))
print('recall_score на тестовой выборки = ',recall_score(y_test,grid.predict(X_test)))
print('precision_score на тестовой выборки = ',precision_score(y_test,grid.predict(X_test)))
print('roc_auc_score на тестовой выборки = ',roc_auc_score(y_test,grid.predict(X_test)))
print('confusion_matrix на тестовой выборки = \n',confusion_matrix(y_test,grid.predict(X_test)))

accuracy_score на обучающей выборки =  0.827433628318584
recall_score на обучающей выборки =  0.18640776699029127
precision_score на обучающей выборки =  0.366412213740458
roc_auc_score на обучающей выборки =  0.5643343182777543
confusion_matrix на обучающей выборки = 
 [[2709  166]
 [ 419   96]]
accuracy_score на тестовой выборки =  0.8349056603773585
recall_score на тестовой выборки =  0.23255813953488372
precision_score на тестовой выборки =  0.4225352112676056
roc_auc_score на тестовой выборки =  0.5877672477924767
confusion_matrix на тестовой выборки = 
 [[678  41]
 [ 99  30]]


### Выводы 
- Исходя из метрик, можно сделать вывод, что моя модель плохо пременима в ситуации, когда один из классов плохо представлен в выборке 
- Переобучение не наблюдается