In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from xgboost import XGBClassifier
from sklearn.pipeline import Pipeline
from sklearn.naive_bayes import BernoulliNB
from sklearn.preprocessing import MinMaxScaler, StandardScaler, RobustScaler, Normalizer
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, KFold 

from sklearn.preprocessing import PolynomialFeatures, Binarizer
from sklearn.metrics import precision_score, f1_score

In [2]:
column_names = ["variance", "skewness", "curtosis", "entropy", "class"]
data = pd.read_csv('data_banknote_authentication.csv', names = column_names)
X = data.drop('class',axis=1)
y = data['class']
X_train, X_test, y_train, y_test = train_test_split(X,y)

In [3]:
pipe = Pipeline([('preprocessing', MinMaxScaler()), 
                 ('classifier', RandomForestClassifier())])

param_grid =[{'classifier': [SVC()], 
     'preprocessing': [None, StandardScaler(), MinMaxScaler(), Normalizer()],
     'classifier__gamma': [0.001, 0.01, 0.1, 1, 10, 100],
     'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100]}]

In [4]:
grid = GridSearchCV(pipe, param_grid, cv=5, return_train_score=True, n_jobs=-1,scoring='f1')
grid.fit(X_train,y_train);
f1_score(grid.predict(X_test),y_test)

1.0

In [5]:
print("----------------- Обучили и тестировали -------------------")
print("Наилучшие параметры:\n{}\n".format(grid.best_params_))
print("Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: {:.6f}\n".format(grid.best_score_)) 
print("Средняя правильность для наилучшей модели на тестовом наборе: {:.6f}\n".format(grid.score(X_test, y_test)))

----------------- Обучили и тестировали -------------------
Наилучшие параметры:
{'classifier': SVC(C=1, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=0.1, kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False), 'classifier__C': 1, 'classifier__gamma': 0.1, 'preprocessing': None}

Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: 1.000000

Средняя правильность для наилучшей модели на тестовом наборе: 1.000000



In [6]:
param_grid=[{'classifier': [RandomForestClassifier()],
     'classifier__n_estimators':[100,300,500],
     'preprocessing': [None], 
     'classifier__max_features': [1, 2, 3, 4]}]

In [7]:
grid = GridSearchCV(pipe, param_grid, cv=5, return_train_score=True, n_jobs=-1,scoring='f1')
grid.fit(X_train,y_train);
f1_score(grid.predict(X_test),y_test)

0.9907692307692307

In [8]:
print("----------------- Обучили и тестировали -------------------")
print("Наилучшие параметры:\n{}\n".format(grid.best_params_))
print("Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: {:.6f}\n".format(grid.best_score_)) 
print("Средняя правильность для наилучшей модели на тестовом наборе: {:.6f}\n".format(grid.score(X_test, y_test)))

----------------- Обучили и тестировали -------------------
Наилучшие параметры:
{'classifier': RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features=2,
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=300,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False), 'classifier__max_features': 2, 'classifier__n_estimators': 300, 'preprocessing': None}

Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: 0.991111

Средняя правильность для наилучшей модели на тестовом наборе: 0.990769



In [9]:
param_grid=[{'classifier': [XGBClassifier()],
     'preprocessing': [None], 
     'classifier__max_depth': [1, 2, 3, 4, 5],
     'classifier__n_estimators':[100,300,500],
     'classifier__learning_rate':[0.05, 0.1, 0.2]
    }]

In [10]:
grid = GridSearchCV(pipe, param_grid, cv=5, return_train_score=True, n_jobs=-1,scoring='f1')
grid.fit(X_train,y_train);
f1_score(grid.predict(X_test),y_test)

0.9937888198757764

In [11]:
print("----------------- Обучили и тестировали -------------------")
print("Наилучшие параметры:\n{}\n".format(grid.best_params_))
print("Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: {:.6f}\n".format(grid.best_score_)) 
print("Средняя правильность для наилучшей модели на тестовом наборе: {:.6f}\n".format(grid.score(X_test, y_test)))

----------------- Обучили и тестировали -------------------
Наилучшие параметры:
{'classifier': XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0,
              learning_rate=0.2, max_delta_step=0, max_depth=2,
              min_child_weight=1, missing=None, n_estimators=500, n_jobs=1,
              nthread=None, objective='binary:logistic', random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
              silent=None, subsample=1, verbosity=1), 'classifier__learning_rate': 0.2, 'classifier__max_depth': 2, 'classifier__n_estimators': 500, 'preprocessing': None}

Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: 0.996673

Средняя правильность для наилучшей модели на тестовом наборе: 0.993789



In [12]:
param_grid=[{'classifier': [LogisticRegression()],
     'preprocessing': [None, StandardScaler(), MinMaxScaler(), Normalizer()],
     'classifier__penalty':['l1','l2'],
     'classifier__C':[0.1,0.5,1]        
    }]

In [13]:
grid = GridSearchCV(pipe, param_grid, cv=5, return_train_score=True, n_jobs=-1,scoring='precision')
grid.fit(X_train,y_train);
f1_score(grid.predict(X_test),y_test)

0.9877300613496933

In [14]:
print("----------------- Обучили и тестировали -------------------")
print("Наилучшие параметры:\n{}\n".format(grid.best_params_))
print("Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: {:.6f}\n".format(grid.best_score_)) 
print("Средняя правильность для наилучшей модели на тестовом наборе: {:.6f}\n".format(grid.score(X_test, y_test)))

----------------- Обучили и тестировали -------------------
Наилучшие параметры:
{'classifier': LogisticRegression(C=1, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False), 'classifier__C': 1, 'classifier__penalty': 'l2', 'preprocessing': None}

Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: 0.986691

Средняя правильность для наилучшей модели на тестовом наборе: 0.975758



In [15]:
param_grid=[{'classifier': [BernoulliNB()],
     'preprocessing':[None,Binarizer()],
     'classifier__alpha':[0.1,0.5,1]
    }]

In [16]:
grid = GridSearchCV(pipe, param_grid, cv=5, return_train_score=True, n_jobs=-1)
grid.fit(X_train,y_train);
precision_score(grid.predict(X_test),y_test)

0.8322981366459627

In [17]:
print("----------------- Обучили и тестировали -------------------")
print("Наилучшие параметры:\n{}\n".format(grid.best_params_))
print("Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: {:.6f}\n".format(grid.best_score_)) 
print("Средняя правильность для наилучшей модели на тестовом наборе: {:.6f}\n".format(grid.score(X_test, y_test)))

----------------- Обучили и тестировали -------------------
Наилучшие параметры:
{'classifier': BernoulliNB(alpha=0.1, binarize=0.0, class_prior=None, fit_prior=True), 'classifier__alpha': 0.1, 'preprocessing': None}

Средняя правильность для наилучшей модели кроссвалидации на валидационных тестовых наборах: 0.839612

Средняя правильность для наилучшей модели на тестовом наборе: 0.857143

