### Определение банкнот на фальшивость

Информация о наборе данных:
https://archive.ics.uci.edu/ml/datasets/banknote+authentication

Данные были извлечены из изображений, которые были взяты из подлинных и поддельных образцов, похожих на банкноты. Для оцифровки использовалась промышленная камера, обычно используемая для проверки печати. Окончательные изображения имеют размер 400x 400 пикселей. За счет линзы объекта и расстояния до исследуемого объекта были получены полутоновые изображения с разрешением около 660 dpi. Инструмент Wavelet Transform использовался для извлечения функций из изображений.


Информация об атрибутах:

1. дисперсия изображения, преобразованного вейвлет-преобразованием (непрерывная)
2. асимметрия изображения, преобразованного вейвлет-преобразованием (непрерывная)
3. кратность изображения, преобразованного вейвлет-преобразованием (непрерывная)
4. энтропия изображения (непрерывная

In [30]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import f1_score
import matplotlib.pyplot as plt
%matplotlib inline

In [31]:
data = pd.read_csv('bill_authentication.csv')

Параметры решающего дерева для решения задачи:

- max_depth — максимальная глубина дерева.
- max_features — максимальное число признаков, по которым ищется лучшее разбиение в дереве. Это нужно потому, что при большом количестве признаков будет «дорого» искать лучшее (по критерию типа прироста информации) разбиение среди всех признаков.
- min_samples_leaf — минимальное число объектов в листе. У этого параметра есть понятная интерпретация: если он равен 5, то дерево будет порождать только те классифицирующие правила, которые верны как минимум для 5 объектов.

Обучаем решающее дерево. Целевой переменной здесь является переменная Class. Размер тестовой выборки выбираем 0.2, random_state = 17 для разбиения и дерева. Максимальную глубину дерева определяем перебором (лучшее max_depth = 3), максимальное число признаков, по которым ищется лучшее разбиение в дереве — за (перебором находим лучшее max_features = 2). По максимальному значению f1-score определяем лучшее значение.

In [32]:
X_train,X_test,Y_train,Y_test = train_test_split(data.iloc[:,:-1].values, data.iloc[:,-1:].values, 
                                                test_size=0.2, random_state=17)
max_zn = 0
for i in range(1,4):
    for j in range(1,20):
        model_DTree = DecisionTreeClassifier(max_depth=3, max_features = i,min_samples_leaf = j)
        model_DTree = model_DTree.fit(X_train, Y_train)
        Y_pred = model_DTree.predict(X_test)
        f1_sc = f1_score(Y_test, Y_pred).round(3)
        if f1_sc > max_zn:
            max_zn = f1_sc
            max_feature = i
            samples_leaf = j
            
        
print(max_zn,max_feature,samples_leaf)

0.958 3 18


In [33]:
a = [np.array([2.04378,-0.38422,1.437292,0.76421])]
print(a)
X_test

[array([ 2.04378 , -0.38422 ,  1.437292,  0.76421 ])]


array([[ 5.591  , 10.4643 , -4.3839 , -4.3379 ],
       [ 1.164  ,  3.913  , -4.5544 , -3.8672 ],
       [ 3.2351 ,  9.647  , -3.2074 , -2.5948 ],
       ...,
       [-6.0598 ,  9.2952 , -0.43642, -6.3694 ],
       [ 3.9663 , 10.1684 , -4.1131 , -4.6056 ],
       [-3.551  ,  1.8955 ,  0.1865 , -2.4409 ]])

In [34]:
Y_pred = model_DTree.predict(a)
Y_pred

array([0], dtype=int64)