## Árvores de Classificação e Regressão

## Banknote Dataset

Utilizaremos o conjunto de dados denominado BankNote Dataset disponível nesse link: https://goo.gl/rLPrHO. Esse dataset é utilizado para prever se uma cédula é autêntica dado o conjunto de medidas tiradas de uma fotografia. Esse problema é composto por 1372 observações de dados que foram extraídos de imagens que foram tiradas de cédulas genuínas e falsas. Foi utilizada uma ferramenta de transformação "wavelet"(função capaz de decompor e descrever ou representar outra função) para extrair essas informações da imagem. Os registros mostram a variância, a obliquidade e a curtose(é uma medida de forma que caracteriza o achatamento da curva da função) da imagem transformada pela ferramenta, além disso há a entropia da imagem. Cada registro há um valor de classe que indica se a cédula é autentica (0) ou não (1).

## Passos do tutorial:
    1. Carregar o dataset.
    2. Dvidir o dataset.
    3. Treinar o algoritmo.
    4. Fazer uma predição e avaliar o algoritmo.
    5. Avaliar o algortimo utilizando o K-fold Cross Validation

In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import KFold, cross_val_score
import numpy as np

In [7]:
data = pd.read_csv('banknote.csv', header= None)
data.head()

Unnamed: 0,0,1,2,3,4
0,3.6216,8.6661,-2.8073,-0.44699,0
1,4.5459,8.1674,-2.4586,-1.4621,0
2,3.866,-2.6383,1.9242,0.10645,0
3,3.4566,9.5228,-4.0112,-3.5944,0
4,0.32924,-4.4552,4.5718,-0.9888,0


In [8]:
X = data.iloc[:,[0,1,2,3]]
Y = data.iloc[:,4]
X_train, X_test, y_train, y_test = train_test_split(X, Y, train_size=0.8, test_size= 0.2, random_state=1)

In [10]:
# gini -> índice de pureza que ajuda a fazer as limiares da árvore
# max_depth define a máxima profundidade de uma árvore: Isso é o número máximo de nós da raiz da árvore
# min_samples_split define o número mínimo de registros nos nós: É o número mínimo de padrões de treinamento que um nó é responsável.
model = DecisionTreeClassifier(criterion='gini', max_depth= 5, min_samples_split= 10)
model.fit(X_train, y_train)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=5,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=10,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

In [11]:
predicao = model.predict(X_test)
predicao

array([1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0,
       0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1,
       0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0,
       0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1,
       1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0,
       0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0,
       0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0], dtype=int64)

In [12]:
accuracy = model.score(X_test, y_test)*100
print('Accuracy: %s%%' % accuracy)

Accuracy: 97.0909090909091%


In [13]:
k_fold = KFold(n_splits=5)
scores = cross_val_score(model, X, Y, cv=k_fold, n_jobs=-1)
scores

array([0.95272727, 0.98181818, 0.97810219, 0.91240876, 0.98175182])

In [15]:
media = np.mean(scores) * 100
media

96.13616456536164