# Árvores de Decisão
### Algoritmo árvores de decisão usado em uma base de dados sobre créditos.

Nesse arquivo, será feito uma predição para pessoas que tem chances de pagar ou não alguma ação bancária com base em seus poderes históricos anteriores de crédito.

#### Pré- processamento da base de dados

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

# importando a base de dados em "dataframe"
dataframe = pd.read_csv("Dados de Credito.csv", encoding = "UTF-8", sep = ",")

# usando o atributo "loc" para localizar os registros em que  as idades menores que 0 existem, no campo de 
# dados "age", e fazer a atribuição com o valor médio dos valores maiores que o (40.92770044906149)
dataframe.loc[dataframe.age < 0, "age"] = 40.92770044906149

# separando os atributos previsores e os meta classe do nosso banco de dados
previsores = dataframe.iloc[:,1:4].values
meta_classe = dataframe.iloc[:,4].values

# importando a biblioteca sklearn do python
from sklearn.impute import SimpleImputer
# função "SimpleImputer" responsável por corrigir valores faltantes na base de dados

# importando a biblioteca numpy do python
import numpy as np
# ela será responsável por categorizar os valores nulos na base de dados 

# criando  o objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")

# observando o objeto "imputer"
imputer

# definindo o objeto "imputer" na nossa base de dados
imputer = imputer.fit(previsores[:,0:3])

# aplicando a transformação dos dados para correção de valores faltantes nos atributos previsores 
# usando o objeto "imputer"
previsores[:,0:3] = imputer.transform(previsores[:,0:3])

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler
# a função "StandardScaler" tem a função de escalonas toda a base de dados para corrigir a discrepância
# dos valores

# criando o objeto "scaler"
scaler = StandardScaler()

# aplicando a transformação de escalonamento nos atributos previsores usando o nosso objeto "scaler"
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a importância de separar modelos de treinamento e modelos de teste
# em uma base de dados

# definir os modelos de treinamento e modelo de teste para os atributos previsores e meta classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, 
                                                                                              meta_classe, 
                                                                                          test_size = 0.25,
                                                                                        random_state = 0)

#### Algoritmo de Árvores de Decisão com Python

In [3]:
# importando o pacote sklearn do python
from sklearn.tree import DecisionTreeClassifier
# função "DecisionTreeClassifier" responsável por criar a árvore de decisão

In [14]:
# criando o objeto "classificador", esse que receberá a árvore de decisão relativa a base de dados trabalhada
classificador = DecisionTreeClassifier(criterion = "entropy", random_state = 0)
# usa a fórmula da entropia e do ganho para fazer o critério dos dados mais relevantes
# definine um estado randômico como zero para garantir que em qualquer ocasião o algoritmo obtenha o mesmo resultado para uma
# base de dados analisada

In [15]:
# fazendo o treinamento com a base de dados 
classificador.fit(previsores_treinamento, classe_treinamento)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='entropy',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='best')

In [16]:
# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

In [17]:
# observando a classe teste
print(classe_teste)

[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0
 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 1
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0
 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 0 1 0 0 0 1 0 0 

In [18]:
# observando o resultado do nosso algoritmo, esse que deve ser semelhante a "classe_teste" para um resultado ideal
print(previsoes)

[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0
 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0
 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 1 0 1
 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0
 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 0 1 0 0 0 1 0 0 

#### Comparando a base de dados de teste com o resultado do algoritmo

Acima podem ser visualizadas duas bases de dados: a primeira relativa aos dados confiáveis e a segunda relativa ao resultado do algoritmo. Lembrando que:

|**Saída dos dados (Legenda)**|
|:----------------------------|
|0 - tem chance de não pagar|
|1 - tem chance de pagar|

In [19]:
# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

In [20]:
# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

In [21]:
# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.982


In [22]:
# cruzando os dados da base original com a obtida no algoritmo para analisá-las
matriz = confusion_matrix(classe_teste, previsoes)

In [23]:
# observando a matriz de confusão abaixo
print(matriz)

[[430   6]
 [  3  61]]


Observando a matriz acima podemos observar que 430 dados foram classificados corretamente para pessoas classificadas com "não irão pagar" e 61 pessoas classificadas corretamente com "irão pagar". O total de acertos é 491/500. Ao passo em que 3 pessoas com classificação "não irão pagar" foram avaliadas como pagadoras e 3 pessoas classificados como "irão pagar" foram avaliadas como não pagadoras. O total de erros foi 9/500. 

Em comparação com o algoritmo usando o método **Naive Bayes**, o algoritmo usado com **Árvores de Decisão** obteve o seguinte resultado na mesma classificação:

|**Comparando os algoritmos com a mesma base de dados para classificação**:|
|:----------|
|Naive Bayes (Porcentagem de acertos): **93.80%**|
|Árvores de Decisão (Porcentagem de acertos): **98.20%**|

Concluí-se que o algoritmo usando o método de árvores de decisão foi mais favorável para resolver esse problema de análise bancária.

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);