# Árvores de Decisão - Random Forest
### Algoritmo árvores de decisão, melhorado com o random forest, usado em uma base de dados sobre crédito.

Nesse arquivo, será feito uma predição para pessoas que tem chances de pagar ou não alguma ação bancária com base em seus dados previsores.

#### Pré-Processamento da Base de Dados

In [33]:
# importando a biblioteca pandas do python
import pandas as pd

# importando a base de dados em "dataframe"
dataframe = pd.read_csv("Dados de Credito.csv", encoding = "UTF-8", sep = ",")

# usando o atributo "loc" para localizar os registros em que as idades menores que 0 existem, no campo de dados "age", e 
# fazer a atribução com o valor médio dos valores maiores que 0 (40.92770044906149)
dataframe.loc[dataframe.age < 0, "age"] = 40.92770044906149

# seprando os atributos previsores e meta classe da base de dados
previsores = dataframe.iloc[:, 1:4].values
meta_classe = dataframe.iloc[:, 4].values

# importando a biblioteca sklearn do python
from sklearn.impute import SimpleImputer
# função "SimpleImputer" responsável por corrigir valores faltantes na base de dados

# importando a biblioteca numpy do python
import numpy as np
# ela será responsável por categorizar os valores nulos na base de dados

# criando o objeto "imputer"
imputer = SimpleImputer(missing_values = np.nan, strategy = "mean")

# realizando o treinamento com os atributos previsores da base de dado no objeto "imputer"
imputer = imputer.fit(previsores[:, 0:3])

# aplicando a transformação dos dados para correção de valores faltantes nos atributos previsores usando o objeto "imputer"
previsores[:, 0:3] = imputer.transform(previsores[:, 0:3])

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler
# a função "StandardScaler" tem a função de escalonar toda a base de dados para corrigir a discrepância dos valores

# criando o objeto "scaler"
scaler = StandardScaler()

# aplicando a transformação de escalonamento nos atributos previsores usando o objeto "scaler"
previsores  = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a importância de separar modelos de treinamento e modelos de teste em uma base de dados

# definindo os modelos de treinamento e os modelos de teste para os atributos previsores e meta classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe,
                                                                                             test_size = 0.25, 
                                                                                             random_state = 0)

#### Algoritmo de Árvore de Decisão  - Random Forest (10 árvores)

In [34]:
# importando o pacote sklearn do python
from sklearn.ensemble import RandomForestClassifier
# função "RandomForestClassifier" responsável por criar as diversas árvores de decisão

In [35]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 10, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 10 árvores de decisão

In [36]:
# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='entropy', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

In [37]:
# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

In [38]:
# observando a classe teste
print(classe_teste)

[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0
 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 1
 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0
 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 0 1 0 0 0 1 0 0 

In [39]:
# observando o resultado do nosso algoritmo, esse que deve ser semelhante a "classe_teste" para um resultado ideal
print(previsoes)

[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
 0 0 0 0 0 0 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 1 0
 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0
 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0
 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1
 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0
 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0
 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0
 0 0 0 0 0 1 0 0 0 1 0 0 

#### Comparando a Base de Dados de Teste com o Resultado do Algoritmo

Acima podem ser visualizadas duas bases de dados: a primeira relativa aos dados confiáveis e a segunda fruto do algoritmo feito. Lembrando que:

|**Saída de Dados (Legenda)**|
|:---------------------------|
|0 - tem chance de não pagar |
|1 - tem chance de pagar     |

In [40]:
# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

In [41]:
# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

In [42]:
# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.968


In [43]:
# cruzando os dados da base original com a obtida no algoritmo para analisá-las
matriz = confusion_matrix(classe_teste, previsoes)

In [44]:
# observando a matriz de confusão abaixo
print(matriz)

[[432   4]
 [ 12  52]]


Observando a matriz acima, podemos analisar que 432 dados foram classificados corretamente para pessoas classificadas com "não irão pagar" e 52 pessoas classificadas corretamente como "irão pagar". O total de acertos é 484/500. Ao passo em que 4 pessoas com classificação "não irão pagar" foram classificadas como pagadoras e 12 pessoas classificadas com "irão pagar" forma classificadas como não pagadoras. O total de erros foram 16/500.

Em comparação com o algoritmo usando o método **Naive Bayes** e **Árvores de Decisão sem o Random Forest**, o algoritmo usado com **Árvores de Decisão com Random Forest** obteve o seguinte resultado na mesma classificação:

|**Comparando os algoritmos com a mesma base de dados para classificação**:|
|:----------|
|Naive Bayes (Porcentagem de acertos): **93.80%**|
|Árvores de Decisão (Porcentagem de acertos): **98.20%**|
|Árvores de Decisão com Random Forest - 10 Árvores (Porcentagem de acertos): **96.80%**|

#### Algoritmo de Árvore de Decisão - Random Forest (15 árvores)

Será feito o mesmo processor do random forest no algoritmo, mas dessa vez 15 árvores serão criadas ao invés de 10.

In [45]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 15, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 15 árvores de decisão

# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.978


|**Comparando os algoritmos com a mesma base de dados para classificação**:|
|:----------|
|Naive Bayes (Porcentagem de acertos): **93.80%**|
|Árvores de Decisão (Porcentagem de acertos): **98.20%**|
|Árvores de Decisão com Random Forest - 15 Árvores (Porcentagem de acertos): **97.80%**|

### Algoritmo de Árvore de Decisão - Random Forest (30 árvores)

Será feito o mesmo processor do random forest no algoritmo, mas dessa vez 30 árvores serão criadas ao invés de 15.

In [46]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 30, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 15 árvores de decisão

# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.98


|**Comparando os algoritmos com a mesma base de dados para classificação**:|
|:----------|
|Naive Bayes (Porcentagem de acertos): **93.80%**|
|Árvores de Decisão (Porcentagem de acertos): **98.20%**|
|Árvores de Decisão com Random Forest - 30 Árvores (Porcentagem de acertos): **98.00%**|

#### Algoritmo de Árvore de Decisão - Random Forest (40 árvores)

Será feito o mesmo processor do random forest no algoritmo, mas dessa vez 40 árvores serão criadas ao invés de 30.

In [47]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 40, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 15 árvores de decisão

# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.984


|**Comparando os algoritmos com a mesma base de dados para classificação**:|
|:----------|
|Naive Bayes (Porcentagem de acertos): **93.80%**|
|Árvores de Decisão (Porcentagem de acertos): **98.20%**|
|Árvores de Decisão com Random Forest - 40 Árvores (Porcentagem de acertos): **98.40%**|

A escolha por Random Forest ou não depende muito da aplicação que o desenvolvedor terá que lidar, pois um ganho de **0.20%** a mais na capacidade preditiva exigiu mais espaço de armazenamento com a criação de 40 árvores de decisão ao invés de uma. Portanto, concluí-se que o Random Forest não é a escolha mais adequada para essa base de dados.

### Alguma Dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);