# Árvores de Decisão
### Algoritmo árvores de decisão para uma base de dados do censo

Nesse arquivo, será feito uma predição para pessoas que possuem uma renda anual maior que 50 mil ou menor que 50 mil com base em uma série de dados para cada um dos usuários. Para esse fim, será usado uma base de dados do censo americano e o algoritmo pelo método de árvores de decisão.

#### Pré-processamento da base de dados

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

#### Algoritmo de árvores de decisão com python

In [2]:
# importando o pacote sklearn do python
from sklearn.tree import DecisionTreeClassifier
# função "DecisionTreeClassifier" responsável por criar a árvore de decisão

In [3]:
# criando o objeto "classificador", esse que receberá a árvore de decisão relativa a base de dados trabalhada
classificador = DecisionTreeClassifier(criterion = "entropy", random_state = 0)
# usa a fórmula da entropia e do ganho para fazer o critério dos dados mais relevantes
# definine um estado randômico como zero para garantir que em qualquer ocasião o algoritmo obtenha o mesmo resultado para uma
# base de dados analisada

In [4]:
# fazendo o treinamento com a base de dados 
classificador.fit(previsores_treinamento, classe_treinamento)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='entropy',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=0, splitter='best')

In [5]:
# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

In [6]:
# observando a classe teste
print(classe_teste)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


In [7]:
# observando o resultado do nosso algoritmo, esse que deve ser semelhante a "classe_teste" para um resultado ideal
print(previsoes)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' >50K']


#### Comparando a base de dados de teste com o resultado do algoritmo

Acima podem ser visualizadas duas bases de dados: a primeira relativa aos dados confiáveis e a segunda relativa ao resultado do algoritmo. Lembrando que:

|**Saída de Dados (Legenda)**|
|:---------------------------|
|"<=50K" = renda menor que 50 mil|
|">50K" = renda maior que 50 mil|

In [8]:
# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

In [9]:
# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

In [10]:
# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8104401228249745


Realizando todo o pré-processamento (transformando variáveis categóricas em numéricas, transformando as variáveis em dummy e escalonando-a) obtivemos uma porcentagem de acerto de **81.04%**. Agora, convém mudar alguns pré-processamentos feitos para tentar obter um resultado melhor.

|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|(labelencoder + escalonamento) = |
|(labelencoder + onehotencoder) = |
|(labelencoder) = |

In [11]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
#onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
#previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

## importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [12]:
# importando o pacote sklearn do python
from sklearn.tree import DecisionTreeClassifier
# função "DecisionTreeClassifier" responsável por criar a árvore de decisão

# criando o objeto "classificador", esse que receberá a árvore de decisão relativa a base de dados trabalhada
classificador = DecisionTreeClassifier(criterion = "entropy", random_state = 0)
# usa a fórmula da entropia e do ganho para fazer o critério dos dados mais relevantes
# definine um estado randômico como zero para garantir que em qualquer ocasião o algoritmo obtenha o mesmo resultado para uma
# base de dados analisada

# fazendo o treinamento com a base de dados 
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8128966223132037


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|(labelencoder + escalonamento) = **81.29%**|
|(labelencoder + onehotencoder) = |
|(labelencoder) = |

In [13]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
#from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
#scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
#previsores = scaler.fit_transform(previsores)

## importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [14]:
# importando o pacote sklearn do python
from sklearn.tree import DecisionTreeClassifier
# função "DecisionTreeClassifier" responsável por criar a árvore de decisão

# criando o objeto "classificador", esse que receberá a árvore de decisão relativa a base de dados trabalhada
classificador = DecisionTreeClassifier(criterion = "entropy", random_state = 0)
# usa a fórmula da entropia e do ganho para fazer o critério dos dados mais relevantes
# definine um estado randômico como zero para garantir que em qualquer ocasião o algoritmo obtenha o mesmo resultado para uma
# base de dados analisada

# fazendo o treinamento com a base de dados 
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8102354145342886


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|(labelencoder + escalonamento) = **81.29%**|
|(labelencoder + onehotencoder) = **81.02%**|
|(labelencoder) = |

In [17]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
#onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
#previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
#from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
#scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
#previsores = scaler.fit_transform(previsores)

## importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [18]:
# importando o pacote sklearn do python
from sklearn.tree import DecisionTreeClassifier
# função "DecisionTreeClassifier" responsável por criar a árvore de decisão

# criando o objeto "classificador", esse que receberá a árvore de decisão relativa a base de dados trabalhada
classificador = DecisionTreeClassifier(criterion = "entropy", random_state = 0)
# usa a fórmula da entropia e do ganho para fazer o critério dos dados mais relevantes
# definine um estado randômico como zero para garantir que em qualquer ocasião o algoritmo obtenha o mesmo resultado para uma
# base de dados analisada

# fazendo o treinamento com a base de dados 
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8128966223132037


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|(labelencoder + escalonamento) = **81.29%**|
|(labelencoder + onehotencoder) = **81.02%**|
|(labelencoder) = **81.29%**|

Como resultado, é possível observar que fazer a transformação das variáveis categórias é pré-requisito para obter um bom resultado. Entretanto, transformar as variáveis em tipo dummy não é tão bom assim e o escalonamento de atributos é opcional.

O melhor resultado do algoritmo por **árvores de decisão** foi **81.29%**, comparando com o resultado do algoritmo com **naive bayes** há o seguinte resultado:

|**Comparando os algoritmos com a mesma base de dados para classificação**:|
|:----------|
|Naive Bayes (Porcentagem de acertos): **80,57%%**|
|Árvores de Decisão (Porcentagem de acertos): **81.29%**|

Concluí-se que o algoritmo usando o método de árvores de decisão foi mais favorável para resolver esse problema de classificação censitária.

#### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);