# Árvores de Decisão - Random Forest
### Algoritmo árvores de decisão, melhorado com o random forest, usado em uma base de dados sobre o censo.

In [2]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [3]:
# importando o pacote sklearn do python
from sklearn.ensemble import RandomForestClassifier
# função "RandomForestClassifier" responsável por criar as diversas árvores de decisão

In [4]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 40, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 10 árvores de decisão

In [5]:
# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='entropy', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=40,
                       n_jobs=None, oob_score=False, random_state=0, verbose=0,
                       warm_start=False)

In [6]:
# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

|**Saída de Dados (Legenda)**|
|:---------------------------|
|"<=50K" = renda menor que 50 mil|
|">50K" = renda maior que 50 mil|

In [7]:
# importando o pacote sklearn do python
from sklearn.metrics import confusion_matrix, accuracy_score
# "confusion_matrix" relaciona os dados originais com os dados previstos pelo algoritmo em uma matriz
# "accuracy_score" exibe uma porcentagem de confiança no algoritmo, com base nos dados originais e nos dados previstos

In [8]:
# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

In [9]:
# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.847697031729785


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|[labelencoder + onehotencoder + escalonamento + Random Forest (40 árvores)] = **84.76%**|
|(labelencoder + escalonamento) = |
|(labelencoder + onehotencoder) = |
|(labelencoder) = |

In [10]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
#onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
#previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

## importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [11]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 40, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 10 árvores de decisão

# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8483111566018424


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|[labelencoder + onehotencoder + escalonamento + Random Forest (40 árvores)] = **84.76%**|
|(labelencoder + escalonamento) = **81.29%**|
|[labelencoder + escalonamento + Random Forest (40 árvores)] = **84.83%**|
|(labelencoder + onehotencoder) = |
|(labelencoder) = |

In [13]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
#from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
#scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
#previsores = scaler.fit_transform(previsores)

## importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [14]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 40, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 10 árvores de decisão

# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8489252814738997


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|[labelencoder + onehotencoder + escalonamento + Random Forest (40 árvores)] = **84.76%**|
|(labelencoder + escalonamento) = **81.29%**|
|[labelencoder + escalonamento + Random Forest (40 árvores)] = **84.83%**|
|(labelencoder + onehotencoder) = **81.02%**|
|[labelencoder + onehotencoder + Random Forest (40 árvores)] = **84.89%**|
|(labelencoder) = |

In [15]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo ao objeto "dataframe" todos os registros do banco de dados armazenados no arquivo "census.csv"
dataframe = pd.read_csv("census.csv", encoding = "UTF-8", sep = ",")

# separando os atributos previsores do "dataframe"
previsores = dataframe.iloc[:,0:14].values

# separando os atributos meta classe do "dataframe"
meta_classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do Python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

from sklearn.preprocessing import OneHotEncoder
# importando a biblioteca sklearn do Python
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do Python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o nosso objeto "LabelEncoder_previsores" para fazer a transformação dos campos de dados categóricos em numéricos
LabelEncoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido "LabelEncoder_previsores"
previsores[:,1] = LabelEncoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = LabelEncoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = LabelEncoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = LabelEncoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = LabelEncoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = LabelEncoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = LabelEncoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = LabelEncoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto "onehotencoder" 
#onehotencoder = ColumnTransformer(transformers = [("OneHot", OneHotEncoder(), [1,3,5,6,7,8,9,13])], remainder = "passthrough")

# transformando os atributos previsores em variáveis dummy usando o objeto "onehotencoder"
#previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do Python
#from sklearn.preprocessing import StandardScaler
# função "StandardScaler" responsável por fazer escalonamento de atributos

# criando e configurando o objeto "scaler"
#scaler = StandardScaler()

# aplicando o escalonamento nos atributos previsores
#previsores = scaler.fit_transform(previsores)

## importando a biblioteca sklearn do Python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base de dados

# definir os modelos de treinamento e modelos de teste para os atributos previsores e meta_classe
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, meta_classe, 
                                                                                              test_size = 0.15,
                                                                                             random_state = 0)

In [16]:
# criando o objeto "classificaodor", esse que receberá as árvores de decisão relativa a base de dados trabalhada
classificador = RandomForestClassifier(n_estimators = 40, criterion = "entropy", random_state = 0)
# nesse caso, foi especificado a criação de 10 árvores de decisão

# fazendo o treinamento com a base de dados
classificador.fit(previsores_treinamento, classe_treinamento)

# usando a base de dados de teste para analisar a capacidade de predição do algoritmo feito
previsoes = classificador.predict(previsores_teste)

# usando "accuracy_score" para obter a precisão do algoritmo
precisao = accuracy_score(classe_teste, previsoes)

# exibindo na saída de dados a porcentagem de acertos obtidos pelo algoritmo feito
print(precisao)

0.8481064483111566


|**Resultados do algoritmo**|
|:--------------------------|
|(labelencoder + onehotencoder + escalonamento) = **81.04%**|
|[labelencoder + onehotencoder + escalonamento + Random Forest (40 árvores)] = **84.76%**|
|(labelencoder + escalonamento) = **81.29%**|
|[labelencoder + escalonamento + Random Forest (40 árvores)] = **84.83%**|
|(labelencoder + onehotencoder) = **81.02%**|
|[labelencoder + onehotencoder + Random Forest (40 árvores)] = **84.89%**|
|(labelencoder) = **81.29%**|
|[labelencoder + Random Forest (40 árvores)] = **84.81%**|

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alysson.barbosa@ee.ufcg.edu.br)