# Rede Neural para os Dados do Censo
#### Criando uma rede neural para resolver o problema da base do censo.

### Pré-processamento dos dados

In [1]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo os registros da base de dados para o objeto "dataframe"
dataframe = pd.read_csv('census.csv', encoding = 'utf-8', sep = ',')

# separando os atributos previsores e classe 
previsores = dataframe.iloc[:, 0:14].values
classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do python
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas
# função "OneHotEncoder" responsável por fazer a trasnformação em variáveis "dummy"

# importando a biblioteca sklearn do python
from sklearn.compose import ColumnTransformer
# função "ColumnTransformer" responsável por definir quais colunas o objeto irá agir na alteração

# criando o objeto "labelencoder_previsores" para fazer a transformação dos atributos categóricos em numéricos
labelencoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido 
# "LabelEncoder_previsores"
previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])

# criando e configurando o objeto onehotencoder
onehotencoder = ColumnTransformer(transformers = [('OneHot', OneHotEncoder(), [1,3,5,6,7,8,9,13])], 
                                  remainder = 'passthrough')

# transformando os atributos previsores em variáveis do tipo "dummy"
previsores = onehotencoder.fit_transform(previsores).toarray()

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escaolonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base 
#de dados

# separando as bases de dados entre modelos de treinamento e modelos de teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, 
                                                                                             classe,
                                                                                             test_size = 0.15, 
                                                                                             random_state = 0)

### Criando uma rede neural usando a linguagem de programação Python

#### Pré-processamento: **LabelEncoder + OneHotEncoder + StandardScaler**.

In [2]:
# importando a biblioteca sklearn do python
from sklearn.neural_network import MLPClassifier
# 'MLPClassifier' é usado para criar uma rede neural
# Multi Layer Perceptron

In [3]:
# criando e definindo um 'classificador' para definir os parâmetros da rede neural
# verbose mostra na tela os dados em cada época de treinamento
# max_iter = números de repetições, ou seja, quantidade de vezes que o algoritmo será treinado
# tol = ajusta os pesos com passos pequenos
# solver é a otimização utilizada, 'adam' é um melhoramente do método gradiente descente
# activation = função de ativação
# hidden_layer_sizes = quantidade de neurônios em cada camada oculta
# learning_rate = indica o método de ajuste de pesos, em 'constant' o treinamento para quando o peso não 
# mude por duas vezes consecutivas e 'adaptative' muda a taxa de aprendizado quando o erro não diminui
# muda a taxa de aprendizagem
classificador = MLPClassifier(verbose = True, max_iter = 1000, tol = 0.0000010, solver = 'adam', 
                              hidden_layer_sizes = (100, 100), activation = 'relu', 
                              learning_rate = 'constant', random_state = 0)

In [4]:
# fazendo o treinamento com a base de dados de treinamento
classificador.fit(previsores_treinamento, classe_treinamento)

Iteration 1, loss = 0.37925477
Iteration 2, loss = 0.32066442
Iteration 3, loss = 0.30993984
Iteration 4, loss = 0.30350296
Iteration 5, loss = 0.29803262
Iteration 6, loss = 0.29346924
Iteration 7, loss = 0.29025075
Iteration 8, loss = 0.28646792
Iteration 9, loss = 0.28434745
Iteration 10, loss = 0.28062483
Iteration 11, loss = 0.27877842
Iteration 12, loss = 0.27506406
Iteration 13, loss = 0.27344820
Iteration 14, loss = 0.27004223
Iteration 15, loss = 0.26764467
Iteration 16, loss = 0.26573897
Iteration 17, loss = 0.26228694
Iteration 18, loss = 0.25961221
Iteration 19, loss = 0.25741437
Iteration 20, loss = 0.25483812
Iteration 21, loss = 0.25333541
Iteration 22, loss = 0.25136399
Iteration 23, loss = 0.24761167
Iteration 24, loss = 0.24634396
Iteration 25, loss = 0.24236574
Iteration 26, loss = 0.23986850
Iteration 27, loss = 0.24033890
Iteration 28, loss = 0.23611067
Iteration 29, loss = 0.23542471
Iteration 30, loss = 0.23121316
Iteration 31, loss = 0.23130414
Iteration 32, los

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(100, 100), learning_rate='constant',
              learning_rate_init=0.001, max_fun=15000, max_iter=1000,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=0, shuffle=True, solver='adam',
              tol=1e-06, validation_fraction=0.1, verbose=True,
              warm_start=False)

In [5]:
# fazendo a predição usando a base de teste 
previsoes = classificador.predict(previsores_teste)

In [6]:
# observando os dados previstos com a base de teste
print(previsoes)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' >50K']


In [7]:
# observando os resultados originais para a base de teste
print(classe_teste)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


### Analisando a capacidade de predição do algoritmo

In [8]:
# importando a biblioteca sklearn do python
from sklearn.metrics import accuracy_score, confusion_matrix

In [9]:
# obtendo a precisão do algoritmo
precisao = accuracy_score(previsoes, classe_teste)

In [10]:
# observando a precisão de acertos do algoritmo
print(precisao)

0.8075742067553736


A precisão de acertos do algoritmo foi de **80.76%**.

In [12]:
# obtendo a matriz de confusão que relaciona os acertos e erros do algoritmo
matriz = confusion_matrix(previsoes, classe_teste)

In [13]:
# observando a matriz de confusão para os dados previstos pelo algoritmo
print(matriz)

[[3274  521]
 [ 419  671]]


Observe que 3274 dados referentes a pessoas que recebem menos que 50 mil por ano foram previstos corretamente, assim como 671 dados referentes a pessoas que recebem mais que 50 mil por ano. Entretanto, 521 dados referentes a pessoas que recebem menos que 50 mil anualmente foram classificados incorretamente como se recebessem mais e 419 dados referentes a pessoas que recebem mais que 50 mil por ano foram classificados incorretamente como se recebessem mais.

#### Pré-processamento: **LabelEncoder + StandardScaler**.

In [14]:
# importando a biblioteca pandas do python
import pandas as pd

# atribuindo os registros da base de dados para o objeto "dataframe"
dataframe = pd.read_csv('census.csv', encoding = 'utf-8', sep = ',')

# separando os atributos previsores e classe 
previsores = dataframe.iloc[:, 0:14].values
classe = dataframe.iloc[:, 14].values

# importando a biblioteca sklearn do python
from sklearn.preprocessing import LabelEncoder
# LabelEncoder é uma função responsável por  normalizar rótulos
# o objetivo é transoformar variáveis categóricas em numéricas

# criando o objeto "labelencoder_previsores" para fazer a transformação dos atributos categóricos em numéricos
labelencoder_previsores = LabelEncoder()

# aplicando a transformação em todos os campos de dados categóricos usando o objeto criado e definido 
# "LabelEncoder_previsores"
previsores[:,1] = labelencoder_previsores.fit_transform(previsores[:,1])
previsores[:,3] = labelencoder_previsores.fit_transform(previsores[:,3])
previsores[:,5] = labelencoder_previsores.fit_transform(previsores[:,5])
previsores[:,6] = labelencoder_previsores.fit_transform(previsores[:,6])
previsores[:,7] = labelencoder_previsores.fit_transform(previsores[:,7])
previsores[:,8] = labelencoder_previsores.fit_transform(previsores[:,8])
previsores[:,9] = labelencoder_previsores.fit_transform(previsores[:,9])
previsores[:,13] = labelencoder_previsores.fit_transform(previsores[:,13])

# importando a biblioteca sklearn do python
from sklearn.preprocessing import StandardScaler

# criando e configurando o objeto "scaler"
scaler = StandardScaler()

# aplicando o escaolonamento nos atributos previsores
previsores = scaler.fit_transform(previsores)

# importando a biblioteca sklearn do python
from sklearn.model_selection import train_test_split
# a função "train_test_split" tem a função de separar modelos de treinamento e modelos de teste em uma base 
#de dados

# separando as bases de dados entre modelos de treinamento e modelos de teste
previsores_treinamento, previsores_teste, classe_treinamento, classe_teste = train_test_split(previsores, 
                                                                                             classe,
                                                                                             test_size = 0.15, 
                                                                                             random_state = 0)

In [15]:
# importando a biblioteca sklearn do python
from sklearn.neural_network import MLPClassifier
# 'MLPClassifier' é usado para criar uma rede neural
# Multi Layer Perceptron

In [16]:
# criando e definindo um 'classificador' para definir os parâmetros da rede neural
# verbose mostra na tela os dados em cada época de treinamento
# max_iter = números de repetições, ou seja, quantidade de vezes que o algoritmo será treinado
# tol = ajusta os pesos com passos pequenos
# solver é a otimização utilizada, 'adam' é um melhoramente do método gradiente descente
# activation = função de ativação
# hidden_layer_sizes = quantidade de neurônios em cada camada oculta
# learning_rate = indica o método de ajuste de pesos, em 'constant' o treinamento para quando o peso não 
# muda por duas vezes consecutivas e 'adaptative' muda a taxa de aprendizado quando o erro não diminui
# muda a taxa de aprendizagem
classificador = MLPClassifier(verbose = True, max_iter = 1000, tol = 0.0000010, solver = 'adam', 
                              hidden_layer_sizes = (100, 100), activation = 'relu', 
                              learning_rate = 'constant', random_state = 0)

In [17]:
# fazendo o treinamento com a base de dados de treinamento
classificador.fit(previsores_treinamento, classe_treinamento)

Iteration 1, loss = 0.39965717
Iteration 2, loss = 0.33080981
Iteration 3, loss = 0.32301692
Iteration 4, loss = 0.31983071
Iteration 5, loss = 0.31787525
Iteration 6, loss = 0.31522174
Iteration 7, loss = 0.31433715
Iteration 8, loss = 0.31312801
Iteration 9, loss = 0.31165005
Iteration 10, loss = 0.30955663
Iteration 11, loss = 0.30787021
Iteration 12, loss = 0.30728069
Iteration 13, loss = 0.30626523
Iteration 14, loss = 0.30505887
Iteration 15, loss = 0.30314128
Iteration 16, loss = 0.30311546
Iteration 17, loss = 0.30133337
Iteration 18, loss = 0.30038261
Iteration 19, loss = 0.29949960
Iteration 20, loss = 0.29751475
Iteration 21, loss = 0.29708103
Iteration 22, loss = 0.29582219
Iteration 23, loss = 0.29625405
Iteration 24, loss = 0.29385775
Iteration 25, loss = 0.29300183
Iteration 26, loss = 0.29149857
Iteration 27, loss = 0.29120671
Iteration 28, loss = 0.29034995
Iteration 29, loss = 0.28916598
Iteration 30, loss = 0.28772804
Iteration 31, loss = 0.28725665
Iteration 32, los

MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(100, 100), learning_rate='constant',
              learning_rate_init=0.001, max_fun=15000, max_iter=1000,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=0, shuffle=True, solver='adam',
              tol=1e-06, validation_fraction=0.1, verbose=True,
              warm_start=False)

In [18]:
# fazendo a predição usando a base de teste 
previsoes = classificador.predict(previsores_teste)

In [19]:
# observando os dados previstos com a base de teste
print(previsoes)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' >50K']


In [20]:
# observando os resultados originais para a base de teste
print(classe_teste)

[' <=50K' ' <=50K' ' <=50K' ... ' <=50K' ' <=50K' ' <=50K']


### Analisando a capacidade de predição do algoritmo

In [21]:
# importando a biblioteca sklearn do python
from sklearn.metrics import accuracy_score, confusion_matrix

In [22]:
# obtendo a precisão do algoritmo
precisao = accuracy_score(previsoes, classe_teste)

In [23]:
# observando a precisão de acertos do algoritmo
print(precisao)

0.8106448311156602


A precisão do algoritmo foi de **81.06%**.

In [24]:
# obtendo a matriz de confusão que relaciona os acertos e erros do algoritmo
matriz = confusion_matrix(previsoes, classe_teste)

In [25]:
# observando a matriz de confusão para os dados previstos pelo algoritmo
print(matriz)

[[3218  450]
 [ 475  742]]


Observe que 3218 dados referentes a pessoas que recebem menos que 50 mil por ano foram previstos corretamente, assim como 742 dados referentes a pessoas que recebem mais que 50 mil por ano. Entretanto, 450 dados referentes a pessoas que recebem menos que 50 mil anualmente foram classificados incorretamente como se recebessem mais e 475 dados referentes a pessoas que recebem mais que 50 mil por ano foram classificados incorretamente como se recebessem mais.

### Observando o balanceamento das classes

In [26]:
# importando a biblioteca collections do python
import collections

In [27]:
# visualizando a quantidade de registros para cada uma das classes
collections.Counter(classe_teste)

Counter({' <=50K': 3693, ' >50K': 1192})

### Alguma dúvida? Entre em contato comigo:

- [Me envie um e-mail](mailto:alyssonmachado388@gmail.com);