# Criando Rede Neural com PyBrain

As redes neurais ganharam muita força no mercado com a utilização do DeepLearning. Por mais que esse algoritmo tenha um custo operacional muito alto, ele é o melhor para a resolução de problemas complexos. Resumidamente o objetivo desse algoritmo é achar a combinação de pesos que entregue o menor valor do erro. Para isso, o algoritmo irá usar uma série de cálculos envolvendo os erros, o gradiente da função (para achar o mínimo global na função erro) e um delta.

De forma simplificada o que o algoritmo faz submeter vários valores a várias funções em forma de camadas, divididas entre camada de entrada (camada que contém os valores dos previsores), camada oculta (valores após uma série de cálculos) e camada de saída (valores da previsão). Cada camada é formada por neurônios que guardam consigo um determiando valor numérico, por isso, ao trabalharmos com esse algoritmo, é importante tranformarmos os valores das variáveis categóricas em valores numéricos. O algortimo funciona da seguinte forma: ele realiza o somatório do produto de cada neurônio da camada de entrada pelo seu respectivo peso, joga esse valor numa função (normalmente a Sigmoide, mas podemos utilizar outras como a função degrau e tangente hiperbólica) gerando assim um novo valor que, por sua vez, estará contido em cada neurônio da camada oculta, esse processo pode se repetir $n$ vezes, sendo $n$ o número de camadas ocultas, até que esses valores sejam submetidos a um novo somatório de produtos, aplicado a uma nova função (normalmente Sigmoide também) gerando assim o(s) valor(es) do(s) neurônio(s) de saída.

Normalmente, nos algoritmos de classificação, os neurônios da camada de saída funcionam de forma binária, isto é, cada neurônio deve informar valores muito próximos de 0 ou 1. isso acontece justamente pelo fato de um neurônio só guardar valores numéricos. Assim, para resolver os problemas com mais de 2 tipos de classes, podemos codificar nossa classe, como por exemplo, risco alto, médio e baixo, como sendo um número binário, ou melhor, um conjunto de 0 e 1, tal que, podemos dizer que risco alto = 1 0 0, risco médio = 0 1 0 e risco baixo = 0 0 1, analogamente ao que fizemos no OneHotEncode, ao tranformar um atributo em vários outros.

In [2]:
from pybrain.tools.shortcuts import buildNetwork
from pybrain.datasets import SupervisedDataSet
from pybrain.supervised.trainers import BackpropTrainer
from pybrain.structure.modules import SoftmaxLayer
from pybrain.structure.modules import SigmoidLayer

In [7]:
# E X E M P L O
### Criando rede de forma simplificada. Cada parâmetro corresponde a quantidade de neurônios de cada camada respectivamente (entrada, oculta(s), saida)
rede = buildNetwork(2, 3, 1,
                    outclass=SoftmaxLayer, #Altera função da camada de saída
                    hiddenclass=SigmoidLayer, #Alterafunções das camadas ocultas
                    bias=False) #Retira o Bias
### Imprime a função da camada de entrada
print(rede['in'])
### Imprime a função da camada oculta
print(rede['hidden0'])
### Imprime a função da camada de saída
print(rede['out'])
### Imprime a unidade de bias
print(rede['bias'])

<LinearLayer 'in'>
<SigmoidLayer 'hidden0'>
<SoftmaxLayer 'out'>
None


In [8]:
### Criando rede de forma simplificada
rede = buildNetwork(2, 3, 1)
### Cria base de dados (exemplo de uma porta XOR) com 2 atributos previsores e 1 classe
base = SupervisedDataSet(2, 1)
### Adicionando elementos à base
base.addSample((0, 0), (0, ))
base.addSample((0, 1), (1, ))
base.addSample((1, 0), (1, ))
base.addSample((1, 1), (0, ))
### Imprime os dados de entrada e as classes meta
print(base['input'])
print(base['target'])

[[0. 0.]
 [0. 1.]
 [1. 0.]
 [1. 1.]]
[[0.]
 [1.]
 [1.]
 [0.]]


Quanto menor o learningrate, menor será o erro. No entanto, isso irá ter um custo computacional, ou seja, pode ser que demore muito para o algoritmo ser compilado e executado. A mesma coisa acontece com o momentum.

In [9]:
### Fazendo o treinamento
treinamento = BackpropTrainer(rede, dataset=base, learningrate=0.01, momentum=0.06)
### Controlando o número de épocas do treinamento
for i in range(1, 30000):
    erro = treinamento.train()
    # Imprime o erro a cada 1000 gerações
    if i%1000 == 0:
        print("Erro: {}".format(erro))

Erro: 0.127618666505632
Erro: 0.1268157426741901
Erro: 0.12591208849045604
Erro: 0.12463439581906756
Erro: 0.1220451323982357
Erro: 0.11725007225830561
Erro: 0.10958095503990226
Erro: 0.09858886658560345
Erro: 0.08359992823707686
Erro: 0.06096260227984304
Erro: 0.029773771630862336
Erro: 0.008140396066159749
Erro: 0.0013475718885801538
Erro: 0.00017176118720165393
Erro: 1.971646636142006e-05
Erro: 2.1854782049930134e-06
Erro: 2.388915809607794e-07
Erro: 2.5988703489920717e-08
Erro: 2.830526290176739e-09
Erro: 3.0724320863700425e-10
Erro: 3.345624341838106e-11
Erro: 3.6364599870218747e-12
Erro: 3.9459546218059864e-13
Erro: 4.293854645027884e-14
Erro: 4.6672128701537796e-15
Erro: 5.072844586190637e-16
Erro: 5.514060700043973e-17
Erro: 5.990047623021708e-18
Erro: 6.519585159597404e-19


In [10]:
### Imprimindo algumas previsões
print(rede.activate([0, 0]))
print(rede.activate([1, 0]))
print(rede.activate([0, 1]))
print(rede.activate([1, 1]))

[1.99498112e-10]
[1.]
[1.]
[5.2219809e-10]
