# Redes neurais

Rede Neural Artificial (RNA) pode ser definida como uma estrutura complexa interligada por elementos de processamento simples (neur√¥nios), que possuem a capacidade de realizar opera√ß√µes como c√°lculos em paralelo, para processamento de dados e representa√ß√£o de conhecimento. Seu primeiro conceito foi introduzido em 1943, mas ganhou popularidade algumas d√©cadas depois com a introdu√ß√£o de algoritmos de treinamento como o backpropagation, que permite a realiza√ß√£o de um treinamento posterior para aperfei√ßoar os resultados do modelo.

## Estudo: Conjunto de dados de sementes de trigo üìö



O conjunto de dados de sementes envolve a previs√£o de esp√©cies com medidas de sementes de diferentes variedades de trigo.

Existem 201 registros e 7 vari√°veis ‚Äã‚Äãde entrada num√©ricas. √â um problema de classifica√ß√£o com 3 classes de sa√≠da. A escala para cada valor num√©rico de entrada varia, portanto, pode ser necess√°ria alguma normaliza√ß√£o de dados para uso com algoritmos que ponderam entradas como o algoritmo de retropropaga√ß√£o.

Voc√™ pode aprender mais e baixar o conjunto de dados de sementes no [Reposit√≥rio de Aprendizado de M√°quina da UCI](http://archive.ics.uci.edu/ml/datasets/seeds).
- Fa√ßa o download do conjunto de dados de sementes e coloque-o em seu diret√≥rio de trabalho atual com o nome de arquivo **seeds_dataset.csv**.
- O conjunto de dados est√° no formato separado por tabula√ß√£o, portanto, voc√™ deve convert√™-lo para CSV usando um editor de texto ou um programa de planilha. Se preferir, pode fazer download do conjunto de dados no formato CSV diretamente:
  - [Baixar conjunto de dados de sementes de trigo](https://raw.githubusercontent.com/jbrownlee/Datasets/master/wheat-seeds.csv)

Importando as bibliotecas

In [2]:
# Backprop on the Seeds Dataset
from random import seed
from random import randrange
from random import random
from csv import reader
from math import exp

### Inicialize a rede

Vamos come√ßar com algo f√°cil, a cria√ß√£o de uma nova rede pronta para treinamento.

Cada neur√¥nio tem um conjunto de pesos que precisam ser mantidos. Um peso para cada conex√£o de entrada e um peso adicional para a polariza√ß√£o. Precisamos armazenar propriedades adicionais para um neur√¥nio durante o treinamento; portanto, usaremos um dicion√°rio para representar cada neur√¥nio e armazenar propriedades por nomes como `pesos (weights)` para os pesos.

Uma rede √© organizada em camadas. A camada de entrada √© realmente apenas uma linha do nosso conjunto de dados de treinamento. A primeira camada real √© a camada oculta. Isso √© seguido pela camada de sa√≠da que possui um neur√¥nio para cada valor de classe.

Organizaremos as camadas como matrizes de dicion√°rios e trataremos toda a rede como uma matriz de camadas.

√â uma boa pr√°tica inicializar os pesos da rede para pequenos n√∫meros aleat√≥rios. Nesse caso, usaremos n√∫meros aleat√≥rios no intervalo de 0 a 1.

Abaixo est√° uma fun√ß√£o denominada `initialize_network()` que cria uma nova rede neural pronta para treinamento. Ele aceita tr√™s par√¢metros, o n√∫mero de entradas, o n√∫mero de neur√¥nios a ter na camada oculta e o n√∫mero de sa√≠das.

Voc√™ pode ver que, para a camada oculta, criamos `n_hidden` neur√¥nios e cada neur√¥nio na camada oculta possui `n_inputs + 1` pesos, um para cada coluna de entrada em um conjunto de dados e um adicional para o vi√©s.

Voc√™ tamb√©m pode ver que a camada de sa√≠da que se conecta √† camada oculta possui `n_outputs` de neur√¥nios, cada um com `n_hidden + 1` pesos. Isso significa que cada neur√¥nio na camada de sa√≠da se conecta a (tem um peso para) cada neur√¥nio na camada oculta.

In [55]:
# Initialize a network
def initialize_network(n_inputs, n_hidden, n_outputs):
   network = list()
   hidden_layer = [{'weights':[random() for i in range(n_inputs + 1)]} for i in range(n_hidden)]
   network.append(hidden_layer)
   output_layer = [{'weights':[random() for i in range(n_hidden + 1)]} for i in range(n_outputs)]
   network.append(output_layer)
   return network

Vamos testar esta fun√ß√£o. Abaixo est√° um exemplo completo que cria uma pequena rede.

In [1]:
from random import seed
from random import random
# Initialize a network
def initialize_network(n_inputs, n_hidden, n_outputs):
   network = list()
   hidden_layer = [{'weights':[random() for i in range(n_inputs + 1)]} for i in range(n_hidden)]
   network.append(hidden_layer)
   output_layer = [{'weights':[random() for i in range(n_hidden + 1)]} for i in range(n_outputs)]
   network.append(output_layer)
   return network
   
seed(1)
network = initialize_network(2, 1, 2)
for layer in network:
   print(layer)

[{'weights': [0.13436424411240122, 0.8474337369372327, 0.763774618976614]}]
[{'weights': [0.2550690257394217, 0.49543508709194095]}, {'weights': [0.4494910647887381, 0.651592972722763]}]


Executando o exemplo, voc√™ pode ver que o c√≥digo imprime cada camada uma por uma. Voc√™ pode ver que a camada oculta possui um neur√¥nio com 2 pesos de entrada mais o vi√©s. A camada de sa√≠da possui 2 neur√¥nios, cada um com 1 peso mais o vi√©s.

‚ñ∂ Agora que sabemos como criar e inicializar uma rede, vamos ver como podemos us√°-la para calcular uma sa√≠da.

### Propagar para a frente (Forward Propagate)

Podemos calcular uma sa√≠da de uma rede neural propagando um sinal de entrada atrav√©s de cada camada at√© que a camada de sa√≠da produza seus valores.

Chamamos isso de **propaga√ß√£o direta**.

√â a t√©cnica de que precisamos para gerar previs√µes durante o treinamento que precisar√° ser corrigida e √© o m√©todo que precisaremos depois que a rede for treinada para fazer previs√µes de novos dados.

Podemos dividir a propaga√ß√£o em tr√™s partes:
1.  Ativa√ß√£o do neur√¥nio.
2.  Transfer√™ncia de neur√¥nios
3.  Propaga√ß√£o para a frente.

#### Ativa√ß√£o do Neur√¥nio

O primeiro passo √© calcular a ativa√ß√£o de um neur√¥nio que recebe uma entrada.

A entrada pode ser uma linha do nosso conjunto de dados de treinamento, como no caso da camada oculta. Tamb√©m podem ser as sa√≠das de cada neur√¥nio na camada oculta, no caso da camada de sa√≠da.

A ativa√ß√£o do neur√¥nio √© calculada como a soma ponderada das entradas. Muito parecido com regress√£o linear.

`activation = sum(weight_i * input_i) + bias`

Onde `peso` √© um peso de rede, `entrada` √© uma entrada, `i` √© o √≠ndice de um peso ou uma entrada e `vi√©s` √© um peso especial que n√£o tem entrada para multiplicar (ou voc√™ pode pensar na entrada como sempre sendo 1.0).

Abaixo est√° uma implementa√ß√£o disso em uma fun√ß√£o chamada `activate()`. Voc√™ pode ver que a fun√ß√£o assume que o vi√©s √© o √∫ltimo peso na lista de pesos. Isso ajuda aqui e mais tarde a facilitar a leitura do c√≥digo.

In [48]:
# Calculate neuron activation for an input
def activate(weights, inputs):
   activation = weights[-1]
   for i in range(len(weights)-1):
      activation += weights[i] * inputs[i]
   return activation

Agora, vamos ver como usar a ativa√ß√£o do neur√¥nio.

#### Transfer√™ncia de neur√¥nios

Depois que um neur√¥nio √© ativado, precisamos transferir a ativa√ß√£o para ver qual √© realmente a sa√≠da do neur√¥nio.

Diferentes fun√ß√µes de transfer√™ncia podem ser usadas. √â tradicional usar a [**fun√ß√£o de ativa√ß√£o sigm√≥ide**](https://en.wikipedia.org/wiki/Sigmoid_function) , mas voc√™ tamb√©m pode usar a [**fun√ß√£o tanh ( tangente hiperb√≥lica )**](https://en.wikipedia.org/wiki/Hyperbolic_functions) para transferir sa√≠das. Mais recentemente, a [**fun√ß√£o de transfer√™ncia de retificadores**](https://en.wikipedia.org/wiki/Rectifier_(neural_networks)) tem sido popular em grandes redes de aprendizado profundo.

A fun√ß√£o de ativa√ß√£o sigm√≥ide se parece com uma forma de S, tamb√©m √© chamada de fun√ß√£o log√≠stica. Ele pode pegar qualquer valor de entrada e produzir um n√∫mero entre 0 e 1 em uma curva S. Tamb√©m √© uma fun√ß√£o da qual podemos calcular facilmente a derivada (inclina√ß√£o) de que precisaremos mais tarde ao retropropagar o erro.

Podemos transferir uma fun√ß√£o de ativa√ß√£o usando a fun√ß√£o sigm√≥ide da seguinte maneira:
`output = 1 / (1 + e^(-activation))`

Onde `e` √© a base dos logaritmos naturais ([n√∫mero de Euler](https://en.wikipedia.org/wiki/E_(mathematical_constant))).

Abaixo est√° uma fun√ß√£o chamada `transfer()` que implementa a equa√ß√£o sigm√≥ide.

In [49]:
# Transfer neuron activation
def transfer(activation):
   return 1.0 / (1.0 + exp(-activation))

Agora que temos as pe√ßas, vamos ver como elas s√£o usadas.

#### Propaga√ß√£o direta

A propaga√ß√£o direta de uma entrada √© simples.

Trabalhamos atrav√©s de cada camada da nossa rede, calculando as sa√≠das para cada neur√¥nio. Todas as sa√≠das de uma camada se tornam entradas para os neur√¥nios na pr√≥xima camada.

Abaixo est√° uma fun√ß√£o chamada `forward_propagate()` que implementa a propaga√ß√£o direta de uma linha de dados de nosso conjunto de dados com nossa rede neural.

Voc√™ pode ver que o valor de sa√≠da de um neur√¥nio √© armazenado no neur√¥nio com o nome `output`. Voc√™ tamb√©m pode ver que coletamos as sa√≠das para uma camada em uma matriz chamada new_inputs que se torna a `entrada (inputs)` da matriz e √© usada como entrada para a camada a seguir.

A fun√ß√£o retorna as sa√≠das da √∫ltima camada, tamb√©m chamada camada de sa√≠da.

In [50]:
# Forward propagate input to a network output
def forward_propagate(network, row):
   inputs = row
   for layer in network:
      new_inputs = []
      for neuron in layer:
         activation = activate(neuron['weights'], inputs)
         neuron['output'] = transfer(activation)
         new_inputs.append(neuron['output'])
      inputs = new_inputs
   return inputs

##### Exemplo

Vamos juntar todas essas pe√ßas e testar a propaga√ß√£o direta da nossa rede.

Definimos nossa rede em linha com um neur√¥nio oculto que espera 2 valores de entrada e uma camada de sa√≠da com dois neur√¥nios.

In [10]:
# test forward propagation
network = [[{'weights': [0.13436424411240122, 0.8474337369372327, 0.763774618976614]}], [{'weights': [0.2550690257394217, 0.49543508709194095]}, {'weights': [0.4494910647887381, 0.651592972722763]}]]
row = [1, 0, None]
output = forward_propagate(network, row)
print(output)

# A execu√ß√£o do exemplo propaga o padr√£o de entrada [1, 0] e produz um valor de sa√≠da que √© impresso. Como a camada de sa√≠da possui dois neur√¥nios, obtemos uma lista de dois n√∫meros como sa√≠da.
# Os valores reais de sa√≠da s√£o apenas absurdos por enquanto, mas a seguir, come√ßaremos a aprender como tornar os pesos nos neur√¥nios mais √∫teis.

[0.6629970129852887, 0.7253160725279748]


### Erro de Propaga√ß√£o Traseira (Back Propagate Error)

O algoritmo de retropropaga√ß√£o √© nomeado para a maneira como os pesos s√£o treinados.

O erro √© calculado entre as sa√≠das esperadas e as sa√≠das propagadas a partir da rede. Esses erros s√£o propagados para tr√°s pela rede, da camada de sa√≠da para a camada oculta, atribuindo a culpa pelo erro e atualizando os pesos √† medida que avan√ßam.

A matem√°tica para o erro de retropropaga√ß√£o est√° enraizada no c√°lculo, mas permaneceremos em alto n√≠vel nesta se√ß√£o e focaremos no que √© calculado e como, e n√£o por que, os c√°lculos assumem esse formato espec√≠fico.

Esta parte √© dividida em duas se√ß√µes.
1. Derivado de transfer√™ncia.
2. Backpropagation de erro.

#### Derivado de transfer√™ncia

Dado um valor de sa√≠da de um neur√¥nio, precisamos calcular sua inclina√ß√£o.

Estamos usando a fun√ß√£o de transfer√™ncia sigm√≥ide, cuja derivada pode ser calculada da seguinte maneira:
`derivative = output * (1.0 - output)`

Abaixo est√° uma fun√ß√£o chamada `transfer_derivative()` que implementa esta equa√ß√£o.

In [51]:
# Calculate the derivative of an neuron output
def transfer_derivative(output):
   return output * (1.0 - output)

Agora, vamos ver como isso pode ser usado.

#### Backpropagation de erro (Error Backpropagation)

O primeiro passo √© calcular o erro para cada neur√¥nio de sa√≠da, isso nos dar√° nosso sinal de erro (entrada) para propagar para tr√°s atrav√©s da rede.

O erro para um determinado neur√¥nio pode ser calculado da seguinte maneira:
`error = (expected - output) * transfer_derivative(output)`

Onde `expected` √© o valor de sa√≠da esperado para o neur√¥nio, `output` √© o valor de sa√≠da para o neur√¥nio e `transfer_derivative()` calcula a inclina√ß√£o do valor de sa√≠da do neur√¥nio, como mostrado acima.

Este c√°lculo de erro √© usado para neur√¥nios na camada de sa√≠da (output layer). O valor esperado √© o pr√≥prio valor da classe. Na camada oculta, as coisas s√£o um pouco mais complicadas.

O sinal de erro de um neur√¥nio na camada oculta √© calculado como o erro ponderado de cada neur√¥nio na camada de sa√≠da. Pense no erro retornando ao longo dos pesos da camada de sa√≠da at√© os neur√¥nios na camada oculta.

O sinal de erro propagado de volta √© acumulado e, em seguida, usado para determinar o erro do neur√¥nio na camada oculta, da seguinte maneira:

`error = (weight_k * error_j) * transfer_derivative(output)`

Onde `error_j` √© o sinal de erro do `j-` √©simo neur√¥nio na camada de sa√≠da, `weight_k` √© o peso que conecta o `k-` √©simo neur√¥nio ao neur√¥nio atual e a sa√≠da √© a sa√≠da do neur√¥nio atual.

Abaixo est√° uma fun√ß√£o chamada `backward_propagate_error()` que implementa este procedimento.

Voc√™ pode ver que o sinal de erro calculado para cada neur√¥nio √© armazenado com o nome ‚Äòdelta‚Äô. Voc√™ pode ver que as camadas da rede s√£o iteradas na ordem inversa, come√ßando na sa√≠da e trabalhando para tr√°s. Isso garante que os neur√¥nios na camada de sa√≠da tenham valores ‚Äòdelta‚Äô calculados primeiro que os neur√¥nios na camada oculta possam usar na itera√ß√£o subsequente. Eu escolhi o nome ‚Äòdelta‚Äô para refletir a altera√ß√£o que o erro implica no neur√¥nio (por exemplo, o delta do peso).

Voc√™ pode ver que o sinal de erro para neur√¥nios na camada oculta √© acumulado a partir de neur√¥nios na camada de sa√≠da, onde o n√∫mero de neur√¥nios ocultos `j` tamb√©m √© o √≠ndice do peso do neur√¥nio no neur√¥nio da camada de sa√≠da `neuron[‚Äòweights‚Äô][j]`.

In [52]:
# Backpropagate error and store in neurons
def backward_propagate_error(network, expected):
   for i in reversed(range(len(network))):
      layer = network[i]
      errors = list()
      if i != len(network)-1:
         for j in range(len(layer)):
            error = 0.0
            for neuron in network[i + 1]:
               error += (neuron['weights'][j] * neuron['delta'])
            errors.append(error)
      else:
         for j in range(len(layer)):
            neuron = layer[j]
            errors.append(expected[j] - neuron['output'])
      for j in range(len(layer)):
         neuron = layer[j]
         neuron['delta'] = errors[j] * transfer_derivative(neuron['output'])

#### Exemplo - vamos ver funcionando at√© esse trecho

In [13]:
# test backpropagation of error
network = [[{'output': 0.7105668883115941, 'weights': [0.13436424411240122, 0.8474337369372327, 0.763774618976614]}],
[{'output': 0.6213859615555266, 'weights': [0.2550690257394217, 0.49543508709194095]}, {'output': 0.6573693455986976, 'weights': [0.4494910647887381, 0.651592972722763]}]]
expected = [0, 1]
backward_propagate_error(network, expected)
for layer in network:
   print(layer)

[{'output': 0.7105668883115941, 'weights': [0.13436424411240122, 0.8474337369372327, 0.763774618976614], 'delta': -0.0005348048046610517}]
[{'output': 0.6213859615555266, 'weights': [0.2550690257394217, 0.49543508709194095], 'delta': -0.14619064683582808}, {'output': 0.6573693455986976, 'weights': [0.4494910647887381, 0.651592972722763], 'delta': 0.0771723774346327}]


A execu√ß√£o do exemplo imprime a rede ap√≥s a conclus√£o da backpropagation de erro. Voc√™ pode ver que os valores de erro s√£o calculados e armazenados nos neur√¥nios da camada de sa√≠da e da camada oculta.

Agora vamos usar a backpropagation de erro para treinar a rede.

### Rede de treinamento (Train Network)

A rede √© treinada usando descida de gradiente estoc√°stico.

Isso envolve v√°rias itera√ß√µes de exposi√ß√£o de um conjunto de dados de treinamento √† rede e, para cada linha de dados, propagando as entradas, *backpropagating* o erro e atualizando os pesos da rede.

Esta parte √© dividida em duas se√ß√µes:
1. Atualizar pesos.
2. Rede de treinamento.

#### Atualizar pesos (Update Weights)

Uma vez que os erros s√£o calculados para cada neur√¥nio na rede pelo m√©todo de propaga√ß√£o de retorno acima, eles podem ser usados ‚Äã‚Äãpara atualizar pesos.

Os pesos da rede s√£o atualizados da seguinte maneira:

`weight = weight + learning_rate * error * input`

Onde `weight` √© um dado peso, `learning_rate` √© um par√¢metro que voc√™ deve especificar, `error` √© o erro calculado pelo procedimento de retropropaga√ß√£o para o neur√¥nio e `input` √© o valor de entrada que causou o erro.

O mesmo procedimento pode ser usado para atualizar o peso da polariza√ß√£o, exceto que n√£o h√° termo de entrada ou a entrada √© o valor fixo de 1.0.

A taxa de aprendizado controla quanto alterar o peso para corrigir o erro. Por exemplo, um valor de 0.1 atualizar√° o peso em 10% da quantia que possivelmente poderia ser atualizada. Preferem-se pequenas taxas de aprendizado que causam aprendizado mais lento em um grande n√∫mero de itera√ß√µes de treinamento. Isso aumenta a probabilidade de a rede encontrar um bom conjunto de pesos em todas as camadas, em vez do conjunto mais r√°pido de pesos que minimiza o erro (chamado converg√™ncia prematura).

Abaixo est√° uma fun√ß√£o chamada `update_weights()` que atualiza os pesos para uma rede, dada uma linha de dados de entrada, uma taxa de aprendizado e assume que uma propaga√ß√£o para frente e para tr√°s j√° foi executada.

Lembre-se de que a entrada para a camada de sa√≠da √© uma cole√ß√£o de sa√≠das da camada oculta.

In [53]:
# Update network weights with error
def update_weights(network, row, l_rate):
   for i in range(len(network)):
      inputs = row[:-1]
      if i != 0:
         inputs = [neuron['output'] for neuron in network[i - 1]]
      for neuron in network[i]:
         for j in range(len(inputs)):
            neuron['weights'][j] += l_rate * neuron['delta'] * inputs[j]
         neuron['weights'][-1] += l_rate * neuron['delta']

Agora que sabemos como atualizar os pesos da rede, vamos ver como podemos fazer isso repetidamente.

#### Rede de Treinamento (Train Network)

Como mencionado, a rede √© atualizada usando a descida estoc√°stica do gradiente.

Isso envolve o primeiro loop para um n√∫mero fixo de √©pocas e, em cada √©poca, a atualiza√ß√£o da rede para cada linha no conjunto de dados de treinamento.

Como s√£o feitas atualiza√ß√µes para cada padr√£o de treinamento, esse tipo de aprendizado √© chamado de aprendizado on-line. Se erros foram acumulados em uma √©poca antes de atualizar os pesos, isso √© chamado aprendizado em lote ou descida em gradiente em lote.

Abaixo est√° uma fun√ß√£o que implementa o treinamento de uma rede neural j√° inicializada com um determinado conjunto de dados de treinamento, taxa de aprendizado, n√∫mero fixo de √©pocas e n√∫mero esperado de valores de sa√≠da.

O n√∫mero esperado de valores de sa√≠da √© usado para transformar valores de classe nos dados de treinamento em uma codifica√ß√£o quente. Esse √© um vetor bin√°rio com uma coluna para cada valor de classe para corresponder √† sa√≠da da rede. Isso √© necess√°rio para calcular o erro para a camada de sa√≠da.

Voc√™ tamb√©m pode ver que o erro da soma ao quadrado entre a sa√≠da esperada e a sa√≠da da rede √© acumulado a cada √©poca e impresso. Isso √© √∫til para criar um rastro do quanto a rede est√° aprendendo e melhorando a cada √©poca.

In [54]:
# Train a network for a fixed number of epochs
def train_network(network, train, l_rate, n_epoch, n_outputs):
   for epoch in range(n_epoch):
      for row in train:
         outputs = forward_propagate(network, row)
         expected = [0 for i in range(n_outputs)]
         expected[row[-1]] = 1
         backward_propagate_error(network, expected)
         update_weights(network, row, l_rate)

Agora temos todas as pe√ßas para treinar a rede. Podemos montar um exemplo que inclui tudo o que vimos at√© agora, incluindo inicializa√ß√£o de rede e treinar uma rede em um pequeno conjunto de dados.

Abaixo est√° um pequeno conjunto de dados artificial que podemos usar para testar o treinamento de nossa **rede neural**.

```
X1          X2           Y
2.7810836   2.550537003  0
1.465489372 2.362125076  0
3.396561688 4.400293529  0
1.38807019  1.850220317  0
3.06407232  3.005305973  0
7.627531214 2.759262235  1
5.332441248 2.088626775  1
6.922596716 1.77106367   1
8.675418651 -0.242068655 1
7.673756466 3.508563011  1
```



##### Testando

Abaixo est√° o exemplo completo. Vamos usar 2 neur√¥nios na camada oculta. √â um problema de classifica√ß√£o bin√°ria (2 classes), portanto haver√° dois neur√¥nios na camada de sa√≠da. A rede ser√° treinada por 20 √©pocas com uma taxa de aprendizado de 0,5, o que √© alto porque estamos treinando para poucas itera√ß√µes.

In [20]:
# Test training backprop algorithm
seed(1)
dataset = [[2.7810836,2.550537003,0],
           [1.465489372,2.362125076,0],
           [3.396561688,4.400293529,0],
           [1.38807019,1.850220317,0],
           [3.06407232,3.005305973,0],
           [7.627531214,2.759262235,1],
           [5.332441248,2.088626775,1],
           [6.922596716,1.77106367,1],
           [8.675418651,-0.242068655,1],
           [7.673756466,3.508563011,1]]

n_inputs = len(dataset[0]) - 1
n_outputs = len(set([row[-1] for row in dataset]))
network = initialize_network(n_inputs, 2, n_outputs)

train_network(network, dataset, 0.5, 20, n_outputs)

for layer in network:
   print(layer)

[{'weights': [-1.4688375095432327, 1.850887325439514, 1.0858178629550297], 'output': 0.029980305604426185, 'delta': -0.0059546604162323625}, {'weights': [0.37711098142462157, -0.0625909894552989, 0.2765123702642716], 'output': 0.9456229000211323, 'delta': 0.0026279652850863837}]
[{'weights': [2.515394649397849, -0.3391927502445985, -0.9671565426390275], 'output': 0.23648794202357587, 'delta': -0.04270059278364587}, {'weights': [-2.5584149848484263, 1.0036422106209202, 0.42383086467582715], 'output': 0.7790535202438367, 'delta': 0.03803132596437354}]


In [23]:
from math import exp
from random import seed
from random import random

# Train a network for a fixed number of epochs
def train_network(network, train, l_rate, n_epoch, n_outputs):
   for epoch in range(n_epoch):
      sum_error = 0
   for row in train:
      outputs = forward_propagate(network, row)
      expected = [0 for i in range(n_outputs)]
      expected[row[-1]] = 1
      sum_error += sum([(expected[i]-outputs[i])**2 for i in range(len(expected))])
      backward_propagate_error(network, expected)
      update_weights(network, row, l_rate)
   print('>epoch=%d, lrate=%.3f, error=%.3f' % (epoch, l_rate, sum_error))

# Test training backprop algorithm
seed(1)
dataset = [[2.7810836,2.550537003,0],
           [1.465489372,2.362125076,0],
           [3.396561688,4.400293529,0],
           [1.38807019,1.850220317,0],
           [3.06407232,3.005305973,0],
           [7.627531214,2.759262235,1],
           [5.332441248,2.088626775,1],
           [6.922596716,1.77106367,1],
           [8.675418651,-0.242068655,1],
           [7.673756466,3.508563011,1]]
n_inputs = len(dataset[0]) - 1
n_outputs = len(set([row[-1] for row in dataset]))
network = initialize_network(n_inputs, 2, n_outputs)
train_network(network, dataset, 0.5, 20, n_outputs)
for layer in network:
   print(layer)

>epoch=19, lrate=0.500, error=6.350
[{'weights': [0.04702244528095891, 0.8442898057367274, 0.7548289994028103], 'output': 0.9840590187415943, 'delta': -0.0012432966701953782}, {'weights': [0.1722759810012958, 0.4447229928742587, 0.42635133323053526], 'output': 0.9663709282875607, 'delta': -0.0013702294823488327}]
[{'weights': [0.40923052462427756, 0.54380310303148, -0.16580838069853054], 'output': 0.7255320776037567, 'delta': -0.1444790348531614}, {'weights': [-0.11119113899945762, 0.7152027899877591, 0.2916019058174817], 'output': 0.684483563116403, 'delta': 0.06814076441849203}]


A execu√ß√£o do exemplo primeiro imprime o erro da soma ao quadrado a cada √©poca de treinamento. Podemos ver uma tend√™ncia desse erro diminuindo a cada √©poca.

Depois de treinada, a rede √© impressa, mostrando os pesos aprendidos. Tamb√©m na rede ainda est√£o os valores de sa√≠da e delta que podem ser ignorados. Poder√≠amos atualizar nossa fun√ß√£o de treinamento para excluir esses dados, se quis√©ssemos.

Depois que uma rede √© treinada, precisamos us√°-la para fazer previs√µes. üîÆ

### Prever (Predict) üîÆ

Fazer previs√µes com uma rede neural treinada √© bastante f√°cil.

J√° vimos como propagar adiante um padr√£o de entrada para obter uma sa√≠da. √â tudo o que precisamos fazer para fazer uma previs√£o. Podemos usar os pr√≥prios valores de sa√≠da diretamente como a probabilidade de um padr√£o pertencente a cada classe de sa√≠da.

Pode ser mais √∫til transformar essa sa√≠da novamente em uma previs√£o de classe n√≠tida. Podemos fazer isso selecionando o valor da classe com maior probabilidade. Isso tamb√©m √© chamado de [fun√ß√£o arg max](https://en.wikipedia.org/wiki/Arg_max).

Abaixo est√° uma fun√ß√£o denominada *predict()* que implementa este procedimento. Retorna o √≠ndice na sa√≠da da rede que tem a maior probabilidade. Parte do princ√≠pio que valores de classe foram convertidos em n√∫meros inteiros come√ßando em 0.

In [56]:
# Make a prediction with a network
def predict(network, row):
   outputs = forward_propagate(network, row)
   return outputs.index(max(outputs))

#### Exemplo
Podemos juntar isso com o c√≥digo acima para entrada de propaga√ß√£o direta e com nosso pequeno conjunto de dados artificial para testar as previs√µes com uma rede j√° treinada. O exemplo codifica uma rede treinada da etapa anterior.

O exemplo completo est√° listado abaixo.

In [26]:
# Test making predictions with the network
dataset = [[2.7810836,2.550537003,0],
           [1.465489372,2.362125076,0],
           [3.396561688,4.400293529,0],
           [1.38807019,1.850220317,0],
           [3.06407232,3.005305973,0],
           [7.627531214,2.759262235,1],
           [5.332441248,2.088626775,1],
           [6.922596716,1.77106367,1],
           [8.675418651,-0.242068655,1],
           [7.673756466,3.508563011,1]]
network = [[{'weights': [-1.482313569067226, 1.8308790073202204, 1.078381922048799]}, {'weights': [0.23244990332399884, 0.3621998343835864, 0.40289821191094327]}],
[{'weights': [2.5001872433501404, 0.7887233511355132, -1.1026649757805829]}, {'weights': [-2.429350576245497, 0.8357651039198697, 1.0699217181280656]}]]

for row in dataset:
   prediction = predict(network, row)
   print('Expected=%d, Got=%d' % (row[-1], prediction))

Expected=0, Got=0
Expected=0, Got=0
Expected=0, Got=0
Expected=0, Got=0
Expected=0, Got=0
Expected=1, Got=1
Expected=1, Got=1
Expected=1, Got=1
Expected=1, Got=1
Expected=1, Got=1


A execu√ß√£o do exemplo imprime a sa√≠da esperada para cada registro no conjunto de dados de treinamento, seguida pela previs√£o precisa feita pela rede.

Isso mostra que a rede atinge 100% de acur√°cia (accuracy) nesse pequeno conjunto de dados.

üëΩ Agora estamos prontos para aplicar nosso algoritmo de *backpropagation* a um conjunto de dados do mundo real.

### Conjunto de Dados de Sementes de Trigo

Esta se√ß√£o aplica o algoritmo *Backpropagation* ao conjunto de dados de sementes de trigo.

O primeiro passo √© carregar o conjunto de dados e converter os dados carregados em n√∫meros que podemos usar em nossa rede neural. Para isso, usaremos a fun√ß√£o auxiliar `load_csv()` para carregar o arquivo, `str_column_to_float()` para converter n√∫meros de string em flutuantes e `str_column_to_int()` para converter a coluna da classe em valores inteiros.

In [27]:
# Load a CSV file
def load_csv(filename):
   dataset = list()
   with open(filename, 'r') as file:
      csv_reader = reader(file)
      for row in csv_reader:
         if not row:
            continue
         dataset.append(row)
   return dataset

In [28]:
# Convert string column to float
def str_column_to_float(dataset, column):
   for row in dataset:
      row[column] = float(row[column].strip())

In [29]:
# Convert string column to integer
def str_column_to_int(dataset, column):
   class_values = [row[column] for row in dataset]
   unique = set(class_values)
   lookup = dict()
   for i, value in enumerate(unique):
      lookup[value] = i
   for row in dataset:
      row[column] = lookup[row[column]]
   return lookup

Os valores de entrada variam em escala e precisam ser normalizados para o intervalo de 0 e 1. Geralmente, √© uma boa pr√°tica normalizar valores de entrada para o intervalo da fun√ß√£o de transfer√™ncia escolhida; nesse caso, a fun√ß√£o sigm√≥ide que gera valores entre 0 e 1 As fun√ß√µes auxiliar `dataset_minmax()` e `normalize_dataset()` foram usadas para normalizar os valores de entrada.

In [30]:
# Find the min and max values for each column
def dataset_minmax(dataset):
   minmax = list()
   stats = [[min(column), max(column)] for column in zip(*dataset)]
   return stats

In [31]:
# Rescale dataset columns to the range 0-1
def normalize_dataset(dataset, minmax):
   for row in dataset:
      for i in range(len(row)-1):
         row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

Avaliaremos o algoritmo usando a valida√ß√£o cruzada com dobras k com 5 dobras. Isso significa que 201/5 = 40,2 ou 40 registros estar√£o em cada dobra. Usaremos as fun√ß√µes auxiliar `evaluate_algorithm` | `cross_validation_split` para avaliar o algoritmo com valida√ß√£o cruzada e `accuracy_metric` para calcular a precis√£o das previs√µes.

In [32]:
# Split a dataset into k folds
def cross_validation_split(dataset, n_folds):
   dataset_split = list()
   dataset_copy = list(dataset)
   fold_size = int(len(dataset) / n_folds)
   for i in range(n_folds):
      fold = list()
      while len(fold) < fold_size:
         index = randrange(len(dataset_copy))
         fold.append(dataset_copy.pop(index))
      dataset_split.append(fold)
   return dataset_split

In [33]:
# Evaluate an algorithm using a cross validation split
def evaluate_algorithm(dataset, algorithm, n_folds, *args):
   folds = cross_validation_split(dataset, n_folds)
   scores = list()
   for fold in folds:
      train_set = list(folds)
      train_set.remove(fold)
      train_set = sum(train_set, [])
      test_set = list()
      for row in fold:
         row_copy = list(row)
         test_set.append(row_copy)
         row_copy[-1] = None
      predicted = algorithm(train_set, test_set, *args)
      actual    = [row[-1] for row in fold]
      accuracy  = accuracy_metric(actual, predicted)
      scores.append(accuracy)
   return scores

In [34]:
# Calculate accuracy percentage
def accuracy_metric(actual, predicted):
   correct = 0
   for i in range(len(actual)):
      if actual[i] == predicted[i]:
         correct += 1
   return correct / float(len(actual)) * 100.0

Uma nova fun√ß√£o chamada `back_propagation()` foi desenvolvida para gerenciar o aplicativo do algoritmo *Backpropagation*, primeiro inicializando uma rede, treinando-a no conjunto de dados de treinamento e depois usando a rede treinada para fazer previs√µes em um conjunto de dados de teste.

In [57]:
# Backpropagation Algorithm With Stochastic Gradient Descent
def back_propagation(train, test, l_rate, n_epoch, n_hidden):
   n_inputs = len(train[0]) - 1
   n_outputs = len(set([row[-1] for row in train]))
   network = initialize_network(n_inputs, n_hidden, n_outputs)
   train_network(network, train, l_rate, n_epoch, n_outputs)
   predictions = list()
   for row in test:
      prediction = predict(network, row)
      predictions.append(prediction)
   return(predictions)


O exemplo completo est√° listado abaixo. (as chamadas)

In [58]:
# Test Backprop on Seeds dataset
seed(1)
# load and prepare data
filename = 'seeds_dataset.csv'
dataset = load_csv(filename)

for i in range(len(dataset[0])-1):
   str_column_to_float(dataset, i)

# convert class column to integers
str_column_to_int(dataset, len(dataset[0])-1)

# normalize input variables
minmax = dataset_minmax(dataset)
normalize_dataset(dataset, minmax)

# evaluate algorithm
n_folds = 5
l_rate = 0.3
n_epoch = 500
n_hidden = 5

scores = evaluate_algorithm(dataset, back_propagation, n_folds, l_rate, n_epoch, n_hidden)
print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

Scores: [95.23809523809523, 92.85714285714286, 97.61904761904762, 92.85714285714286, 90.47619047619048]
Mean Accuracy: 93.810%


### Exemplo Completo üå±

In [45]:
# Backprop on the Seeds Dataset
from random import seed
from random import randrange
from random import random
from csv import reader
from math import exp

# Load a CSV file
def load_csv(filename):
   dataset = list()
   with open(filename, 'r') as file:
      csv_reader = reader(file)
      for row in csv_reader:
         if not row:
            continue
         dataset.append(row)
   return dataset

# Convert string column to float
def str_column_to_float(dataset, column):
   for row in dataset:
      row[column] = float(row[column].strip())

# Convert string column to integer
def str_column_to_int(dataset, column):
   class_values = [row[column] for row in dataset]
   unique = set(class_values)
   lookup = dict()
   for i, value in enumerate(unique):
      lookup[value] = i
   for row in dataset:
      row[column] = lookup[row[column]]
   return lookup

# Find the min and max values for each column
def dataset_minmax(dataset):
   minmax = list()
   stats = [[min(column), max(column)] for column in zip(*dataset)]
   return stats

# Rescale dataset columns to the range 0-1
def normalize_dataset(dataset, minmax):
   for row in dataset:
      for i in range(len(row)-1):
         row[i] = (row[i] - minmax[i][0]) / (minmax[i][1] - minmax[i][0])

# Split a dataset into k folds
def cross_validation_split(dataset, n_folds):
   dataset_split = list()
   dataset_copy = list(dataset)
   fold_size = int(len(dataset) / n_folds)
   for i in range(n_folds):
      fold = list()
      while len(fold) < fold_size:
         index = randrange(len(dataset_copy))
         fold.append(dataset_copy.pop(index))
      dataset_split.append(fold)
   return dataset_split

# Calculate accuracy percentage
def accuracy_metric(actual, predicted):
   correct = 0
   for i in range(len(actual)):
      if actual[i] == predicted[i]:
         correct += 1
   return correct / float(len(actual)) * 100.0

# Evaluate an algorithm using a cross validation split
def evaluate_algorithm(dataset, algorithm, n_folds, *args):
   folds = cross_validation_split(dataset, n_folds)
   scores = list()
   for fold in folds:
      train_set = list(folds)
      train_set.remove(fold)
      train_set = sum(train_set, [])
      test_set = list()
      for row in fold:
         row_copy = list(row)
         test_set.append(row_copy)
         row_copy[-1] = None
      predicted = algorithm(train_set, test_set, *args)
      actual    = [row[-1] for row in fold]
      accuracy  = accuracy_metric(actual, predicted)
      scores.append(accuracy)
   return scores

# Calculate neuron activation for an input
def activate(weights, inputs):
   activation = weights[-1]
   for i in range(len(weights)-1):
      activation += weights[i] * inputs[i]
   return activation

# Transfer neuron activation
def transfer(activation):
   return 1.0 / (1.0 + exp(-activation))

# Forward propagate input to a network output
def forward_propagate(network, row):
   inputs = row
   for layer in network:
      new_inputs = []
      for neuron in layer:
         activation = activate(neuron['weights'], inputs)
         neuron['output'] = transfer(activation)
         new_inputs.append(neuron['output'])
      inputs = new_inputs
   return inputs

# Calculate the derivative of an neuron output
def transfer_derivative(output):
   return output * (1.0 - output)

# Backpropagate error and store in neurons
def backward_propagate_error(network, expected):
   for i in reversed(range(len(network))):
      layer = network[i]
      errors = list()
      if i != len(network)-1:
         for j in range(len(layer)):
            error = 0.0
            for neuron in network[i + 1]:
               error += (neuron['weights'][j] * neuron['delta'])
            errors.append(error)
      else:
         for j in range(len(layer)):
            neuron = layer[j]
            errors.append(expected[j] - neuron['output'])
      for j in range(len(layer)):
         neuron = layer[j]
         neuron['delta'] = errors[j] * transfer_derivative(neuron['output'])

# Update network weights with error
def update_weights(network, row, l_rate):
   for i in range(len(network)):
      inputs = row[:-1]
      if i != 0:
         inputs = [neuron['output'] for neuron in network[i - 1]]
      for neuron in network[i]:
         for j in range(len(inputs)):
            neuron['weights'][j] += l_rate * neuron['delta'] * inputs[j]
         neuron['weights'][-1] += l_rate * neuron['delta']

# Train a network for a fixed number of epochs
def train_network(network, train, l_rate, n_epoch, n_outputs):
   for epoch in range(n_epoch):
      for row in train:
         outputs = forward_propagate(network, row)
         expected = [0 for i in range(n_outputs)]
         expected[row[-1]] = 1
         backward_propagate_error(network, expected)
         update_weights(network, row, l_rate)

# Initialize a network
def initialize_network(n_inputs, n_hidden, n_outputs):
   network = list()
   hidden_layer = [{'weights':[random() for i in range(n_inputs + 1)]} for i in range(n_hidden)]
   network.append(hidden_layer)
   output_layer = [{'weights':[random() for i in range(n_hidden + 1)]} for i in range(n_outputs)]
   network.append(output_layer)
   return network

# Make a prediction with a network
def predict(network, row):
   outputs = forward_propagate(network, row)
   return outputs.index(max(outputs))

# Backpropagation Algorithm With Stochastic Gradient Descent
def back_propagation(train, test, l_rate, n_epoch, n_hidden):
   n_inputs = len(train[0]) - 1
   n_outputs = len(set([row[-1] for row in train]))
   network = initialize_network(n_inputs, n_hidden, n_outputs)
   train_network(network, train, l_rate, n_epoch, n_outputs)
   predictions = list()
   for row in test:
      prediction = predict(network, row)
      predictions.append(prediction)
   return(predictions)

# Test Backprop on Seeds dataset
seed(1)

# load and prepare data
filename = 'seeds_dataset.csv'
dataset = load_csv(filename)
for i in range(len(dataset[0])-1):
   str_column_to_float(dataset, i)

# convert class column to integers
str_column_to_int(dataset, len(dataset[0])-1)

# normalize input variables
minmax = dataset_minmax(dataset)
normalize_dataset(dataset, minmax)

# evaluate algorithm
n_folds = 5
l_rate = 0.3
n_epoch = 500
n_hidden = 5
scores = evaluate_algorithm(dataset, back_propagation, n_folds, l_rate, n_epoch, n_hidden)

print('Scores: %s' % scores)
print('Mean Accuracy: %.3f%%' % (sum(scores)/float(len(scores))))

Scores: [95.23809523809523, 92.85714285714286, 97.61904761904762, 92.85714285714286, 90.47619047619048]
Mean Accuracy: 93.810%


Uma rede com `5 neur√¥nios na camada oculta` e `3 neur√¥nios na camada de sa√≠da` foi constru√≠da. A rede foi treinada por `500 √©pocas` com uma taxa de aprendizado de `0,3`. Esses par√¢metros foram encontrados com um pouco de tentativa e erro, mas voc√™ pode fazer muito melhor.

A execu√ß√£o do exemplo imprime a precis√£o m√©dia da classifica√ß√£o em cada dobra, bem como o desempenho m√©dio em todas as dobras.

Voc√™ pode ver que a retropropaga√ß√£o e a configura√ß√£o escolhida alcan√ßaram uma precis√£o de classifica√ß√£o m√©dia de cerca de `93%`, o que √© muito melhor que o algoritmo de regra zero, que teve uma precis√£o ligeiramente melhor que `28%` de precis√£o.

### Sugest√µes de Testes e melhorias

- **Ajustar par√¢metros do algoritmo**. Tente redes maiores ou menores treinadas por mais ou menos. Veja se voc√™ pode obter um melhor desempenho no conjunto de dados de sementes.
- **M√©todos adicionais**. Experimente diferentes t√©cnicas de inicializa√ß√£o de peso (como pequenos n√∫meros aleat√≥rios) e diferentes fun√ß√µes de transfer√™ncia (como tanh).
- **Mais camadas**. Adicione suporte para mais camadas ocultas, treinadas da mesma maneira que a camada oculta usada neste tutorial.
- **Regress√£o**. Altere a rede para que haja apenas um neur√¥nio na camada de sa√≠da e que um valor real seja previsto. Escolha um conjunto de dados de regress√£o para praticar. Uma fun√ß√£o de transfer√™ncia linear pode ser usada para neur√¥nios na camada de sa√≠da ou os valores de sa√≠da do conjunto de dados escolhido podem ser redimensionados para valores entre 0 e 1.
- **Descida em gradiente em lote (Batch Gradient Descent)**. Altere o procedimento de treinamento de online para descida em gradiente de lote e atualize os pesos somente no final de cada √©poca.



---



Mais informa√ß√µes sobre Machine Learning? üìö ü§ñ

Blog do Zouza no Medium ([link](https://medium.com/blog-do-zouza/o-que-%C3%A9-machine-learning-5e7e98453985))