<a href="https://colab.research.google.com/github/vicotrbb/machine_learning/blob/master/neural_networks/Neural_networks.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Neural networks




### Referencias

* https://matheusfacure.github.io/2017/07/12/activ-func/#sig
* https://iamtrask.github.io/2015/07/12/basic-python-network/
* https://en.wikipedia.org/wiki/Sigmoid_function#Applications
* https://nextjournal.com/gkoehler/machine-translation-seq2seq-cpu

## Principais aplicações de uma rede neural

## Função de ativação de uma rede neural

As funções de ativação tem a responsabilidade de introduzir valores não lineares ao modelo de uma rede neural, habilitando a rede a trabalhar com valores desconhecidos, além das relações lineares entre as variaveis dependentes e independentes.

Para um exemplo prático, vejamos o seguinte modelo de uma rede neural de duas camadas(os vieses foram omitidos):

>$ y = \phi(\phi(\pmb{X}\pmb{W_1})\pmb{W_2})\pmb{w} $

Onde:
* $\pmb{X}$ = Matriz de dados
* $\pmb{W_1}$ = Pesos das camadas oculta
* $\pmb{w}$ = Pesos da camada de saida
* $\phi$ = função de ativação/função não linear

Note que caso nós retiremos as funções não lineares do modelo, temos o seguinte resultado:

>$ y = \pmb{X}\pmb{W_1}\pmb{W_2}\pmb{w} $

Note que se levarmos em consideração que $ \pmb{W_1}\pmb{W_2}\pmb{w} $ é $\pmb{u}$, teremos o seguinte resultado:

>$ y = \pmb{X}\pmb{u} $

Este resultado é exatamente um regressão linear, de forma que essa rede neural sem a função de ativação/função não linear, estára sujeita as mesmas restrições dos modelos lineares.


## Função sigmoide

A **função sigmoide** é uma função usada amplamente na matemárica ecomica e computacional, é chamada dessa forma por sua caracteristica grafica em forma de "S", chamada de curva de sigmoide. A função sigmoide é utilizada para a criação e transformação de componentes matematicos não lineares.

<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/1280px-Logistic-curve.svg.png width="500">


### Definição da função sigmoide

>$ \sigma(x)=\frac{1}{1+e^x} $

>onde: $ e = 2.718 $, constante de euler

Sua derivada:

> $ \sigma'(x)=\sigma(x)(1-\sigma(x)) $

No caso do primeiro algoritmo de exemplo, a função sigmoide está sendo utilizada para converter os valores em probabilidades. 


### E como fica o código de uma função sigmoide?

No código utilizamos o método numpy.exp, este método realiza uma exponenciação da constante de Euler pelo parametro passado pelo método

* $ euler = 2.718 $

In [4]:
import numpy as np

def sigmoid(x):
  return 1 / (1 + np.exp(-x))

In [6]:
print('Valor de 7 ao passar por uma função de ativação: ', sigmoid(7))

Valor de 7 ao passar por uma função de ativação:  0.9990889488055994


## Bias/Viés

## Funcionamento de uma rede neural


### Neuronios

Os neuronios são a unidade mais basica de uma rede neural, cada RN pode ter um numero diferente de neuronios com funcionamentos diferentes, mas basicamente, os neuronios recebem um dado, processam ele e devolvem outro dado processado. O processo realizado dentro de cada neuronio é parte crucial para definir o funcionamento das redes neurais.

<img src=https://victorzhou.com/a74a19dc0599aae11df7493c718abaf9/perceptron.svg width="350">

O exemplo acima representa um neuronio de duas entradas, o processo que está aconcendo dentro dele pode ser definido como o seguinte:

Primeiro, cada entrada é multiplicada por um peso:

* $ x_1 = x_1 * w_1 $
* $ x_2 = x_2 * w_2 $

Segundo, o resusltado das entradas multiplicadas pelo peso são somadas a um bias/viés.

* $ \alpha = x_1 + x_2 + b $

Terceiro, o resultado passa por uma função de ativação/não linearidade(Explicada a diante):

* $ y = f(\alpha) $

No final, a seguinte equação define os neuronios:

* $ y = f(x_1 * w_1 + x_2 * w_2 + b) $

Para melhor entendimento, segue o exemplo:

Parametros:
* $ w_1 = 0, w_2 = 1 $
* $ b = 4 $
* $ f() = \frac{1}{1+e^x} $ (sigma function)

Entradas:
* $ x_1 = 2, x_2 = 3 $

Ex:

* $ y = f(2 * 0 + 3 * 1 + 4) $
* $ y = f(7) $
* $ y \approx 0,999 $



### Como codar um neuronio?

Basicamente, o código de um neuronio compreende todos os processos matematicos que aquele neuronio foi designado pra fazer.

Segue exemplo:

In [9]:
import numpy as np

In [11]:
class Neuron:

  def __init__(self, weights, bias):
    self.weights = weights
    self.bias = bias

  def feedforward(self, inputs):
    total = np.dot(self.weights, inputs) + self.bias
    return sigmoid(total)

In [15]:
neuron = Neuron(np.array([0, 2]), 4)
print('Valor das entradas 2 e 3 depois do processamento no neuronio: ')
print(neuron.feedforward(np.array([2,3])))

Valor das entradas 2 e 3 depois do processamento no neuronio: 
0.9999546021312976


## Criando uma rede neural de duas camadas do zero



In [None]:
import numpy as np

# Função sigmoide
def nonlin(x,deriv=False):
  if(deriv==True):
      return x*(1-x)
  return 1/(1+np.exp(-x))
    
# input dataset
X = np.array([  [0,0,1],
                [0,1,1],
                [1,0,1],
                [1,1,1] ])
    
# output dataset            
y = np.array([[0,0,1,1]]).T

# Gera uma seed para os numeros gerados randomicamente, visando a distribuição
# homogenea para todas as interações
np.random.seed(1)

# initialize weights randomly with mean 0
syn0 = 2*np.random.random((3,1)) - 1

for iter in np.arange(10000):

  # forward propagation
  l0 = X
  l1 = nonlin(np.dot(l0,syn0))

  # how much did we miss?
  l1_error = y - l1

  # multiply how much we missed by the 
  # slope of the sigmoid at the values in l1
  l1_delta = l1_error * nonlin(l1,True)

  # update weights
  syn0 += np.dot(l0.T,l1_delta)

print("Output depois do treino:")
print(l1)


## Exemplos e implementações

### Encoder-decoder Inglês Alemão

Encontrei esse modelo neste artigo: https://nextjournal.com/gkoehler/machine-translation-seq2seq-cpu, serve como otimo exemplo para implementação de um "tradutor" ou encoder-decoder.



In [None]:
import numpy as np
import keras, tensorflow
from keras.models import Model
from keras.layers import Input, LSTM, Dense

In [None]:
# Preparando os dados

with open('deu-eng.txt', 'r', encoding='utf-8') as f:
  lines = f.read().split('\n')

input_texts = []
target_texts = []
input_characters = set()
target_characters = set()
num_samples = 10000

for line in lines[: min(num_samples, len(lines) - 1)]:
  input_text, target_text = line.split('\t')
  target_text = '\t' + target_text + '\n'
  input_texts.append(input_text)
  target_texts.append(target_text)
  for char in input_text:
    if char not in input_characters:
      input_characters.add(char)
  for char in target_text:
    if char not in target_characters:
      target_characters.add(char)

input_characters = sorted(list(input_characters))
target_characters = sorted(list(target_characters))
num_encoder_tokens = len(input_characters)
num_decoder_tokens = len(target_characters)
max_encoder_seq_length = max([len(txt) for txt in input_texts])
max_decoder_seq_length = max([len(txt) for txt in target_texts])

print('Number of samples:', len(input_texts))
print('Number of unique input tokens:', num_encoder_tokens)
print('Number of unique output tokens:', num_decoder_tokens)
print('Max sequence length for inputs:', max_encoder_seq_length)
print('Max sequence length for outputs:', max_decoder_seq_length)

In [None]:
input_token_index = dict(
  [(char, i) for i, char in enumerate(input_characters)])
target_token_index = dict(
  [(char, i) for i, char in enumerate(target_characters)])

encoder_input_data = np.zeros(
  (len(input_texts), max_encoder_seq_length, num_encoder_tokens),
  dtype='float32')
decoder_input_data = np.zeros(
  (len(input_texts), max_decoder_seq_length, num_decoder_tokens),
  dtype='float32')
decoder_target_data = np.zeros(
  (len(input_texts), max_decoder_seq_length, num_decoder_tokens),
  dtype='float32')

print(encoder_input_data.shape)
print(decoder_input_data.shape)

(10000, 16, 70)
(10000, 53, 87)


In [None]:
for i, (input_text, target_text) in enumerate(zip(input_texts, target_texts)):
  for t, char in enumerate(input_text):
    encoder_input_data[i, t, input_token_index[char]] = 1.
  for t, char in enumerate(target_text):
    # decoder_target_data is ahead of decoder_input_data by one timestep
    decoder_input_data[i, t, target_token_index[char]] = 1.
    if t > 0:
      # decoder_target_data will be ahead by one timestep
      # and will not include the start character.
      decoder_target_data[i, t - 1, target_token_index[char]] = 1.

print(encoder_input_data[155].shape)

In [None]:
# Construindo o modelo

batch_size = 64  # batch size for training
epochs = 100  # number of epochs to train for
latent_dim = 256  # latent dimensionality of the encoding space

# encoder 
encoder_inputs = Input(shape=(None, num_encoder_tokens))
encoder = LSTM(latent_dim, return_state=True)
encoder_outputs, state_h, state_c = encoder(encoder_inputs)
encoder_states = [state_h, state_c]

# decoder
decoder_inputs = Input(shape=(None, num_decoder_tokens))
decoder_lstm = LSTM(latent_dim, return_sequences=True, return_state=True)
decoder_outputs, _, _ = decoder_lstm(decoder_inputs,
                                     initial_state=encoder_states)
decoder_dense = Dense(num_decoder_tokens, activation='softmax')
decoder_outputs = decoder_dense(decoder_outputs)

model = Model(inputs=[encoder_inputs, decoder_inputs], outputs=decoder_outputs)

In [None]:
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
model.summary()

Model: "functional_1"
__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_1 (InputLayer)            [(None, None, 70)]   0                                            
__________________________________________________________________________________________________
input_2 (InputLayer)            [(None, None, 87)]   0                                            
__________________________________________________________________________________________________
lstm (LSTM)                     [(None, 256), (None, 334848      input_1[0][0]                    
__________________________________________________________________________________________________
lstm_1 (LSTM)                   [(None, None, 256),  352256      input_2[0][0]                    
                                                                 lstm[0][1]            

In [None]:
# Treina o modelo

model.fit([encoder_input_data, decoder_input_data], decoder_target_data,
          batch_size=batch_size,
          epochs=epochs,
          validation_split=0.2)

In [None]:
# Salva o modelo

model.save('modelo.h5')

In [None]:
# Carrega o modelo pre pronto, caso for carregado

model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer='rmsprop', loss='categorical_crossentropy')
model.load_weights('modelo.h5')

In [None]:
# ---------------------------------------------------------------------

encoder_model = Model(encoder_inputs, encoder_states)

decoder_state_input_h = Input(shape=(latent_dim,))
decoder_state_input_c = Input(shape=(latent_dim,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

decoder_outputs, state_h, state_c = decoder_lstm(
  decoder_inputs, initial_state=decoder_states_inputs)
decoder_states = [state_h, state_c]
decoder_outputs = decoder_dense(decoder_outputs)

decoder_model = Model(
  [decoder_inputs] + decoder_states_inputs,
  [decoder_outputs] + decoder_states)

# ---------------------------------------------------------------------

reverse_input_char_index = dict(
  (i, char) for char, i in input_token_index.items())
reverse_target_char_index = dict(
  (i, char) for char, i in target_token_index.items())

# ---------------------------------------------------------------------

def decode_sequence(input_seq):
  # encode the input sequence to get the internal state vectors.
  states_value = encoder_model.predict(input_seq)
  
  # generate empty target sequence of length 1 with only the start character
  target_seq = np.zeros((1, 1, num_decoder_tokens))
  target_seq[0, 0, target_token_index['\t']] = 1.
  
  # output sequence loop
  stop_condition = False
  decoded_sentence = ''
  while not stop_condition:
    output_tokens, h, c = decoder_model.predict(
      [target_seq] + states_value)
    
    # sample a token and add the corresponding character to the 
    # decoded sequence
    sampled_token_index = np.argmax(output_tokens[0, -1, :])
    sampled_char = reverse_target_char_index[sampled_token_index]
    decoded_sentence += sampled_char
    
    # check for the exit condition: either hitting max length
    # or predicting the 'stop' character
    if (sampled_char == '\n' or 
        len(decoded_sentence) > max_decoder_seq_length):
      stop_condition = True
      
    # update the target sequence (length 1).
    target_seq = np.zeros((1, 1, num_decoder_tokens))
    target_seq[0, 0, sampled_token_index] = 1.
    
    # update states
    states_value = [h, c]
    
  return decoded_sentence

In [None]:
for seq_index in range(10):
  input_seq = encoder_input_data[seq_index: seq_index + 1]
  decoded_sentence = decode_sequence(input_seq)
  print('-')
  print('Input sentence:', input_texts[seq_index])
  print('Decoded sentence:', decoded_sentence)

-
Input sentence: Hi.
Decoded sentence: Hallo!

-
Input sentence: Hi.
Decoded sentence: Hallo!

-
Input sentence: Run!
Decoded sentence: Lauf!

-
Input sentence: Fire!
Decoded sentence: Feuer!

-
Input sentence: Help!
Decoded sentence: Zu Hülf!

-
Input sentence: Help!
Decoded sentence: Zu Hülf!

-
Input sentence: Stop!
Decoded sentence: Stopp!

-
Input sentence: Wait!
Decoded sentence: Warte!

-
Input sentence: Go on.
Decoded sentence: Mach weiter.

-
Input sentence: Hello!
Decoded sentence: Hallo!



In [None]:
input_sentence = "bread"
test_sentence_tokenized = np.zeros(
  (1, max_encoder_seq_length, num_encoder_tokens), dtype='float32')
for t, char in enumerate(input_sentence):
  test_sentence_tokenized[0, t, input_token_index[char]] = 1.
print(input_sentence)
print(decode_sequence(test_sentence_tokenized))

My name bread
Maria ist klanz.

