# Restricted Boltzmann Machines - Implementação

In [1]:
# Nas redes neurais tradicionais tem-se uma camada de entrada de seguida camadas ocultas e por ultimo uma camada de saida e são 
# alimentadas através de feed-forward e calculam o erro através de back-propagation.

# Boltzmann Machines
# Nas Boltzmann Machines todos os neurónios estão interligados e a camada de entrada tambem se actualiza(nas redes neurais
# tradicionais esses valores mantêm-se pois são a representação da base de dados).
# As Boltzmann Machines não têm camada de saida. Apenas se tem camada de entrada e os neurónios da camada oculta.
# OS nós de entrada tambem geram dados(um nó podem fazer alterações nos outros ou seja os valores da camada de entrada podem ser
# alterados pelos outros nós ocultos ou por outro nó da camada de entrada).
# Utilizadas para descrever o estado do sistema, ajustando os pesos do sistema. Utilizada depois de ser feito o treino para 
# monitorizar o estado do sistema(detectar outliers, fazer previsões). A Boltzmann Machine aprende o comportamento padrão e 
# consegue verificar se existe algum registro afastado desse padrão.

#-----------------------------------------------------------------------------------------------------------------------------

# Restricted Boltzmann Machines
# Nas Boltzmann Machines conforme o número de nós aumenta o número de conexoes tambem aumenta exponencialmente, porque todos
# os nós estão interligados entre si(ligação todos com todos) o que aumenta muito o poder computacional necessário.
# Por isso utiliza-se a Restricted Boltzmann Machines onde as ligações são iguaias às redes neurais classicas. Apenas têm a
# ligação da camada de entrada à camada oculta e não possuem ligações entre os neurónios da camada de entrada nem ligações
# entre os neurónios da mesma camada ocuta.

# Por exemplo para sistemas de recomendação:
# Nos registros tem-se 1 se a pessoa gostou do filme, 0 se não gostou e nulo(_) se não viu o filme. Por exemplo (1_10_0).
# Na camada de entrada definem-se os nomes dos filmes e na camada oculta divide-se os filmes pelo seu tipo:
# Numa camada de entrada com 6 neurónios: A bruxa, Invocação do mal, chamado, Se beber não case, Gente grande, American Pie.
# Numa camada oculta com 2 neurónios: A BM aprende que um neurónio indica filmes de terror e outro neurónio indica filmes de
# comédia(podia ser actor, realizador). Não é possivel definir qual neurónio indica o tipo de filme porque o algoritmo funciona
# como uma caixa preta. O sistema através da aprendizagem da base de dados e com a criação de padrões define um neurónio para 
# representar cada tipo de filme.
# Aprende a definir os nós da camada escondida de acordo com as caracteristicas(cada nó é um padrão).

# Através da interconectividade das notas dos utilizadores define os padrões(pessoas com gostos semelhantes provavelmente vão
# ver o mesmos filmes). Porque provavelmente existe alguma caracteristica que os filmes possuem que faz com que as pessoas 
# gostem deles. Se a pessoa gosta de filmes de terror o neurónio da camada escondida definido como terror é activado.

#-----------------------------------------------------------------------------------------------------------------------------

# Processo de aprendizagem(Algoritmo de aprendizagem: Constractive divergence)

# Constractive divergence: Alimentar a camada de entrada com dados de treino e executar o amostrador de Gibbs apenas uma vez.
# Obter uma estimativa dos neurónios da camada de entrada e da camada oculta para modelos com muitos neurónios na camada de 
# entrada pode ser pode ser um processo demorado se for feito por por meio do amostrador de Gibbs utilizando dados aleatorios 
# a alimentar a camada de entrada. Por isso utiliza-se o Constractive divergence que é mais rápido.

# A impossibilidade de uma solução analitica para essa tarefa de aprendizagem, faz com que as RBM tenham que ser treinadas com 
# um método de gradiente, assim como diversos outros métodos de aprendizagem de máquinas. A diferença é que o gradiente é uma 
# aproximação, já que o calculo exacto dele leva a um número exponencial de operações. Essa aproximação do gradiente foi chamada
# de Divergencia contrastiva ou Contrastive divergence. Consegue-se obter essa aproximação usando a amostragem de Gibbs.


# Multiplicar os valores da camada de entrada pelos pesos(definidos aleatoriamente) para se obter os valores da camada oculta.
# Com os valores da camada oculta reconstruir os valores da camada de entrada(registros)
# Com os novos valores da camada de entrada obter os valores da camada oculta(multiplicando esses valores pelos pesos).
# Com os novos valores da camada oculta reconstruir os valores da camada de entrada.
# Estes passos são repetidos até um determinado numero de épocas ou até os registros obtidos na ultima iteração serem iguais 
# aos registros originais.
# A reconstrução dos nós é feita utilizando a técnica de gibbs sampling.
# Cada nó da camada de entrada é reconstruido utilizando todos os nós da camada oculta.
# Os pesos não são actualizados durante os calculos. Os pesos aleatorios definidos no inicio mantêm-se durante todo o processo. 
# Só são actualizados no fim do processo(depois de todas as épocas ou depois dos registros obtidos na ultima epoca serem iguais
# aos registros originais).

# O que o algoritmo está a tentar fazer é através dos valores da camada de entrada(com por exemplo 6 neurónios) gerar outros
# novos valores(por exemplo 2 neurónios) e com esses novos valores(por exemplo 2 neurónios) gerar os valores da camada de
# entrada original(com por exemplo 6 neurónios).
# Ou seja funciona como a redução da dimensionalidade. Por exemplo tenta-se passar de 6 dimensões para 2 dimensões mantendo o
# máximo de informação possivel.

#------------------------------------------------------------------------------------------------------------------------------
# Processo de recomendação
# Partindo do principio que durante o treino do algoritmo encontrou-se 1 nó para filmes de terror e outro nó para filmes de 
# comédia.
# Para 1 registro com os seguintes dados: 1_100_ (ou seja gostou de 2 filmes de terror e não gostou de 2 filmes de comédia).
# Não viu um dos filmes de terror e 1 dos filmes de comédia.

# Compara-se os neuronios da camada de entrada, com os filmes que a pessoa viu, com os neuronios da camada oculta. 
# Ligam-se os filmes A bruxa e o chamado(filmes de terror vistos) ao neurónio dos filmes de terror. Como a pessoa gostou desses
# 2 filmes esse neurónio é activado(fica verde).
# Ligam-se os filmes Se beber não case, Gente grande(filmes de comédia que a pessoa viu) ao neurónio dos filmes de comédia. 
# Como a pessoa não gostou desses filmes esse neurónio é desactivado(fica vermelho).
# Para o filmes não vistos, identifica-se se pertence a terror ou comédia e se os neurónios da camada oculta estão actidos ou
# desactivados.
# Para o Invocação do mal, como é um filme de terror vai estar ligado apenas ao neurónio de terror. Como o neurónio de terror 
# está activo(verde) vai retornar o valor 1 para a camada de entrada(ou seja o filme vai ser recomendado).
# Para o American Pie, como é um filme de comédia vai estar ligado apenas ao neurónio de comédia. Como o neurónio de comédia
# está desactivo(vermelho) vai retornar o valor 0 para a camada de entrada(ou seja o filme não vai ser recomendado).

In [2]:
# Implementação do código abaixo
# https://github.com/echen/restricted-boltzmann-machines

In [3]:
from __future__ import print_function
import numpy as np

class RBM:
  
  def __init__(self, num_visible, num_hidden):
    self.num_hidden = num_hidden
    self.num_visible = num_visible
    self.debug_print = True

    # Initialize a weight matrix, of dimensions (num_visible x num_hidden), using
    # a uniform distribution between -sqrt(6. / (num_hidden + num_visible))
    # and sqrt(6. / (num_hidden + num_visible)). One could vary the 
    # standard deviation by multiplying the interval with appropriate value.
    # Here we initialize the weights with mean 0 and standard deviation 0.1. 
    # Reference: Understanding the difficulty of training deep feedforward 
    # neural networks by Xavier Glorot and Yoshua Bengio
    np_rng = np.random.RandomState(1234)

    self.weights = np.asarray(np_rng.uniform(
			low=-0.1 * np.sqrt(6. / (num_hidden + num_visible)),
                       	high=0.1 * np.sqrt(6. / (num_hidden + num_visible)),
                       	size=(num_visible, num_hidden)))


    # Insert weights for the bias units into the first row and first column.
    self.weights = np.insert(self.weights, 0, 0, axis = 0)
    self.weights = np.insert(self.weights, 0, 0, axis = 1)

  def train(self, data, max_epochs = 1000, learning_rate = 0.1):
    """
    Train the machine.

    Parameters
    ----------
    data: A matrix where each row is a training example consisting of the states of visible units.    
    """

    num_examples = data.shape[0]

    # Insert bias units of 1 into the first column.
    data = np.insert(data, 0, 1, axis = 1)

    for epoch in range(max_epochs):      
      # Clamp to the data and sample from the hidden units. 
      # (This is the "positive CD phase", aka the reality phase.)
      pos_hidden_activations = np.dot(data, self.weights)      
      pos_hidden_probs = self._logistic(pos_hidden_activations)
      pos_hidden_probs[:,0] = 1 # Fix the bias unit.
      pos_hidden_states = pos_hidden_probs > np.random.rand(num_examples, self.num_hidden + 1)
      # Note that we're using the activation *probabilities* of the hidden states, not the hidden states       
      # themselves, when computing associations. We could also use the states; see section 3 of Hinton's 
      # "A Practical Guide to Training Restricted Boltzmann Machines" for more.
      pos_associations = np.dot(data.T, pos_hidden_probs)

      # Reconstruct the visible units and sample again from the hidden units.
      # (This is the "negative CD phase", aka the daydreaming phase.)
      neg_visible_activations = np.dot(pos_hidden_states, self.weights.T)
      neg_visible_probs = self._logistic(neg_visible_activations)
      neg_visible_probs[:,0] = 1 # Fix the bias unit.
      neg_hidden_activations = np.dot(neg_visible_probs, self.weights)
      neg_hidden_probs = self._logistic(neg_hidden_activations)
      # Note, again, that we're using the activation *probabilities* when computing associations, not the states 
      # themselves.
      neg_associations = np.dot(neg_visible_probs.T, neg_hidden_probs)

      # Update weights.
      self.weights += learning_rate * ((pos_associations - neg_associations) / num_examples)

      error = np.sum((data - neg_visible_probs) ** 2)
      if self.debug_print:
        print("Epoch %s: error is %s" % (epoch, error))

  def run_visible(self, data):
    """
    Assuming the RBM has been trained (so that weights for the network have been learned),
    run the network on a set of visible units, to get a sample of the hidden units.
    
    Parameters
    ----------
    data: A matrix where each row consists of the states of the visible units.
    
    Returns
    -------
    hidden_states: A matrix where each row consists of the hidden units activated from the visible
    units in the data matrix passed in.
    """
    
    num_examples = data.shape[0]
    
    # Create a matrix, where each row is to be the hidden units (plus a bias unit)
    # sampled from a training example.
    hidden_states = np.ones((num_examples, self.num_hidden + 1))
    
    # Insert bias units of 1 into the first column of data.
    data = np.insert(data, 0, 1, axis = 1)

    # Calculate the activations of the hidden units.
    hidden_activations = np.dot(data, self.weights)
    # Calculate the probabilities of turning the hidden units on.
    hidden_probs = self._logistic(hidden_activations)
    # Turn the hidden units on with their specified probabilities.
    hidden_states[:,:] = hidden_probs > np.random.rand(num_examples, self.num_hidden + 1)
    # Always fix the bias unit to 1.
    # hidden_states[:,0] = 1
  
    # Ignore the bias units.
    hidden_states = hidden_states[:,1:]
    return hidden_states
    
  # TODO: Remove the code duplication between this method and `run_visible`?
  def run_hidden(self, data):
    """
    Assuming the RBM has been trained (so that weights for the network have been learned),
    run the network on a set of hidden units, to get a sample of the visible units.

    Parameters
    ----------
    data: A matrix where each row consists of the states of the hidden units.

    Returns
    -------
    visible_states: A matrix where each row consists of the visible units activated from the hidden
    units in the data matrix passed in.
    """

    num_examples = data.shape[0]

    # Create a matrix, where each row is to be the visible units (plus a bias unit)
    # sampled from a training example.
    visible_states = np.ones((num_examples, self.num_visible + 1))

    # Insert bias units of 1 into the first column of data.
    data = np.insert(data, 0, 1, axis = 1)

    # Calculate the activations of the visible units.
    visible_activations = np.dot(data, self.weights.T)
    # Calculate the probabilities of turning the visible units on.
    visible_probs = self._logistic(visible_activations)
    # Turn the visible units on with their specified probabilities.
    visible_states[:,:] = visible_probs > np.random.rand(num_examples, self.num_visible + 1)
    # Always fix the bias unit to 1.
    # visible_states[:,0] = 1

    # Ignore the bias units.
    visible_states = visible_states[:,1:]
    return visible_states
    
  def daydream(self, num_samples):
    """
    Randomly initialize the visible units once, and start running alternating Gibbs sampling steps
    (where each step consists of updating all the hidden units, and then updating all of the visible units),
    taking a sample of the visible units at each step.
    Note that we only initialize the network *once*, so these samples are correlated.

    Returns
    -------
    samples: A matrix, where each row is a sample of the visible units produced while the network was
    daydreaming.
    """

    # Create a matrix, where each row is to be a sample of of the visible units 
    # (with an extra bias unit), initialized to all ones.
    samples = np.ones((num_samples, self.num_visible + 1))

    # Take the first sample from a uniform distribution.
    samples[0,1:] = np.random.rand(self.num_visible)

    # Start the alternating Gibbs sampling.
    # Note that we keep the hidden units binary states, but leave the
    # visible units as real probabilities. See section 3 of Hinton's
    # "A Practical Guide to Training Restricted Boltzmann Machines"
    # for more on why.
    for i in range(1, num_samples):
      visible = samples[i-1,:]

      # Calculate the activations of the hidden units.
      hidden_activations = np.dot(visible, self.weights)      
      # Calculate the probabilities of turning the hidden units on.
      hidden_probs = self._logistic(hidden_activations)
      # Turn the hidden units on with their specified probabilities.
      hidden_states = hidden_probs > np.random.rand(self.num_hidden + 1)
      # Always fix the bias unit to 1.
      hidden_states[0] = 1

      # Recalculate the probabilities that the visible units are on.
      visible_activations = np.dot(hidden_states, self.weights.T)
      visible_probs = self._logistic(visible_activations)
      visible_states = visible_probs > np.random.rand(self.num_visible + 1)
      samples[i,:] = visible_states

    # Ignore the bias units (the first column), since they're always set to 1.
    return samples[:,1:]        
      
  def _logistic(self, x):
    return 1.0 / (1 + np.exp(-x))

if __name__ == '__main__':
  r = RBM(num_visible = 6, num_hidden = 2)
  training_data = np.array([[1,1,1,0,0,0],[1,0,1,0,0,0],[1,1,1,0,0,0],[0,0,1,1,1,0], [0,0,1,1,0,0],[0,0,1,1,1,0]])
  r.train(training_data, max_epochs = 5000)
  print(r.weights)
  user = np.array([[0,0,0,1,1,0]])
  print(r.run_visible(user))

Epoch 0: error is 8.988989558810413
Epoch 1: error is 8.814647207025528
Epoch 2: error is 8.581931017483717
Epoch 3: error is 8.358109285229876
Epoch 4: error is 8.22318200402191
Epoch 5: error is 7.9746083656151905
Epoch 6: error is 7.869333189879345
Epoch 7: error is 7.601098441709277
Epoch 8: error is 7.728908475859338
Epoch 9: error is 7.620298279252016
Epoch 10: error is 7.352866830909223
Epoch 11: error is 7.501977073039986
Epoch 12: error is 7.005144316525564
Epoch 13: error is 7.096054950303362
Epoch 14: error is 6.948497135681294
Epoch 15: error is 6.684770617380575
Epoch 16: error is 6.728744811324651
Epoch 17: error is 6.722665438696749
Epoch 18: error is 6.629328700858344
Epoch 19: error is 6.449421279935825
Epoch 20: error is 6.621838981166327
Epoch 21: error is 6.362149576298079
Epoch 22: error is 6.3964160454366175
Epoch 23: error is 6.496201710088043
Epoch 24: error is 6.75755334155657
Epoch 25: error is 6.161471495119776
Epoch 26: error is 6.397973171026367
Epoch 27: e

Epoch 1172: error is 1.3426530177583955
Epoch 1173: error is 1.3425189957520651
Epoch 1174: error is 1.342390820255223
Epoch 1175: error is 1.076064304681292
Epoch 1176: error is 1.3429254964951893
Epoch 1177: error is 1.34277916799177
Epoch 1178: error is 1.3426391529893758
Epoch 1179: error is 1.3425051973149762
Epoch 1180: error is 1.3423770561931376
Epoch 1181: error is 1.3422544939583492
Epoch 1182: error is 1.3421372837721681
Epoch 1183: error is 1.3420252073454293
Epoch 1184: error is 1.34191805466572
Epoch 1185: error is 1.075858331242302
Epoch 1186: error is 1.3424380523595778
Epoch 1187: error is 1.3423122256862519
Epoch 1188: error is 1.8193732561062945
Epoch 1189: error is 1.342042452026637
Epoch 1190: error is 1.0789173744457214
Epoch 1191: error is 1.0717222106910473
Epoch 1192: error is 1.3432664552991256
Epoch 1193: error is 1.0656166094783515
Epoch 1194: error is 1.3438633232728294
Epoch 1195: error is 1.3436677418067515
Epoch 1196: error is 1.3434804154383382
Epoch 11

Epoch 1458: error is 1.348904659421148
Epoch 1459: error is 1.3484282984788014
Epoch 1460: error is 1.3479701133975368
Epoch 1461: error is 0.99433217404604
Epoch 1462: error is 2.158071153743674
Epoch 1463: error is 1.3511915790902682
Epoch 1464: error is 1.35063310732185
Epoch 1465: error is 1.3500952450983719
Epoch 1466: error is 0.9799171379848973
Epoch 1467: error is 0.9749451663429157
Epoch 1468: error is 1.352098252056278
Epoch 1469: error is 1.3515070709314538
Epoch 1470: error is 1.350937458419378
Epoch 1471: error is 1.3503887630984348
Epoch 1472: error is 1.3498603453315667
Epoch 1473: error is 1.3493515776075604
Epoch 1474: error is 1.348861844832972
Epoch 1475: error is 1.3483905445773972
Epoch 1476: error is 0.9804452223834069
Epoch 1477: error is 0.9753759728451654
Epoch 1478: error is 1.3503743691423267
Epoch 1479: error is 1.9534410244639928
Epoch 1480: error is 1.349215029954474
Epoch 1481: error is 1.9319120928543485
Epoch 1482: error is 0.9881239099512446
Epoch 1483

Epoch 1957: error is 0.8015639055765199
Epoch 1958: error is 0.7998455327999112
Epoch 1959: error is 1.391486768496506
Epoch 1960: error is 0.7997803453715978
Epoch 1961: error is 0.7981037679051797
Epoch 1962: error is 1.3927638558414854
Epoch 1963: error is 1.3909980581256718
Epoch 1964: error is 1.3892753982849309
Epoch 1965: error is 1.3875956284793067
Epoch 1966: error is 1.38595845639285
Epoch 1967: error is 1.384363547621672
Epoch 1968: error is 1.3828105280789424
Epoch 1969: error is 1.3812989864057323
Epoch 1970: error is 1.736745545492634
Epoch 1971: error is 1.3844137352314834
Epoch 1972: error is 0.8055624325246369
Epoch 1973: error is 1.3843997159148882
Epoch 1974: error is 0.8053032845771099
Epoch 1975: error is 1.3843867127570353
Epoch 1976: error is 1.731884438718543
Epoch 1977: error is 0.7997674513841572
Epoch 1978: error is 0.7980347176220797
Epoch 1979: error is 1.39052305825518
Epoch 1980: error is 0.7979648190171639
Epoch 1981: error is 1.3903320027858155
Epoch 19

Epoch 2477: error is 1.446881197559701
Epoch 2478: error is 0.7289501418721726
Epoch 2479: error is 0.7283296447977466
Epoch 2480: error is 0.7277227713240609
Epoch 2481: error is 0.7271291370858618
Epoch 2482: error is 0.7265483706675971
Epoch 2483: error is 1.4499690000353809
Epoch 2484: error is 0.7272202771286694
Epoch 2485: error is 0.7266346110166144
Epoch 2486: error is 0.7260615906590587
Epoch 2487: error is 1.4506817395896383
Epoch 2488: error is 0.7267357234487362
Epoch 2489: error is 1.4491372566971217
Epoch 2490: error is 0.7274104641898039
Epoch 2491: error is 0.7268148608074851
Epoch 2492: error is 0.7262321827866544
Epoch 2493: error is 0.7256620695692495
Epoch 2494: error is 0.725104172617085
Epoch 2495: error is 1.6523457906571835
Epoch 2496: error is 0.7223509256207633
Epoch 2497: error is 1.4580206550936654
Epoch 2498: error is 1.4552726914939986
Epoch 2499: error is 0.7242163174671654
Epoch 2500: error is 0.7236860999273533
Epoch 2501: error is 0.7231670082941389
Ep

Epoch 2972: error is 0.6873447506604067
Epoch 2973: error is 1.5579769946474014
Epoch 2974: error is 0.6875336804335858
Epoch 2975: error is 0.6874891465364228
Epoch 2976: error is 0.687444960805503
Epoch 2977: error is 0.6874011186434184
Epoch 2978: error is 0.6873576155290831
Epoch 2979: error is 0.6873144470161469
Epoch 2980: error is 0.6872716087314519
Epoch 2981: error is 0.6872290963735278
Epoch 2982: error is 0.6871869057111305
Epoch 2983: error is 0.687145032581814
Epoch 2984: error is 0.687103472890543
Epoch 2985: error is 0.6870622226083372
Epoch 2986: error is 0.6870212777709549
Epoch 2987: error is 0.6869806344776059
Epoch 2988: error is 0.6869402888896985
Epoch 2989: error is 0.6869002372296175
Epoch 2990: error is 0.6868604757795339
Epoch 2991: error is 0.6868210008802411
Epoch 2992: error is 0.6867818089300232
Epoch 2993: error is 0.6867428963835481
Epoch 2994: error is 0.6867042597507891
Epoch 2995: error is 0.686665895595972
Epoch 2996: error is 1.5604661182212514
Epoc

Epoch 3587: error is 0.6790464716200574
Epoch 3588: error is 0.6790243994233611
Epoch 3589: error is 0.6790024877009543
Epoch 3590: error is 0.6789807342484411
Epoch 3591: error is 1.5760810465206287
Epoch 3592: error is 0.679164120939613
Epoch 3593: error is 0.6791404188621232
Epoch 3594: error is 1.5741672184620552
Epoch 3595: error is 0.6793380529440406
Epoch 3596: error is 1.572049371958216
Epoch 3597: error is 0.67955111594711
Epoch 3598: error is 0.6795228441361834
Epoch 3599: error is 0.6794948079308294
Epoch 3600: error is 0.6794670041500327
Epoch 3601: error is 0.6794394296772067
Epoch 3602: error is 0.6794120814582296
Epoch 3603: error is 1.570957176949111
Epoch 3604: error is 0.6796336449757993
Epoch 3605: error is 0.679603944024522
Epoch 3606: error is 0.6795744957491328
Epoch 3607: error is 0.6795452967993667
Epoch 3608: error is 0.6795163438886044
Epoch 3609: error is 0.6794876337920783
Epoch 3610: error is 1.6204887870655555
Epoch 3611: error is 1.5726424664544194
Epoch 

Epoch 4088: error is 0.6751129174405166
Epoch 4089: error is 0.6751025221829865
Epoch 4090: error is 0.6750921792010381
Epoch 4091: error is 1.5945104044702925
Epoch 4092: error is 0.6752006073301507
Epoch 4093: error is 1.592667198284179
Epoch 4094: error is 0.6753213831919875
Epoch 4095: error is 0.675308950562187
Epoch 4096: error is 0.6752965898888544
Epoch 4097: error is 0.6752843005105974
Epoch 4098: error is 0.6752720817733033
Epoch 4099: error is 0.6752599330300287
Epoch 4100: error is 0.6752478536408912
Epoch 4101: error is 0.6752358429729642
Epoch 4102: error is 0.6752239004001747
Epoch 4103: error is 0.6752120253032028
Epoch 4104: error is 0.6752002170693849
Epoch 4105: error is 0.675188475092618
Epoch 4106: error is 0.6751767987732663
Epoch 4107: error is 0.6751651875180713
Epoch 4108: error is 0.6751536407400629
Epoch 4109: error is 0.675142157858472
Epoch 4110: error is 0.6751307382986468
Epoch 4111: error is 0.67511938149197
Epoch 4112: error is 0.6751080868757767
Epoch 

Epoch 4852: error is 0.672110071045349
Epoch 4853: error is 0.6721053656880881
Epoch 4854: error is 0.6721006742532358
Epoch 4855: error is 0.6720959966724961
Epoch 4856: error is 0.6720913328786374
Epoch 4857: error is 0.6720866828054287
Epoch 4858: error is 1.624301467233022
Epoch 4859: error is 0.672019550201089
Epoch 4860: error is 0.6720153328333264
Epoch 4861: error is 1.6227352699104631
Epoch 4862: error is 0.6719596464401283
Epoch 4863: error is 0.6719557764254406
Epoch 4864: error is 0.6719519147305828
Epoch 4865: error is 0.6719480613337553
Epoch 4866: error is 0.671944216213055
Epoch 4867: error is 0.6719403793464682
Epoch 4868: error is 0.6719365507118652
Epoch 4869: error is 0.6719327302869934
Epoch 4870: error is 0.6719289180494746
Epoch 4871: error is 1.6144500449822938
Epoch 4872: error is 0.6719664953658707
Epoch 4873: error is 0.6719624085756817
Epoch 4874: error is 1.6130349400905013
Epoch 4875: error is 0.6720083902802677
Epoch 4876: error is 0.6720039717780124
Epoc