In [7]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
%matplotlib inline
from tqdm import tqdm_notebook
import concurrent.futures

# 解析八位的二进制加法运算
- 参考： http://iamtrask.github.io/2015/11/15/anyone-can-code-lstm/ 

In [2]:
import numpy as np
np.random.seed(0)

## 定义基本函数

In [3]:
# 激活函数用sigmoid
def sigmoid(x):
    output = 1/(1+np.exp(-x))
    return output
# sigmoid导数
def sigmoid_derivation(output):
    return output*(1-output)

## 超参数配置

In [12]:
alpha = 0.1              #反向传播时参数w更新的速度
input_dim = 2            #输入数据的维度，程序是实现两个数相加的
hidden_dim = 16          #隐藏层神经元个数=16
output_dim = 1           #输出结果值是1维的

## 构造映射字典
- 生成0~256的256个数字对应的八位二进制 的映射字典

In [13]:
# 映射字典
int2binary={}
binary_dim=8 # 8位二进制
largest_number = pow(2,binary_dim) # 8位二进制最大为2^8=256
# 使用np的API直接将整型转换为8位二进制
binary = np.unpackbits(np.array([range(largest_number)], dtype=np.uint8).T,axis=1)
for i in range(largest_number):
    int2binary.update({i:binary[i]})

int2binary[0]
int2binary[2]
int2binary[255]

array([0, 0, 0, 0, 0, 0, 0, 0], dtype=uint8)

array([0, 0, 0, 0, 0, 0, 1, 0], dtype=uint8)

array([1, 1, 1, 1, 1, 1, 1, 1], dtype=uint8)

## 随机初始化权重 
- -1~1初始化
- 第一层权重 2x16

In [None]:
#初始化神经网络的权重参数
synapse_0 = 2*np.random.random((input_dim,hidden_dim)) - 1   #输入至神经元的w0，维度为2X16，取值约束在[-1,1]间
synapse_1 = 2*np.random.random((hidden_dim,output_dim)) - 1  #神经元至输出层的权重w1,维度为16X1，取值约束在[-1,1]间
synapse_h = 2*np.random.random((hidden_dim,hidden_dim)) - 1  #神经元前一时刻状态至当前状态权重wh,维度为16X16，取值约束在[-1,1]间                                   
 
synapse_0_update = np.zeros_like(synapse_0)          #构造与w0相同维度的矩阵，并初始化为全0；
synapse_1_update = np.zeros_like(synapse_1)
synapse_h_update = np.zeros_like(synapse_h)


## 模型迭代

In [None]:
# 模型迭代次数100
for i in range(100):
    # generate a simple addition problem (a + b = c)
    # 随机初始化两个数a,b （均小于128，目的是避免加和的数超过最值256）
    a_int = np.random.randint(largest_number/2) # int version      #约束初始化的输入加数a的值不超过128
    b_int = np.random.randint(largest_number/2) # int version
    # 将其映射为二进制数
    a = int2binary[a_int] # binary encoding                        #将加数a的转为对应二进制数
    b = int2binary[b_int] # binary encoding

    # 真实和
    c_int = a_int + b_int    
    c = int2binary[c_int] 
    # 初始化预测和
    d = np.zeros_like(c)
    overallError = 0

    # 反向求导用
    layer_2_deltas = list()
    # 先对隐藏层前一时刻状态初始化为0
    layer_1_values = list()
    layer_1_values.append(np.zeros(hidden_dim))
    # 前向传播（二进制求和，低位在右，高位在左）
    for position in range(binary_dim):                         
        # 输入的a与b（二进制形式） | X = (a[7],b[7])
        X = np.array([[a[binary_dim - position - 1],b[binary_dim - position - 1]]])
        # 真实label值 | y = (c[7]).T
        y = np.array([[c[binary_dim - position - 1]]]).T                            
        # hidden layer (input ~+ prev_hidden)
        # sigmoid( X*w0 + RNN前一时刻状态值*wh )
        layer_1 = sigmoid(np.dot(X,synapse_0) + np.dot(layer_1_values[-1],synapse_h))  
        # layer_1*w1 | 输出层 (加法求得的二进制表示)
        layer_2 = sigmoid(np.dot(layer_1,synapse_1))
        # 求误差
        layer_2_error = y - layer_2
        # 代价函数
        layer_2_deltas.append((layer_2_error)*sigmoid_output_to_derivative(layer_2))
        # 误差
        overallError += np.abs(layer_2_error[0])
        
        # 预测的和
        d[binary_dim - position - 1] = np.round(layer_2[0][0])
        #深拷贝，将RNN模块状态值存储，用于反向传播
        layer_1_values.append(copy.deepcopy(layer_1))                     

    future_layer_1_delta = np.zeros(hidden_dim)
    # 反向传播，计算从左到右，即二进制高位到低位
    for position in range(binary_dim):
        
        
        
        

        
        

    
    
    