滑动平均
exponential moving average，指数加权平均。

默认情况：
变量v在t时刻的取值
v_t = Theta_t
EMA:
v_t = Beta * v_t-1 + (1-Beta)*Theta_t
公式中如果Beta=0,就完全等于前者。

看公式，直觉理解也很简单：旧的平均值乘以一个大系数维持稳定，新的数值乘以一个小的系数减少影响，总的来说就是类似Momentum的一个维持稳定的机制，对于新数值，比Momentum还要“打压”。

如果Beta取一个典型值，如0.9,其实具体含义就是，
vt~=      1/(1-Beta)个数据的平均值
约等于：在此之前十个数据的平均值！（没这么整，每个新加的都是0.1的系数，旧的还有0.1的衰减）
1/(1-Beta)|Beta=0.9=10
1/(1-Beta)|Beta=0.98=50


不过，什么叫新和旧啊？怎么理解？新的Theta怎么得来的？（应该是有两套东西，比如维护w，w是正常更新的，这就是新w的值，而EMA是独立维护的，所以整个流程就是，wt-1更新到wt，取新的wt来更新EMA）


关于EMA到底是维护变量还是数据集，下边会说：
其实还是W和b，所以说，图中举这个温度数据的拟合，有点背离在TF中的实际使用目的，所以没法对应实际情况。


## 惯性（一个预测数据的例子，绿线有明显的滞后，因为惯性）
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)

直觉上，有点momentum的意思，不过momentum是学习率。滑动平均是变量？一家之言，其他的说法是，用来平滑数据的，减少噪音和异常。
和Momentum的相似处，都有惯性，如果Beta太大，整个曲线会有滞后性（不过这个图应该匹配到深度学习的具体哪一环节？怎么就拿EMA来预测了？），和真正的数据产生偏差。。
和Adagrad的一个类似点：不占用额外内存，只维护一个值就好，不用真正把数据都调出来。


## 修正：初始数据积累不足的情况
![%E5%9B%BE%E7%89%87.png](attachment:%E5%9B%BE%E7%89%87.png)
因为这个惯性的存在，所以就有了滞后性，所以就需要修正。
图中紫线，甚至升高都有滞后性，因为之前没有数据累积。但是物理惯性仍然大（Beta高），所以有一个维持“0"的趋势在，所以升不起来。
这个公式二选一：
Beta = min(decay,(1+num_updates)/(10+num_updates))
前期后者小，后期前者小，（极端来说，后者是从1/10到1/1的趋势。）
所以，Beta=0.98时，updates=5次，6/15=0.4，选择0.4而不选择0.98.。。。




## 回到维护变量的话题
说白了，TF中，给W和b使用EMA，就是防止训练过程遇到异常数据影响训练效果的，让W和b维持相对稳定。

影子变量，说是影子，不光是惯性和尾随的含义。好像测试的时候使用的就是影子变量？取代变量。

所以，感觉这个东西在数据量小或者batch_size小的情况下尤其有用，因为数据不稳。
全部数据的梯度下降肯定是不太需要EMA了，除非learning_rate大，不然方向不可能有偏差（所以，根据learning_rate的不同，也可能有点用？），但是实际上mini-batch更多吧，所以EMA可以用。


## 实现

在TensorFlow中，ExponentialMovingAverage()可以传入两个参数：衰减率（decay）和数据的迭代次数（step），这里的decay和step分别对应我们的β和num_updates，所以在实现滑动平均模型的时候，步骤如下： 
1、定义训练轮数step 
2、然后定义滑动平均的类 
3、给这个类指定需要用到滑动平均模型的变量（w和b） 
4、执行操作，把变量变为指数加权平均值


In [None]:
# 1、定义训练的轮数，需要用trainable=False参数指定不训练这个变量，
# 避免这个变量被计算滑动平均值
global_step = tf.Variable(0, trainable=False)

# 2、给定滑动衰减率和训练轮数，初始化滑动平均类
# 定训练轮数的变量可以加快训练前期的迭代速度
variable_averages = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY,
                                                      global_step)
# 3、用tf.trainable_variable()获取所有可以训练的变量列表，也就是所有的w和b
# 全部指定为使用滑动平均模型
#重点，对所有的可训练变量都应用了。（但是我觉得如果global_step不在计算图中，不会更新吧？todo：测试）
variables_averages_op = variable_averages.apply(tf.trainable_variables())

# 反向传播更新参数之后，再更新每一个参数的滑动平均值，用下面的代码可以一次完成这两个操作
#要设置依赖，所以不是自动进行的，等于是每次常规训练绑定了一次EMA。
with tf.control_dependencies([train_step, variables_averages_op]):
    train_op = tf.no_op(name="train")
    
#这句话什么意思？”设置完使用滑动平均模型之后，只需要在每次使用反向传播的时候改为使用run.(train_op)就可以正常执行了。“

# 一个EMA影子变量的例子

In [2]:
import tensorflow as tf

In [3]:
w1 = tf.Variable(0, dtype=tf.float32)
global_step = tf.Variable(0,dtype=tf.float32,trainable=False)
MOVING_AVERAGE_DECAY = 0.99
ema = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
ema_op = ema.apply([w1])#参数列表，本例可以手动指定w1.

#注意这种情况，这种情况应该就有global_step的影子了，所以得设False，例2。
# ema_op = ema.apply(tf.trainable_variables())

In [8]:
#w1直接模拟N次变动，从1变10,让ema追w1的值
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    print('init w:',sess.run([w1,ema.average(w1)]))#用.average获得w1的滑动平均，也就是影子吧。
    sess.run(tf.assign(w1,1))#手动修改w1的值
    sess.run(tf.assign(global_step, 1))
    sess.run(ema_op)#滑动一次。
    
    print('after an ema op')
    print('w:',sess.run([w1,ema.average(w1)]))
    #假装进行了100轮迭代，w1变成10(其实ema没有更新中间那一百步）
    sess.run(tf.assign(global_step, 100))
    sess.run(tf.assign(w1, 10))
    sess.run(ema_op)
    print('after 100 ema ops')
    print('w:',sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    
    #再拿同样的w=10多更新几次影子,让影子逼近w1
    for i in range(100):
        sess.run(ema_op)
        if i % 10 == 0:
            print('w:',sess.run([w1,ema.average(w1)]))
        

init w: [0.0, 0.0]
after an ema op
w: [1.0, 0.81818181]
after 100 ema ops
w: [10.0, 1.5694213]
w: [10.0, 2.8925343]
w: [10.0, 6.973074]
w: [10.0, 8.7108936]
w: [10.0, 9.4509964]
w: [10.0, 9.7661905]
w: [10.0, 9.900424]
w: [10.0, 9.957592]
w: [10.0, 9.9819393]
w: [10.0, 9.9923086]
w: [10.0, 9.9967241]


In [5]:
#同样的例子，修改一下，让w1动态变化，ema在后边追。
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    print('init w:',sess.run([w1,ema.average(w1)]))#用.average获得w1的滑动平均，也就是影子吧。
    sess.run(tf.assign(w1,1))#手动修改w1的值
    sess.run(tf.assign(global_step, 1))
    sess.run(ema_op)#滑动一次。
    
    print('after an ema op')
    print('w:',sess.run([w1,ema.average(w1)]))
    #假装进行了100轮迭代，w1变成10(其实ema没有更新中间那一百步）
    sess.run(tf.assign(global_step, 100))
    sess.run(tf.assign(w1, 10))
    sess.run(ema_op)
    print('after 100 ema ops')
    print('w:',sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    
    #再拿同样的w=10多更新几次影子,让影子逼近w1，同时，w1也变化。
    for i in range(100):
        sess.run(tf.assign_add(w1,1))
        sess.run(ema_op)
        if i % 10 == 0:
            print('w:',sess.run([w1,ema.average(w1)]))
            print('global_step:',sess.run(global_step))
            print('global_step ema:',sess.run([global_step,ema.average(global_step)]))

init w: [0.0, 0.0]
after an ema op
w: [1.0, 0.81818181]
after 100 ema ops
w: [10.0, 1.5694213]
w: [11.0, 2.9743524]
global_step: 100.0
global_step ema: [100.0, 23.225294]
w: [21.0, 11.139132]
global_step: 100.0
global_step ema: [100.0, 67.303207]
w: [31.0, 20.35755]
global_step: 100.0
global_step ema: [100.0, 86.075096]
w: [41.0, 30.024689]
global_step: 100.0
global_step ema: [100.0, 94.069664]
w: [51.0, 39.882935]
global_step: 100.0
global_step ema: [100.0, 97.474388]
w: [61.0, 49.822563]
global_step: 100.0
global_step ema: [100.0, 98.924385]
w: [71.0, 59.796848]
global_step: 100.0
global_step ema: [100.0, 99.541916]
w: [81.0, 69.785896]
global_step: 100.0
global_step ema: [100.0, 99.804916]
w: [91.0, 79.781242]
global_step: 100.0
global_step ema: [100.0, 99.916916]
w: [101.0, 89.779259]
global_step: 100.0
global_step ema: [100.0, 99.964607]


# 例子2:
如果你不限制global_step为不可训练，并且ema直接获取所有可训练变量，global_step的ema就会变（不过不影响global_step变量自身）

In [2]:
import tensorflow as tf

w1 = tf.Variable(0, dtype=tf.float32)
global_step = tf.Variable(0,dtype=tf.float32,trainable=True)
MOVING_AVERAGE_DECAY = 0.99
ema = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
# ema_op = ema.apply([w1])#参数列表，本例可以手动指定w1.
ema_op = ema.apply(tf.trainable_variables())#注意这种情况，这种情况应该就会影响global_step了，所以得设False
with tf.Session() as sess:
    init = tf.global_variables_initializer()
    sess.run(init)
    print('init w:',sess.run([w1,ema.average(w1)]))#用.average获得w1的滑动平均，也就是影子吧。
    sess.run(tf.assign(w1,1))#手动修改w1的值
    sess.run(tf.assign(global_step, 1))
    sess.run(ema_op)#滑动一次。
    
    print('after an ema op')
    print('w:',sess.run([w1,ema.average(w1)]))
    #假装进行了100轮迭代，w1变成10(其实ema没有更新中间那一百步）
    sess.run(tf.assign(global_step, 100))
    sess.run(tf.assign(w1, 10))
    sess.run(ema_op)
    print('after 100 ema ops')
    print('w:',sess.run([w1,ema.average(w1)]))
    sess.run(ema_op)
    
    #再拿同样的w=10多更新几次影子,让影子逼近w1，同时，w1也变化。
    for i in range(100):
        sess.run(tf.assign_add(w1,1))
        sess.run(ema_op)
        if i % 10 == 0:
            print('w:',sess.run([w1,ema.average(w1)]))
            print('global_step and ema:',sess.run([global_step,ema.average(global_step)]))

init w: [0.0, 0.0]
after an ema op
w: [1.0, 0.81818181]
after 100 ema ops
w: [10.0, 1.5694213]
w: [11.0, 2.9743524]
global_step and ema: [100.0, 23.225294]
w: [21.0, 11.139132]
global_step and ema: [100.0, 67.303207]
w: [31.0, 20.35755]
global_step and ema: [100.0, 86.075096]
w: [41.0, 30.024689]
global_step and ema: [100.0, 94.069664]
w: [51.0, 39.882935]
global_step and ema: [100.0, 97.474388]
w: [61.0, 49.822563]
global_step and ema: [100.0, 98.924385]
w: [71.0, 59.796848]
global_step and ema: [100.0, 99.541916]
w: [81.0, 69.785896]
global_step and ema: [100.0, 99.804916]
w: [91.0, 79.781242]
global_step and ema: [100.0, 99.916916]
w: [101.0, 89.779259]
global_step and ema: [100.0, 99.964607]
