for DeepCache paper
- seq2seq_master/
- tensorflow_seq2seq_tutorials_master/
- .py
- readme.md
dataset1_v1: 生成了一个二维数组,6*20000大小的。因为论文中zipf分布给了6个不同参数。所以访问序列就是每一个给定的参数产生20000次访问,然后参数变化,再访问20000次这样
dataset1_v2: (80, 1000) 采用蒙特卡罗方法生成zipf分布随机数据
dataset1_v3: (80, 1000) 生成Zipf分发的随机数- 我修改了程序重新产生了训练集,每个interval的request次数为1000,β是6个值中随机的一个,object的流行度也是随机的。一共有80个interval,共80K次访问。
从dataset_v380K长的请求序列(80, 1000)开始构造:首先reshape为(80K, );然后开始统计1000内访问序列的信息,如统计0到999计算得到
实际上
(balabala...)
dataset1_appended_v1(80K, 1+5):1代表the actual object request
, 5代表the fake ones (Top5)
。在dataset1_appended_v1的构造中,对于当前时刻
the actual object request
,形成 the fake ones (Top5)
。说明 由于预测输出 Output 从 the fake ones (Top5)
,我们在对应的位置填无意义的-1
。dataset1_appended_v1 见 'dataComputed/dataset1_appended_v1.npz'
res = np.load('dataComputed/dataset1_appended_v1.npz')
requests = res['requests']
# requests.shape = (80000, 6)
dataset1_appended_v2 思考中,实际上 the actual object request
都跟一个序列the fake ones (Top5)
是否过于频繁,毕竟dataset1的cache=5。
命中率计算 不考虑 the fake ones (Top5)
带来的miss(虽然也会带来开销)
END OF FILE