# TimeseriesGenerator

In [None]:
keras.preprocessing.sequence.TimeseriesGenerator(data, 
                                                 targets, 
                                                 length, 
                                                 sampling_rate=1, 
                                                 stride=1, 
                                                 start_index=0, 
                                                 end_index=None, 
                                                 shuffle=False, 
                                                 reverse=False, 
                                                 batch_size=128)

用于生成批量时序数据的实用工具类。

这个类以一系列由相等间隔以及一些时间序列参数（例如步长、历史长度等）汇集的数据点作为输入，以生成用于训练/验证的批次数据。

### 参数

data: 可索引的生成器（例如列表或 Numpy 数组），包含连续数据点（时间步）。数据应该是 2D 的，且第 0 个轴为时间维度。

targets: 对应于 data 的时间步的目标值。它应该与 data 的长度相同。

length: 输出序列的长度（以时间步数表示）。

sampling_rate: 序列内连续各个时间步之间的周期。对于周期 r, 时间步 data[i],  data[i-r], ... data[i - length] 被用于生成样本序列。

stride: 连续输出序列之间的周期. 对于周期 s, 连续输出样本将为 data[i], data[i+s],  data[i+2*s] 等。

start_index: 在 start_index 之前的数据点在输出序列中将不被使用。这对保留部分数据以进行测试或验证很有用。

end_index: 在 end_index 之后的数据点在输出序列中将不被使用。这对保留部分数据以进行测试或验证很有用。

shuffle: 是否打乱输出样本，还是按照时间顺序绘制它们。

reverse: 布尔值: 如果 true, 每个输出样本中的时间步将按照时间倒序排列。

batch_size: 每个批次中的时间序列样本数（可能除最后一个外）。
### 返回

一个 Sequence 实例。

In [None]:
from keras.preprocessing.sequence import TimeseriesGenerator
import numpy as np

data=np.array([[i] for i in range(50)])
targets=np.array([[i] for i in range(50)])

data_gen=TimeseriesGenerator(data,targets,
                            length=15,sampling_rate=5,
                            batch_size=3)

assert len(data_gen) == 125

batch_0 = data_gen[0]
x, y = batch_0
assert np.array_equal(x,
                      np.array([[[0], [2], [4], [6], [8]],
                                [[1], [3], [5], [7], [9]]]))
assert np.array_equal(y,
                      np.array([[10], [11]]))

# pad_sequences

In [None]:
keras.preprocessing.sequence.pad_sequences(sequences, 
                                           maxlen=None, 
                                           dtype='int32', 
                                           padding='pre', 
                                           truncating='pre', 
                                           value=0.0)

将多个序列截断或补齐为相同长度。

该函数将一个 num_samples 的序列（整数列表）转化为一个 2D Numpy 矩阵，其尺寸为 (num_samples, num_timesteps)。 num_timesteps 要么是给定的 maxlen 参数，要么是最长序列的长度。

比 num_timesteps 短的序列将在末端以 value 值补齐。

比 num_timesteps 长的序列将会被截断以满足所需要的长度。补齐或截断发生的位置分别由参数 pading 和 truncating 决定。

向前补齐为默认操作。

### 参数

sequences: 列表的列表，每一个元素是一个序列。

maxlen: 整数，所有序列的最大长度。

dtype: 输出序列的类型。

padding: 字符串，'pre' 或 'post' ，表示长度不足时是在序列的前端补齐还是在后端补齐。

truncating: 字符串，'pre' 或 'post' ，移除长度大于 maxlen 的序列的值，要么在序列前端截断，要么在后端。

value: 浮点数，表示用来补齐的值。
### 返回

x: Numpy 矩阵，尺寸为 (len(sequences), maxlen)。
### 异常

ValueError: 如果截断或补齐的值无效，或者序列条目的形状无效。

In [2]:
import numpy as np

a = np.loadtxt('C:/Users/Ax/Desktop/Relation Classification via Convolutional Deep Neural Network/conv_relation-master/data/glove.6B.300d.txt')

ValueError: could not convert string to float: 'the'

In [3]:
b=np.load('C:/Users/Ax/Desktop/Relation Classification via Convolutional Deep Neural Network/conv_relation-master/data/embed50.senna.npy')

In [5]:
b.shape

(130000, 50)

In [48]:
def load(path):
    """
    Loads pre-trained embeddings from the specified path.
    
    @return (embeddings as an numpy array, word to index dictionary)
    """
    word2idx = {}  # Maps a word to the index in the embeddings matrix
    embeddings = []
    word=[]

    with open(path, 'r', encoding='UTF-8') as fIn:
        idx = 0               
        for line in fIn:
            split = line.strip().split(' ')                
            embeddings.append(np.array([float(num) for num in split[1:]]))
            word2idx[split[0]] = idx
            word.append(split[0])
            idx += 1
            
    #all_zeroes=0
    #word2idx[all_zeroes] = 0
    #embedding_size = embeddings[0].shape[0]
    #print("Emb. size: {}".format(embedding_size))
    #embeddings = np.asarray([[0.0]*embedding_size] + embeddings, dtype='float32')
    embeddings = np.asarray(embeddings, dtype='float32')
    
    #rare_w_ids = list(range(idx-101,idx-1))
    #unknown_emb = np.average(embeddings[rare_w_ids,:], axis=0)
    #embeddings = np.append(embeddings, [unknown_emb], axis=0)
    #word2idx['unknown'] = idx
    #idx += 1
    

    print("Loaded: {}".format(embeddings.shape))
    
    return embeddings, word2idx,word

In [49]:
embeddings, word2idx ,word= load('glove.6B.300d.txt')

Loaded: (400000, 300)


In [50]:
embeddings.shape

(400000, 300)

In [64]:
np.save("a.npy", embeddings)

In [51]:
word2idx

{'the': 0,
 ',': 1,
 '.': 2,
 'of': 3,
 'to': 4,
 'and': 5,
 'in': 6,
 'a': 7,
 '"': 8,
 "'s": 9,
 'for': 10,
 '-': 11,
 'that': 12,
 'on': 13,
 'is': 14,
 'was': 15,
 'said': 16,
 'with': 17,
 'he': 18,
 'as': 19,
 'it': 20,
 'by': 21,
 'at': 22,
 '(': 23,
 ')': 24,
 'from': 25,
 'his': 26,
 "''": 27,
 '``': 28,
 'an': 29,
 'be': 30,
 'has': 31,
 'are': 32,
 'have': 33,
 'but': 34,
 'were': 35,
 'not': 36,
 'this': 37,
 'who': 38,
 'they': 39,
 'had': 40,
 'i': 41,
 'which': 42,
 'will': 43,
 'their': 44,
 ':': 45,
 'or': 46,
 'its': 47,
 'one': 48,
 'after': 49,
 'new': 50,
 'been': 51,
 'also': 52,
 'we': 53,
 'would': 54,
 'two': 55,
 'more': 56,
 "'": 57,
 'first': 58,
 'about': 59,
 'up': 60,
 'when': 61,
 'year': 62,
 'there': 63,
 'all': 64,
 '--': 65,
 'out': 66,
 'she': 67,
 'other': 68,
 'people': 69,
 "n't": 70,
 'her': 71,
 'percent': 72,
 'than': 73,
 'over': 74,
 'into': 75,
 'last': 76,
 'some': 77,
 'government': 78,
 'time': 79,
 '$': 80,
 'you': 81,
 'years': 82,
 'i

In [52]:
word

['the',
 ',',
 '.',
 'of',
 'to',
 'and',
 'in',
 'a',
 '"',
 "'s",
 'for',
 '-',
 'that',
 'on',
 'is',
 'was',
 'said',
 'with',
 'he',
 'as',
 'it',
 'by',
 'at',
 '(',
 ')',
 'from',
 'his',
 "''",
 '``',
 'an',
 'be',
 'has',
 'are',
 'have',
 'but',
 'were',
 'not',
 'this',
 'who',
 'they',
 'had',
 'i',
 'which',
 'will',
 'their',
 ':',
 'or',
 'its',
 'one',
 'after',
 'new',
 'been',
 'also',
 'we',
 'would',
 'two',
 'more',
 "'",
 'first',
 'about',
 'up',
 'when',
 'year',
 'there',
 'all',
 '--',
 'out',
 'she',
 'other',
 'people',
 "n't",
 'her',
 'percent',
 'than',
 'over',
 'into',
 'last',
 'some',
 'government',
 'time',
 '$',
 'you',
 'years',
 'if',
 'no',
 'world',
 'can',
 'three',
 'do',
 ';',
 'president',
 'only',
 'state',
 'million',
 'could',
 'us',
 'most',
 '_',
 'against',
 'u.s.',
 'so',
 'them',
 'what',
 'him',
 'united',
 'during',
 'before',
 'may',
 'since',
 'many',
 'while',
 'where',
 'states',
 'because',
 'now',
 'city',
 'made',
 'like',
 

In [63]:
file = open('111.lst', 'w',encoding='utf-8')
for i in range(len(word)):
    file.write(word[i])
    file.write('\n')   
file.close()

In [53]:
word[0]

'the'

In [54]:
def _load_vocab(vocab_file):
    # load vocab from file
    vocab = []
    with open(vocab_file,encoding='utf-8') as f:
        for line in f:
            w = line.strip()
            vocab.append(w)
    return vocab

In [55]:
c=_load_vocab('senna_words.lst')

In [58]:
c

['!',
 '!_____!____________!_____!_____!_______!_____!_______!______',
 '"',
 '#',
 '####',
 '#0',
 '#0&btr',
 '#aaa',
 '#n',
 '#value',
 '$',
 '%',
 '&',
 '&money',
 "'",
 "''",
 "'''",
 "'''0",
 "'''the",
 "''0",
 "''a",
 "''admiral",
 "''alabama''",
 "''angel''",
 "''ark",
 "''arleigh",
 "''b''",
 "''balao''",
 "''banksia''",
 "''big",
 "''billboard''",
 "''bismarck''",
 "''buckley''",
 "''canberra''",
 "''challenger''",
 "''clemson''",
 "''columbia''",
 "''comarca''",
 "''constellation''",
 "''constitution''",
 "''de",
 "''discovery''",
 "''doctor",
 "''dreadnought''",
 "''dune''",
 "''eagle''",
 "''endeavour''",
 "''enterprise''",
 "''essex''",
 "''fletcher''",
 "''for",
 "''g''",
 "''gato''",
 "''gearing''",
 "''george",
 "''ham''",
 "''hms",
 "''hornet''",
 "''i0''",
 "''in",
 "''independence''",
 "''intrepid''",
 "''invincible''",
 "''iowa''",
 "''john",
 "''king",
 "''kommunalreformen''",
 "''la",
 "''leander''",
 "''lexington''",
 "''los",
 "''lst0''",
 "''maine''",
 "''misso

In [59]:
c[0]

'!'