## 提取n-gram特征:

In [29]:
# 一般n-gram中的n取2或者3, 这里取2为例
ngram_range = 2
    
def create_ngram_set(input_list):
    """
    description: 从数值列表中提取所有的n-gram特征
    :param input_list: 输入的数值列表, 可以看作是词汇映射后的列表, 
                       里面每个数字的取值范围为[1, 25000]
    :return: n-gram特征组成的集合

    eg:
    >>> create_ngram_set([1, 4, 9, 4, 1, 4])
    {(4, 9), (4, 1), (1, 4), (9, 4)}
    """ 
    return set(zip(*[input_list[i:] for i in range(ngram_range)]))

## 调用

In [30]:
input_list = [1, 3, 2, 1, 5, 3]
res = create_ngram_set(input_list)
print(res)

{(2, 1), (1, 5), (5, 3), (3, 2), (1, 3)}


In [31]:
# 该输入列表的所有bi-gram特征
#{(3, 2), (1, 3), (2, 1), (1, 5), (5, 3)}

# 文本长度规范及其作用

## 文本长度规范的实现:

In [40]:
from keras.preprocessing import sequence

In [41]:
# cutlen根据数据分析中句子长度分布，覆盖90%左右语料的最短长度.
# 这里假定cutlen为10
cutlen = 10

In [46]:
#padding='post','pre' truncating='post','pre'在前面或者后面，切分或者补全
def padding(x_train):
    return sequence.pad_sequences(x_train, cutlen, padding='post', truncating='post')
    """
    description: 对输入文本张量进行长度规范
    :param x_train: 文本的张量表示, 形如: [[1, 32, 32, 61], [2, 54, 21, 7, 19]]
    :return: 进行截断补齐后的文本张量表示  # 使用sequence.pad_sequences即可完成
    """
#     return sequence.pad_sequences(x_train, cutlen)


## 调用

In [47]:
# 假定x_train里面有两条文本, 一条长度大于10, 一天小于10
x_train = [[1, 23, 5, 32, 55, 63, 2, 21, 78, 32, 23, 1],
           [2, 32, 1, 23, 1]]
res = padding(x_train)
print(res)

[[ 1 23  5 32 55 63  2 21 78 32]
 [ 2 32  1 23  1  0  0  0  0  0]]
