In [1]:
import re
import numpy as np
from collections import Counter
from sklearn.model_selection import train_test_split

In [2]:
#处理输入数据
s = []
with open('../dataset/msr_training.txt','r') as f:
    for line in f.readlines():
        s.append(line)
print(s[0])

“  人们  常  说  生活  是  一  部  教科书  ，  而  血  与  火  的  战争  更  是  不可多得  的  教科书  ，  她  确实  是  名副其实  的  ‘  我  的  大学  ’  。



In [3]:
#清洗语料，去除标点符号，空格等
pattern = re.compile('[“|”|‘|’|\n|。|，|？|！|、]')
def clean(s): #整理一下数据，有些不规范的地方
    s = re.sub(pattern,'',s)
    s = ' '.join(s.split())
    return s
s = list(map(clean, s))
print(s[0])

人们 常 说 生活 是 一 部 教科书 而 血 与 火 的 战争 更 是 不可多得 的 教科书 她 确实 是 名副其实 的 我 的 大学


In [4]:
#生成标签,标签主要分 b:beginning,m:middle,e:end,s:single，后面还有补充一个x，代表没有意义的结尾
def generate_label(s):
    tmp = s.split()
    tmp_label = []
    for w in tmp:
        if len(w)==1:
            tmp_label.append('s')
        elif len(w)==2:
            tmp_label.append('b')
            tmp_label.append('e')
        elif len(w)>2:
            tmp_label.append('b')
            for i in range(len(w)-2):
                tmp_label.append('m')
            tmp_label.append('e')
    return ''.join(tmp_label)
label = list(map(generate_label,s))
print(label[0])

bessbesssbmesssssbessbmmesbmesbesbmmesssbe


In [5]:
#这里对s的处理，是去除空格的影响，因为在分词中空格没有具体的意义
text = [''.join(v.split()) for v in s]
print(text[0])
#char_dict是为了存储每个字符而已
char_dict = Counter(''.join(text))
print('共有字符',len(char_dict))
max_len = 50

人们常说生活是一部教科书而血与火的战争更是不可多得的教科书她确实是名副其实的我的大学
共有字符 5157


In [6]:
#建立词到索引的映射和索引到词的映射，一般可以用keras的prepeocessing处理，但自己处理也不难
w2idx = {v:i+1 for i,v in enumerate(char_dict.keys())}
idx2word = {w2idx[v]:v for v in w2idx.keys()}

In [7]:
#将训练样本转化为索引的形式
train_text = []
for v in text:
    tmp = []
    for c in v:
        tmp.append(w2idx[c])
    train_text.append(tmp)
print(train_text[0])

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 7, 21, 22, 23, 24, 17, 10, 11, 12, 25, 26, 27, 7, 28, 29, 30, 27, 17, 31, 17, 32, 33]


In [8]:
#这里输入的长度规定为50，若长度不够50则补充，超过50截取前50，对训练样本和label都要做同样的操作，因为输入和输出是1:1的关系
maxlen=50
for i,t in enumerate(train_text):
    buchong = np.zeros(50,dtype=int).tolist()
    train_text[i] = train_text[i] + buchong
    train_text[i] = train_text[i][:50]
print(train_text[0])
for i,t in enumerate(label):
    buchong = 'x'* 50
    label[i] = list(label[i]) + list(buchong)
    label[i] = label[i][:50]
print(label[0])

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 7, 21, 22, 23, 24, 17, 10, 11, 12, 25, 26, 27, 7, 28, 29, 30, 27, 17, 31, 17, 32, 33, 0, 0, 0, 0, 0, 0, 0, 0]
['b', 'e', 's', 's', 'b', 'e', 's', 's', 's', 'b', 'm', 'e', 's', 's', 's', 's', 's', 'b', 'e', 's', 's', 'b', 'm', 'm', 'e', 's', 'b', 'm', 'e', 's', 'b', 'e', 's', 'b', 'm', 'm', 'e', 's', 's', 's', 'b', 'e', 'x', 'x', 'x', 'x', 'x', 'x', 'x', 'x']


In [9]:
#将label也转化成索引的形式，然后将每一个索引转化为one-hot的形式
label_dict = {'b':0,'m':1,'e':2,'s':3,'x':4}
label_dict_num = {label_dict[v]:v for v in label_dict.keys()}
label_num = [[label_dict[v] for v in k] for k in label]
label_sparse = np.zeros((len(train_text),50,5))
for i,l in enumerate(label_num):
    for k in range(50):
        tmp = np.zeros(5)
        tmp[label_num[i][k]] = 1
        label_sparse[i][k] = tmp
print(label_sparse.shape)

In [11]:
#划分训练集和测试集，这里没有用到真正的测试集，知识自己划分了少部分数据来看看效果
train_text = np.array(train_text)
label_sparse = np.array(label_sparse)
X_train,X_test,y_train,y_test = train_test_split(train_text,label_sparse)

In [12]:
#这里模型没有做更改，还是和苏神的一样
from keras.layers import Dense, Embedding, LSTM, TimeDistributed, Input, Bidirectional
from keras.models import Model
sequence = Input(shape=(maxlen,), dtype='int32')
embedded = Embedding(len(char_dict)+1, 128, input_length=maxlen, mask_zero=True)(sequence)
blstm = Bidirectional(LSTM(64, return_sequences=True), merge_mode='sum')(embedded)
output = TimeDistributed(Dense(5, activation='softmax'))(blstm)
model = Model(input=sequence, output=output)
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.
  


In [13]:
model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         (None, 50)                0         
_________________________________________________________________
embedding_1 (Embedding)      (None, 50, 128)           660224    
_________________________________________________________________
bidirectional_1 (Bidirection (None, 50, 64)            98816     
_________________________________________________________________
time_distributed_1 (TimeDist (None, 50, 5)             325       
Total params: 759,365
Trainable params: 759,365
Non-trainable params: 0
_________________________________________________________________


In [14]:
model.fit(X_train,y_train,
          batch_size=128,
          validation_data=(X_test,y_test),epochs=2,verbose=1,
         )

Train on 65193 samples, validate on 21731 samples
Epoch 1/2
Epoch 2/2


<keras.callbacks.History at 0x196b3119358>

In [15]:
test_label = model.predict(X_test)

In [21]:
#这里拿测试集的第一条来做样例
segment_sample = test_label[0]
#这里是为了以后的维特比解码函数用的，将每一个时间步的概率都转化成对应标签的概率
f_dict = []
for i,v in enumerate(segment_sample):
    tmp={}
    for k,s in enumerate(['b','m','e','s','x']):
        tmp[s] = segment_sample[i][k]
    f_dict.append(tmp)
print(f_dict[0])

{'b': 0.96966994, 'm': 0.006155009, 'e': 0.0010187782, 's': 0.023033256, 'x': 0.00012297866}


In [22]:
#转移概率，单纯用了等概率
transfer_matrix = {'be':0.5, 
      'bm':0.5, 
      'eb':0.5, 
      'es':0.5, 
      'me':0.5, 
      'mm':0.5,
      'sb':0.5, 
      'ss':0.5
     }

In [23]:
def viterbi(nodes):
    paths = {'b':nodes[0]['b'], 's':nodes[0]['s']} #定义一开始的状态，因为不是beginning就是single,所以只考虑着两种情况
    for l in range(1,len(nodes)): #node 是字的长度,l是从第二个状态开始的
        paths_ = paths.copy()
        paths = {}
        for i in nodes[l].keys(): # 对于当前时刻的每一个状态的字典
            nows = {}
            for j in paths_.keys(): #path_是前一个状态的概率
                if j[-1]+i in transfer_matrix.keys():#对于在转移矩阵里的情况，而对于没有出现在转移矩阵里的情况就不给予考虑了
                    # j+i 就是当前的状态，path_s[j]：上一个时刻的j状态的概率；
                    #                     nodes[l][i]:当前状态的
                    nows[j+i]= paths_[j]+nodes[l][i]+transfer_matrix[j[-1]+i]
            if nows != {}:
                paths[max(nows,key=nows.get)] = nows[max(nows,key=nows.get)]
    return max(paths,key=paths.get)

In [29]:
#将测试集的第一条转换回去文字
char_sample = [idx2word[v] for v in X_test[0] if v !=0]
print(''.join(char_sample))

迄今为止这次灾害已造成１１９人死亡约４００人失踪１０００多人无家可归


In [31]:
segment_sample = viterbi(f_dict)
print(segment_sample)

bebebebesbebmmebesbmmebebmmmmebebebebebebebebebebe


In [33]:
#先大致看一下效果，接下来再进行具体的分词
list(zip(char_sample,segment_sample))

[('迄', 'b'),
 ('今', 'e'),
 ('为', 'b'),
 ('止', 'e'),
 ('这', 'b'),
 ('次', 'e'),
 ('灾', 'b'),
 ('害', 'e'),
 ('已', 's'),
 ('造', 'b'),
 ('成', 'e'),
 ('１', 'b'),
 ('１', 'm'),
 ('９', 'm'),
 ('人', 'e'),
 ('死', 'b'),
 ('亡', 'e'),
 ('约', 's'),
 ('４', 'b'),
 ('０', 'm'),
 ('０', 'm'),
 ('人', 'e'),
 ('失', 'b'),
 ('踪', 'e'),
 ('１', 'b'),
 ('０', 'm'),
 ('０', 'm'),
 ('０', 'm'),
 ('多', 'm'),
 ('人', 'e'),
 ('无', 'b'),
 ('家', 'e'),
 ('可', 'b'),
 ('归', 'e')]

In [None]:
def cut_test(char,segment):
    tmp_res = []
    for i in range(len(segment)):
        tmp_char = []
        if segment[i]==e:
            tmp_res.append()