In [23]:
import torch

In [36]:
class HMM(object):
    # 
    def __init__(self,N,M):
        
        # N,the number of tags
        # M,the number of words
        self.N = N
        self.M = M
        
        # parameters
        self.A = torch.zeros(N,N)
        self.B = torch.zeros(N,M)
        self.Pi = torch.zeros(N)
        
    def train(self, word_lists, tag_lists, word2id, tag2id):
        '''
        word_lists: the list of word list
        tag_lists: the list of tag list
        word2id: the map of word and id
        tag2id: the map of tag and id
        '''
        
        assert len(tag_lists) == len(word_lists)
        
        # transmission matrix
        for tag_list in tag_lists:
            seq_len = len(tag_list)
            for i in range(seq_len - 1):
                current_tagid = tag2id[tag_list[i]]
                next_tagid = tag2id[tag_list[i+1]]
                self.A[current_tagid][next_tagid] += 1
                
        self.A[self.A == 0.] = 1e-10
        self.A = self.A / self.A.sum(dim=1, keepdim = True)
        
        # emission matrix
        for tag_list, word_list in zip(tag_lists,word_lists):
            assert len(tag_list) == len(word_list)
            for tag, word in zip(tag_list, word_list):
                tag_id = tag2id[tag]
                word_id = word2id[word]
                self.B[tag_id][word_id] += 1
        self.B[self.B == 0.] = 1e-10
        self.B = self.B / self.B.sum(dim=1, keepdim=True )
        
        #original matrix
        for tag_list in tag_lists:
            org_tagid = tag2id[tag_list[0]]
            self.Pi[org_tagid] += 1
        self.Pi[self.Pi == 0.] = 1e-10
        self.Pi = self.Pi / self.Pi.sum()
        
    def test(self, word_lists, word2id, tag2id):
        pred_tag_lists = []
        for word_list in word_lists:
            pred_tag_list = self.decoding(word_list, word2id, tag2id)
            pred_tag_lists.append(pred_tag_list)
        return pred_tag_lists
    
    def decoding(self, word_list, word2id, tag2id):
        A = torch.log(self.A)
        B = torch.log(self.B)
        Pi = torch.log(self.Pi)
        
        seq_len = len(word_list)
        viterbi = torch.zeros(self.N, seq_len)
        backpointer = torch.zeros(self.N, seq_len).long()
        
        start_wordid = word2id.get(word_list[0],None)
        BT = B.t()
        
        if start_wordid is None:
            bt = torch.log(torch.ones(self.N) / self.N)
        else:
            bt = BT[start_wordid]
        viterbi[:,0] = Pi + bt
        backpointer[:,0] = -1
        
        for step in range(1,seq_len):
            wordid = word2id.get(word_list[step],None)
            if wordid is None:
                bt = torch.log(torch.ones(self.N) / self.N)
            else:
                bt = BT[wordid]
            for tag_id in range(len(tag2id)):
                max_prob, max_id = torch.max(viterbi[:,step-1] + A[:,tag_id], dim = 0)
                viterbi[tag_id, step] = max_prob + bt[tag_id]
                backpointer[tag_id, step] = max_id
        
        best_path_prob, best_path_pointer = torch.max(viterbi[:, seq_len-1], dim=0)
        
        best_path_pointer = best_path_pointer.item()
        best_path = [best_path_pointer]
        for back_step in range(seq_len-1, 0, -1):
            best_path_pointer = backpointer[best_path_pointer, back_step]
            best_path_pointer = best_path_pointer.item()
            best_path.append(best_path_pointer)
            
        assert len(best_path) == len(word_list)
        id2tag = dict((id_, tag) for tag, id_ in tag2id.items())
        tag_list = [id2tag[id_] for id_ in reversed(best_path)]
        
        return tag_list
                        
    def evaluation(self, pred_tag_lists, tag_lists, tag2id):
        
        M = torch.zeros(len(tag2id))
        
        i = 0
        assert len(pred_tag_lists) == len(tag_lists)
        for i in range(len(tag_lists)):
            j = 0
            pred_tag_list = pred_tag_lists[i]
            tag_list = tag_lists[i]
            assert len(tag_list) == len(pred_tag_list)
            for j in range(len(tag_list)):
                pred = pred_tag_list[j]
                tag = tag_list[j]
                M[tags[pred]][tags[tag]] += 1
                
        return M       
        
    

In [25]:
f = open('data/train.tag','r')

word_lists = []
tag_lists = []
word2id = {}
tag2id = {"TAG":0,"GENE1":1,"GENE2":2}

t = 0
n = 0
for line in f.readlines():
    if "_" in line:
        line = line.split(" ")
        
        n += 1
        
        word_list = []
        tag_list = []
        
        for word_tag in line:
            
            word_tag = word_tag.split("_")
            word = word_tag[0].replace("\n","")
            tag = word_tag[1].replace("\n","")
            
            word_list.append(word)
            tag_list.append(tag)
            
            if word not in word2id:
                word2id[word] = t
                t += 1
                
        word_lists.append(word_list)
        tag_lists.append(tag_list)

print(len(tag_lists))
print(n)
            
        

9000
9000


In [26]:
h = HMM(len(tag2id),len(word2id))
h.train(word_lists,tag_lists,word2id,tag2id)
print("finish")

finish


In [27]:
# test
word_list_test = [["I"],["isd6767","er"]]
output = h.test(word_list_test, word2id, tag2id)

print(output)

[['TAG'], ['TAG', 'TAG']]


In [28]:
def get_lists(f):

    word_lists = []
    tag_lists = []

    for line in f.readlines():
        if "_" in line:
            line = line.split(" ")
        
            word_list = []
            tag_list = []
        
            for word_tag in line:
            
                word_tag = word_tag.split("_")
                word = word_tag[0].replace("\n","")
                tag = word_tag[1].replace("\n","")
            
                word_list.append(word)
                tag_list.append(tag)
            
                
            word_lists.append(word_list)
            tag_lists.append(tag_list)

    return word_lists, tag_lists

In [29]:
f = open('data/test.tag','r')
word_lists_test,tag_lists_test = get_lists(f)
print(tag_lists_test)

[['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', '




In [30]:
output = h.test(word_lists_test, word2id, tag2id)

print(output)

[['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'GENE2', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'GENE2', 'GENE2', 'GENE2', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'GENE2', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'GENE2', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG'], ['TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'TAG', 'GENE1', '




In [37]:
h.evaluation(output, tag_lists_test, tag2id)

AttributeError: module 'torch' has no attribute 'zeroes'