In [1]:
import numpy as np
from tqdm import tqdm
import csv

In [21]:
#隐马尔可夫模型
#面向命名实体识别(组织机构)问题
class HMM_BIO:
    def __init__(self,A=None,B=None,PI=None):
        #param:
        # (A,B,PI) 状态转移矩阵 发射矩阵 初始状态矩阵
        self.print=True
        
        
        self.N = 3     # 状态集合有多少元素(状态数BIO)
        self.M = 65535 # 观测集合有多少元素(汉字)
        
        #数字化 状态集合Q 观测集合V 
        self.status_dict={ # {'盒子1':0，'盒子2':1，'盒子3':2}
                        'B-ORG': 0,
                        'I-ORG': 1,
                        'O': 2}
        self.status=list(self.status_dict.keys())          
        #self.observe_dict={}# {'红':0，'白':1}
        self.Q=np.arange(0,self.N) #状态集合 [0,1,2]
        self.V=np.arange(0,self.M) #观测集合 [0,1]
        
        #初始化 (A,B,PI)
        self.A=A # 状态转移矩阵
        self.B=B # 发射矩阵
        self.PI=PI # 初始状态概率
        
        
        if self.print:
            print('状态集合status',self.status_dict)
            #print('观测集合observe',self.observe_dict)
            print('状态集合Q',self.Q)
            print('观测集合V',self.V)
            print()
        

    
    #训练模型(A,B,PI)
    #data (2,N)
    def train_bio(self,filename):
        self.calc_Param_bio(filename)
    
    
    def calc_Param_bio(self,filename):
        #利用数据data(状态序列+观测序列) 计算参数(A,B,PI) 直接使用统计方法 统计A,B,PI
        
        A=np.zeros((self.N,self.N)) #(N,N)
        B=np.zeros((self.N,self.M)) #(N,M)
        PI=np.zeros(self.N) #(N,)
        
        
        with open(filename,'r',encoding='utf-8') as fr:
            mult=10000000
            cnt=0
            idx=-1
            
            line=fr.readline()
            pres=-1
            while line:
                idx+=1
                mult-=1
                if mult==0:
                    cnt+=1
                    print(f'load {10000000}*{cnt} rows')
                    mult=10000000
                    
                
                
                s,v=line.split(',')
                s=int(s)
                v=int(v[:-1])
                #print(line,s,v)
                #当前为分隔符
                if s==-1 or v>=self.M:
                    pres=-1
                    line=fr.readline()
                    continue
                if pres!=-1:
                    #s 当前状态
                    #pres 上一次状态
                    #v 当前观测

                    A[pres,s]+=1
                    B[s,v]+=1
                    
                #上一个为分隔符
                else:
                    PI[s]+=1
                    print(idx,':',schr(v),)
                    B[s,v]+=1
                pres=s
                line=fr.readline()
        
        self.A=A
        self.B=B
        self.PI=PI
        
        print(self.PI)
        
        self.normalize_param()
        print('训练参数结果(A,B,PI)')
        print(f'A:{self.A}')
        print(f'B:{self.B}')
        print(f'PI:{self.PI}')
        
        #self.save_Param()
        
        
    
    def normalize_param(self):
        epsilon=1e-100
        
        
        self.PI[self.PI == 0] =epsilon  # 防止数据下溢,对数据进行对数归一化
        self.PI = np.log(self.PI) - np.log(np.sum(self.PI))

        self.A[self.A == 0] = epsilon
        self.A = np.log(self.A) - np.log(np.sum(self.A, axis=1, keepdims=True))

        self.B[self.B == 0] = epsilon
        self.B = np.log(self.B) - np.log(np.sum(self.B, axis=1, keepdims=True))
        
        #将(A,B,PI)归一化 (直接归一化)
        #self.A=self.A/np.sum(self.A,axis=1,keepdims=True)
        #self.B=self.B/np.sum(self.B,axis=1,keepdims=True)
        #self.PI=self.PI/np.sum(self.PI)

    def save_Param(self):
        filedir='param/short/'
        
        np.savetxt(f'{filedir}A.csv',self.A,delimiter=',')
        np.savetxt(f'{filedir}B.csv',self.B,delimiter=',')
        np.savetxt(f'{filedir}PI.csv',self.PI,delimiter=',')
        print(f'训练参数已保存在 {filedir}A.csv')
        print()
    
    def load_Param(self):
        self.A=np.genfromtxt('param/A.csv',delimiter=',')
        self.B=np.genfromtxt('param/B.csv',delimiter=',')
        self.PI=np.genfromtxt('param/PI.csv',delimiter=',')
        print('训练参数(A,B,PI)已从 param/A.csv 中读取成功')
        print()
    
    def viterbi_t(self,o):
        #维特比算法(动态规划)
        #已知(A,B,PI) 和一观测序列o 求解其状态序列的概率最大解
        #param:
        # o 观测序列 [0,1,1,1,1,0] shape(n,)
        #return:
        # ret 状态序列 shape(n,)
        #solution:
        # delta计算从前一个的所有状态 到当前状态的概率最大值 psi记录下来概率最大值的前一个状态
        # 从delta的最后取最大值，利用psi向前回溯即可找到最大概率序列
        
        n=o.shape[0]
        
        delta=np.zeros((self.N,n)) #delta[:,i] 为到达该观测序列的 每个状态的最大概率值 shape(状态个数,序列长度)
        psi=np.zeros((self.N,n),dtype=np.int32) #psi[:,i] 为到达该观测序列的 最大概率值的 上一个状态为哪个
        A=self.A
        B=self.B
        PI=self.PI
        
        #* -> + (因为log)
        delta[:,0]=PI+B[:,o[0]]
        #psi[:,0]=np.argmax(delta[:,0])
        for i in range(1,n):
            temp=delta[:,i-1]+A.T
            psi[:,i]=np.argmax(temp,axis=1)
            delta[:,i]=np.max(temp,axis=1)+B[:,o[i]]
            #check(delta)
            #check(psi)
        
        ret=np.zeros(n,dtype=np.int32)
        ret[-1]=np.argmax(delta[:,-1])

        for i in range(n-2,-1,-1):
            ret[i]=psi[ret[i+1]][i+1]
        return ret
    
    
    
    def calc_acc(self,label,predict):
        #计算标签预测的准确率
        #param:
        # a 源标签
        # b 目的标签
        return np.mean(np.equal(label,predict))
    
    
    
    def predict(self,s:str):
        #预测一段话的状态序列
        #param
        # s 一段中文
        #return
        # 中文加状态的文字 林B-LOC_|徽I-LOC_|因_O_|
        
        ans=""
        s=list(s)
        o=np.array([ord(ch) for ch in s])
        print(o)
        statusList=self.viterbi_t(o)
        for i in range(len(s)):
            ans+=s[i]+str(self.status[statusList[i]])+'_|'
        #print(statusList)
        return ans
        

In [6]:
#将默认的语料库 中的观测序列和状态序列转换为数字存入csv文件中 (可以用np格式读出)
def data_pretreatment(hmm:HMM_BIO):
    file_path='corpus_part0.txt'
    with open(file_path,mode='r',encoding='utf-8') as fr:
        with open('BIO_train_pretreatment_0.csv',mode='w',encoding='utf-8',newline='') as fw:
            writer=csv.writer(fw)
            line=fr.readline()
            cnt=10000000
            while line:
                #判断是否是换行\n
                if len(line)==1:
                    writer.writerow([-1,-1])
                else:
                    #print(line)
                    ch,tag=line[0],line[2:-1]
                    writer.writerow([hmm.status_dict[tag],ord(ch)])
                    #new_row=np.array([[hmm.status_dict[tag],ord(ch)]]) 
                line=fr.readline()
                
                cnt-=1
                if cnt==0:
                    print('write 1000,0000 rows')
                    cnt=10000000
            
                
#查看数组a1的属性
def check(a1):
    print(a1)  
    print("数据类型",type(a1))           #打印数组数据类型  
    print("数组元素数据类型：",a1.dtype) #打印数组元素数据类型  
    print("数组元素总数：",a1.size)      #打印数组尺寸，即数组元素总数  
    print("数组形状：",a1.shape)         #打印数组形状  
    print("数组的维度数目",a1.ndim)      #打印数组的维度数目
    print()

In [22]:
#创建一个HMM模型用于命名实体识别
hmm_bio=HMM_BIO()

状态集合status {'B-ORG': 0, 'I-ORG': 1, 'O': 2}
状态集合Q [0 1 2]
观测集合V [    0     1     2 ... 65532 65533 65534]



In [8]:
#将文本数据预处理 写进csv文件
data_pretreatment(hmm_bio)

write 1000,0000 rows
write 1000,0000 rows
write 1000,0000 rows
write 1000,0000 rows
write 1000,0000 rows
write 1000,0000 rows


In [23]:
#根据已有数据 训练HMM模型
hmm_bio.train_bio('corpus/BIO_train_pretreatment_1.csv')

1 : 2 一
3 : 2 采
28 : 2 二
51 : 2 三
76 : 2 四
83 : 2 合
108 : 2 供
114 : 2 供
120 : 2 中
129 : 0 深
143 : 2 深
173 : 2 1
187 : 2 五
196 : 2 合
221 : 2 货
240 : 2 品
244 : 2 品
249 : 2 采
254 : 2 品
257 : 2 规
262 : 2 数
269 : 2 单
275 : 2 总
281 : 2 1
285 : 2 其
291 : 0 龙
308 : 2 详
313 : 2 详
318 : 2 1
323 : 2 1
336 : 2 1
349 : 2 六
369 : 0 评
380 : 2 随
397 : 2 采
409 : 2 自
420 : 2 七
435 : 2 代
446 : 2 按
477 : 2 代
486 : 2 合
520 : 2 收
536 : 2 八
543 : 2 自
559 : 2 九
568 : 2 合
593 : 2 供
597 : 2 资
603 : 2 符
609 : 2 技
614 : 2 商
619 : 2 价
624 : 2 综
629 : 2 得
634 : 2 推
639 : 0 深
653 : 2 通
656 : 2 通
659 : 2 4
665 : 2 1
671 : 2 2
677 : 2 9
683 : 2 1
685 : 2 1
687 : 0 安
704 : 2 通
707 : 2 通
710 : 2 3
716 : 2 7
721 : 2 2
727 : 2 6
733 : 2 2
735 : 2 2
737 : 0 深
750 : 2 通
753 : 2 通
756 : 2 2
762 : 2 3
767 : 2 3
773 : 2 6
779 : 2 3
781 : 2 3
783 : 2 十
808 : 2 1
816 : 2 名
827 : 2 地
844 : 2 联
862 : 2 2
873 : 2 名
890 : 2 地
935 : 2 联
953 : 2 3
962 : 2 项
972 : 2 电
989 : 0 广
1002 : 2 2
[ 7.  0. 89.]
训练参数结果(A,B,PI)
A:[[-2.33091723e+0

In [12]:
#进行预测(copus_part0)
sentences=['林徽因什么理由拒绝了徐志摩而选择梁思成变为终身伴侣?谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分','王心雷编写了一个代码',
      '王康在哈尔滨出门打电动被张舒帆当场逮捕','北京抖音信息服务有限公司今天出台了一个新的政策','中国招标网发布了一个新的招标',
       '我真的好饿','中标人:遂宁高新区蜜感内衣店','中国是个好地方','宁夏最高气温20度','恭喜安居区安居镇有家超市昨天开业了',
           '家乐福是个好地方','家乐福','家乐福超市']
for sentence in sentences:
    print(hmm_bio.predict(sentence))
    print()


[26519 24509 22240 20160 20040 29702 30001 25298 32477 20102 24464 24535
 25705 32780 36873 25321 26753 24605 25104 21464 20026 32456 36523 20276
 20387    63 35874 23068 20026 26446 28009 33778 28548 28165 32593 32476
 35875 35328 65292 20043 21518 22905 30340 20004 20010 34892 20026 32473
 33258 24049 21152 20998]
林O_|徽O_|因O_|什O_|么O_|理O_|由O_|拒O_|绝O_|了O_|徐O_|志O_|摩O_|而O_|选O_|择O_|梁O_|思O_|成O_|变O_|为O_|终O_|身O_|伴O_|侣O_|?O_|谢O_|娜O_|为O_|李O_|浩O_|菲O_|澄O_|清O_|网O_|络O_|谣O_|言O_|，O_|之O_|后O_|她O_|的O_|两O_|个O_|行O_|为O_|给O_|自O_|己O_|加O_|分O_|

[29579 24515 38647 32534 20889 20102 19968 20010 20195 30721]
王O_|心O_|雷O_|编O_|写O_|了O_|一O_|个O_|代O_|码O_|

[29579 24247 22312 21704 23572 28392 20986 38376 25171 30005 21160 34987
 24352 33298 24070 24403 22330 36910 25429]
王O_|康O_|在O_|哈O_|尔O_|滨O_|出O_|门O_|打O_|电O_|动O_|被O_|张O_|舒O_|帆O_|当O_|场O_|逮O_|捕O_|

[21271 20140 25238 38899 20449 24687 26381 21153 26377 38480 20844 21496
 20170 22825 20986 21488 20102 19968 20010 26032 30340 25919 31574]
北B-ORG_|京I-ORG_|抖I-ORG_|音I-ORG_|

In [106]:
#进行预测（corpus_all）
sentences=['林徽因什么理由拒绝了徐志摩而选择梁思成变为终身伴侣?谢娜为李浩菲澄清网络谣言，之后她的两个行为给自己加分','王心雷编写了一个代码',
      '王康在哈尔滨出门打电动被张舒帆当场逮捕','北京抖音信息服务有限公司今天出台了一个新的政策','中国招标网发布了一个新的招标',
       '我真的好饿','中标人:遂宁高新区蜜感内衣店','中国是个好地方','宁夏最高气温20度','恭喜安居区安居镇有家超市昨天开业了',
           '家乐福是个好地方','家乐福','家乐福超市']

for sentence in sentences:
    print(hmm_bio1.predict(sentence))
    print()


[26519 24509 22240 20160 20040 29702 30001 25298 32477 20102 24464 24535
 25705 32780 36873 25321 26753 24605 25104 21464 20026 32456 36523 20276
 20387    63 35874 23068 20026 26446 28009 33778 28548 28165 32593 32476
 35875 35328 65292 20043 21518 22905 30340 20004 20010 34892 20026 32473
 33258 24049 21152 20998]
林B-ORG_|徽I-ORG_|因I-ORG_|什I-ORG_|么I-ORG_|理I-ORG_|由O_|拒O_|绝O_|了O_|徐O_|志O_|摩O_|而O_|选O_|择O_|梁O_|思O_|成O_|变O_|为O_|终O_|身O_|伴O_|侣O_|?O_|谢O_|娜O_|为O_|李O_|浩O_|菲O_|澄O_|清O_|网O_|络O_|谣O_|言O_|，O_|之O_|后O_|她O_|的O_|两O_|个O_|行O_|为O_|给O_|自O_|己O_|加O_|分O_|

[29579 24515 38647 32534 20889 20102 19968 20010 20195 30721]
王O_|心O_|雷O_|编O_|写O_|了O_|一O_|个O_|代O_|码O_|

[29579 24247 22312 21704 23572 28392 20986 38376 25171 30005 21160 34987
 24352 33298 24070 24403 22330 36910 25429]
王O_|康O_|在O_|哈B-ORG_|尔I-ORG_|滨I-ORG_|出O_|门O_|打O_|电O_|动O_|被O_|张O_|舒O_|帆O_|当O_|场O_|逮O_|捕O_|

[21271 20140 25238 38899 20449 24687 26381 21153 26377 38480 20844 21496
 20170 22825 20986 21488 20102 19968 20010 26032 30340 25919 315

In [7]:
#哈尔滨 中招国联 科技 有限公司 北京分公司
#Ns地域
#NN 名号
#NM 领域
#NO 组织形态
#NB 分支机构

In [109]:
print(chr(128072))

👈
