# BM25实现

In [30]:
import math


class BM25(object):

    def __init__(self, docs):
        self.D = len(docs)
        self.avgdl = sum([len(doc)+0.0 for doc in docs]) / self.D
        self.docs = docs
        self.f = []  # 列表的每一个元素是一个dict，dict存储着一个文档中每个词的出现次数
        self.df = {} # 存储每个词及出现了该词的文档数量
        self.idf = {} # 存储每个词的idf值
        self.k1 = 1.5
        self.b = 0.75
        self.init()

    def init(self):
        for doc in self.docs:
            tmp = {}
            for word in doc:
                tmp[word] = tmp.get(word, 0) + 1  # 存储每个文档中每个词的出现次数
            self.f.append(tmp)
            for k in tmp.keys():
                self.df[k] = self.df.get(k, 0) + 1
        for k, v in self.df.items():
            self.idf[k] = math.log(self.D-v+0.5)-math.log(v+0.5)

    def sim(self, doc, index):
        score = 0
        for word in doc:
            if word not in self.f[index]:
                continue
            d = len(self.docs[index])
            score += (self.idf[word]*self.f[index][word]*(self.k1+1)
                      / (self.f[index][word]+self.k1*(1-self.b+self.b*d
                                                      / self.avgdl)))
        return score

    def simall(self, doc):
        scores = []
        for index in range(self.D):
            score = self.sim(doc, index)
            scores.append(score)
        return scores
    
if __name__ == '__main__':

    from MyDataFrame import MyDataFrame
    mdf = MyDataFrame()
    df = mdf.new_DataFrame()
    df2 = mdf.m_cut(df)
    filelist=[]
    for i in range(len(df2)):
        filelist.append(df2['fenci'][i])
    
    
    s = BM25(filelist)
    #print(s.f)
    #print(s.idf)
    #print(s.simall(['医疗机构', '数据挖掘', '领域', '一带一路', '领域']))
    #print(type(s.simall(['医疗机构', '数据挖掘', '领域', '一带一路', '领域'])))
    scores = s.simall(['医疗机构'])
    #scores.sort()
    print(scores)
    simfile_list = []
    for i in range(len(scores)):
        simfile_list.append((i,scores[i]))
        
    import operator
    
    simfile_list.sort(key=operator.itemgetter(1),reverse=True)
    print(simfile_list)
    
    for i in range(len(simfile_list)):
        a,b = simfile_list[i]
        if b != 0:
            print(df.filename[a] +":"+str(b))

['2009_2016年云南省医疗机构消毒灭菌效果趋势评价_李建云_周晓梅', '_一带一路_背景下_国际投资_课_省略_路径探析_以广西民族师范学院为例_郑国富', '三级医院医疗检查结果互认实施现状及影响因素分析_肖晓华_廖惠_梁恒斌_潘振威_苏', '不同等级医院医疗检查结果互认标准研究_肖晓华_谢欣睿_梁恒斌_廖惠_潘振威_苏茹', '乡村振兴战略下环巢湖休闲农业发展研究_沈东生', '二三级医院影像学检查结果互认现状及影响因素研究_肖晓华_苏茹茹_潘振威_廖惠_梁', '关于建筑工程管理的影响因素分析与对策探讨_王君霞_战丙利', '关于彰武县做好互换并地后续工作的建议_张凤华', '关于深化河北省农业水价综合改革的对策建议_马素英', '农村非正规金融发展与农村多维贫困_基于面板门槛模型的研究_吴君娴_黄永兴', '医师多点执业对医院人力资源管理的影响_张妍_李吉', '协同创新优化现代高效农业组织结构_王瑜', '县级公立医院患者体验的影响因素研究_朱锦_胡丹_陈家应', '双创背景下大学生农业创业融资问题探析_王涛_白林_齐骥霆', '吉林省农村金融发展状况及对策研究_孙铁柱', '国家重点研发计划_畜禽_专项立项特征研究_姜玮', '地方高校工科专业课程教学模式改革_省略_临沂大学_大气污染控制工程_为例_马宏卿', '基于大数据的商业智能在电商数据分析中的应用_钱丹丹', '基于数据挖掘技术的档案馆信息快速分析算法研究_甘璐', '基于数据挖掘的电影票房分析_席稼玮', '基于机器视觉和机器学习技术的鸡胴体质量自动分级方法研究_戚超', '工程教育专业认证下自动化专业实践教学体系的构建_黄宜庆_陆华才', '工程造价指数与工程造价动态管理刍议_孙静', '广西综合医院新生儿病房分级建设和能力建设现状调查_胡琴燕_韦琴_黄晓波_杨少丽_', '应用型高校金融学课程教学改革研究_邓旭霞', '建筑工程施工管理及创新技术的应用研究_侯帅', '建筑工程施工管理的进度管理与控制_吕萌', '建筑结构设计中的抗震结构设计理念_马玉洁', '建筑门窗用硅烷改性聚醚胶的性能与应用研究_杨苏邯_陈洋庆_陈建军_龙飞_蒋金博_', '我国医疗检查结果互认制度实施现状_肖晓华_梁恒斌_谢欣睿_苏茹茹_孙刚', '数据挖掘技术在语音识别中的应用_许元洪_郭琼', '数

In [2]:
# -*- coding: utf-8 -*-
"""
Created on Sat May  4 17:15:04 2019

@author: Administrator
"""
from MyDataFrame import MyDataFrame
from GetCatagory import GetCatagory
from GetKeywords import ToTFIDF
from SearchFiles import BM25
import operator
import jieba
        
class GetData(object):
    data =[]
    def setInitData(self):
        #标题
        mdf = MyDataFrame()
        df = mdf.new_DataFrame()
        #类别
        gc = GetCatagory()
        catagory_list = gc.getAllTextCatagory()
        #关键词
        tfidf = ToTFIDF()
             
        for i in range(len(df)):
            filename = df.filename[i]
            catagory = catagory_list[i]
            keywords = tfidf.get_keywords(filename)   #list
            keywords_str = ','.join(keywords[:5])
            onedata = [filename,catagory,keywords_str]
            self.data.append(onedata)
            
    def getInitData(self):
        self.setInitData()
        return self.data
    
    def getCatagoryData(self,catagory):
        catagory_data =[]
        #print(catagory)
        if catagory == 'A_All':
            catagory_data = self.data
        else:
            #print('-------------------')
            for i in range(len(self.data)):
                #print(self.data[i])
                if self.data[i][1] == catagory:
                    catagory_data.append(self.data[i])
                           
        return catagory_data
        
     
    def getSearchFiles(self,str_search):
        mdf = MyDataFrame()
        df = mdf.new_DataFrame()
        df2 = mdf.m_cut(df)
        filelist=[]
        for i in range(len(df2)):
            filelist.append(df2['fenci'][i])
        
        
        s = BM25(filelist)
        #print(s.f)
        #print(s.idf)
        #print(s.simall(['医疗机构', '数据挖掘', '领域', '一带一路', '领域']))
        #print(type(s.simall(['医疗机构', '数据挖掘', '领域', '一带一路', '领域'])))
        
        #对str_search 进行分词去停用词处理
        str_search_list = jieba.lcut_for_search(str_search)
        
        scores = s.simall(str_search_list)
        #scores.sort()
        #print(scores)
        simfile_list = []
        for i in range(len(scores)):
            simfile_list.append((i,scores[i]))
            
        simfile_list.sort(key=operator.itemgetter(1),reverse=True)
        #print(simfile_list)
        
        simfiles =[]
        gc = GetCatagory()
        catagory_list = gc.getAllTextCatagory()
        tfidf = ToTFIDF()
        
        for i in range(len(simfile_list)):
            a,b = simfile_list[i]
            if b > 0:
                #print(df.filename[a] +":"+str(b))       
                filename = df.filename[a]
                catagory = catagory_list[a]
                keywords = tfidf.get_keywords(filename)   #list
                keywords_str = ','.join(keywords[:5])
                simfiles.append([filename,catagory,keywords_str])
           
        return simfiles      
                
    
if __name__ == '__main__':
    
    gd = GetData()
    data = gd.getInitData()
    #print(data)
    
    catagory_data = gd.getCatagoryData('Computer')
    #print(catagory_data)
    str_search = "数据挖掘与计算机技术"
    simfiles = gd.getSearchFiles(str_search)
    print(simfiles)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
[-1.505838115009245, 0, -1.4660867650816511, -0.3369529696903013, 1.3119425371801974, -0.22601855322944178, 0, -1.7033107957403357, -0.6985855666948058, -0.9015508929774181, 0, -1.7182585023435717, 0.49094762225912963, -1.1757365859809823, 0, -2.1671752565925098, -0.0039618644282790605, 3.8823105648163745, 3.916777743587672, 1.5415259841786113, 0.8931336505414746, -1.4784781068102386, 0.969745738492992, -1.9964543553286003, 0.8669451233115186, -2.424178139276573, -1.600029274309525, 3.932228906336272, -1.4945796145692782, 2.218956643306386, 1.8214074459421494, 4.490857260874413, 0, 0.2576320203286757, 0, 11.410737768074416, -0.18326955745390738, -0.9771814641971845, 8.309548356736132, -1.645348437585522, 0.162285284084546, 0.5269008031710858, -1.9393260399807017, -1.5000211733214317, -2.426339856085014, -0.3225656662966298, 5.242350072548432, 4.928