In [2]:
import math
import jieba

In [10]:
text = ["自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。",
"它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。",
"自然语言处理是一门融语言学、计算机科学、数学于一体的科学。",
"因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。",
"自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。因而它是计算机科学的一部分。"]


In [18]:
class BM25:
    def __init__(self,docs):
        self.D = len(docs)
        self.avgdl = sum([len(doc) for doc in docs])/ self.D
        self.docs = docs
        self.f = [] # 文档中词频
        self.df = {} # 词 文档数
        self.idf = {} #idf数值
        self.k1 = 1.5
        self.b = 0.75
        self.init()
    
    def init(self):
        for doc in self.docs:
            tmp = {}
            for word in doc:
                tmp[word] = tmp.get(word,0)+1  # 词 ： 词频
            self.f.append(tmp)         
            for k in tmp.keys():
                self.df[k] = self.df.get(k,0) + 1 #词：文档数量
        for k,v in self.df.items():
            self.idf[k] = math.log(self.D-v+0.5)-math.log(v + 0.5)
    
    def sim(self,doc,index):
        score = 0
        for word in doc:
            if word not in self.f[index]:
                continue
            d = len(self.docs[index])
            score += (self.idf[word]*self.f[index][word]*(self.k1+1)/
                    (self.f[index][word]+self.k1*(1-self.b+self.b*d/self.avgdl)))
        return score
    
    def similar(self,doc):
        scores = []
        for index in range(self.D):
            score = self.sim(doc,index)
            scores.append(score)
        return scores

In [12]:
doc = []
for sent in text:
    words = list(jieba.cut(sent))
    doc.append(words)
print(doc)

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/2d/1j69nc6j3gs_81hmlmr5p6d40000gn/T/jieba.cache
Loading model cost 1.209 seconds.
Prefix dict has been built successfully.


[['自然语言', '处理', '是', '计算机科学', '领域', '与', '人工智能', '领域', '中', '的', '一个', '重要', '方向', '。'], ['它', '研究', '能', '实现', '人', '与', '计算机', '之间', '用', '自然语言', '进行', '有效', '通信', '的', '各种', '理论', '和', '方法', '。'], ['自然语言', '处理', '是', '一门', '融', '语言学', '、', '计算机科学', '、', '数学', '于', '一体', '的', '科学', '。'], ['因此', '，', '这一', '领域', '的', '研究', '将', '涉及', '自然语言', '，', '即', '人们', '日常', '使用', '的', '语言', '，', '所以', '它', '与', '语言学', '的', '研究', '有着', '密切', '的', '联系', '，', '但', '又', '有', '重要', '的', '区别', '。'], ['自然语言', '处理', '并', '不是', '一般', '地', '研究', '自然语言', '，', '而', '在于', '研制', '能', '有效', '地', '实现', '自然语言', '通信', '的', '计算机系统', '，', '特别', '是', '其中', '的', '软件系统', '。', '因而', '它', '是', '计算机科学', '的', '一部分', '。']]


In [19]:
s = BM25(doc)

In [20]:
s.f

[{'自然语言': 1,
  '处理': 1,
  '是': 1,
  '计算机科学': 1,
  '领域': 2,
  '与': 1,
  '人工智能': 1,
  '中': 1,
  '的': 1,
  '一个': 1,
  '重要': 1,
  '方向': 1,
  '。': 1},
 {'它': 1,
  '研究': 1,
  '能': 1,
  '实现': 1,
  '人': 1,
  '与': 1,
  '计算机': 1,
  '之间': 1,
  '用': 1,
  '自然语言': 1,
  '进行': 1,
  '有效': 1,
  '通信': 1,
  '的': 1,
  '各种': 1,
  '理论': 1,
  '和': 1,
  '方法': 1,
  '。': 1},
 {'自然语言': 1,
  '处理': 1,
  '是': 1,
  '一门': 1,
  '融': 1,
  '语言学': 1,
  '、': 2,
  '计算机科学': 1,
  '数学': 1,
  '于': 1,
  '一体': 1,
  '的': 1,
  '科学': 1,
  '。': 1},
 {'因此': 1,
  '，': 4,
  '这一': 1,
  '领域': 1,
  '的': 5,
  '研究': 2,
  '将': 1,
  '涉及': 1,
  '自然语言': 1,
  '即': 1,
  '人们': 1,
  '日常': 1,
  '使用': 1,
  '语言': 1,
  '所以': 1,
  '它': 1,
  '与': 1,
  '语言学': 1,
  '有着': 1,
  '密切': 1,
  '联系': 1,
  '但': 1,
  '又': 1,
  '有': 1,
  '重要': 1,
  '区别': 1,
  '。': 1},
 {'自然语言': 3,
  '处理': 1,
  '并': 1,
  '不是': 1,
  '一般': 1,
  '地': 2,
  '研究': 1,
  '，': 2,
  '而': 1,
  '在于': 1,
  '研制': 1,
  '能': 1,
  '有效': 1,
  '实现': 1,
  '通信': 1,
  '的': 3,
  '计算机系统': 1,
  '特别': 1,
  '是':

In [21]:
s.idf

{'自然语言': -2.3978952727983707,
 '处理': -0.33647223662121295,
 '是': -0.33647223662121295,
 '计算机科学': -0.33647223662121295,
 '领域': 0.33647223662121295,
 '与': -0.33647223662121295,
 '人工智能': 1.0986122886681098,
 '中': 1.0986122886681098,
 '的': -2.3978952727983707,
 '一个': 1.0986122886681098,
 '重要': 0.33647223662121295,
 '方向': 1.0986122886681098,
 '。': -2.3978952727983707,
 '它': -0.33647223662121295,
 '研究': -0.33647223662121295,
 '能': 0.33647223662121295,
 '实现': 0.33647223662121295,
 '人': 1.0986122886681098,
 '计算机': 1.0986122886681098,
 '之间': 1.0986122886681098,
 '用': 1.0986122886681098,
 '进行': 1.0986122886681098,
 '有效': 0.33647223662121295,
 '通信': 0.33647223662121295,
 '各种': 1.0986122886681098,
 '理论': 1.0986122886681098,
 '和': 1.0986122886681098,
 '方法': 1.0986122886681098,
 '一门': 1.0986122886681098,
 '融': 1.0986122886681098,
 '语言学': 0.33647223662121295,
 '、': 1.0986122886681098,
 '数学': 1.0986122886681098,
 '于': 1.0986122886681098,
 '一体': 1.0986122886681098,
 '科学': 1.0986122886681098,
 '因此': 1.0

In [22]:
s.similar(list(jieba.cut('自然语言处理属于计算机科学领域里的人工智能领域')))

[-4.230538433440966,
 -5.239098915357785,
 -6.522344517881575,
 -5.65729061214549,
 -7.73887376909364]