# bm25 简单示例

In [None]:
https://github.com/ev2900/BM25_Search_Example

## 准备

In [18]:
%%time
%%capture
!pip install rank_bm25
!pip install jieba

CPU times: user 33.4 ms, sys: 8.48 ms, total: 41.8 ms
Wall time: 11.1 s


In [21]:
from rank_bm25 import BM25Okapi
import jieba

## 创建文档

In [3]:
corpus = [
  "Hello there good man!",
  "It is quite windy in London",
  "How is the weather today?"
]

## 标记文档

In [4]:
%%time

tokenized_corpus = []
for doc in corpus:
  doc_tokens = doc.split()
  tokenized_corpus.append(doc_tokens)

CPU times: user 3 µs, sys: 1 µs, total: 4 µs
Wall time: 6.91 µs


In [5]:
tokenized_corpus

[['Hello', 'there', 'good', 'man!'],
 ['It', 'is', 'quite', 'windy', 'in', 'London'],
 ['How', 'is', 'the', 'weather', 'today?']]

## 创建bm25索引

In [6]:
%%time

bm25 = BM25Okapi(tokenized_corpus)

CPU times: user 28 µs, sys: 9 µs, total: 37 µs
Wall time: 38.9 µs


## 查询索引

In [7]:
%%time

query = "windy London"
tokenized_query = query.split(" ")

doc_scores = bm25.get_scores(tokenized_query)
doc_scores

CPU times: user 174 µs, sys: 54 µs, total: 228 µs
Wall time: 193 µs


array([0.        , 0.93729472, 0.        ])

In [8]:
%%time

doc = bm25.get_top_n(tokenized_query, corpus, n=1)
doc

CPU times: user 92 µs, sys: 29 µs, total: 121 µs
Wall time: 125 µs


['It is quite windy in London']

## 中文示例 - 需要特定的分词方法

In [9]:
%%time

import pandas as pd

data = [['六分仪（Sextant）是一种用于测量天体角度的仪器，常用于航海和天文导航。', '工具'],
['烤白薯是一道美味健康的小吃，下面是简单的制作步骤', '菜谱'],
['老鼠是一种常见的小型哺乳动物，属于鼠科。', '动物'],
['比瑞吉 优选系列 添加深海鱼油 成猫猫粮2kg', '电商'],
['奶酪是一种以牛、羊、山羊或其他动物的乳汁为原料，经过发酵和加工制作而成的食品。', '食品'],
['凯锐思 幼猫猫粮奶糕全价幼猫粮天然粮 【尝鲜装】幼猫粮500g','电商'],
['黑洞是宇宙中一种极为神秘的天体，它是一种极度密集的天体，其引力非常强大，甚至连光都无法逃离其吸引。','天体物理'],
['"阿拉斯加的鳄鱼" 这个短语通常是一种幽默或谐音，用来形容一个不存在的事物或情况。','修辞'],
['潭中鱼可百许头，皆若空游无所依。','古代文学']]
df = pd.DataFrame(data, columns = ['文本', '分类'])

df

CPU times: user 221 ms, sys: 18.5 ms, total: 239 ms
Wall time: 239 ms


Unnamed: 0,文本,分类
0,六分仪（Sextant）是一种用于测量天体角度的仪器，常用于航海和天文导航。,工具
1,烤白薯是一道美味健康的小吃，下面是简单的制作步骤,菜谱
2,老鼠是一种常见的小型哺乳动物，属于鼠科。,动物
3,比瑞吉 优选系列 添加深海鱼油 成猫猫粮2kg,电商
4,奶酪是一种以牛、羊、山羊或其他动物的乳汁为原料，经过发酵和加工制作而成的食品。,食品
5,凯锐思 幼猫猫粮奶糕全价幼猫粮天然粮 【尝鲜装】幼猫粮500g,电商
6,黑洞是宇宙中一种极为神秘的天体，它是一种极度密集的天体，其引力非常强大，甚至连光都无法逃离其吸引。,天体物理
7,"""阿拉斯加的鳄鱼"" 这个短语通常是一种幽默或谐音，用来形容一个不存在的事物或情况。",修辞
8,潭中鱼可百许头，皆若空游无所依。,古代文学


In [26]:
%%time

corpus_origin = [item[0] for item in data]
corpus = [jieba.lcut(data) for data in corpus_origin]
# corpus
tokenized_corpus = []
for doc in corpus:
    tokenized_corpus.append(doc)
  # doc_tokens = doc.split()
  # tokenized_corpus.append(doc_tokens)

tokenized_corpus

CPU times: user 885 µs, sys: 172 µs, total: 1.06 ms
Wall time: 1.06 ms


[['六分仪',
  '（',
  'Sextant',
  '）',
  '是',
  '一种',
  '用于',
  '测量',
  '天体',
  '角度',
  '的',
  '仪器',
  '，',
  '常用',
  '于',
  '航海',
  '和',
  '天文',
  '导航',
  '。'],
 ['烤',
  '白薯',
  '是',
  '一道',
  '美味',
  '健康',
  '的',
  '小吃',
  '，',
  '下面',
  '是',
  '简单',
  '的',
  '制作',
  '步骤'],
 ['老鼠', '是', '一种', '常见', '的', '小型', '哺乳动物', '，', '属于', '鼠科', '。'],
 ['比瑞吉', ' ', '优选', '系列', ' ', '添加', '深海鱼', '油', ' ', '成', '猫猫', '粮', '2kg'],
 ['奶酪',
  '是',
  '一种',
  '以牛',
  '、',
  '羊',
  '、',
  '山羊',
  '或',
  '其他',
  '动物',
  '的',
  '乳汁',
  '为',
  '原料',
  '，',
  '经过',
  '发酵',
  '和',
  '加工',
  '制作',
  '而成',
  '的',
  '食品',
  '。'],
 ['凯锐思',
  ' ',
  '幼',
  '猫猫',
  '粮',
  '奶糕',
  '全价',
  '幼猫',
  '粮',
  '天然',
  '粮',
  ' ',
  '【',
  '尝鲜',
  '装',
  '】',
  '幼猫',
  '粮',
  '500g'],
 ['黑洞',
  '是',
  '宇宙',
  '中',
  '一种',
  '极为',
  '神秘',
  '的',
  '天体',
  '，',
  '它',
  '是',
  '一种',
  '极度',
  '密集',
  '的',
  '天体',
  '，',
  '其',
  '引力',
  '非常',
  '强大',
  '，',
  '甚至',
  '连光',
  '都',
  '无法',
  '逃离',
  '其',
  '吸引',
  '。'],
 ['"',
  

In [27]:
%%time

bm25 = BM25Okapi(tokenized_corpus)

query = "六分仪"
tokenized_query = query.split(" ")

doc_scores = bm25.get_scores(tokenized_query)
doc_scores

CPU times: user 308 µs, sys: 0 ns, total: 308 µs
Wall time: 324 µs


array([1.6944689, 0.       , 0.       , 0.       , 0.       , 0.       ,
       0.       , 0.       , 0.       ])

In [28]:
doc = bm25.get_top_n(tokenized_query, corpus_origin, n=1)
doc

['六分仪（Sextant）是一种用于测量天体角度的仪器，常用于航海和天文导航。']