In [1]:
import numpy as np
class TF_IDF_Model(object):
    def __init__(self, documents_list):
        self.documents_list = documents_list
        # 文本总个数
        self.documents_number = len(documents_list)
        # 存储每个文本中没个词的词频
        self.tf = []
        # 存储每个词汇的逆文档频率
        self.idf = {}
        # 类初始化
        self.init()

    def init(self):
        df = {}
        for document in self.documents_list:
            temp = {}
            for word in document:
                # 存储每个文档中每个词的词频
                temp[word] = temp.get(word, 0) + 1/len(document)
            self.tf.append(temp)
            for key in temp.keys():
                df[key] = df.get(key, 0) + 1
        for key, value in df.items():
            # 每个词的逆文档频率
            self.idf[key] = np.log(self.documents_number / (value + 1))

    def get_score(self, index, query):
        score = 0.0
        for q in query:
            if q not in self.tf[index]:
                continue
            score += self.tf[index][q] * self.idf[q]
        return score

    def get_documents_score(self, query):
        score_list = []
        for i in range(self.documents_number):
            score_list.append(self.get_score(i, query))
        return score_list


In [4]:
document_list = ["行政机关强行解除行政协议造成损失，如何索取赔偿？",
                 "借钱给朋友到期不还得什么时候可以起诉？怎么起诉？",
                 "我在微信上被骗了，请问被骗多少钱才可以立案？",
                 "公民对于选举委员会对选民的资格申诉的处理决定不服，能不能去法院起诉吗？",
                 "有人走私两万元，怎么处置他？",
                 "法律上餐具、饮具集中消毒服务单位的责任是不是对消毒餐具、饮具进行检验？"]

In [5]:
import jieba
document_list = [list(jieba.cut(doc)) for doc in document_list]

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/yp/zh4vdspn5jz19c97qx_shs8m0000gp/T/jieba.cache
Loading model cost 0.758 seconds.
Prefix dict has been built successfully.


In [6]:
tf_idf_model = TF_IDF_Model(document_list)

In [7]:
print(tf_idf_model.documents_list)
print(tf_idf_model.documents_number)
print(tf_idf_model.tf)
print(tf_idf_model.idf)

[['行政', '机关', '强行', '解除', '行政', '协议', '造成', '损失', '，', '如何', '索取', '赔偿', '？'], ['借钱', '给', '朋友', '到期', '不', '还', '得', '什么', '时候', '可以', '起诉', '？', '怎么', '起诉', '？'], ['我', '在', '微信', '上', '被', '骗', '了', '，', '请问', '被', '骗', '多少', '钱', '才', '可以', '立案', '？'], ['公民', '对于', '选举', '委员会', '对', '选民', '的', '资格', '申诉', '的', '处理', '决定', '不服', '，', '能', '不能', '去', '法院', '起诉', '吗', '？'], ['有人', '走私', '两万元', '，', '怎么', '处置', '他', '？'], ['法律', '上', '餐具', '、', '饮具', '集中', '消毒', '服务', '单位', '的', '责任', '是不是', '对', '消毒', '餐具', '、', '饮具', '进行', '检验', '？']]
6
[{'行政': 0.15384615384615385, '机关': 0.07692307692307693, '强行': 0.07692307692307693, '解除': 0.07692307692307693, '协议': 0.07692307692307693, '造成': 0.07692307692307693, '损失': 0.07692307692307693, '，': 0.07692307692307693, '如何': 0.07692307692307693, '索取': 0.07692307692307693, '赔偿': 0.07692307692307693, '？': 0.07692307692307693}, {'借钱': 0.06666666666666667, '给': 0.06666666666666667, '朋友': 0.06666666666666667, '到期': 0.06666666666666667, '不': 0.066666666666666

In [9]:
query = "走私了两万元，在法律上应该怎么量刑？"
query = list(jieba.cut(query))
scores = tf_idf_model.get_documents_score(query)

In [10]:
scores

[0.0021669905358997106,
 0.0256563880603619,
 0.17167897852134476,
 0.0013414703317474394,
 0.3648178293578576,
 0.08188043947003984]