In [17]:
import os
import jieba
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer

In [18]:
# 停用词列表
stopwords = []

# 加载停用词列表
with open('../stopwords/cn_stopwords.txt', encoding='utf-8') as f:
    for line in f:
        stopwords.append(line.strip())

with open('../stopwords/hit_stopwords.txt', encoding='utf-8') as f:
    for line in f:
        stopwords.append(line.strip())

with open('../stopwords/baidu_stopwords.txt', encoding='utf-8') as f:
    for line in f:
        stopwords.append(line.strip())

with open('../stopwords/scu_stopwords.txt', encoding='utf-8') as f:
    for line in f:
        stopwords.append(line.strip())

In [31]:
# 读取train数据集
data = []
labels = []
raw_data = []
for root, dirs, files in os.walk('./Chinese_Information_Retrieval_Task_Dataset/train'):
    print('dealing with {}'.format(root.split('/')[-1]))
    for file in files:
        with open(os.path.join(root, file), 'r', encoding='GB2312',errors='ignore') as f:
            content = f.read()
            raw_data.append(content)
            # 中文分词
            words = jieba.lcut(content)
            # 过滤停用词和数字
            words = [word for word in words if word not in stopwords and not word.isdigit()]

            data.append(' '.join(words))
            labels.append(root.split('/')[-1])

dealing with train
dealing with 20
dealing with 18
dealing with 9
dealing with 11
dealing with 7
dealing with 16
dealing with 6
dealing with 17
dealing with 1
dealing with 10
dealing with 19
dealing with 26
dealing with 8
dealing with 21
dealing with 24
dealing with 23
dealing with 4
dealing with 15
dealing with 3
dealing with 12
dealing with 2
dealing with 13
dealing with 5
dealing with 14
dealing with 22
dealing with 25


In [32]:
test_data = data

In [33]:
# 检测是否data已包含全部的训练数据
len(data)

4411

In [34]:
# 使用TF-IDF算法将文本转换成向量
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(data)

In [35]:
tfidf_matrix

<4411x58141 sparse matrix of type '<class 'numpy.float64'>'
	with 663459 stored elements in Compressed Sparse Row format>

In [36]:
test_content = []
with open('./Chinese_Information_Retrieval_Task_Dataset/test.txt', 'r', encoding='GB2312', errors='ignore') as f:
    lines = f.readlines()
    for line in lines:
        test_content.append(line)
print(test_content)

['1: 中国女曲能否击败韩国圆梦\n', '2: 女垒锦标赛的会徽和吉祥物“丫丫”在南京首次亮相\n', '3: 男子十米中国队双保险失灵 加澳抢得冠亚军\n', '4: 中国体操在悉尼的辉煌与遗憾\n', '5: 棒球联赛第二阶段首回合 沪上闷热击溃猛虎\n', '6: 老帅盛赞国奥小将：具备亚洲顶级水平\n', '7: 全国山地车冠军赛第二站：马艳萍获女子越野赛桂冠\n', '8: 摩托罗拉世界名校赛艇对抗赛\n', '9: 网球女单开赛：塞莱斯首战轻取对手\n', '10: NBA：湖人主帅杰克逊支持科比']


In [37]:
# 去除输入句子的序列号
# import re

# for i in range(len(test_content)):
#     tmp = test_content[i]
#     s = re.sub(r"\d+", "", tmp)
#     print(s)

In [38]:
# 将查询文本转换为tf-idf向量
query_vector = []
for i in range(len(test_content)):
    tmp = vectorizer.transform([test_content[i]])
    query_vector.append(tmp)

In [39]:
# 计算查询文本与文本库中的每个文本的相似度得分
similarity_scores = cosine_similarity(query_vector[0], tfidf_matrix)
similarity_scores

array([[0., 0., 0., ..., 0., 0., 0.]])

In [42]:
# 对相似度得分进行排序，并返回排名前K的文本
top_k = 3
indices = np.argsort(similarity_scores)[0][::-1][:top_k]
for i, idx in enumerate(indices):
    print(f"Top {i+1} match: {raw_data[idx]}")
    print("==========================================================")

Top 1 match: 

弗莱查夺得环法自行车赛第11赛段第一名  

　　体育在线 >> 其它 >> 其他专题 >> 百年环法自行车赛 >> 相关新闻  

 2003年7月18日08:59  

 弗莱查夺得环法自行车赛第11赛段第一名


　　新华网巴黎７月１７日电（记者王敬诚）参加环法自行车赛的车手们经过一天的休整后，１７日进行了第十一赛段的比赛。西班牙车手胡安・安东尼奥・弗莱查以３小时２９分３３秒夺得这一赛段的第一名，美国车手兰斯・阿姆斯特朗继续保持总成绩领先的地位。 

    这是弗莱查第一次赢得赛段比赛的冠军。本赛季，弗莱查运气很差，在数个比赛中老是名列第二。为此，他对这次夺得第十一赛段第一名感到十分高兴，认为在第１００届环法自行车赛上能夺得赛段比赛的第一名，必将“名垂史册”。 

    从第八赛段开始累计总成绩上升为第一名的阿姆斯特朗，当天以比弗莱查慢４２秒的成绩，第二十九个冲过终线。但他累计４９小时１６分３７秒的总成绩仍然占据着第一位，１８日将继续身穿“黄色领骑衫”。 

    哈萨克斯坦车手亚历山大・维诺库罗夫当日紧跟阿姆斯特朗身后，第三十个冲过终线，总成绩依然比阿姆斯特朗慢２１秒，继续位居总成绩第二。 

    第十一赛段比赛在法国南部地形比较平坦的公路上进行。起点为地中海港口城市纳博讷，其海拔只有２４米，终点是法国著名的航空航天工业城市图卢兹，海拔为１８０米，赛段全长１５３．５公里，是进入比利牛斯山区艰难赛段的前奏。 

    当日１３：３４发车时，参赛车手从开赛时的１９８名减少至１７１名。　 

    本届环法自行车赛１８日将进行第十二赛段的比赛，赛程只有４７公里，为个人计时赛。（完） 

新华网 2003年7月18日    

给编辑写信  
到留言板说说  关闭窗口       

相关新闻 

相关专题

环法大赛骄阳似火阿姆斯特朗渴望假日

环法自行车赛阿姆斯特朗继续保持总成绩第一

环法第八赛段 西班牙车手伊・马约获得第一

环法自行车第四赛段美国邮电队夺得第一 

百年环法自行车赛

其他专题

关于人民网 关于体育在线 本站导航 广告服务 联系我们 京ICP证000006号 

人 民 日 报 社 版 权 所 有 ， 未 经 书 面 授 权 禁 止 复 制 或 建 立 镜 像      
Top 2 match