In [1]:
import time
import pandas as pd
from gensim import corpora, models, similarities

import word_segmentation as ws

def load_1h_news():
    """
    加载过去一小时内的所有新闻
    """
    global all_doc_list #1小时时间窗口的历史新闻数据分词结果列表[timestamp+title+content,]
    
    #每次加载新一小时的数据，清空之前的all_doc_list列表
    all_doc_list = []
    
    # 数据库通过时间范围查询获取一小时的新闻纪录放入all_doc[timestamp+title+content,]
    # 测试代码，使用../data/news0312.csv作为一小时时间窗口的历史新闻数据
    file_data = pd.read_csv('/data/jupyter/stock/data/news0312.csv')
    #stop_words = ws.stopwordslist('/data/jupyter/stock/utils/stopwords.txt')
    for index, row in file_data.iterrows():
        row_words = ws.word_segmentation(str(row.title) + ',' + str(row.content))
        all_doc_list.append(row_words)
    print("load 1h news success")

def tf_idf_model():
    """
    根据过去一小时内的所有新闻数据建立tf-idf模型
    """
    global dictionary # 词袋
    global corpus # 语料库
    global tfidf # tf-idf模型
    
    # 使用dictionary方法获取词袋（bag-of-words）
    dictionary = corpora.Dictionary(all_doc_list)
    print("dictionary success")
    
    # 使用doc2bow制作语料库（一组向量），向量中的每个元素是一个二元组（编号、频次数），对应分词后文档的每个词
    corpus = [dictionary.doc2bow(doc) for doc in all_doc_list]
    print("corpus success")
    
    # 使用TF-IDF模型对语料库建模
    tfidf = models.TfidfModel(corpus)
    print("tfidf success")

def news_similarity(news_seg):
    """
    读取一条新闻的标题和正文，计算该新闻与历史新闻数据的相似度并标记
    input: 新闻的标题和正文分词结果（list）
    return：是否重复的标记（int）
    """
    # 使用doc2bow将新推送的新闻转换为二元组的向量
    news_vec = dictionary.doc2bow(news_seg)
    
    # 对corpus语料库中的每个目标文档计算文档的相似度
    index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
    sim = index[tfidf[news_vec]]
    print("similarity success")
    
    # 如果有相似度在90%以上的文档存在，即将新推送的新闻标记为1，否则0
    repeat =1 if sim.max(axis=0) >= 0.95 else 0
    
    return repeat

def add_news(news_seg):
    """
    将新推送的新闻添加至历史数据列表及语料库中
    """
    # 新增推送新闻至all_doc_list（一小时时间窗口历史数据分词结果列表）
    all_doc_list.append(news_seg)
    # 新增推送新闻所建立的向量至corpus语料库
    corpus.append(dictionary.doc2bow(news_seg))

if __name__ == "__main__":
    
    # 首先加载数据库中的一小时新闻历史数据
    time_start = time.time()
    load_1h_news()
    time_elapsed = time.time() - time_start
    print('totally cost {:.0f}s'.format(time_elapsed))
    
    
    # 建立TF-IDF模型
    tf_idf_model()
    
    time_start = time.time()
    # 新推送的新闻
    str_title_content = "孙公司海航地产拟与海南融创昌晟签订《股权转让协议》，出售海航地产所持有的海岛物流100%的股权，转让价款约7.97亿元；同时，海航地产拟出售所持有的海南高和房地产开发有限公司100%的股权至海南融创昌晟，转让价款约11.36亿元。责任编辑：张恒"

    # 新闻分词
    news_seg = ws.word_segmentation(str_title_content)
    
    print("分词结果：")
    print(news_seg)
    
    # 计算文档相似度
    repeat = news_similarity(news_seg)
    
    time_elapsed = time.time() - time_start
    print('totally cost {:.0f}s'.format(time_elapsed))
    # 将新推送的新闻添加至历史数据列表及语料库中
    add_news(news_seg)
    print(repeat)
    

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.879 seconds.
Prefix dict has been built succesfully.


load 1h news success
totally cost 327s
dictionary success
corpus success
tfidf success
分词结果：
['孙', '公司', '海航', '地产', '拟', '海南', '融创昌晟', '签订', '股权', '转让', '协议', '出售', '海航', '地产', '持有', '海岛', '物流', '股权', '转让', '价款', '约', '7.97', '亿元', '海航', '地产', '拟', '出售', '持有', '海南', '高', '房地', '地产', '房地产', '开发', '有限', '公司', '有限公司', '股权', '海南', '融创昌晟', '转让', '价款', '约', '11.36', '亿元', '责任', '编辑', '责任编辑', '张恒']
similarity success
totally cost 3s
0


In [4]:
time_start = time.time()
# 新推送的新闻
str_title_content = "海航基础：海航地产拟作价19.33亿向融创出售两公司，新浪财经讯 3月12日消息，海航基础（600515）3月12日晚间公告，孙公司海航地产拟与海南融创昌晟签订《股权转让协议》，出售海航地产所持有的海岛物流100%的股权，转让价款约7.97亿元；同时，海航地产拟出售所持有的海南高和房地产开发有限公司100%的股权至海南融创昌晟，转让价款约11.36亿元。责任编辑：张恒"

# 新闻分词
news_seg = ws.word_segmentation(str_title_content)

print("分词结果：")
print(news_seg)

# 计算文档相似度
repeat = news_similarity(news_seg)

time_elapsed = time.time() - time_start
print('totally cost {:.0f}s'.format(time_elapsed))
# 将新推送的新闻添加至历史数据列表及语料库中
add_news(news_seg)
print(repeat)

分词结果：
['海航', '基础', '海航基础', '海航', '地产', '拟', '作价', '19.33', '亿向', '融创', '出售', '两', '公司', '新浪', '财经', '讯', '月', '12', '日', '消息', '海航', '基础', '海航基础', '600515', '月', '12', '日', '晚间', '公告', '孙', '公司', '海航', '地产', '拟', '海南', '融创昌晟', '签订', '股权', '转让', '协议', '出售', '海航', '地产', '持有', '海岛', '物流', '股权', '转让', '价款', '约', '7.97', '亿元', '海航', '地产', '拟', '出售', '持有', '海南', '高', '房地', '地产', '房地产', '开发', '有限', '公司', '有限公司', '股权', '海南', '融创昌晟', '转让', '价款', '约', '11.36', '亿元', '责任', '编辑', '责任编辑', '张恒']
similarity success
totally cost 3s
1
