In [1]:
#encoding=utf-8
# 基本部件的引用声明
import sys
import re
import codecs
import os
import shutil
import jieba
import jieba.analyse
import graphlab
import numpy as np
from array import array
from collections import Counter

### 注意我们这里需要安装好的依赖有Graphlab，numpy，jieba
* Numpy和Jieba直接pip即可
* Graphlab是商业软件，需要授权
    * PIP安装时用此命令：(括号内可选)
         * (sudo) pip install (--user) --upgrade --no-cache-dir https://get.graphlab.com/GraphLab-Create/2.0.1/ouyf5@mail2.sysu.edu.cn/F822-FCB4-973D-5C49-44E0-430C-BC81-4EA3/GraphLab-Create-License.tar.gz

### 首先是从文件中的读取以及分词


此处用的是 *Jieba* 中文分词器，在这里我们将中文文本分词之后以空格分隔各词然后输出到目标文件夹

函数定义中需传入 **CSV文件的绝对地址** 

格式要求：
   * CSV中字串以UTF-8格式编码，CSV文件格式为id,content(需要有Header Row)
   * 传入目标文件为绝对地址
   * 获得的数据为SFrame格式，column与CSV格式一致
   * SFrame参考文档：https://turi.com/products/create/docs/generated/graphlab.SFrame.html?highlight=sframe

#### 首先是添加停词表（Stop Words List）
* 加入停词表能够把常用的词语（通常是介词、连接词等）去掉，提高分类的准确性
* get_stop_words 这个方法从文件中读取停词列表，然后返回一个 **停词集合**

In [2]:
def read_from_file(path):
    with open(path,"r") as fp:
        words = fp.read()
    return words

In [3]:
def get_stop_words(filepath):
    words = read_from_file(filepath)
    result = jieba.cut(words)
    new_words = []
    for r in result:
        new_words.append(r)
    return set(new_words)

In [4]:
def remove_stop_words(words,stop_words_set):
    new_words = []
    for w in words:
        if w not in stop_words_set:
            new_words.append(w)
    return new_words

#### Checkpoint: 检查上述方法的正确性

In [5]:
#stop_set = get_stop_words('./stop.txt')
#lister = list(stop_set)
#for i in range(10):
#    print lister[i]

weibo = read_and_cut('./data.csv')
#print weibo

train_fake_news = weibo[0:10]
train_fake_weibos = weibo[10:]

weibos_wvec = batch_word_vec_generator(train_fake_weibos['parsed'] , True)
news_wvec = batch_word_vec_generator(train_fake_news['parsed'] , True)


train_fake_news['word_vec'] = news_wvec['word_vec']
train_fake_news['tf_word_vec'] = news_wvec['tf_word_vec']
train_fake_news['assign_weibos'] = batch_NN_finder(train_fake_news['tf_word_vec'] , weibos_wvec['tf_word_vec'] , train_fake_weibos['Id'])
    

NameError: name 'read_and_cut' is not defined

### 下面是正式操作

In [6]:
def read_and_cut(csvpath):
    mydata = graphlab.SFrame(csvpath)
    stop_set = get_stop_words('./stop.txt')
    parsed = []
    linen = {0,1,2,3,4,5,6,7,8,9,19,39,59,99,399,599,999,2999,3999,5999,8888,9999}
    
    for i in range(len(mydata)):
        line = unicode(mydata['text'][i] , "utf-8")
        seglist = jieba.cut(line , cut_all = False)
        parsed_seg = remove_stop_words(seglist , stop_set)
        output = ' '.join(parsed_seg)
        parsed.append(output)
        if (i in linen or i == len(mydata) - 1):
            print "处理 #%d 文章完成" % i
    mydata['parsed'] = parsed
    print "全部完成！"
    return mydata

### 接下来这个函数是用来提取*词数向量*的

* 在分析过程中，可以频繁的调用该函数，需要提供 **原始文本的字串**
* 返回值为一个 *Dict<单词，出现次数>* ,
* 返回的Dict没有依据单词出现的次数排序
* 如果用向量实现并不现实，所以在此处我们使用Dict来实现词数向量的功能

In [7]:
def parse_word_vec(ref_str):
    words = [w.strip() for w in ref_str.split() if w.strip()]
    counter = Counter()
    for w in words:
        counter[w] += 1
    # kv = counter.items()   #这是键值对的列表
    wc_dict = dict(counter)    #这是词典
    #可以用列表做其他事，但只返回词典
    return wc_dict

### 接下来是计算两个词数向量间的距离

* euc_dist 计算两个词数向量之间的欧几里得距离 返回值为浮点数
* cos_dist 计算两个词数向量之间的余弦距离 返回值为浮点数
* jac_dist 计算两个词数向量之间的加权杰卡德距离 返回值为浮点数

注意到，此处只是使用计算距离对词数向量进行Brute-Force计算，很容易把一些常见的词错误的认为是判断两个文本文档相类似的函数的主要依据（如 **"的"** , **"和"** , **"是"**  , **"了"**  , etc）。如果需要计算更精确的数值，应该使用 **TF-IDF** 来进行计算,使用者在使用前应该调用 *calc_tf_idf* 方法。总体来说，即便使用TFIDF处理过，中文文本的聚类正确率还是不是非常的理想。所以可以尽情尝试各种距离（经过初步实验，Euclidean Distance准确度稍微高那么一点点。）

* 注意, *calc_tf_idf* 方法需要使用者传入所有文本（whole documents）的 **SArray词典集合（SArray of dict）** 返回值为SArray的词典集合类型（每行分别为原来单词的dict的SArray集合）。(SArray文档：https://turi.com/products/create/docs/generated/graphlab.SArray.html?highlight=sarray)
* 示例使用方法：
    ```python
        docs['TF_IDF'] = calc_tf_idf(docs['wc_dict'])
    ```
    这样处理之后还是可以通过
    ```python
    docs[docs['dName'] == 'docnamehere'][0]
    ```
    找到某行。

In [8]:
def euc_dist(dict_a , dict_b):
    return graphlab.distances.euclidean(dict_a , dict_b)

def cos_dist(dict_a , dict_b):
    return graphlab.distances.cosine(dict_a , dict_b)

def jac_dist(dict_a , dict_b):
    return graphlab.distances.weighted_jaccard(dict_a , dict_b)

def set_calculation(dict_a , dict_b):
    seta = set(dict_a.keys())
    setb = set(dict_b.keys())
    inter = seta.intersection(setb)
    result = 0
    for val in inter:
        result = result + dict_a[val] * dict_b[val]
    return result

# set similarity: Larger is better
def set_dist(dict_small , dict_large , lg_whole_orig , lg_whole_vec):
    result = 0
    for k in dict_small:
        if k in dict_large and dict_small[k] > 0:
            # threshold: 0.1
            if lg_whole_vec[k] <= 0.1 and dict_large[k] > 0:
                result = lg_whole_orig[k] * dict_small[k] + result
            elif dict_large[k] <= 0:
                result = result + 0
            else:
                result = lg_whole_vec[k] * dict_small[k] + result
        else:
            result  = result + 0
    return result

def calc_tf_idf(whole_document_dict):
    return graphlab.text_analytics.tf_idf(whole_document_dict)

In [9]:
def whole_wc_vec(whole_dict):
    wholes = {}
    for i in range(len(whole_dict)):
        test = whole_dict[i]
        for k in test:
            if k not in wholes:
                wholes[k] = test[k]
            else:
                wholes[k] = wholes[k] + test[k]
    return wholes

### 给某一个特定的新闻找到10个左右Nearnest Neighbour

由于我们在数据库中存放的是微博，所以我们简单的给定 *新闻文档* ，然后给其适配最适合的10个微博。
* 距离此处使用了欧式距离。
* 初始阈值设定为50.

In [10]:
# 不管传入的是否是TF-IDF，要求传的新闻词数向量为Dictionary，whole_document_vec为dict的SFrame
def find_NN(news_vec , whole_document_vec , doc_ids):
    process_vec = graphlab.SFrame()
    #process_vec['original'] = whole_document_vec
    result_value = []
    result_id = []

    for i in range(len(whole_document_vec)):
        cos_val = set_calculation(whole_document_vec[i] , news_vec)
        if cos_val <= 10000:
            result_id.append(doc_ids[i])
            result_value.append(cos_val)
    process_vec['similarity'] = result_value
    process_vec['id'] = result_id

    my = process_vec.sort('similarity' , ascending=False)

    if len(process_vec) < 10:
        return my
    else:
        return my[0:5]

### 批量生成工具

In [11]:
def batch_word_vec_generator(dict_set , TF_SELECTOR = False):
        gen_result = graphlab.SFrame()
        word_vec = []
        linen = {0,1,2,3,4,5,6,7,8,9,19,39,59,99,399,599,999,2999,3999,5999,8888,9999}
        for i in range(len(dict_set)):
                temp_vec = parse_word_vec(dict_set[i])
                word_vec.append(temp_vec)
                if i in linen or i == len(dict_set) - 1:
                    print "第 %d 条文章原始词向量计算完成" % i
        gen_result['word_vec'] = word_vec
        print "本数据集的原始词向量全部计算完成"
        if TF_SELECTOR:
                gen_result['tf_word_vec'] = calc_tf_idf(gen_result['word_vec'])
                print "本数据集的TF-IDF词向量全部计算完成"
        return gen_result

In [12]:
def batch_NN_finder(news , weibos , weibo_ids):
    linen = {0,1,2,3,4,5,6,7,8,9,19,39,59,99,199,399,599,799,999,1299,1499,1699,1999,2499,2999,3499,3999,4499,4999,5999,8888,9999}
    assignation = []
    for i in range(len(news)):
        temp_nns = find_NN(news[i] , weibos , weibo_ids)
        assignation.append(temp_nns)
        if i in linen or i == len(news) - 1:
            print "第 %d 条新闻的最近邻居计算完成" % (i + 1)
    return assignation

### 函数测试完成，下面是预处理总方法

由于我们需要的是新闻AND ITS 匹配微博
所以本方法只返回一个SFrame，列为 <*新闻ID* , *新闻原文* , *新闻原始词向量* ,*tf词向量* ,*匹配微博* >

注意：**匹配微博**为一个对象，其中含有匹配微博的< *id* , *相似度*>


接受的参数为：
* weibo_src: 微博CSV文件的绝对路径
* news_src: 新闻CSV文件的绝对路径
* TF_SELECTOR: TF-IDF选择子，表示是否需要进行TF词向量计算

In [13]:
#Main process
#Result contains a SFrame that contains news raw word_vec and matching weibo
def pre_process(weibo_src , news_src , TF_SELECTOR=False):
    #分别处理微博和新闻
    weibos = read_and_cut(weibo_src)
    news = read_and_cut(news_src)
    
    #计算词向量和TF词向量
    weibos_wvec = batch_word_vec_generator(weibos['parsed'] , TF_SELECTOR)
    news_wvec = batch_word_vec_generator(news['parsed'] , TF_SELECTOR)
    
    news['word_vec'] = news_wvec['word_vec']
    
    if TF_SELECTOR:
        news['tf_word_vec'] = news_wvec['tf_word_vec']
        news['assign_weibos'] = batch_NN_finder(news['tf_word_vec'] , weibos_wvec['tf_word_vec'] , weibos['id'])
    else:
        news['assign_weibos'] = batch_NN_finder(news['word_vec'] , weibos_wvec['word_vec'] , weibos['id'])

    return news,weibos

In [14]:
weibopath = './weibo.csv'
newspath = './news.csv'
TF_SELECTOR = True

weibos = read_and_cut(weibopath)
news = read_and_cut(newspath)

This non-commercial license of GraphLab Create is assigned to ouyf5@mail2.sysu.edu.cn and will expire on November 25, 2016. For commercial licensing options, visit https://turi.com/buy/.


2016-07-21 17:45:48,424 [INFO] graphlab.cython.cy_server, 176: GraphLab Create v1.8.5 started. Logging: /tmp/graphlab_server_1469094345.log


------------------------------------------------------
Inferred types from first line of file as 
column_type_hints=[int,str]
If parsing fails due to incorrect types, you can correct
the inferred type list above and pass it to read_csv in
the column_type_hints argument
------------------------------------------------------


Building prefix dict from the default dictionary ...


2016-07-21 17:45:48,610 [DEBUG] jieba, 111: Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
2016-07-21 17:45:48,886 [DEBUG] jieba, 131: Loading model from cache /tmp/jieba.cache


Loading model cost 0.523 seconds.
2016-07-21 17:45:49,409 [DEBUG] jieba, 163: Loading model cost 0.523 seconds.


Prefix dict has been built succesfully.
2016-07-21 17:45:49,414 [DEBUG] jieba, 164: Prefix dict has been built succesfully.


处理 #0 文章完成
处理 #1 文章完成
处理 #2 文章完成
处理 #3 文章完成
处理 #4 文章完成
处理 #5 文章完成
处理 #6 文章完成
处理 #7 文章完成
处理 #8 文章完成
处理 #9 文章完成
处理 #19 文章完成
处理 #39 文章完成
处理 #59 文章完成
处理 #99 文章完成
处理 #399 文章完成
处理 #599 文章完成
处理 #999 文章完成
处理 #2999 文章完成
处理 #3999 文章完成
处理 #4378 文章完成
全部完成！


------------------------------------------------------
Inferred types from first line of file as 
column_type_hints=[str,str]
If parsing fails due to incorrect types, you can correct
the inferred type list above and pass it to read_csv in
the column_type_hints argument
------------------------------------------------------


处理 #0 文章完成
处理 #1 文章完成
处理 #2 文章完成
处理 #3 文章完成
处理 #4 文章完成
处理 #5 文章完成
处理 #6 文章完成
处理 #7 文章完成
处理 #8 文章完成
处理 #9 文章完成
处理 #19 文章完成
处理 #39 文章完成
处理 #59 文章完成
处理 #99 文章完成
处理 #399 文章完成
处理 #599 文章完成
处理 #999 文章完成
处理 #1492 文章完成
全部完成！


In [15]:
print "开始计算微博词向量"
weibos_wvec = batch_word_vec_generator(weibos['parsed'] , TF_SELECTOR)
print "微博词向量全部计算完成"
print ""
print "开始计算新闻词向量"
news_wvec = batch_word_vec_generator(news['parsed'] , TF_SELECTOR)
print "新闻词向量全部计算完成"

开始计算微博词向量
第 0 条文章原始词向量计算完成
第 1 条文章原始词向量计算完成
第 2 条文章原始词向量计算完成
第 3 条文章原始词向量计算完成
第 4 条文章原始词向量计算完成
第 5 条文章原始词向量计算完成
第 6 条文章原始词向量计算完成
第 7 条文章原始词向量计算完成
第 8 条文章原始词向量计算完成
第 9 条文章原始词向量计算完成
第 19 条文章原始词向量计算完成
第 39 条文章原始词向量计算完成
第 59 条文章原始词向量计算完成
第 99 条文章原始词向量计算完成
第 399 条文章原始词向量计算完成
第 599 条文章原始词向量计算完成
第 999 条文章原始词向量计算完成
第 2999 条文章原始词向量计算完成
第 3999 条文章原始词向量计算完成
第 4378 条文章原始词向量计算完成
本数据集的原始词向量全部计算完成
本数据集的TF-IDF词向量全部计算完成
微博词向量全部计算完成

开始计算新闻词向量
第 0 条文章原始词向量计算完成
第 1 条文章原始词向量计算完成
第 2 条文章原始词向量计算完成
第 3 条文章原始词向量计算完成
第 4 条文章原始词向量计算完成
第 5 条文章原始词向量计算完成
第 6 条文章原始词向量计算完成
第 7 条文章原始词向量计算完成
第 8 条文章原始词向量计算完成
第 9 条文章原始词向量计算完成
第 19 条文章原始词向量计算完成
第 39 条文章原始词向量计算完成
第 59 条文章原始词向量计算完成
第 99 条文章原始词向量计算完成
第 399 条文章原始词向量计算完成
第 599 条文章原始词向量计算完成
第 999 条文章原始词向量计算完成
第 1492 条文章原始词向量计算完成
本数据集的原始词向量全部计算完成
本数据集的TF-IDF词向量全部计算完成
新闻词向量全部计算完成


In [16]:
news['word_vec'] = news_wvec['word_vec']
news['tf_word_vec'] = news_wvec['tf_word_vec']
print "开始计算最近邻居"


news['assign_weibos'] = batch_NN_finder(news['tf_word_vec'] , weibos_wvec['tf_word_vec'] , weibos['id'])
print "最近邻居全部计算完成"

开始计算最近邻居
第 1 条新闻的最近邻居计算完成
第 2 条新闻的最近邻居计算完成
第 3 条新闻的最近邻居计算完成
第 4 条新闻的最近邻居计算完成
第 5 条新闻的最近邻居计算完成
第 6 条新闻的最近邻居计算完成
第 7 条新闻的最近邻居计算完成
第 8 条新闻的最近邻居计算完成
第 9 条新闻的最近邻居计算完成
第 10 条新闻的最近邻居计算完成
第 20 条新闻的最近邻居计算完成
第 40 条新闻的最近邻居计算完成
第 60 条新闻的最近邻居计算完成
第 100 条新闻的最近邻居计算完成
第 200 条新闻的最近邻居计算完成
第 400 条新闻的最近邻居计算完成
第 600 条新闻的最近邻居计算完成
第 800 条新闻的最近邻居计算完成
第 1000 条新闻的最近邻居计算完成
第 1300 条新闻的最近邻居计算完成
第 1493 条新闻的最近邻居计算完成
最近邻居全部计算完成


In [18]:
news.save('./news_finished')
weibos.save('./weibo_parsed')
weibos_wvec.save('./weibo_wordvec')



# for i in range(len(test)):
#     print ""
#     print "+++++++++++++++++++++++++++++++++++++++++++++++++++++++"
#     print "-------------------------------------------------------"
#     print "分析新闻编号： %s." % test['id'][i]
#     print "该新闻内容如下："
#     print test['text'][i]
#     print ""
#     print "总共匹配文章数： %d." % len(test['assign_weibos'][i])
#     print "以下是匹配列表："
#     print "-------------------------------------------------------"
#     for ii in range(len(test['assign_weibos'][i])):
#         print "--------------------------------------------------------"
#         print "匹配微博： #%d." % test['assign_weibos'][i][ii]['id']
#         print weibos[weibos['id'] == test['assign_weibos'][i][ii]['id']]['text']
#         print "计算所得距离系数： %f." % test['assign_weibos'][i][ii]['similarity']
#         print "--------------------------------------------------------"
#     print "--------------------------------------------------------"
#     print "++++++++++++++++++++++++++++++++++++++++++++++++++++++++"
#     print ""

In [55]:
# print "开始计算微博总词向量"
# whole_weibos_dict = whole_wc_vec(weibos_wvec['tf_word_vec'])
# print "开始计算新闻总词向量"
# whole_news_dict = whole_wc_vec(news['tf_word_vec'])

开始计算微博总词向量
开始计算新闻总词向量


In [75]:
# #len(whole_weibos_dict)
# x = whole_weibos_dict.values()
# x.sort(reverse=True)
# print x[0]

# y = whole_news_dict.values()
# y.sort(reverse=True)
# print y[0]

# weibo_reg = dict(whole_weibos_dict)
# for k in weibo_reg:
#     weibo_reg[k] = weibo_reg[k] / x[0]

# news_reg = dict(whole_news_dict)
# for k in news_reg:
#     news_reg[k] = news_reg[k] / y[0]



1846.25709595
4093.24159478


### 这样，重启的时候只需要


In [None]:
graphlab.load_sframe('mysframedir') 


news = graphlab.load_sframe('./news_finished')
weibos = graphlab.load_sframe('./weibo_parsed')
weibos_wvec = graphlab.load_sframe('./weibo_wordvec')

In [19]:
print news

+----+---------------------------------------------------------+
| id |                           text                          |
+----+---------------------------------------------------------+
| 1  |   　　还有两天，2016全国高考就要开始了！　　就在考...   |
| 5  |  从昨天（3日）开始，在上海，有一群人冒着雨，在上海影... |
| 6  |    　　新华社无锡6月4日体育专电(记者 王镜宇 王恒志...   |
| 9  |                    在郑州经营近3年的方大同胡辣...       |
| 10 | 　　今天要说的这个故事，也许只有在电视剧里才会看到。... |
| 12 |  6月3日，路透社报道称，有据知情人士表示，捷豹路虎正...  |
| 14 | 　　坐飞机的时候，会不会总是担心飞机的安全性？最近乌... |
| 17 |   　　原标题：“史上最严”高考将临 多地部署严防大学生...  |
| 18 | 毛坦厂是安徽的一座僻静小镇，周围是沟壑丛生的山峦。可... |
| 20 | 　　今天要说的这个故事，也许只有在电视剧里才会看到。... |
+----+---------------------------------------------------------+
+--------------------------------------------------+
|                      parsed                      |
+--------------------------------------------------+
|   两天 2016 全国 高考 考生 抓紧 复习 冲刺 ...    |
|  昨天 上海 一群 雨 上海 影院 门口 等待 今早 ...  |
|   新华社 无锡 月 体育 专电 记者   王镜宇   ...   |
|                                 郑州...          |

In [20]:
print weibos

+------------------+--------------------------------------------------------+
|        id        |                          text                          |
+------------------+--------------------------------------------------------+
| 3982760672611680 |  【四川广元一艘客轮发生翻沉 船上18人4人已获救】今...   |
| 3982762123284430 | 【还有两天了！请收藏这份高考备忘录！】还有两天，20...  |
| 3982765202715016 |  #轻松一刻#网友@爱玩的欧尼们 剪辑了基情版《太阳的...   |
| 3982765705404585 |  【男子白天醉驾摩托被查 怪民警“不按常规出牌”】5月...   |
| 3982765705883442 | 【有能力的策划大牛，别忘了周刊君在等你[挤眼]】你需...  |
| 3982765810070058 | 【正直播！央视记者深入洪水“吞没”的法国小镇】连日暴...  |
| 3982767467794365 | 猴年马月就要来了，你的当初梦想快要实现了吗？“如果你... |
| 3982768222299077 | 【#最养生的走路法#：竟有意想不到的效果！】走路是世...  |
| 3982770327468562 |   #热点#【柯洁年内将战“阿尔法狗” 你看好谁赢？】国...   |
| 3982771523437877 |  【今早好多人定闹钟准备抢TA！还有人通宵排队19个小...   |
+------------------+--------------------------------------------------------+
+-------------------------------------------------+
|                      parsed                     |
+---------------------------------

In [21]:
print weibos_wvec

+-------------------------------+-------------------------------+
|            word_vec           |          tf_word_vec          |
+-------------------------------+-------------------------------+
| {'\xe5\x8f\x91\xe7\x94\x9f... | {'\xe5\x8f\x91\xe7\x94\x9f... |
| {'cn': 1, '\xe5\x8c\x85\xe... | {'cn': 0.5450500850967199,... |
| {'cn': 1, '\xe9\x98\xb4\xe... | {'cn': 0.5450500850967199,... |
| {'\xe5\x8f\x91\xe7\x8e\xb0... | {'\xe5\x8f\x91\xe7\x8e\xb0... |
| {'\xe4\xba\xba\xe7\x89\xa9... | {'\xe4\xba\xba\xe7\x89\xa9... |
| {'\xe5\xbd\xb1\xe5\x93\x8d... | {'\xe5\xbd\xb1\xe5\x93\x8d... |
| {'\xe7\x8c\xb4\xe5\xb9\xb4... | {'\xe7\x8c\xb4\xe5\xb9\xb4... |
| {'\xe7\xa9\xbf\xe7\x9d\x80... | {'\xe7\xa9\xbf\xe7\x9d\x80... |
| {'\xe6\x9c\x88': 1, 'cn': ... | {'\xe6\x9c\x88': 1.7847051... |
| {'\xe9\x97\xb9\xe9\x92\x9f... | {'\xe9\x97\xb9\xe9\x92\x9f... |
+-------------------------------+-------------------------------+
[4379 rows x 2 columns]
Note: Only the head of the SFrame is printed.
You ca

### 下面是各种数据的运算：
* 首先是算二词的出现次数bi-gram occurence 输入的为**分割好的（没有去除任何词语的）文本**，返回*二词词典*

In [36]:
def cal_bigram(parsed_text):
    words = [w.strip() for w in parsed_text.split() if w.strip()]
    counter = Counter()
    for i in range(len(words) - 1):
        w = words[i] + words[i + 1]
        counter[w] = counter[w] + 1
    bidict = dict(counter)
    return bidict
mydict = cal_bigram(weibos['parsed'][0])
for k in mydict:
    print "%s 出现 %d 次" % (k , mydict[k])

获救送往 出现 1 次
发生翻沉 出现 1 次
已有获救 出现 1 次
获救14 出现 1 次
四川广元 出现 2 次
一艘客轮 出现 1 次
分四川 出现 1 次
50分 出现 1 次
央视新闻 出现 1 次
40双龙 出现 1 次
四川日报 出现 1 次
准载40 出现 1 次
出事船上 出现 1 次
送往医院 出现 1 次
医院救治 出现 1 次
广元龙湖 出现 1 次
侧翻出事 出现 1 次
客轮发生 出现 1 次
船上18 出现 2 次
船上工作人员 出现 1 次
18获救 出现 1 次
新闻四川 出现 1 次
号侧翻 出现 1 次
龙湖张家湾 出现 1 次
营救已有 出现 1 次
另有船上 出现 1 次
张家湾湖面 出现 1 次
消防营救 出现 1 次
翻沉船上 出现 1 次
获救获救 出现 1 次
18人中 出现 1 次
救治央视 出现 1 次
湖面突发 出现 1 次
大风准载 出现 1 次
双龙号 出现 1 次
广元一艘 出现 1 次
突发大风 出现 1 次
人中16 出现 1 次
1450 出现 1 次
16人为 出现 1 次
人为乘客 出现 1 次
乘客另有 出现 1 次
工作人员消防 出现 1 次


In [54]:
#自动分句方法，返回句数组
def split_by_set(text):
    return re.split('。|！' , text)
#split_by_set(news['text'][0])

* 然后就是计算Wb,weibo(i) = 1/ *所有二词出现次数的和*，作为计算常数
* 需要传入**weibo的二词字典**（上面计算给出）

In [41]:
def calc_const(weibo_bidict):
    return np.sum(weibo_bidict.values())