### 需要安装CPLEX
* [IBM CPLEX](http://www-03.ibm.com/software/products/en/ibmilogcpleoptistud)

In [1]:
#encoding=utf-8
# -*- coding: utf-8 -*-
# 基本部件的引用声明
import sys
import re
import codecs
import os
import shutil
import cplex
import jieba
import graphlab
import numpy as np
from array import array
from collections import Counter

# reload(sys)
# sys.setdefaultencoding('utf-8')

A newer version of GraphLab Create (v2.1) is available! Your current version is v2.0.1.
You can use pip to upgrade the graphlab-create package. For more information see https://turi.com/products/create/upgrade.


### 载入数据

In [2]:
# graphlab.load_sframe('.') 


newses = graphlab.load_sframe('./news_finished')
weibos = graphlab.load_sframe('./weibo_parsed')
# weibos_wvec = graphlab.load_sframe('./weibo_wordvec')

This non-commercial license of GraphLab Create for academic use is assigned to ouyf5@mail2.sysu.edu.cn and will expire on November 25, 2016.


[INFO] graphlab.cython.cy_server: GraphLab Create v2.0.1 started. Logging: C:\Users\Tidyzq\AppData\Local\Temp\graphlab_server_1469427812.log.0


### 线性规划模型
<img src="http://o9206epbs.bkt.clouddn.com/linear.png" width="300px">  

其中, `Gaini(b)`, `ncnd(b)`和`Z(s)`是变量(variables), 需要cplex根据模型计算最优值

### 工具函数
* 计算bi-gram
* 分句
* 计算倒数和

In [80]:
def cal_bigram(text):
    parsed_text = [re.sub(u' |\t|　|，|；|,|、|…|“|”|"|。|！|【|】|#', '', t) for t in jieba.cut(text, cut_all = False)]
    words = [w.strip() for w in parsed_text if w.strip()]
    counter = Counter()
    for i in range(len(words) - 1):
        w = words[i] + words[i + 1]
        counter[w] = counter[w] + 1
    bidict = dict(counter)
    return bidict

def split_by_set(text):
    return re.split('。|！|【|】|#' , text)

def calc_const(weibo_bidict):
    return 1.0 / np.sum(weibo_bidict.values())

### 预处理
将新闻和微博分句, 并计算词向量和bigram常数

In [87]:
# bigram_news = graphlab.SFrame()

def pre_process(news):
    sentences = split_by_set(news['text'])
    cplex_sentences = []
    cplex_bigram = Counter()
    cplex_weibo = []
    for assign_weibo in news['assign_weibos']:
        weibo = weibos.filter_by(assign_weibo['id'], 'id')
#         print weibo['text'][0]
        
        bigram = cal_bigram(weibo['text'][0])
        cplex_weibo.append({'bigram': bigram, 'const': calc_const(bigram)})
        sentences.extend(split_by_set(weibo['text'][0]))
    for sentence in sentences:
        if len(sentence):
#             parsed_text = [t + '1' for t in jieba.cut(sentence, cut_all = False)]
#             parsed_text = [re.sub(u' |\t|　|，|；|,|、|…|“|”|"|', '', t) for t in jieba.cut(sentence, cut_all = False)]
#             for text in parsed_text:
#                 print text
            bigram = cal_bigram(sentence)
            cplex_bigram = cplex_bigram + Counter(bigram)
            cplex_sentences.append({'sentence': sentence, 'bigram': bigram})
        
    return {'sentences': cplex_sentences, 'bigram': cplex_bigram, 'weibo': cplex_weibo}
    

### 测试
测试以上函数正确性

In [88]:
news = pre_process(newses[0])
for sentence in news['sentences']:
    print "========== 句子 =========="
    print sentence['sentence']
    print "========== 词向量 =========="
    for word in sentence['bigram']:
        print word + u" 出现 " + str(sentence['bigram'][word]) + u" 次"
for weibo in news['weibo']:
    print "========== 微博 =========="
    for word in weibo['bigram']:
        print word + u" 出现 " + str(weibo['bigram'][word]) + u" 次"
    print "========== 常数 =========="
    print weibo['const']
print "========== 总词向量 =========="
for word in news['bigram']:
    print word + u" 出现 " + str(news['bigram'][word]) + u" 次"

　　还有两天，2016全国高考就要开始了
全国高考 出现 1 次
2016全国 出现 1 次
高考就要 出现 1 次
还有两天 出现 1 次
开始了 出现 1 次
两天2016 出现 1 次
就要开始 出现 1 次
　　就在考生们抓紧复习、最后冲刺时，小编也没有闲着，为学子们制作了一份高考备忘录
小编也 出现 1 次
们抓紧 出现 1 次
了一份 出现 1 次
学子们 出现 1 次
一份高考 出现 1 次
为学子 出现 1 次
考生们 出现 1 次
时小编 出现 1 次
没有闲着 出现 1 次
抓紧复习 出现 1 次
在考生 出现 1 次
高考备忘录 出现 1 次
冲刺时 出现 1 次
复习最后 出现 1 次
最后冲刺 出现 1 次
们制作 出现 1 次
就在 出现 1 次
闲着为 出现 1 次
也没有 出现 1 次
制作了 出现 1 次
这里面包括考试时间、天气情况等等……如果你家里有考生，或者身边有考生，就赶快转给他们吧
家里有 出现 1 次
等等如果 出现 1 次
或者身边 出现 1 次
就赶快 出现 1 次
你家里 出现 1 次
里面包括 出现 1 次
有考生 出现 2 次
考试时间 出现 1 次
时间天气情况 出现 1 次
身边有 出现 1 次
天气情况等等 出现 1 次
转给他们 出现 1 次
如果你 出现 1 次
他们吧 出现 1 次
包括考试 出现 1 次
考生就 出现 1 次
这里面 出现 1 次
赶快转给 出现 1 次
考生或者 出现 1 次
　　一旦在去考场的途中遇到堵车，最好的办法就是出示准考证向民警求助
在去 出现 1 次
出示准考证 出现 1 次
向民警 出现 1 次
就是出示 出现 1 次
一旦在 出现 1 次
民警求助 出现 1 次
准考证向 出现 1 次
的办法 出现 1 次
的途中 出现 1 次
途中遇到 出现 1 次
遇到堵车 出现 1 次
去考场 出现 1 次
最好的 出现 1 次
考场的 出现 1 次
堵车最好 出现 1 次
办法就是 出现 1 次
但小编要说的是，防患于未然是避免问题的最好办法，这两天尽可能提前去熟悉考场周围的交通环境，要做到心中有数，以免出现意外
去熟悉 出现 1 次
熟悉考场 出现 1 次
的交通 出现 1 次
但小编要说 出现 1 次
提前去 出现 1 次
两天尽可能 出现 1 次
考场周围 出现 1

In [94]:
def solve_cplex(prob):

    prob.solve()

    numrows = prob.linear_constraints.get_num()
    numcols = prob.variables.get_num()

    print
    # solution.get_status() returns an integer code
    print "Solution status = " , prob.solution.get_status(), ":",
    # the following line prints the corresponding string
    print prob.solution.status[prob.solution.get_status()]
    print "Solution value  = ", prob.solution.get_objective_value()
    slack = prob.solution.get_linear_slacks()
    pi    = prob.solution.get_dual_values()
    x     = prob.solution.get_values()
    dj    = prob.solution.get_reduced_costs()
    for i in range(numrows):
        print "Row %d:  Slack = %10f  Pi = %10f" % (i, slack[i], pi[i])
    for j in range(numcols):
        print "Column %d:  Value = %10f Reduced cost = %10f" % (j, x[j], dj[j])

In [95]:
max_L = 1000 # 选取句子的最大长度

def cplex_process(news):
    c = cplex.Cplex()
    c.objective.set_sense(c.objective.sense.maximize)
    
    num_b = len(news['bigram'])
    print 'size of b: %d' % num_b
    num_i = len(news['weibo'])
    print 'size of i: %d' % num_i
    num_s = len(news['sentences'])
    print 'size of s: %d' % num_s
    
#     z_vec = [0] * num_s
    z_type = [c.variables.type.integer] * num_s
    z_name = ['z_' + str(s) for s in range(num_s)]
    z_ub = [1] * num_s
    z_lb = [0] * num_s
    
#     gain_mat = [0] * num_i * num_b
    gain_type = [c.variables.type.integer] * num_i * num_b
    gain_name = ['gain_' + str(i) + '_' + str(b) for i in range(num_i) for b in range(num_b)]
    gain_ub = [news['weibo'][i]['bigram'][news['bigram'].keys()[b]] for i in range(num_i) for b in range(num_b)] # Gain < Ntwt
    gain_lb = [0] * num_i * num_b
    gain_obj = [news['weibo'][i]['const'] for i in range(num_i) for b in range(num_b)] # 目标函数, 取最大值
    
    c.variables.add(ub = z_ub, lb = z_lb, names = z_name, types = z_type)
    c.variables.add(obj = gain_obj, ub = gain_ub, lb = gain_lb, names = gain_name, types = gain_type)
    
    c1_rows = [] # Gain < Ncnd
    for b in range(num_b):
        for i in range(num_i):
            names = ['gain_' + str(i) + '_' + str(b)]
            values = [1.0]
            for s in range(num_s):
                names.append('z_' + str(s))
                values.append(-1 * news['sentences'][s]['bigram'][news['bigram'].keys()[b]])
            c1_rows.append([names, values])
    c1_senses = 'L' * num_i * num_b
    c1_rhs = [0.0] * num_i * num_b
    
    c2_rows = [[['z_' + str(s) for s in range(num_s)], [len(weibo['sentences'][s]['sentence']) for s in range(num_s)]]] # sum(Z(s) * length(s)) < L
    c2_senses = 'L'
    c2_rhs = max_L
    
    c.linear_constraints.add(lin_expr = c1_rows, senses = c1_senses, rhs = c1_rhs)
    c.linear_constraints.add(lin_expr = c2_rows, senses = c2_senses, rhs = c2_rhs)
    
    solve_cplex(c)


### 测试

In [96]:
news = pre_process(newses[0])
cplex_process(news)

size of b: 810
size of i: 5
size of s: 62


KeyError: 0

### 测试

In [69]:
cplex_process(0)

[{'id': 3982762123284430L, 'similarity': 745.781477009773},
 {'id': 3983296700071844L, 'similarity': 709.2981882328462},
 {'id': 3984021052670259L, 'similarity': 582.361230574927},
 {'id': 3983485443515171L, 'similarity': 578.9552991144867},
 {'id': 3983330271457947L, 'similarity': 560.7869467061566}]