# 基本设置

In [1]:
##load packages, needed
# encoding=utf-8

import jieba
import sys
import re
import time
import string
from sklearn import feature_extraction
from sklearn.pipeline import Pipeline,FeatureUnion

from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_selection import SelectKBest, chi2,mutual_info_classif,f_classif

import pickle  

from sklearn.datasets.base import Bunch
from sklearn.linear_model import SGDClassifier
from sklearn.metrics import confusion_matrix, f1_score
from sklearn.ensemble import ExtraTreesClassifier

import xgboost as xgb
from xgboost import XGBClassifier
from sklearn import metrics

from sklearn.base import BaseEstimator, TransformerMixin
from collections import defaultdict

import joblib

import numpy as np
import pandas as pd
import pre_tendency
import os
from sklearn.model_selection import train_test_split
from sqlalchemy import create_engine
from pandas.io import sql
import requests,json

import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.002 seconds.
Prefix dict has been built succesfully.


In [2]:
class StatsFeatures(BaseEstimator, TransformerMixin):
    
    def __init__(self):
        self.neg = set()
        f = open("neg_words.txt","r+", encoding='UTF-8')
        for content in f:
            self.neg.add(content)
        f.close()

    def fit(self, X, y=None):
        return self

    def getcnt(self,x):
        return len(list(set(x)))

    def getnegcnt(self,x):
        negcnt = 0
        words = x.split()
        for w in words:
            if w in self.neg:
                negcnt = negcnt+1
        return negcnt
    
    def transform(self, X):
        return [[len(x),self.getcnt(x),self.getcnt(x)/len(x),self.getnegcnt(x),self.getnegcnt(x)/len(x)] for x in X]
    

In [3]:
def classified_index(corpus_p, corpus_n, corpus, lab):
    '''
    二分类模型各指标的结果
    '''
    
    res = chapter_pipeline_1.predict(corpus_p)
    print('正样本预测准确率: ', float(sum(res))/len(res),len(res))
    
    res = chapter_pipeline_1.predict(corpus_n)
    print('负样本预测准确率: ',  1-float(sum(res))/len(res),len(res))
    
    y_pred_class = chapter_pipeline_1.predict(corpus)
    print('accuracy_score: ', metrics.accuracy_score(lab, y_pred_class)) # 指所有分类正确的百分比
    print(metrics.classification_report(lab, y_pred_class))
    print('confusion_matrix: ')
    print( metrics.confusion_matrix(lab, y_pred_class))

In [4]:
def set_ch():
    '''
    功能：设定绘图时显示中文
    '''	
    from pylab import mpl
    mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
    mpl.rcParams['axes.unicode_minus'] = False   # 解决保存图像是负号'-'显示为方块的问题
set_ch()

In [5]:
def get_day_list(start, end):
    import datetime
#     start='2018-08-10'
#     end='2018-08-16'

    datestart=datetime.datetime.strptime(start,'%Y-%m-%d')
    dateend=datetime.datetime.strptime(end,'%Y-%m-%d')

    day_list = []
    while datestart<dateend:
        datestart+=datetime.timedelta(days=1)
        day_list.append(datestart.strftime('%Y-%m-%d'))
        
    return day_list

In [6]:
group = '1-新闻，2-论坛，3-博客，4-微博，5-纸媒，6-视频，7-外媒，11-微信，13-新闻客户端，15-推特'
group_dict = dict([x.split('-') for x in group.split('，')])
group_dict

{'1': '新闻',
 '2': '论坛',
 '3': '博客',
 '4': '微博',
 '5': '纸媒',
 '6': '视频',
 '7': '外媒',
 '11': '微信',
 '13': '新闻客户端',
 '15': '推特'}

## 导入上一版模型

In [7]:
# 上一版模型
from sklearn.externals import joblib
pipeline_old = joblib.load( "model/0619_circ_chapter_tendency.pkl.z") 

# 获取数据

In [8]:
try :
    DB_CON_STR = 'mysql+pymysql://wisedb:Wi$eWeb123@10.80.88.73:5718/pom?charset=utf8'  
    engine = create_engine(DB_CON_STR, echo=False) 
    sql.execute('show databases', engine)
except :
    DB_CON_STR = 'mysql+pymysql://wisedb:Wi$eWeb123@47.95.148.133:5718/pom?charset=utf8'  
    engine = create_engine(DB_CON_STR, echo=False) 
    sql.execute('show databases', engine) 

## 一天

In [39]:
day_select = '2018-08-24'

In [15]:
sql_circ_cor_one_day = "select t1.titlehash, t1.id, t1.group_id, t1.publishtime, \
                            t1.tendency, t1.title,t2.center as content \
                            from wise_web_docinfo t1, wise_web_docinfo_center t2 \
                                where t1.id = t2.doc_id \
                                  and date_format(t1.publishtime, '%%Y-%%m-%%d') = '{0}'\
                                  group by t1.titlehash".format(day_select)

# 去重
circ_cor = pd.read_sql(sql_circ_cor_one_day, engine)
circ_cor['group_id'] = circ_cor['group_id'].apply(lambda x: group_dict[str(x)])
# circ_cor['content_len'] = circ_cor['content'].apply(lambda x:len(str(x)))
print(circ_cor.shape)
circ_cor.head()

(8999, 8)


Unnamed: 0,titlehash,id,group_id,publishtime,tendency,title,content,content_len
0,-9223170107841175987,10311602,新闻,2018-08-24 18:12:35,0,8月24日A股全天行业、概念资金动向,8月24日A股全天行业、概念资金动向来源:抓取2018/08/24 18:12:35 ...,217
1,-9219777453736013486,10313535,新闻,2018-08-24 18:06:00,0,定期财报标题：NEWTREEGROUP：有关截至二零一八年三月三十一日止年度之年度业绩公布及...,扫一扫，慧博手机终端下载！ (图片)(图片)(图片)中文研报 |--宏观经济 |--投资...,1302
2,-9218312284179178923,10348821,微博,2018-08-24 13:16:55,0,发布了头条文章：《核保理赔人员如何对待先天性疾病被保险人？》 http://t.cn/Rk...,发布了头条文章：《核保理赔人员如何对待先天性疾病被保险人？》 http://t.cn/Rk...,53
3,-9214106331500188500,10300401,新闻,2018-08-24 00:00:00,0,银行业重磅！中资银行和AMC外资持股比例限制取消,银行业重磅！中资银行和AMC外资持股比例限制取消(图片)2018-08-24来源：券商中国摘...,2564
4,-9212782750776469587,10329008,微信,2018-08-24 08:37:48,0,【邮·保障】邮政简易险，小保单，大保障！,没有人希望出现意外，但是风险的确无处不在 没有人害怕生活，没有人害怕过日子。 因为我们有手有...,1344


In [42]:
tmp_data.shape

(8052, 10)

In [None]:
fea_filename = 'data/result/circ_tendency_predict_%s.xlsx'%day_select
with pd.ExcelWriter(fea_filename) as writer:
    for tend in circ_cor['tendency']:
        tmp_data = circ_cor[circ_cor['tendency'] == tend][['id','group_id', 'tendency', 'title', 'content']]   
        tmp_data.insert(3, 'label', '')
        if tmp_data.shape[0] > 1000:
            N = 1000
        else :
            N = tmp_data.shape[0]
        tmp_data.sample(n = N, axis = 0, random_state=0).to_excel(writer,str(tend), index = False)
    writer.save()    

In [32]:
sel_data = circ_cor[circ_cor['group_id'].isin(['新闻', '微博', '微信', '新闻客户端'])][['id', 'tendency', 'title', 'content']]
print(sel_data.shape)
sel_data.head()

(8432, 4)


Unnamed: 0,id,tendency,title,content
0,10311602,0,8月24日A股全天行业、概念资金动向,8月24日A股全天行业、概念资金动向来源:抓取2018/08/24 18:12:35 ...
1,10313535,0,定期财报标题：NEWTREEGROUP：有关截至二零一八年三月三十一日止年度之年度业绩公布及...,扫一扫，慧博手机终端下载！ (图片)(图片)(图片)中文研报 |--宏观经济 |--投资...
2,10348821,0,发布了头条文章：《核保理赔人员如何对待先天性疾病被保险人？》 http://t.cn/Rk...,发布了头条文章：《核保理赔人员如何对待先天性疾病被保险人？》 http://t.cn/Rk...
3,10300401,0,银行业重磅！中资银行和AMC外资持股比例限制取消,银行业重磅！中资银行和AMC外资持股比例限制取消(图片)2018-08-24来源：券商中国摘...
4,10329008,0,【邮·保障】邮政简易险，小保单，大保障！,没有人希望出现意外，但是风险的确无处不在 没有人害怕生活，没有人害怕过日子。 因为我们有手有...


In [16]:
circ_cor['tendency'].value_counts()

 0    8052
-1     947
Name: tendency, dtype: int64

In [19]:
circ_cor['group_id'].value_counts()

新闻       3389
微信       2583
新闻客户端    1366
微博       1094
博客        355
纸媒        184
外媒         15
论坛         13
Name: group_id, dtype: int64

In [20]:
circ_cor.groupby(['tendency', 'group_id'])['id'].count()

tendency  group_id
-1        博客             8
          微信           126
          微博           558
          新闻           203
          新闻客户端         43
          纸媒             9
 0        博客           347
          外媒            15
          微信          2457
          微博           536
          新闻          3186
          新闻客户端       1323
          纸媒           175
          论坛            13
Name: id, dtype: int64

### 数据处理

In [18]:
circ_cor['title_content'] = circ_cor['title'] + '。' + circ_cor['content']
title_content = pre_tendency.handle_contents(circ_cor['title_content'].tolist())
print(len(title_content))
title_content[:2]

8999


['月 日 A股 全天 行业 概念 资金 动向 月 日 A股 全天 行业 概念 资金 动向 来源 抓取 行业 全天 月 日 A股 全天 资金 动向 银行 板块 主力 净流入 居首 某 媒体 讯 截至 月 日 收盘 行业 指数 板块 出现 资金 主力 净流入 其中 银行 保险 专用设备 板块 资金 流入 居前 分别 主力 净流入 亿元 亿元 亿元 板块 出现 资金 主力 净 流出 行业 资金 全天 主力 净流入 前 位 数据 来源 机器人 ',
 '定期 财报 标题 NEWTREEGROUP 截至 二零一 八年 三月 三十一日 止 年度 年度 业绩 公布 年报 补充 公布 扫一扫 慧博 手机 终端 下载 图片 图片 图片 中文 研报 宏观经济 投资 策略 行业 分析 公司 调研 晨会 早刊 机构 资讯 期货 研究 股指 期货 期权 研究 基金 频道 债券 研究 外汇 研究 港台 研究 金融 工程 投资 组合 融资 融券 新股 研究 并购 重组 外文 报告 财经 资讯 研究 报告 标题 股票代码 股票名称 研究 报告 出处 研究 报告 评级 研究 报告 作者 今天 昨天 前天 最近 一周 最近 一个月 最近 三个 月 最近 半年 最近 一年 请 输入 关键字 高级 搜索 热门 关键字 新能源 G 超 预期 数据 保险 物 联网 中国 平安银行 资讯 分类 慧博 终端 热点 研报 精选 研报 知名 分析师 经济 数据库 个人 中心 图片 位置 首 页 定期 财报 年度报告 图片 NEWTREE GROUP 定期 财报 NEWTREEGROUP 截至 二零一 八年 三月 三十一日 止 年度 年度 业绩 公布 年报 补充 公布 图片 研报 大小 KB 时间 图片 如需 数据 加工 服务 数据 接口 服务 请 联系 客服 电话 图片 图片 图片 图片 图片 到 微信 朋友圈 图片 图片 打开 微信 点击 底部 发现 使用 扫一扫 即可 将 网页 朋友圈 推荐 给 朋友 图片 用户 已 上传 份 投研 文档 图片 图片 图片 华泰 证券 云 计算 行业 报告 对标 海外 解析 云 天风 证券 医药 生物 行业 深度 研究 彩超 行业 非 中银国际 光通信 行业 专题报告 G 数通 双 驱动 民生 证券 通信 行业 G 频谱 即将 发放 带来 产 东方 证券 石油化工 行业 深度 

In [21]:
predict_label = pipeline_old.predict(title_content)
predict_proba = pipeline_old.predict_proba(title_content)

In [24]:
combined_cor = circ_cor[['group_id', 'title', 'content']]
combined_cor['predict_label'] = predict_label
combined_cor['predict_proba'] = predict_proba.max(axis = 1)
# combined_cor['predict_label'] = combined_cor['predict_label'].apply(lambda x:class_name_dict[x])
combined_cor['label'] = ''
combined_cor = combined_cor[['predict_proba', 'predict_label','group_id', 'label', 'title', 'content']]
combined_cor.head()

Unnamed: 0,predict_proba,predict_label,group_id,label,title,content
0,1.0,1,新闻,,8月24日A股全天行业、概念资金动向,8月24日A股全天行业、概念资金动向来源:抓取2018/08/24 18:12:35 ...
1,1.0,1,新闻,,定期财报标题：NEWTREEGROUP：有关截至二零一八年三月三十一日止年度之年度业绩公布及...,扫一扫，慧博手机终端下载！ (图片)(图片)(图片)中文研报 |--宏观经济 |--投资...
2,1.0,1,微博,,发布了头条文章：《核保理赔人员如何对待先天性疾病被保险人？》 http://t.cn/Rk...,发布了头条文章：《核保理赔人员如何对待先天性疾病被保险人？》 http://t.cn/Rk...
3,1.0,1,新闻,,银行业重磅！中资银行和AMC外资持股比例限制取消,银行业重磅！中资银行和AMC外资持股比例限制取消(图片)2018-08-24来源：券商中国摘...
4,1.0,1,微信,,【邮·保障】邮政简易险，小保单，大保障！,没有人希望出现意外，但是风险的确无处不在 没有人害怕生活，没有人害怕过日子。 因为我们有手有...


In [26]:
combined_cor['predict_proba'].value_counts()

1.0    8999
Name: predict_proba, dtype: int64

In [27]:
combined_cor['predict_label'].value_counts()

1    8600
0     399
Name: predict_label, dtype: int64

## 多天

In [10]:
day_list = get_day_list('2018-08-23', '2018-08-26')
day_list

['2018-08-24', '2018-08-25', '2018-08-26']

In [17]:
for index, day_select in enumerate(day_list):
    print('-- ', index, day_select)
    sql_circ_cor_one_day = "select t1.id, t1.group_id, t1.publishtime, \
                                t1.tendency, t1.title,t2.center as content \
                                from wise_web_docinfo t1, wise_web_docinfo_center t2 \
                                    where t1.id = t2.doc_id \
                                      and date_format(t1.publishtime, '%%Y-%%m-%%d') = '{0}'\
                                      group by t1.titlehash".format(day_select)

    # 去重
    circ_cor = pd.read_sql(sql_circ_cor_one_day, engine)
    circ_cor['group_id'] = circ_cor['group_id'].apply(lambda x: group_dict[str(x)])
    print(circ_cor.shape)
    
    fea_filename = 'data/result/circ_tendency_predict_%s.xlsx'%day_select
    with pd.ExcelWriter(fea_filename) as writer:
        for tend in circ_cor['tendency'].unique():
            tmp_data = circ_cor[circ_cor['tendency'] == tend][['id','group_id', 'tendency', 'title', 'content']]   
            print(tmp_data.shape)
            tmp_data.insert(3, 'label', '')
            if tmp_data.shape[0] > 1000:
                N = 1000
            else :
                N = tmp_data.shape[0]
            tmp_data.sample(n = N, axis = 0, random_state=0).to_excel(writer,str(tend), index = False)
        writer.save()    

--  0 2018-08-24
(9001, 6)
(8054, 5)
(947, 5)
--  1 2018-08-25
(5080, 6)
(4582, 5)
(498, 5)
--  2 2018-08-26
(3199, 6)
(2941, 5)
(258, 5)
