In [1]:
# 所有需要导入的库

import re
import ast
import requests
from datetime import datetime
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
from keras.preprocessing import sequence
from keras.utils import np_utils
from keras.models import load_model

Using TensorFlow backend.


In [2]:
# 导入数据

word_dict = pd.read_csv('word_dict.csv', encoding='utf8')
word_dict = word_dict.drop(['0'], axis=1)
word_dict.columns = ['0', 'id']

import pickle
def load_obj(name ):
    with open(name + '.pkl', 'rb') as f:
        return pickle.load(f)

int_catagory = load_obj('int_catagory')
catagory_dict = load_obj('catagory_dict')

In [4]:
# 导入模型

model = load_model('model.hdf5')

In [5]:
maxlen=25

# 预测函数

def predict_(title):
    words = re.findall('[\x80-\xff]{3}|[\w\W]', title)
    w2v = [word_dict[word_dict['0']==x]['id'].values[0] for x in words]
    xn = sequence.pad_sequences([w2v], maxlen=maxlen)
    predicted = model.predict_classes(xn, verbose=0)[0]
    return int_catagory[predicted]

# 前三种可能性分类

def predict_3(title):
    words = re.findall('[\x80-\xff]{3}|[\w\W]', title)
    w2v = [word_dict[word_dict['0']==x]['id'].values[0] for x in words]
    xn = sequence.pad_sequences([w2v], maxlen=maxlen)
    predicted = model.predict(xn, verbose=0)[0]
    predicted_sort = predicted.argsort() 
    li = [(int_catagory[p], predicted[p]*100) for p in predicted_sort[-3:]]
    return li[::-1]

In [6]:
# 拉取当天新闻并预测, 测试准确率

def check_news_today():
    today = datetime.today().strftime("%Y-%m%d")
    year, month_day = today.split('-')
    base_url = "http://www.chinanews.com/scroll-news/%s/%s/news.shtml" % (year, month_day)
    resp = requests.get(base_url, timeout=10)
    resp.encoding = "gbk"
    soup = BeautifulSoup(resp.text, "html.parser")
    content = soup.find('div', class_='content_list')
    li = content.find_all("li")
    count = 0
    match = 0
    for item in li:
        try:
            catagory = item.find('div', class_='dd_lm').text.replace(r'[', '').replace(r']', '')
            if catagory in ['', u'图片', u'视频', u'报摘']:
                continue
            title = item.find('div', class_='dd_bt').text
            href = item.find('div', class_='dd_bt').a.attrs['href']
            prediction = predict_(title)
            print "[%s] prediction:[%s] %s" % (catagory, prediction, title)
            if catagory == prediction:
                match += 1
            count += 1
        except:
            continue
    print "acc: %.2f%% (%d/%d)" % (float(100*match)/count, match, count)
    
def check_news_today_3():
    today = datetime.today().strftime("%Y-%m%d")
    year, month_day = today.split('-')
    base_url = "http://www.chinanews.com/scroll-news/%s/%s/news.shtml" % (year, month_day)
    resp = requests.get(base_url, timeout=10)
    resp.encoding = "gbk"
    soup = BeautifulSoup(resp.text, "html.parser")
    content = soup.find('div', class_='content_list')
    li = content.find_all("li")
    count = 0
    match = 0
    for item in li:
        try:
            catagory = item.find('div', class_='dd_lm').text.replace(r'[', '').replace(r']', '')
            if catagory in ['', u'图片', u'视频', u'报摘']:
                continue
            title = item.find('div', class_='dd_bt').text
            href = item.find('div', class_='dd_bt').a.attrs['href']
            prediction = predict_3(title)
            print "[%s] prediction:[%s(%.2f%%) %s(%.2f%%) %s(%.2f%%)] %s" % \
                (catagory, prediction[0][0], prediction[0][1], prediction[1][0], prediction[1][1], prediction[2][0], prediction[2][1], title)
            if catagory in [prediction[0][0], prediction[1][0], prediction[2][0]]:
                match += 1
            count += 1
        except:
            continue
    print "acc: %.2f%% (%d/%d)" % (float(100*match)/count, match, count)

In [7]:
check_news_today()

[国内] prediction:[国内] 中方启动人道主义紧急援助助菲律宾应对台风袭击
[社会] prediction:[社会] 维卡币特大网络传销案二审宣判 涉案金额达16亿
[国内] prediction:[国内] 国务院明确环境保护税收入归属：全部作为地方收入
[国内] prediction:[国内] 食药监总局：鼓励中小学食堂将明厨亮灶视频传云平台
[社会] prediction:[社会] 动粗不划算！河南警方张贴“打架成本清单”获点赞
[体育] prediction:[娱乐] 一年坎坷也曾怀疑自己，如今五冠在手的柯洁将再战AI
[社会] prediction:[文化] 海内外佛教界追思中国佛教泰斗一诚长老（图）
[财经] prediction:[财经] 俄罗斯成中国最大陆路口岸进出口“老大”
[社会] prediction:[地方] 福建周宁老区村的扶贫路：抱团发展促农民增收
[国际] prediction:[国际] 俄罗斯首都一工厂发生枪击 当局否认有人被劫持
[财经] prediction:[I  T] 海南发起成立“大数据产业联盟”
[文化] prediction:[文化] 中国首个万里茶道文物展首展 再现昔日国际商道繁荣风貌
[台湾] prediction:[台湾] “海峡两岸产业合作区”落户四川 
[台湾] prediction:[财经] 小电峰值日订单破75万 市占率稳居共享充电行业第一
[财经] prediction:[国内] 上海市长应勇：今年上海经济稳中向好 好于预期
[华人] prediction:[华人] 意大利米兰中国文化中心首次在河北“落地” 
[财经] prediction:[财经] 2018年中国民航拟开工重点项目33个 固定资产投资860亿元
[国际] prediction:[金融] 对央行秋后算账之年
[国内] prediction:[社会] 中国出严规治理校园欺凌 涉嫌违法犯罪将以公检法为主处置
[汽车] prediction:[汽车] 总体产能规划已超500万辆 新能源车产能过剩现苗头
[汽车] prediction:[I  T] 阿里巴巴高管调整 蒋凡任淘宝总裁 靖捷任天猫总裁
[金融] prediction:[金融] 中国累计发行绿色债券近4000亿元 官方要求完善绿债认证制度
[汽车] prediction:[汽

[社会] prediction:[社会] 老人晕倒路边口吐白沫 幸遇医生及时施救
[财经] prediction:[财经] 经常点外卖的必看：这个潜规则实在太坑人
[国内] prediction:[国内] 中共中央政治局召开会议 决定召开十九届二中全会
[I  T] prediction:[财经] 2017产业大数据应用会议在北京举办
[体育] prediction:[体育] 邹市明的艰难时刻：眼睛旧伤复发、站到退役边缘
[华人] prediction:[华人] 华裔工程师发明快煲锅风靡北美 有多种烹饪功能
[社会] prediction:[社会] 高速扎胎盗窃团伙落网：啤酒盖上放尖钢管布陷阱
[社会] prediction:[法治] 黑客入侵网站添加建造师名单 伪造证件谋利被抓
[华人] prediction:[房产] 西班牙给年轻人一万欧元的买房补贴暂缓施行
[国内] prediction:[国内] 中国“北斗”开通五年 性能稳定走出国门
[国际] prediction:[国际] 暴雪袭日本北海道致多人伤 引列车脱轨航班停飞
[台湾] prediction:[台湾] 台湾青年讲述大陆生活：这里充满机会 我应该早些来
[社会] prediction:[社会] 零下4℃大学生跳灌渠救人 十几位同学参与救援
[国内] prediction:[国内] 珠江委：澳门等地元旦期间供水可有效保障
[国内] prediction:[I  T] 云狐时代落户重庆璧山 打造高新领域科技创新产业基地
[财经] prediction:[国内] 成振宇：民的根在于家 企业的根却是国
[国际] prediction:[国际] 瑞士一客船在德国撞上高架桥桥柱 造成25人受伤 
[国际] prediction:[国际] 过渡年抑或转折年？2017俄罗斯内政外交新特征
[财经] prediction:[房产] 钉钉注册用户过亿 社交格局正在变化
[财经] prediction:[I  T] 多牛星游合体估值或超20亿 改变泛娱乐媒体行业格局
[生活] prediction:[生活] 海南迎元旦旅游小高峰 多家景区推出优惠
[社会] prediction:[财经] 中国移动捆绑支付渠道遭疑：充话费非得用“和包”？
[社会] prediction:[健康] 中国平安携手重庆首创“AI+大数据”疾病预

[华人] prediction:[华人] 乌兹别克斯坦出台旅游签证新规 简化外钞出入境规定
[社会] prediction:[社会] 一人偷油一人望风 山东抓获夫唱妇随“油耗子”
[财经] prediction:[财经] 1-11月全国规模以上工业企业利润同比增21.9%
[国际] prediction:[国际] 日本外相分别会晤巴以首脑 称支持“两国方案”
[国际] prediction:[国际] 巴基斯坦粉红出租车将扩大队伍 为女性增加便利(图)
[财经] prediction:[I  T] 如果贾跃亭不回来 我们还能做什么？
[社会] prediction:[社会] 买礼品见家长“一条龙” 急“脱单”也要当心陷阱
[财经] prediction:[健康] 医疗行业明年迎风而立？ 共享医疗创新药齐被看好
[娱乐] prediction:[娱乐] 央视推出元旦特别节目《山水中国美》
[财经] prediction:[I  T] 铁甲与远东宏信合作联手打造工程机械互联网生态链
[国际] prediction:[国际] 日本筱山市收到1亿日元匿名捐款 希望其更改市名
[体育] prediction:[体育] 2017中国体坛十大热项：姚明“怼”中国篮球旧风气
[华人] prediction:[国际] 美加州山火近9成受遏制 撤离令取消并对游客开放
[国内] prediction:[文化] 2017诺奖物理奖得主：发现引力波 一场40年的“打赌”
[金融] prediction:[金融] 可转债发行井喷 投资者不再“贪图”打新收益
[文化] prediction:[教育] 2017全国艺术院校教育创新发展院(校)长论坛举行
[文化] prediction:[房产] 张裕酿酒公司入选第一批国家工业遗产名单
[国内] prediction:[国内] 邵新宇任华中科技大学党委书记 路钢不再担任
[体育] prediction:[体育] 20岁柯洁斩获个人第五个世界冠军 打破李昌镐纪录
[生活] prediction:[社会] 评论：精神疾病治疗不适合成资本淘金的富矿
[社会] prediction:[社会] 孩子沦为父母牟利工具 检方异地督促撤销监护权
[财经] prediction:[财经] 让贾跃亭回国，到底有啥办法？
[国际] prediction:[国际] 新加坡年轻

In [8]:
check_news_today_3()









acc: 86.21% (450/522)
