In [1]:
!python --version

Python 3.7.3


In [2]:
#!pip install -q -U pip
#!pip install -q numpy
#!pip install -q pandas
#!pip install -q ckiptagger
#!pip install -q tqdm
#!pip install -q tensorflow==1.14.0
!pip install -q ipywidgets

You should consider upgrading via the '/Users/jasoncheng/py3venv/bin/python3 -m pip install --upgrade pip' command.[0m


In [1]:
import pandas as pd
import numpy as np

from ckiptagger import WS, POS
from tqdm.notebook import tqdm

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [2]:
df_train = pd.read_csv('news_clustering_train.tsv', sep='\t')
df_test = pd.read_csv('news_clustering_test.tsv', sep='\t')

In [3]:
df_train

Unnamed: 0,index,class,title
0,0,體育,亞洲杯奪冠賠率：日本、伊朗領銜 中國竟與泰國並列
1,1,體育,9輪4球本土射手僅次武磊 黃紫昌要搶最強U23頭銜
2,2,體育,如果今年勇士奪冠，下賽季詹姆斯何去何從？
3,3,體育,超級替補！科斯塔本賽季替補出場貢獻7次助攻
4,4,體育,騎士6天里發生了啥？從首輪搶七到次輪3-0猛龍
...,...,...,...
1795,1795,遊戲,LOL：麻辣香鍋韓服Rank不合成打野刀？電刀巨魔新套路連勝中
1796,1796,遊戲,穩住，我們能贏！因為我們擁有這種強大的力量
1797,1797,遊戲,騰訊是怎樣毀掉《鬥戰神》這款可能成神的作品的？
1798,1798,遊戲,LOL你不知道的黑科技打法！


In [4]:
train_titles = {row['index']: row['title'] for _, row in df_train.iterrows()}
train_classes = {row['index']: row['class'] for _, row in df_train.iterrows()}
print(train_titles[0])
print(train_classes[0])

test_titles = {row['index']: row['title'] for _, row in df_test.iterrows()}
test_classes = {row['index']: row['class'] for _, row in df_test.iterrows()}
print(test_titles[1800])
print(test_classes[1800])

亞洲杯奪冠賠率：日本、伊朗領銜 中國竟與泰國並列
體育
如果騎士火箭進入總決賽，誰的勝算大？
體育


In [5]:
all_news_class = ['體育', '財經', '科技', '旅遊', '農業', '遊戲']

# 斷詞 + POS

In [6]:
ws = WS('./data/')
pos = POS('./data/')

In [7]:
sentence_list = ["亞洲杯奪冠賠率：日本、伊朗領銜 中國竟與泰國並列", "9輪4球本土射手僅次武磊 黃紫昌要搶最強U23頭銜"]

word_sentence_list = ws(
        sentence_list,
        # sentence_segmentation = True, # To consider delimiters
        # segment_delimiter_set = {",", "。", ":", "?", "!", ";"}), # This is the defualt set of delimiters
        # recommend_dictionary = dictionary1, # words in this dictionary are encouraged
        # coerce_dictionary = dictionary2, # words in this dictionary are forced
)
print(word_sentence_list)

pos_sentence_list = pos(word_sentence_list)
print(pos_sentence_list)

[['亞洲杯', '奪', '冠賠率', '：', '日本', '、', '伊朗', '領銜', ' ', '中國', '竟', '與', '泰國', '並列'], ['9', '輪', '4', '球', '本土', '射手', '僅次', '武磊', ' ', '黃紫昌', '要', '搶', '最', '強', 'U23', '頭銜']]
[['Nb', 'VC', 'Na', 'COLONCATEGORY', 'Nc', 'PAUSECATEGORY', 'Nc', 'VB', 'WHITESPACE', 'Nc', 'D', 'P', 'Nc', 'VG'], ['Neu', 'Nf', 'Neu', 'Na', 'Nc', 'Na', 'VJ', 'Nb', 'WHITESPACE', 'Nb', 'D', 'VD', 'Dfa', 'VH', 'Nb', 'Na']]


In [9]:
# train_title_cuts = {}
# for index, title in tqdm(train_titles.items()):
#     # YOUR CODE HERE
    
#     # END YOUR CODE
#     train_title_cuts[index] = list(zip(word_s[0], word_p[0]))
# Keep the following result

HBox(children=(FloatProgress(value=0.0, max=1800.0), HTML(value='')))




In [8]:
train_title_cuts = {}
for index, title in tqdm(train_titles.items()):
    # YOUR CODE HERE
    word_s = ws(
        [title],
        # sentence_segmentation = True, # To consider delimiters
        # segment_delimiter_set = {",", "。", ":", "?", "!", ";"}), # This is the defualt set of delimiters
        # recommend_dictionary = dictionary1, # words in this dictionary are encouraged
        # coerce_dictionary = dictionary2, # words in this dictionary are forced
    )
    word_p = pos(word_s)
    
    # END YOUR CODE
    train_title_cuts[index] = list(zip(word_s[0], word_p[0]))

HBox(children=(FloatProgress(value=0.0, max=1800.0), HTML(value='')))




In [9]:
test_title_cuts = {}
for index, title in tqdm(test_titles.items()):
    # YOUR CODE HERE
    word_s = ws([title])
    word_p = pos(word_s)

    # END YOUR CODE
    test_title_cuts[index] = list(zip(word_s[0], word_p[0]))

HBox(children=(FloatProgress(value=0.0, max=600.0), HTML(value='')))




In [10]:
train_title_cuts[120]

[('國腳', 'Na'),
 ('張呈棟', 'Nb'),
 ('：', 'COLONCATEGORY'),
 ('從', 'D'),
 ('沒', 'D'),
 ('想', 'VE'),
 ('過', 'Di'),
 ('自己', 'Nh'),
 ('會', 'D'),
 ('出', 'VC'),
 ('一', 'Neu'),
 ('本', 'Nf'),
 ('書', 'Na')]

# Bag of Words (BOW)

In [14]:
word2index = {}
index2word = {}
# 產生字與index對應的關係
# YOUR CODE HERE
i = 0
for _, title_cuts in train_title_cuts.items():
    for word, pos in title_cuts:
        if word2index.get(word) is None:
            word2index[word] = i
            index2word[i] = word
            i += 1

for _, title_cuts in test_title_cuts.items():
    for word, pos in title_cuts:
        if word2index.get(word) is None:
            word2index[word] = i
            index2word[i] = word
            i += 1

# END YOUR CODE
print(len(word2index))
print(len(index2word))

7958
7958


In [15]:
word2index

{'亞洲杯': 0,
 '奪': 1,
 '冠賠率': 2,
 '：': 3,
 '日本': 4,
 '、': 5,
 '伊朗': 6,
 '領銜': 7,
 ' ': 8,
 '中國': 9,
 '竟': 10,
 '與': 11,
 '泰國': 12,
 '並列': 13,
 '9': 14,
 '輪': 15,
 '4': 16,
 '球': 17,
 '本土': 18,
 '射手': 19,
 '僅次': 20,
 '武磊': 21,
 '黃紫昌': 22,
 '要': 23,
 '搶': 24,
 '最': 25,
 '強': 26,
 'U23': 27,
 '頭銜': 28,
 '如果': 29,
 '今年': 30,
 '勇士': 31,
 '奪冠': 32,
 '，': 33,
 '下': 34,
 '賽': 35,
 '季': 36,
 '詹姆斯': 37,
 '何去何從': 38,
 '？': 39,
 '超級': 40,
 '替補': 41,
 '！': 42,
 '科斯塔': 43,
 '本': 44,
 '賽季': 45,
 '出場': 46,
 '貢獻': 47,
 '7': 48,
 '次': 49,
 '助攻': 50,
 '騎士': 51,
 '6': 52,
 '天里': 53,
 '發生': 54,
 '了': 55,
 '啥': 56,
 '從': 57,
 '首': 58,
 '七': 59,
 '到': 60,
 '次輪': 61,
 '3-0': 62,
 '猛龍': 63,
 '朗多': 64,
 '進入': 65,
 '轉會': 66,
 '市場': 67,
 '哪些': 68,
 '球隊': 69,
 '適合': 70,
 '他': 71,
 'G3': 72,
 '決殺': 73,
 '你': 74,
 '怎麼': 75,
 '看': 76,
 '大': 77,
 '魔王': 78,
 '帶頭': 79,
 '唱歌': 80,
 '火箭': 81,
 '這': 82,
 '像是': 83,
 '打': 84,
 '季後賽': 85,
 '爵士': 86,
 '神帥': 87,
 '話': 88,
 '已': 89,
 '提前': 90,
 '投降': 91,
 '馬夏爾': 92,
 '去': 93,
 '切爾

In [16]:
index2word

{0: '亞洲杯',
 1: '奪',
 2: '冠賠率',
 3: '：',
 4: '日本',
 5: '、',
 6: '伊朗',
 7: '領銜',
 8: ' ',
 9: '中國',
 10: '竟',
 11: '與',
 12: '泰國',
 13: '並列',
 14: '9',
 15: '輪',
 16: '4',
 17: '球',
 18: '本土',
 19: '射手',
 20: '僅次',
 21: '武磊',
 22: '黃紫昌',
 23: '要',
 24: '搶',
 25: '最',
 26: '強',
 27: 'U23',
 28: '頭銜',
 29: '如果',
 30: '今年',
 31: '勇士',
 32: '奪冠',
 33: '，',
 34: '下',
 35: '賽',
 36: '季',
 37: '詹姆斯',
 38: '何去何從',
 39: '？',
 40: '超級',
 41: '替補',
 42: '！',
 43: '科斯塔',
 44: '本',
 45: '賽季',
 46: '出場',
 47: '貢獻',
 48: '7',
 49: '次',
 50: '助攻',
 51: '騎士',
 52: '6',
 53: '天里',
 54: '發生',
 55: '了',
 56: '啥',
 57: '從',
 58: '首',
 59: '七',
 60: '到',
 61: '次輪',
 62: '3-0',
 63: '猛龍',
 64: '朗多',
 65: '進入',
 66: '轉會',
 67: '市場',
 68: '哪些',
 69: '球隊',
 70: '適合',
 71: '他',
 72: 'G3',
 73: '決殺',
 74: '你',
 75: '怎麼',
 76: '看',
 77: '大',
 78: '魔王',
 79: '帶頭',
 80: '唱歌',
 81: '火箭',
 82: '這',
 83: '像是',
 84: '打',
 85: '季後賽',
 86: '爵士',
 87: '神帥',
 88: '話',
 89: '已',
 90: '提前',
 91: '投降',
 92: '馬夏爾',
 93: '去',
 94:

In [17]:
word2index['溫暖']

1520

In [18]:
index2word[1520]

'溫暖'

In [19]:
def get_bow_vector(pairs, word2index):
    # YOUR CODE HERE
    vector = np.zeros((len(word2index)))
    for i, (word, pos) in enumerate(pairs):
        vector[word2index[word]] += 1
    
    # END YOUR CODE
    return vector

In [20]:
get_bow_vector(train_title_cuts[120], word2index)

array([0., 0., 0., ..., 0., 0., 0.])

# 排除較無意義的詞性

In [21]:
pos_analysis = {}
for _, pairs in train_title_cuts.items():
    for word, flag in pairs:
        if flag not in pos_analysis:
            pos_analysis[flag] = set()
        pos_analysis[flag].add(word)

for flag, words in pos_analysis.items():
    print(flag, ':', list(words)[:100])
    print('=======================')

Nb : ['魅族', '梁建章', 'm15', '谷歌', '盼保', '德羅', '英特爾', '許', '庫里', '榮威', '索尼', '迪士尼', '后羿', '楊智', '安琪拉', '王楚欽', '切爾西', '雪迪龍', '郭懿', '寶二', '遼足', '呂布', '希金斯', '猛', '伯德', '韓長賦', '郭煒煒', '吉尼斯', '華為', '李白界', 'P60八核讓', '小強', '卡納瓦羅', '康德', '李白', '余小C', '凱西', '韓寒', '皇馬', '張藝謀', '微醫', '沃爾瑪', '泰山', 'V10', '盧克肖', 'G3，76', '卓爾', '卡拉黑', '姚明', '維特爾', '張掖篇', '湯米', '山東隊', '慧商', '霍金斯', '特里', '羅', '國四', '萊萬', '拉卡拉', '維韋杜詹霍', '李秋平', '富德', '魯能', '馬卡報', '切沃', '張良咸', '韋神', '阿里巴巴', 'G7', '奧拉朱旺', '哈希', '密子君', '阿里雲', '弗格森', '王者榮', '易', '北京人和', '施泰納', '朱之文', '綠心', '艷武漢', '勒布朗詹姆斯', '宇通', '張', '王昭君', '惠若琪', '董明珠', '詹姆斯', '奧尼爾', '東決', '穆里尼奧', '阿里舜宇', '阿木木歷', '·瞻', '羅永浩', '大美', '威少', '石川佳純', '安德森']
VC : ['實施', '爆發出', '寫', '大戰', '打服', '中', '大賺', '推介', '通', '吊打', '攔', '挖', '栽種', '破', '創造', '帶火', '攻略', '打野', '打擊', '收取', '承包', '冠絕', '摘', '抽到', '精選', '拍攝', '招', '包里', '割', '體驗', '死', '募', '攢', '解決', '隔扣', '踐行', '重建', '蒙上', '解說', '春栽', '食用', '趕', '種', '增收', '點贊', '閃', '唱起', '添脫', '縊縮', '賣出', '降', '聯繫', '記', '剪除', '賒', '絕殺', '領導

|         Type        |     Description    |
|:-------------------:|:------------------:|
| A                   | 非謂形容詞         |
| Caa                 | 對等連接詞         |
| Cab                 | 連接詞，如：等等   |
| Cba                 | 連接詞，如：的話   |
| Cbb                 | 關聯連接詞         |
| D                   | 副詞               |
| Da                  | 數量副詞           |
| Dfa                 | 動詞前程度副詞     |
| Dfb                 | 動詞後程度副詞     |
| Di                  | 時態標記           |
| Dk                  | 句副詞             |
| DM                  | 定量式             |
| I                   | 感嘆詞             |
| Na                  | 普通名詞           |
| Nb                  | 專有名詞           |
| Nc                  | 地方詞             |
| Ncd                 | 位置詞             |
| Nd                  | 時間詞             |
| Nep                 | 指代定詞           |
| Neqa                | 數量定詞           |
| Neqb                | 後置數量定詞       |
| Nes                 | 特指定詞           |
| Neu                 | 數詞定詞           |
| Nf                  | 量詞               |
| Ng                  | 後置詞             |
| Nh                  | 代名詞             |
| Nv                  | 名物化動詞         |
| P                   | 介詞               |
| T                   | 語助詞             |
| VA                  | 動作不及物動詞     |
| VAC                 | 動作使動動詞       |
| VB                  | 動作類及物動詞     |
| VC                  | 動作及物動詞       |
| VCL                 | 動作接地方賓語動詞 |
| VD                  | 雙賓動詞           |
| VF                  | 動作謂賓動詞       |
| VE                  | 動作句賓動詞       |
| VG                  | 分類動詞           |
| VH                  | 狀態不及物動詞     |
| VHC                 | 狀態使動動詞       |
| VI                  | 狀態類及物動詞     |
| VJ                  | 狀態及物動詞       |
| VK                  | 狀態句賓動詞       |
| VL                  | 狀態謂賓動詞       |
| V_2                 | 有                 |
|                     |                    |
| DE                  | 的之得地           |
| SHI                 | 是                 |
| FW                  | 外文               |
|                     |                    |
| COLONCATEGORY       | 冒號               |
| COMMACATEGORY       | 逗號               |
| DASHCATEGORY        | 破折號             |
| DOTCATEGORY         | 點號               |
| ETCCATEGORY         | 刪節號             |
| EXCLAMATIONCATEGORY | 驚嘆號             |
| PARENTHESISCATEGORY | 括號               |
| PAUSECATEGORY       | 頓號               |
| PERIODCATEGORY      | 句號               |
| QUESTIONCATEGORY    | 問號               |
| SEMICOLONCATEGORY   | 分號               |
| SPCHANGECATEGORY    | 雙直線             |
| WHITESPACE          | 空白               |

In [22]:
def get_bow_vector_with_selection(pairs, word2index):
    excluded_flags = [
        # 根據以上列舉出來的文字以及詞性表，請列出想要排除的詞性
        # YOUR CODE HERE
        'COLONCATEGORY', 'COMMACATEGORY', 'DASHCATEGORY', 'DOTCATEGORY', 
        'ETCCATEGORY', 'EXCLAMATIONCATEGORY', 'PARENTHESISCATEGORY',
        'PAUSECATEGORY', 'PERIODCATEGORY', 'QUESTIONCATEGORY',
        'SEMICOLONCATEGORY', 'SPCHANGECATEGORY', 'WHITESPACE'
        # END YOUR CODE
    ]
    vector = np.zeros(len(word2index))
    for word, flag in pairs:
        if word in word2index and flag not in excluded_flags:
            vector[word2index[word]] += 1
    return vector

# Cosine Similarity

In [23]:
tmp = np.sqrt(sum(np.array([1, 2, 0, 0]) ** 2))
tmp

2.23606797749979

In [24]:
def cosine_similarity(bow1, bow2):
    # YOUR CODE HERE
    similarity = np.dot(bow1, bow2) / ( np.sqrt(sum(bow1 ** 2)) * np.sqrt(sum(bow2 ** 2)) )
    # END YOUR CODE
    return similarity

In [25]:
bow1 = get_bow_vector(train_title_cuts[100], word2index)
bow2 = get_bow_vector(train_title_cuts[130], word2index)
cosine_similarity(bow1, bow2)

0.08703882797784893

In [26]:
train_title_cuts[100]

[('山東', 'Nc'),
 ('魯能', 'Nb'),
 ('有沒有', 'D'),
 ('可能', 'D'),
 ('拿到', 'VC'),
 ('今年', 'Nd'),
 ('的', 'DE'),
 ('中', 'A'),
 ('超', 'A'),
 ('冠軍', 'Na'),
 ('？', 'QUESTIONCATEGORY')]

In [27]:
train_title_cuts[130]

[('NBA', 'Nb'),
 ('和', 'Caa'),
 ('CBA', 'FW'),
 ('差距', 'Na'),
 ('在', 'P'),
 ('哪裡', 'Ncd'),
 ('？', 'QUESTIONCATEGORY'),
 ('6', 'Neu'),
 ('張', 'Nf'),
 ('圖', 'VF'),
 ('一目瞭然', 'VH'),
 ('！', 'EXCLAMATIONCATEGORY')]

# Group mean vector

In [23]:
# group_vectors = {news_class: [] for news_class in all_news_class}
# for index, pairs in sorted(train_title_cuts.items()):
#     vector = get_bow_vector_with_selection(pairs, word2index)
#     news_class = train_classes[index]
#     group_vectors[news_class].append(vector)

# group_mean_vector = {}
# for news_class, vectors in group_vectors.items():
#     group_mean_vector[news_class] = np.mean(vectors, axis=0)
# group_mean_vector

{'體育': array([0.04      , 0.01333333, 0.00333333, ..., 0.        , 0.        ,
        0.        ]),
 '財經': array([0., 0., 0., ..., 0., 0., 0.]),
 '科技': array([0., 0., 0., ..., 0., 0., 0.]),
 '旅遊': array([0., 0., 0., ..., 0., 0., 0.]),
 '農業': array([0., 0., 0., ..., 0., 0., 0.]),
 '遊戲': array([0.        , 0.        , 0.        , ..., 0.00333333, 0.00333333,
        0.00333333])}

In [28]:
group_vectors = {news_class: [] for news_class in all_news_class}
for index, pairs in sorted(train_title_cuts.items()):
    vector = get_bow_vector_with_selection(pairs, word2index)
    news_class = train_classes[index]
    group_vectors[news_class].append(vector)

group_mean_vector = {}
for news_class, vectors in group_vectors.items():
    group_mean_vector[news_class] = np.mean(vectors, axis=0)
group_mean_vector

{'體育': array([0.04      , 0.01333333, 0.00333333, ..., 0.        , 0.        ,
        0.        ]),
 '財經': array([0., 0., 0., ..., 0., 0., 0.]),
 '科技': array([0., 0., 0., ..., 0., 0., 0.]),
 '旅遊': array([0., 0., 0., ..., 0., 0., 0.]),
 '農業': array([0., 0., 0., ..., 0., 0., 0.]),
 '遊戲': array([0., 0., 0., ..., 0., 0., 0.])}

# Group mean vector: 測試

In [31]:
classification = {news_class: [] for news_class in all_news_class}
for index, pairs in sorted(test_title_cuts.items()):
    vector = get_bow_vector_with_selection(pairs, word2index)
    if np.sum(np.square(vector)) == 0:
        continue

    max_val = -2.0
    max_class = None
    for news_class, ref_vector in group_mean_vector.items():
        val = cosine_similarity(ref_vector, vector)
        if val > max_val:
            max_class = news_class
            max_val = val

    classification[max_class].append(index)
classification

{'體育': [1800,
  1802,
  1803,
  1804,
  1805,
  1806,
  1807,
  1808,
  1813,
  1814,
  1816,
  1817,
  1818,
  1819,
  1820,
  1821,
  1822,
  1823,
  1824,
  1826,
  1828,
  1830,
  1831,
  1832,
  1833,
  1835,
  1836,
  1840,
  1842,
  1843,
  1844,
  1847,
  1851,
  1852,
  1853,
  1854,
  1855,
  1857,
  1858,
  1859,
  1862,
  1863,
  1864,
  1866,
  1867,
  1868,
  1869,
  1871,
  1872,
  1873,
  1876,
  1877,
  1878,
  1879,
  1880,
  1881,
  1883,
  1884,
  1886,
  1887,
  1888,
  1890,
  1891,
  1892,
  1894,
  1899,
  1906,
  1907,
  1921,
  1935,
  1977,
  1979,
  2034,
  2048,
  2058,
  2081,
  2109,
  2116,
  2120,
  2129,
  2130,
  2135,
  2154,
  2172,
  2178,
  2192,
  2196,
  2199,
  2211,
  2233,
  2246,
  2265,
  2277,
  2304,
  2308,
  2309,
  2310,
  2320,
  2323,
  2332,
  2354,
  2370],
 '財經': [1811,
  1815,
  1825,
  1827,
  1838,
  1841,
  1865,
  1874,
  1900,
  1901,
  1902,
  1904,
  1905,
  1908,
  1909,
  1910,
  1911,
  1912,
  1913,
  1914,
  1915,
  1

In [30]:
from collections import Counter

for group, ids in classification.items():
    counter = Counter([test_classes[id] for id in ids])
    print('predict', group, ': ', counter)

predict 體育 :  Counter({'體育': 66, '旅遊': 12, '遊戲': 9, '財經': 6, '農業': 5, '科技': 4})
predict 財經 :  Counter({'財經': 66, '科技': 19, '農業': 9, '體育': 8, '旅遊': 8, '遊戲': 5})
predict 科技 :  Counter({'科技': 60, '農業': 16, '體育': 13, '財經': 13, '旅遊': 8, '遊戲': 5})
predict 旅遊 :  Counter({'旅遊': 55, '農業': 11, '財經': 9, '體育': 3, '科技': 3, '遊戲': 2})
predict 農業 :  Counter({'農業': 56, '科技': 6, '旅遊': 5, '遊戲': 4, '體育': 2, '財經': 2})
predict 遊戲 :  Counter({'遊戲': 75, '旅遊': 12, '體育': 8, '科技': 8, '財經': 4, '農業': 3})


In [33]:
for group, ids in classification.items():
    
    corrects = [test_titles[id] for id in ids if group == test_classes[id]]
    falses = [test_titles[id] for id in ids if group != test_classes[id]]
    print(f'predict {group}: falses: {falses}')
    print(f'accuracy: {len(corrects) / (len(corrects) + len(falses))}')

predict 體育: falses: ['國產軟件+智慧城市第一龍頭，漲停突破再創新高，能否一飛沖天', '月薪12000怎麼理財？', '深圳文博會大力提升專業化辦展水平', '美天然氣NaturalGas中短線交易策略及技術走勢MT4解盤五月三日', '阿里18Q1：收入增長61%，成本上漲110%，均創歷史新高', '什麼藥能同時在桃、李、柑橘、荔枝樹上殺蟎、蚧、夜蛾和卵？', '貴陽大數據、人工智能等前沿技術發展，先行優勢已經突顯', '8場高端對話 50余場專業論壇邀你同台論道', '聊聊shopify', '36氪首發｜「立刻出行」完成B輪融資，螞蟻金服領投', '山東徹底火了！濟南五一納客122.72萬人，泰山一天接待8萬人……', '外媒稱海南將成中國對外開放新窗口：繁榮程度或超越香港', '震撼：30張世界級照片，你可能連一張也沒見過', '平陸小三亞，坡底糧宿灘', 'APEC懷柔會址最佳觀覽點建成', '乾貨｜持中國大陸護照在新加坡如何申請入台證', '巍巍太行 世外桃源-薄壁、雙底、上雲台-南太行自駕路書（1）', '喜大普奔！歷時3年，寧波又將添一地標性建築！竣工時間在今年的', '雲南茶花甲天下，艷甲滇雲在大理了', '世界第一偉人是誰？', '世界第一偉人是誰？', '中國最美森林，號稱「東方亞馬遜」，就在雲南，你知道是哪裡嗎？', '大數據+農業 山間「野果」走出「逆襲路」', '2018/5/6今日全國生豬報價', '福州金魚亮相成都農博會 今年計劃舉辦30場巡展', '一夜之間十佘畝西瓜全被開瓢，農戶氣得生病', '玉米怎麼控旺？', '大神帶玩，連紅', '韓國3大網紅終極對決COS《守望先鋒》D.va誰更美', '世乒賽決賽第二盤，樊振東3:0取勝削球手菲魯斯，怎麼評價本場比賽？', 'SUP三戰全勝領跑B組 日本冠軍一勝難求', 'QGhappy最後的倔強！使用奪冠陣容連輸三局後將要面臨保級', 'YTG的路西法怎麼又成替補了？', 'Dnf武器怎麼上13？', '卡莎第一次在MSI敗北，新人解說頻爆金句成為亮點！', 'DNF：歷年天空套外觀一覽，國服十週年會送哪一套？']
accuracy: 0.6470588235294118
predict 財經: falses: ['科比他的一生之敵只有一個人，不是詹姆斯，那會是