In [1]:
import glob
import os
import pandas as pd
def read_data(dirname):
    pat = "{}/*/*.[tT][xX][tT]".format(dirname)
    fs = glob.glob(pat)
    contents = []
    answers = []
    for fn in fs:
        with open(fn, "r", encoding="utf-8") as f:
            news = f.read()
        contents.append(news)
        dn = os.path.split(fn)[0]
        dn = os.path.split(dn)[-1]
        answers.append(dn)
    df = pd.DataFrame({
        "content":contents,
        "ans":answers
    })
    return df

In [2]:
train_df = read_data("chinese_news_trans")
train_df

Unnamed: 0,content,ans
0,【 日 期 】19960104\n【 版 號 】1\n【 標 題 】合巢蕪高速公路巢蕪...,交通
1,【 日 期 】19960226\n【 版 號 】5\n【 標 題 】我首臺載人磁懸浮列...,交通
2,大秦鐵路萬噸列車試運成功\n新華社北京５月２４日電（通訊員李忠民）大秦...,交通
3,遼寧省檯安縣村村都通柏油路鄉村公路建設全國數第\n一\n (4)...,交通
4,北京—烏蘭巴托—莫斯料３／４次國際旅客列車通車\n３０週年\n ...,交通
...,...,...
2632,馬玉芹破女子４００米跑全國青年紀錄\n新華社鞍山５月１０日電（通訊員王...,體育
2633,國際奧委會中國臺北委員吳經國訪問北京\n新華社北京５月１０日電記者《中...,體育
2634,亞奧理事會３９個成員組織全部以書面形式確認參加\n第十一屆亞運會\n ...,體育
2635,世界盃乒乓球團體賽男子團體採用新賽制\n新華社北京５月１０日電（記者樑...,體育


In [3]:
test_df = read_data("chinese_news_test")
test_df

Unnamed: 0,content,ans
0,日月光華 -- Traffic_Info精華區文章閱讀\n-----------------...,交通
1,日月光華 -- Traffic_Info精華區文章閱讀\n-----------------...,交通
2,日月光華 -- Traffic_Info精華區文章閱讀\n-----------------...,交通
3,三趟火車停開 乘客可全額退票 \n瀏覽次數：1180 \n 昨日，來自鐵路部門的消息說...,交通
4,日月光華 -- Traffic_Info精華區文章閱讀\n-----------------...,交通
...,...,...
96,最優秀選手無緣亞運會健美賽\n \n \n 健美在亞洲運動會上是“新生兒”——韓國釜...,體育
97,\n各國記者眼中的羽毛球世錦賽\n \n\n-----------------------...,體育
98,\n友好運動會第五天 東道主選手大顯神威\n2001年09月03日02:51:40 新華社 ...,體育
99,不靠技術比運氣\n\n 第二屆奧運會在巴黎舉行，同時這裡也正在舉行國際博覽會，東道主把一些...,體育


In [4]:
#.unique() 對資料計數一次後, 即換另計數
labels = train_df["ans"].unique()
label_to_idx = {l:i for i, l in enumerate(labels)}
idx_to_label = {i:l for i, l in enumerate(labels)}

In [5]:
from urllib.request import urlretrieve
url = "https://github.com/fxsjy/jieba/raw/master/extra_dict/dict.txt.big"
urlretrieve(url, "dict.txt.big")

('dict.txt.big', <http.client.HTTPMessage at 0x29be298d848>)

In [6]:
import jieba
jieba.set_dictionary("dict.txt.big")
def newscut(n):
    n = n.replace("\r", "").replace("\n", "")
    return " ".join(jieba.cut(n))
x_train = train_df["content"].apply(newscut)
x_test = test_df["content"].apply(newscut)
y_train = train_df["ans"].replace(label_to_idx)
y_test = test_df["ans"].replace(label_to_idx)

Building prefix dict from C:\Users\trytr\PycharmProjects\ML Demo\dict.txt.big ...
Dumping model to file cache C:\Users\trytr\AppData\Local\Temp\jieba.uaaef5a8d26fe4e316d0f30f732a3985a.cache
Loading model cost 1.150 seconds.
Prefix dict has been built succesfully.


In [7]:
from sklearn.feature_extraction.text import CountVectorizer
vec = CountVectorizer()
x_train_vec = vec.fit_transform(x_train)
x_test_vec = vec.transform(x_test)

In [8]:
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB()
clf.fit(x_train_vec, y_train)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

In [9]:
from sklearn.metrics import accuracy_score
pre = clf.predict(x_test_vec)
accuracy_score(pre, y_test)

1.0

In [None]:
n = input("輸入新聞:")
n = newscut(n)
n = vec.transform([n])
proba = clf.predict_proba(n)[0]
print("*" * 30)
plist = sorted(zip(labels, proba), key=lambda x:x[1], reverse=True)
for l, p in plist:
    print(l, "類別的機率:", round(p * 100, 2), "%")

In [None]:
sorted([("a", 0.5), ("b", 0.2), ("c", 0.3)], 
       reverse=True,
       key=lambda x:x[1])