In [1]:
import os
import jieba
import pandas as pd


In [2]:
# row只顯示15個和column只顯示10個
# pd.set_option('display.max_rows', 15)
# pd.set_option('display.max_columns', 10)

In [3]:
train_directory = 'nlp_news_datasets\chinese_news_trans'
test_directory = 'nlp_news_datasets\chinese_news_test'

In [4]:
# TODO: 讀取檔案流程
# 因為要處理資料夾很多次，所以定義成函式。
def process_dirs(directory):
    df = pd.DataFrame(None, columns=['類別', '內容'])

    for dir_path, dir_names, file_names in os.walk(directory):
        for single_file in file_names:
            if not single_file.startswith('.'): # .DS_Store
                file_read = open(os.path.join(dir_path, single_file), 'r', encoding='utf-8')
                content = file_read.read()
                file_read.close()
                content = content.replace('\u3000', '').replace('\n','') # 去掉換行符號及特殊字元
                split_word = jieba.cut(content) # 分詞
                content = ' '.join(split_word)
                s = pd.Series([os.path.split(dir_path)[-1], content], index=['類別', '內容'])
                df = df.append(s, ignore_index=True)

    df['類別'] = df['類別'].astype('category')

    return df

In [5]:
# TODO: 讀入訓練資料
df_train = process_dirs(train_directory)
df_train

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Ace\AppData\Local\Temp\jieba.cache
Loading model cost 0.630 seconds.
Prefix dict has been built successfully.


Unnamed: 0,類別,內容
0,交通,【 日 期 】 19960104 【 版 號 】 1 【 ...
1,交通,【 日 期 】 19960226 【 版 號 】 5 【 ...
2,交通,大 秦鐵路 萬噸 列車 試運 成功 新華社 北京...
3,交通,遼寧省 檯 安縣 村村 都 通 柏油路 鄉村 公...
4,交通,北京 — 烏蘭 巴托 — 莫斯料 ３ ／ ４ 次...
...,...,...
2632,體育,馬 玉芹 破 女子 ４ ０ ０ 米 跑 全國 青...
2633,體育,國際 奧委會 中國 臺 北委員 吳經國 訪問 北...
2634,體育,亞奧 理事 會 ３ ９ 個 成員 組織 全部 以...
2635,體育,世界 盃 乒乓球 團體賽 男子 團體 採用 新賽...


In [6]:
# TODO: 類別處理
# 由於scikit-learn不接受字串，所以要把類別轉換成整數

# df['類別'].cat.categories → 取出類別；cat.categories → 得到所有類別
saved_map = {cat:df_train['類別'].cat.categories.get_loc(cat) for cat in df_train['類別'].cat.categories} # 走過categories同時創造字典
saved_map

{'交通': 0,
 '政治': 1,
 '教育': 2,
 '環境': 3,
 '經濟': 4,
 '藝術': 5,
 '計算機': 6,
 '軍事': 7,
 '醫藥': 8,
 '體育': 9}

In [7]:
# cat.codes → 轉換成整數
df_train['類別'] = df_train['類別'].cat.codes # 把類別替換成code，並且記錄起來。
df_train

Unnamed: 0,類別,內容
0,0,【 日 期 】 19960104 【 版 號 】 1 【 ...
1,0,【 日 期 】 19960226 【 版 號 】 5 【 ...
2,0,大 秦鐵路 萬噸 列車 試運 成功 新華社 北京...
3,0,遼寧省 檯 安縣 村村 都 通 柏油路 鄉村 公...
4,0,北京 — 烏蘭 巴托 — 莫斯料 ３ ／ ４ 次...
...,...,...
2632,9,馬 玉芹 破 女子 ４ ０ ０ 米 跑 全國 青...
2633,9,國際 奧委會 中國 臺 北委員 吳經國 訪問 北...
2634,9,亞奧 理事 會 ３ ９ 個 成員 組織 全部 以...
2635,9,世界 盃 乒乓球 團體賽 男子 團體 採用 新賽...


In [8]:
# TODO: 讀入測試資料
df_test = process_dirs(test_directory)
df_test

Unnamed: 0,類別,內容
0,交通,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
1,交通,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
2,交通,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
3,交通,三趟 火車 停開 乘客 可 全額 退票 瀏覽次數 ： 1180 ...
4,交通,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
...,...,...
96,體育,最 優秀 選手 無緣 亞運會 健美 賽 健美 在 亞洲 運動會 上 ...
97,體育,各國 記者 眼中 的 羽毛球 世錦賽 -----------------------...
98,體育,友好 運動會 第五天 東道 主選手 大顯 神威 2001 年 09 月 03 日 02 ...
99,體育,不靠 技術 比運氣 第二 屆 奧運會 在 巴黎 舉行 ， 同時 這裡 也 正在 舉行 國際 ...


In [9]:
# TODO: 使用category來map。 這邊必須使用saved_map來替換，因為如果直接使用code可能會發生沒對照到的事故。
df_test['類別'] = df_test['類別'].replace(saved_map) # 把類別替換成code，並且記錄起來。
df_test

Unnamed: 0,類別,內容
0,0,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
1,0,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
2,0,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
3,0,三趟 火車 停開 乘客 可 全額 退票 瀏覽次數 ： 1180 ...
4,0,日 月光 華 -- Traffic _ Info 精華區 文章 閱讀 -------...
...,...,...
96,9,最 優秀 選手 無緣 亞運會 健美 賽 健美 在 亞洲 運動會 上 ...
97,9,各國 記者 眼中 的 羽毛球 世錦賽 -----------------------...
98,9,友好 運動會 第五天 東道 主選手 大顯 神威 2001 年 09 月 03 日 02 ...
99,9,不靠 技術 比運氣 第二 屆 奧運會 在 巴黎 舉行 ， 同時 這裡 也 正在 舉行 國際 ...


In [10]:
from sklearn.feature_extraction.text import TfidfVectorizer
vec = TfidfVectorizer()
train_vec = vec.fit_transform(df_train['內容']) # 注意一定要使用fit_transform，才會轉換成詞向量。
train_vec

<2637x96111 sparse matrix of type '<class 'numpy.float64'>'
	with 458893 stored elements in Compressed Sparse Row format>

In [11]:
print(f'總共維度：{len(vec.get_feature_names())}')

總共維度：96111


In [12]:
for entry in train_vec: print(entry) # 看到transform後的matrix

  (0, 18276)	0.0915545916432285
  (0, 55080)	0.17977354410092267
  (0, 80283)	0.17086759391872436
  (0, 10635)	0.07545688183872995
  (0, 18267)	0.09930423402371821
  (0, 53354)	0.17086759391872436
  (0, 17487)	0.05696876874041001
  (0, 39539)	0.09236072893655461
  (0, 66888)	0.08379960178230576
  (0, 11888)	0.12103646864033255
  (0, 83284)	0.1281261138259475
  (0, 38869)	0.12429648077255365
  (0, 88653)	0.057299072344780516
  (0, 86518)	0.1645487217042411
  (0, 71192)	0.08508780792185333
  (0, 11963)	0.17977354410092267
  (0, 78943)	0.0903982838415199
  (0, 27924)	0.05104268886595841
  (0, 60924)	0.14442260123839737
  (0, 44158)	0.08436283202092827
  (0, 85786)	0.17977354410092267
  (0, 48901)	0.09958765441760986
  (0, 33598)	0.11887425451419638
  (0, 39503)	0.28465826902077346
  (0, 68415)	0.25038625345735926
  (0, 37226)	0.35954708820184533
  (0, 95216)	0.47279344772602727
  (0, 24959)	0.35954708820184533
  (0, 627)	0.17086759391872436
  (0, 19885)	0.09325381445548207
  (0, 50496)	0.

  (0, 51650)	0.10530216821920979
  (0, 52234)	0.10530216821920979
  (0, 53392)	0.10008551707664085
  (0, 56717)	0.10530216821920979
  (0, 50142)	0.0963842441879467
  (0, 91748)	0.10530216821920979
  (0, 92999)	0.10008551707664085
  (0, 49623)	0.09351331389421194
  (0, 18387)	0.10530216821920979
  (0, 48929)	0.10530216821920979
  (0, 31966)	0.0963842441879467
  (0, 52344)	0.0963842441879467
  (0, 57585)	0.28053994168263585
  (0, 9845)	0.09351331389421194
  (0, 30366)	0.364670372181511
  (0, 81004)	0.09116759304537775
  (0, 67082)	0.07633739739527062
  (0, 34932)	0.09116759304537775
  (0, 19999)	0.08746632015668358
  (0, 79103)	0.2675529429803119
  (0, 78664)	0.3383815594517953
  (0, 88947)	0.08595094190280878
  (0, 47067)	0.08224966901411464
  (0, 74789)	0.05509999353645179
  (0, 24148)	0.07387931037564453
  :	:
  (0, 70364)	0.04016760636596437
  (0, 12724)	0.03688006188397014
  (0, 78203)	0.035850244831677494
  (0, 75119)	0.06925858470009891
  (0, 42693)	0.051109588372715724
  (0, 6473

  (0, 18903)	0.09471970637276796
  (0, 18921)	0.09189835650661164
  (0, 47339)	0.08764411794956793
  (0, 38899)	0.14520685709083456
  (0, 17734)	0.10348361952903802
  (0, 94250)	0.07642536331510921
  (0, 85437)	0.10348361952903802
  (0, 42510)	0.09471970637276796
  (0, 9088)	0.10348361952903802
  (0, 90540)	0.08959314581677319
  (0, 74056)	0.08764411794956793
  (0, 51898)	0.09835705897304324
  (0, 94411)	0.07011629163702779
  (0, 85604)	0.10348361952903802
  (0, 12691)	0.10348361952903802
  (0, 92895)	0.08192937440951603
  (0, 20561)	0.07570267210450835
  (0, 15058)	0.10348361952903802
  (0, 9421)	0.10348361952903802
  (0, 57020)	0.09835705897304324
  (0, 85434)	0.17528823589913586
  (0, 38900)	0.29748212077628605
  (0, 46025)	0.16385874881903206
  (0, 68427)	0.17528823589913586
  (0, 82328)	0.10348361952903802
  :	:
  (0, 21940)	0.11779507400513817
  (0, 86068)	0.04073512892344495
  (0, 79281)	0.05427679005755771
  (0, 22366)	0.04253764699315374
  (0, 64229)	0.12660281269592596
  (0, 

  (0, 88653)	0.0383620851624834
  (0, 88299)	0.12069946344769736
  (0, 21222)	0.19703739715780522
  (0, 20852)	0.11472003297109844
  (0, 55023)	0.12069946344769736
  (0, 90745)	0.24139892689539472
  (0, 70652)	0.12069946344769736
  (0, 80616)	0.12069946344769736
  (0, 59477)	0.12069946344769736
  (0, 80318)	0.10222485509304342
  (0, 93181)	0.12069946344769736
  (0, 47058)	0.11047755953210048
  (0, 38043)	0.24139892689539472
  (0, 41491)	0.12069946344769736
  (0, 37880)	0.12069946344769736
  (0, 11627)	0.22095511906420096
  (0, 56383)	0.24139892689539472
  (0, 78002)	0.12069946344769736
  (0, 11022)	0.10449812905550154
  (0, 63487)	0.1071868414784307
  (0, 69033)	0.10449812905550154
  (0, 21187)	0.20051131123300717
  (0, 35022)	0.11472003297109844
  (0, 54465)	0.10222485509304342
  (0, 30222)	0.09851869857890261
  (0, 75820)	0.10025565561650358
  :	:
  (0, 87027)	0.08231736418670677
  (0, 72422)	0.042417961505687704
  (0, 79402)	0.04599432409900576
  (0, 61487)	0.05752902652244088
  (0,

  (0, 27924)	0.021265670405673214
  (0, 43494)	0.07075578778598592
  (0, 67627)	0.06725055833592607
  (0, 95604)	0.07075578778598592
  (0, 48136)	0.06725055833592607
  (0, 67624)	0.07075578778598592
  (0, 22772)	0.07075578778598592
  (0, 25235)	0.07075578778598592
  (0, 34492)	0.05992570262378022
  (0, 53891)	0.07075578778598592
  (0, 20745)	0.07075578778598592
  (0, 75563)	0.057753099562211266
  (0, 47179)	0.07075578778598592
  (0, 28295)	0.07075578778598592
  (0, 65256)	0.07075578778598592
  (0, 13439)	0.06476355846233096
  (0, 54328)	0.05992570262378022
  (0, 39670)	0.07075578778598592
  (0, 64437)	0.04678687049136608
  (0, 13444)	0.07075578778598592
  (0, 11290)	0.07075578778598592
  (0, 63708)	0.07075578778598592
  (0, 19366)	0.07075578778598592
  (0, 85759)	0.07075578778598592
  (0, 39840)	0.07075578778598592
  (0, 32812)	0.5181084676986477
  :	:
  (0, 30286)	0.09412267340679487
  (0, 82269)	0.09782197538983847
  (0, 62513)	0.07072068949471767
  (0, 72400)	0.06250454682466523
  (

  (0, 39503)	0.031222782998369406
  (0, 24599)	0.048659800587520244
  (0, 25257)	0.048659800587520244
  (0, 25140)	0.048659800587520244
  (0, 66370)	0.048659800587520244
  (0, 39373)	0.04624920250939104
  (0, 44615)	0.048659800587520244
  (0, 22461)	0.04624920250939104
  (0, 70809)	0.048659800587520244
  (0, 26699)	0.048659800587520244
  (0, 60859)	0.048659800587520244
  (0, 18403)	0.048659800587520244
  (0, 25127)	0.048659800587520244
  (0, 41675)	0.048659800587520244
  (0, 18530)	0.048659800587520244
  (0, 81125)	0.048659800587520244
  (0, 56372)	0.048659800587520244
  (0, 76800)	0.09731960117504049
  (0, 88227)	0.048659800587520244
  (0, 22674)	0.048659800587520244
  (0, 32346)	0.04624920250939104
  (0, 31055)	0.048659800587520244
  (0, 25399)	0.048659800587520244
  (0, 29982)	0.048659800587520244
  (0, 26006)	0.048659800587520244
  (0, 34658)	0.048659800587520244
  :	:
  (0, 9537)	0.025135295264084676
  (0, 45258)	0.025769647468055937
  (0, 12937)	0.028340505017230497
  (0, 40219)	

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [13]:
vec.vocabulary_

{'19960104': 627,
 '合巢': 24959,
 '高速公路': 95216,
 '巢蕪': 37226,
 '竣工': 68415,
 '建中': 39503,
 '安徽': 33598,
 '日前': 48901,
 '通車並': 85786,
 '投入': 44158,
 '營運': 60924,
 '國家': 27924,
 '規劃': 78943,
 '京福': 11963,
 '綜合': 71192,
 '運輸網': 86518,
 '重要': 88653,
 '幹線': 38869,
 '路段': 83284,
 '交通部': 11888,
 '確定': 66888,
 '建成': 39539,
 '全國': 17487,
 '條重點': 53354,
 '公路': 18267,
 '之一': 10635,
 '該條': 80283,
 '正線長': 55080,
 '公里': 18276,
 '19960226': 648,
 '我首': 42941,
 '人磁懸': 12291,
 '浮列車': 57859,
 '實驗線': 34586,
 '通過': 85791,
 '鑑定': 89504,
 '小琴': 36279,
 '本報': 51760,
 '成都': 42755,
 '記者': 79591,
 '報道': 29729,
 '我國首': 42847,
 '噸載': 27251,
 '人常導': 12177,
 '磁懸': 66957,
 '及其': 23573,
 '西南': 78656,
 '交通': 11875,
 '大學': 30984,
 '部級': 87986,
 '這標誌': 85500,
 '國陸': 28263,
 '運輸': 86505,
 '技術': 44044,
 '國際': 28265,
 '先進': 16903,
 '水平': 56284,
 '一種': 7093,
 '無接': 60265,
 '觸式': 79335,
 '系統': 69504,
 '運行': 86487,
 '時靠電': 49869,
 '磁力': 66953,
 '支撐': 46694,
 '車體': 83651,
 '使列車': 14376,
 '懸浮': 42535,
 '空中': 68082,
 '毫米': 56018

In [14]:
# 為了方便利用數字查中文字詞，所以互換字典的key及value
reverse = {v:k for k, v in vec.vocabulary_.items()} 
reverse

{627: '19960104',
 24959: '合巢',
 95216: '高速公路',
 37226: '巢蕪',
 68415: '竣工',
 39503: '建中',
 33598: '安徽',
 48901: '日前',
 85786: '通車並',
 44158: '投入',
 60924: '營運',
 27924: '國家',
 78943: '規劃',
 11963: '京福',
 71192: '綜合',
 86518: '運輸網',
 88653: '重要',
 38869: '幹線',
 83284: '路段',
 11888: '交通部',
 66888: '確定',
 39539: '建成',
 17487: '全國',
 53354: '條重點',
 18267: '公路',
 10635: '之一',
 80283: '該條',
 55080: '正線長',
 18276: '公里',
 648: '19960226',
 42941: '我首',
 12291: '人磁懸',
 57859: '浮列車',
 34586: '實驗線',
 85791: '通過',
 89504: '鑑定',
 36279: '小琴',
 51760: '本報',
 42755: '成都',
 79591: '記者',
 29729: '報道',
 42847: '我國首',
 27251: '噸載',
 12177: '人常導',
 66957: '磁懸',
 23573: '及其',
 78656: '西南',
 11875: '交通',
 30984: '大學',
 87986: '部級',
 85500: '這標誌',
 28263: '國陸',
 86505: '運輸',
 44044: '技術',
 28265: '國際',
 16903: '先進',
 56284: '水平',
 7093: '一種',
 60265: '無接',
 79335: '觸式',
 69504: '系統',
 86487: '運行',
 49869: '時靠電',
 66953: '磁力',
 46694: '支撐',
 83651: '車體',
 14376: '使列車',
 42535: '懸浮',
 68082: '空中',
 56018: '毫米'

In [15]:
# 利用數字查詢中文字詞
reverse[51302]

'服務'

In [16]:
test_vec = vec.transform(df_test['內容'])
test_vec

<101x96111 sparse matrix of type '<class 'numpy.float64'>'
	with 26444 stored elements in Compressed Sparse Row format>

In [17]:
print(f'維度：{len(vec.get_feature_names())}') # 由於我們用剛剛的vec訓練它，所以維度會保持跟剛剛一樣。

維度：96111


## Scikit-Learn 單純貝氏
### Bernoulli Naive Bayes → 對於特徵是True和False二分法優化。
### Gaussian Naive Bayes   → 對於特徵是高斯分布的連續數字優化。
### Multinomial Naive Bayes → 對於特徵是整數，而且是數幾次的分布優化。

## Alpha的選擇
### 1.) Alpha的用意是Laplace Smoothing的意思
### 2.) 不應該讓機率是0%，而是一個極小接近0的機率來算，這就是Smoothing。
### 3.) 如果使用的是TfidfVectorizer，td-idf分數算出來都大概0.x而已，所以通常會設置alpha=0.001。

In [18]:
# TODO: 建立模型
from sklearn.naive_bayes import MultinomialNB # 只要是文字，通常會選擇MultinomialNB
clf = MultinomialNB(alpha=0.001).fit(train_vec, df_train['類別'])
clf

MultinomialNB(alpha=0.001)

In [19]:
from sklearn.metrics import accuracy_score
predict = clf.predict(test_vec)
print(f'預測：{list(predict)}')
print()
print(f'正確標籤：{df_test["類別"].to_list()}')
print()
print(f'Naive Bayes正確率：{accuracy_score(df_test["類別"], predict)*100}%')

預測：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9]

正確標籤：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9]

Naive Bayes正確率：100.0%


In [20]:
# 混淆矩陣 confusion matrix
from sklearn.metrics import confusion_matrix
c = [(cat + "(預測)") for cat in saved_map.keys()]
i = [(cat + "(真實)") for cat in saved_map.keys()]
mat = confusion_matrix(df_test["類別"], predict)
pd.DataFrame(mat, index=i, columns=c)

Unnamed: 0,交通(預測),政治(預測),教育(預測),環境(預測),經濟(預測),藝術(預測),計算機(預測),軍事(預測),醫藥(預測),體育(預測)
交通(真實),10,0,0,0,0,0,0,0,0,0
政治(真實),0,11,0,0,0,0,0,0,0,0
教育(真實),0,0,10,0,0,0,0,0,0,0
環境(真實),0,0,0,10,0,0,0,0,0,0
經濟(真實),0,0,0,0,10,0,0,0,0,0
藝術(真實),0,0,0,0,0,10,0,0,0,0
計算機(真實),0,0,0,0,0,0,10,0,0,0
軍事(真實),0,0,0,0,0,0,0,10,0,0
醫藥(真實),0,0,0,0,0,0,0,0,10,0
體育(真實),0,0,0,0,0,0,0,0,0,10


In [21]:
# TODO: KNN分類器
from sklearn import neighbors
# 通常在選K值的時候，是用經驗法則在選擇。
# 但一個通常的規則，不要選太少(<3)，因為無法達到多數決的效果；也不要選太多(>20)，因為這樣選出來的範圍太大，沒有找鄰居的效果。
clf = neighbors.KNeighborsClassifier(n_neighbors=8) # 找K個最近的鄰居
clf = clf.fit(train_vec, df_train['類別'])
clf

KNeighborsClassifier(n_neighbors=8)

In [22]:
# 開始預測
# 1. 使用classifier進行predict
# 2. predict完成以後，使用sklearn內建的accuracy_score來算出正確機率
predict = clf.predict(test_vec)
print(f'預測：{predict}')
print(f'正確標籤：{df_test["類別"].to_list()}')

預測：[0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3
 3 3 3 3 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 7 7 7
 7 7 7 7 7 7 7 8 8 8 8 8 8 8 8 8 8 9 9 9 9 9 9 9 9 9 9]
正確標籤：[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 9, 9]


In [23]:
from sklearn.metrics import accuracy_score
score = accuracy_score(df_test["類別"], predict)
print(f'KNN正確率：{score*100} %')

KNN正確率：100.0 %


In [24]:
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(df_test["類別"], predict)
pd.DataFrame(cm, index=i, columns=c)

Unnamed: 0,交通(預測),政治(預測),教育(預測),環境(預測),經濟(預測),藝術(預測),計算機(預測),軍事(預測),醫藥(預測),體育(預測)
交通(真實),10,0,0,0,0,0,0,0,0,0
政治(真實),0,11,0,0,0,0,0,0,0,0
教育(真實),0,0,10,0,0,0,0,0,0,0
環境(真實),0,0,0,10,0,0,0,0,0,0
經濟(真實),0,0,0,0,10,0,0,0,0,0
藝術(真實),0,0,0,0,0,10,0,0,0,0
計算機(真實),0,0,0,0,0,0,10,0,0,0
軍事(真實),0,0,0,0,0,0,0,10,0,0
醫藥(真實),0,0,0,0,0,0,0,0,10,0
體育(真實),0,0,0,0,0,0,0,0,0,10


In [31]:
# TODO: 實際推測一則新聞
news_report = input("請寫一則新聞:\n")

請寫一則新聞:
讓學校特色在校本課程建設中凸顯 大慶市直機關三小學 李淑文       話題一：為什麼要開發校本課程     我個人認為基於這樣三點考慮：一是新課程的需要。基礎教育課程改革出臺了三級課程管理的政策，這就是說課程除了指國家課程，還應有地方課程和學校課程。這就和以前不一樣了，過去我們習慣於是國家課程執行者的角色，用現成的教材（課本）去教學生。現在，國家把這種權利下放了，地方和學校將擁有一定程度的課程自主權，共同參與課程決策。     由於三級課程管理體制的確立，必然出現相應的"三級課程"。校本課程也就成了國家課程計劃中一項不可缺少的組成部分。二是體現學校辦學特色的需要。校本課的確立要在學校明晰的辦學理念下，發揮自身的優勢，繼承學校在以往工作中的傳統和經驗。本著目前需要與長遠發展相結合的原則，使校本課程與國家課程、地方課程融為一體，充分挖掘、利用校內外一切課程資源。例如：我們機關三小，隸屬於大慶市教育局。學校辦學條件、設備可稱為"一流"。師資力量比較雄厚，教師隊伍專業化、年輕化。學校有開展活動課的基礎，又有與社會聯合辦學的經驗。最重要的原因，是我們形成了具有自己特色的辦學之路，使在校的每一個學生都得到健康、全面的發展。三是滿足學生多樣化的發展需求。我們在學生中以"你喜歡在哪方面得到發展？"為題做了一個調查，結果是有20%的學生想做主持人，40%的學生喜歡錶演。另一部分學生則對環境、信息等產生濃厚的興趣。經過調查、分析、論證，廣泛徵求師生的意見，最後確定了我校先期開發的四種校本課。（即電影閱讀、環保教育、信息技術和校園電視節目）一改了過去選擇"適合教育的兒童"為"選擇適合兒童的教育"，拓展了學生自主學習活動的空間，為學生自我教育和主動提高能力創造了課程載體。     話題二：怎樣實施校本課程     這就涉及到了如何把課改理念轉化為教學實踐的問題。一提到課程，馬上就會使人聯想到課本，非文本的屬不屬於課程，校本課是不是都要有課本，沒有課本怎麼上呢？下面我就以我校的校本課之一，電影閱讀課為例來談。     電影閱讀課是根據學生們普遍對電影感興趣而開設的，用看電影這種形式取代枯燥單一的閱讀，把看電影與閱讀教學有機的結合。這屬於利用媒體資源開發的一種課程。該課採用的是聽聽、看看、說說、演演的形式，即看電影之前老師先向學生簡單的介紹影片內容，然後組織學生觀看電影，再根

In [32]:
news_report = news_report.replace('\u3000', '').replace('\n','') # 去掉換行符號及特殊字元
news_report = jieba.cut(news_report) # 分詞
news_report = ' '.join(news_report)
news_report = pd.Series(news_report)
# print(news_report)

t = vec.transform(news_report) # 資料格式須為pandas.core.series.Series
t

<1x96111 sparse matrix of type '<class 'numpy.float64'>'
	with 375 stored elements in Compressed Sparse Row format>

In [33]:
predict = clf.predict(t)
p = list(saved_map.keys())[predict[0]]
print(f'應該是：{p}')

應該是：教育
