In [1]:
import jieba
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

In [2]:
# 繁體中文範例句子
documents = [
    "他的速度真快",
    "他的速度真慢",
    "這是一個句子",
    "這是另一個句子",
    "這個數字是五",
    "這個數字不是五",
    "他的身高很高",
    "他的身高不高",
    "他的身高很矮",
    "他的身高不矮",
    "今天天氣很好",
    "今天天氣不好",
    "這個測試真難",
    "這個測試不難",
    "這是一個好例子",
    "這不是一個好例子",
    "這是一個壞例子",
    "這不是一個壞例子",
    "他是我最好的朋友",
    "他不是我最好的朋友",
    "他是我最壞的朋友",
    "他不是我最壞的朋友",
    "我長得好笑",
    "我長得不好笑"
]

In [3]:
# 為每個句子隨機生成標籤
labels = [1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0,1,0]

In [4]:
# 分詞
jieba.add_word('不')
documents = [' '.join(jieba.cut(doc)) for doc in documents]; documents

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\darren\AppData\Local\Temp\jieba.cache
Loading model cost 0.581 seconds.
Prefix dict has been built successfully.


['他 的 速度 真 快',
 '他 的 速度 真慢',
 '這是 一個 句子',
 '這是 另 一個 句子',
 '這個 數字 是 五',
 '這個 數字 不是 五',
 '他 的 身高 很 高',
 '他 的 身高 不高',
 '他 的 身高 很矮',
 '他 的 身高 不 矮',
 '今天 天氣 很 好',
 '今天 天氣 不好',
 '這個 測試 真難',
 '這個 測試 不難',
 '這是 一個 好 例子',
 '這 不是 一個 好 例子',
 '這是 一個 壞 例子',
 '這 不是 一個 壞 例子',
 '他 是 我 最好 的 朋友',
 '他 不是 我 最好 的 朋友',
 '他 是 我 最壞 的 朋友',
 '他 不是 我 最壞 的 朋友',
 '我長 得 好笑',
 '我長 得 不好 笑']

In [5]:
# 切分數據集為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(documents, labels, test_size=0.5, random_state=42)

In [6]:
# 建立 TF-IDF 物件
vectorizer = TfidfVectorizer()

# 對訓練集進行 TF-IDF 轉換
X_train_transformed = vectorizer.fit_transform(X_train)

# 轉換測試集
X_test_transformed = vectorizer.transform(X_test)

In [7]:
# 建立貝葉斯分類器物件
clf = MultinomialNB()

# 訓練模型
clf.fit(X_train_transformed, y_train)

In [8]:
# 進行預測
y_pred = clf.predict(X_test_transformed)

# 輸出預測結果
print(X_test)
print(y_pred)

['他 的 身高 很矮', '這是 一個 壞 例子', '他 的 速度 真 快', '他 是 我 最好 的 朋友', '今天 天氣 不好', '他 的 身高 不 矮', '這個 測試 不難', '他 的 速度 真慢', '他 不是 我 最壞 的 朋友', '這個 數字 不是 五', '這是 一個 句子', '這個 測試 真難']
[1 0 0 0 1 1 1 0 0 1 0 1]


In [9]:
accuracy_score(y_test, y_pred)

0.3333333333333333