# Naive Bayes classifier
貝葉斯分類器是一種基於貝葉斯定理（Bayes' Theorem）的簡單但功能強大的分類演算法  
1.高斯朴素貝葉斯（Gaussian Naive Bayes）：假設特徵服從正態分佈。  
2.多項式貝葉斯（Multinomial Naive Bayes）：適用於離散計數資料（如文本分類中的詞頻）。  
3.伯努利貝葉斯（Bernoulli Naive Bayes）：適用於二進制特徵。  

In [1]:
# 定義正向和負向詞彙的出現次數計數器
pos_counter = {"good": 10, "great": 15, "excellent": 7, "love": 8, "amazing": 6}  # 正向詞彙計數
neg_counter = {"terrible": 12, "bad": 14, "awful": 9, "hate": 10, "horrible": 8}  # 負向詞彙計數

# 範例評論
review = "This crib was terrible"

# 預設正向和負向類別的先驗比例
percent_pos = 0.5  # 正向先驗機率
percent_neg = 0.5  # 負向先驗機率

# 計算總正向和負向詞彙的數量（用於條件機率計算）
total_pos = sum(pos_counter.values())  # 正向詞彙總數
total_neg = sum(neg_counter.values())  # 負向詞彙總數

# 初始化後驗機率
pos_probability = 1  # 正向的後驗機率初始化為1
neg_probability = 1  # 負向的後驗機率初始化為1

# 將評論進行分詞，轉換為小寫以便匹配詞彙
review_words = review.lower().split()

# 使用朴素貝葉斯算法計算條件機率
for word in review_words:
    # 獲取當前單詞在正向和負向詞彙中的出現次數，若未出現則預設為0
    word_in_pos = pos_counter.get(word, 0)
    word_in_neg = neg_counter.get(word, 0)

    # 加入拉普拉斯平滑處理，防止出現條件機率為0的情況
    pos_probability *= (word_in_pos + 1) / (total_pos + len(pos_counter))
    neg_probability *= (word_in_neg + 1) / (total_neg + len(neg_counter))

# 計算最終的後驗機率
final_pos = pos_probability * percent_pos  # 正向機率 * 先驗機率
final_neg = neg_probability * percent_neg  # 負向機率 * 先驗機率

# 比較最終機率，輸出分類結果
if final_pos > final_neg:
    print("The review is positive")  # 如果正向機率較高，分類為正向
else:
    print("The review is negative")  # 如果負向機率較高，分類為負向

The review is negative


# Naive Bayes using scikit-learn

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# 假設的正面和負面評論列表
neg_list = [
    "This crib was terrible",  # 負面評論1
    "I hate this product",     # 負面評論2
    "Worst experience ever"    # 負面評論3
]
pos_list = [
    "This crib was amazing",   # 正面評論1
    "I love this product",     # 正面評論2
    "Best experience ever"     # 正面評論3
]

# 待測評論
review = "This crib was amazing"  # 需要判斷的評論

# 1. 使用 CountVectorizer 建立詞頻矩陣
counter = CountVectorizer()  # 初始化 CountVectorizer
counter.fit(neg_list + pos_list)  # 根據所有評論進行詞彙表的學習
print("詞彙表：")
print(counter.vocabulary_)  # 輸出詞彙表，每個詞與其索引的映射

# 2. 將所有評論轉換為詞頻矩陣
training_counts = counter.transform(neg_list + pos_list)  # 將整個訓練集轉換為詞頻矩陣
print("訓練數據的詞頻向量：")
print(training_counts.toarray())  # 輸出所有訓練數據的詞頻矩陣

# 3. 建立標籤：0 表示負面，1 表示正面
training_labels = [0] * len(neg_list) + [1] * len(pos_list)  # 負面為0，正面為1

# 4. 訓練 Naive Bayes 模型
classifier = MultinomialNB()  # 初始化 Multinomial Naive Bayes 模型
classifier.fit(training_counts, training_labels)  # 使用詞頻矩陣與標籤訓練模型

# 5. 將待測評論轉換為詞頻向量
review_counts = counter.transform([review])  # 將單條評論轉換為詞頻矩陣
print("待測評論的詞頻向量：")
print(review_counts.toarray())  # 輸出待測評論的詞頻數值矩陣

# 6. 預測待測評論
prediction = classifier.predict(review_counts)  # 預測評論的類別
probabilities = classifier.predict_proba(review_counts)  # 預測評論的類別概率

# 7. 輸出結果
print("預測結果:", "正面" if prediction[0] == 1 else "負面")  # 根據預測結果輸出正面或負面
print("預測機率:", probabilities)  # 輸出正面與負面概率


詞彙表：
{'this': 9, 'crib': 2, 'was': 10, 'terrible': 8, 'hate': 5, 'product': 7, 'worst': 11, 'experience': 4, 'ever': 3, 'amazing': 0, 'love': 6, 'best': 1}
訓練數據的詞頻向量：
[[0 0 1 0 0 0 0 0 1 1 1 0]
 [0 0 0 0 0 1 0 1 0 1 0 0]
 [0 0 0 1 1 0 0 0 0 0 0 1]
 [1 0 1 0 0 0 0 0 0 1 1 0]
 [0 0 0 0 0 0 1 1 0 1 0 0]
 [0 1 0 1 1 0 0 0 0 0 0 0]]
待測評論的詞頻向量：
[[1 0 1 0 0 0 0 0 0 1 1 0]]
預測結果: 正面
預測機率: [[0.33333333 0.66666667]]


In [3]:
import datetime

current_date = datetime.datetime.now().strftime("%Y年%m月%d日")
print(f"更新日期: {current_date}")

更新日期: 2024年12月01日
