### Naive Bayes 朴素贝叶斯

朴素贝叶斯 = 朴素+贝叶斯  
#### 什么是朴素？
假设：特征与特征间相互独立 

#### 贝叶斯公式

$$P(C|W)=\frac{P(W|C)P(C)}{P(W)}$$
$W$为给文档的特征值（频数统计，预测文档提供），$C$为文档类别

### 概率
概率定义为一件事情发生的可能性  
- 扔出一个硬币，结果头朝上  
$P(X)$: 取值在$[0,1]$   
当样本量较少，求得概率不符合实际  
#### 联合概率、条件概率和相互独立
- 联合概率：包含多个条件，且所有条件同时成立的概率
  - 记作：$P(A,B)$
- 条件概率：事件A在另外一个事件B已经发生的条件下发生的概率
  - 记作：$P(A|B)$
- 相互独立：$P(A,B)=P(A)P(B)$ <=> 事件A与事件B相互独立  

#### 拉普拉斯平滑系数
目的：防止计算出的分类概率为$0$

$$P(F1|C)=\frac{Ni+a}{N+am}$$

$a$为指定的系数，一般为1，$m$为训练文档中统计出特征词的个数

### 应用场景
- 文本分类
- 情感分析

### API
~~~python
sklearn.naive_bayes.MultinomialNB(alpha=1.0)
~~~
- alpha：拉普拉斯平滑系数，默认值为1
#### 优缺点
- 优点：
  - 稳定的分类效率
  - 对缺失数据不敏感
  - 算法简单，常用于文本分类
  - 分类准确度高，速度快
- 缺点：
  - 基于样本属性独立性的假设，如果特征属性有关联时效果不好

In [2]:

# fetch dataset
from sklearn.datasets import fetch_20newsgroups

news = fetch_20newsgroups(subset="all")
len(news)

5

In [3]:
# split
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(news.data, news.target)
len(x_train)


14134

In [4]:
# feature engineering

#   tf-idf
from sklearn.feature_extraction.text import TfidfVectorizer

transfer = TfidfVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)



In [46]:
# naive bayes

from sklearn.naive_bayes import MultinomialNB

bayes = MultinomialNB()
# estimator.fit(x_train, y_train)

# grid search
from sklearn.model_selection import GridSearchCV
params = {  
            "alpha":[ x/100000 for x in range(620,630)] // 0.0062 - 0.0063
        }

estimator = GridSearchCV(bayes,params,cv=7)
estimator.fit(x_train,y_train)
print(estimator.best_params_)
print(estimator.best_score_)


{'alpha': 0.0062}
0.9075288297244075


In [45]:
[ x/100000 for x in range(620,630,1)]

[0.0062,
 0.00621,
 0.00622,
 0.00623,
 0.00624,
 0.00625,
 0.00626,
 0.00627,
 0.00628,
 0.00629]

In [47]:
# model evaluate
# 1. 直接比对真实值和预测值  
y_predict = estimator.predict(x_test)  
print(f"y_predict={y_predict}")
print(f"y_test == y_predict:\n{y_test == y_predict}")

y_predict_proba = estimator.predict_proba(x_test)
print(f"y_predict_proba=\n{y_predict_proba}")

# 2. 计算准确率  
score = estimator.score(x_test,y_test)
print(f"score:{score}")

y_predict=[10 17  3 ...  7  7  3]
y_test == y_predict:
[ True  True  True ...  True  True  True]
y_predict_proba=
[[3.16027112e-12 1.96630206e-12 2.41688941e-12 ... 2.66223491e-12
  9.79786623e-12 7.84250749e-12]
 [8.62548332e-08 2.74693665e-11 1.51935656e-12 ... 9.99999720e-01
  5.14232885e-08 1.93974445e-08]
 [6.19775393e-10 1.49465937e-07 2.61779324e-04 ... 9.61709228e-10
  5.18669936e-09 1.80494377e-09]
 ...
 [1.37573788e-11 3.41738760e-11 9.76740852e-11 ... 1.89792413e-11
  1.93602783e-11 1.22295400e-11]
 [3.03595279e-09 8.38162594e-09 1.20326573e-08 ... 2.14108429e-09
  3.72086243e-09 1.72861815e-08]
 [6.60769988e-07 1.09635675e-05 1.65287266e-04 ... 3.24392255e-07
  2.26919262e-06 5.59362547e-07]]
score:0.9182937181663837
