In [1]:
import numpy as np
from sklearn.naive_bayes import GaussianNB

### 一.sklearn.naive_bayes.GaussianNB(priors=None)
其中 priors代表预先设定每个类别的先验概率，一般设置为None
其中，X代表数据的特征向量，y代表类别标签

In [2]:
X = np.array([[-1, -1], [-2, -2], [-3, -3],[-4,-4],[-5,-5], [1, 1], [2, 2], [3, 3]])
y = np.array([1, 1, 1,1,1, 2, 2, 2])
clf = GaussianNB()
clf.fit(X,y)

GaussianNB(priors=None, var_smoothing=1e-09)

### 1.查看具体的参数值

- class_prior_:查看每个类别的先验概率

- class_count_:各类标签对应的样本数量

- theta_:各个类别的在各个特征上的均值

- sigma_:各个类别在各个特征上的方差

In [4]:
clf.class_prior_

array([0.625, 0.375])

In [5]:
clf.class_count_

array([5., 3.])

In [6]:
clf.theta_

array([[-3., -3.],
       [ 2.,  2.]])

In [7]:
clf.sigma_

array([[2.00000001, 2.00000001],
       [0.66666667, 0.66666667]])

### 2.具体的方法
- fit(X,y,sample_weight = None):喂养数据,其中sample_weight代表更样本的权重

例如：clf.fit(X,y,np.array([0.05,0.05,0.1,0.1,0.1,0.2,0.2,0.2]))
则 
均值= ((-1*0.05)+(-2*0.05)+(-3*0.1)+(-4*0.1+(-5*0.1)))/(0.05+0.05+0.1+0.1+0.1)=-3.375
方差=((-1+3.375)**2*0.05 +(-2+3.375)**2*0.05+(-3+3.375)**2*0.1+(-4+3.375)**2*0.1+(-5+3.375)**2*0.1)/(0.05+0.05+0.1+0.1+0.1)=1.73437501

- get_params(deep = True):返回有priors组成的参数字典

- set_params(** params):设置priors参数

- partial_fit(X,y,classes=None ,sample_weight):增量式训练，其中，如果第一次用fit训练过，则不用理会classes，否则需设定classes参数

- predict(X):输出X的类别预测

- predict_proba(X):输出测试样本在各个类别的预测概率值

- predict_log_proba(X)：输出测试样本在各个类标记上预测概率值对应对数值

- score(X, y, sample_weight=None)：返回测试样本映射到指定类标记上的得分(准确率)

In [8]:
clf.get_params()

{'priors': None, 'var_smoothing': 1e-09}

In [9]:
clf.predict([[-6,-6],[4,5]])

array([1, 2])

In [10]:
clf.predict_proba([[-6,-6],[4,5]])

array([[1.00000000e+00, 3.29099984e-40],
       [5.13191647e-09, 9.99999995e-01]])

In [11]:
clf.predict_log_proba([[-6,-6],[4,5]])

array([[ 0.00000000e+00, -9.09122123e+01],
       [-1.90877867e+01, -5.13191623e-09]])

In [15]:
#clf.score([[-6,-6],[-4,-2],[-3,-4],[4,5]],[1,1,2,2])
clf.score([[-6,-6],[-4,-2],[-3,-4],[4,5]],[1,1,2,2],sample_weight=[0.3 ,0.2,0.4,0.1])

0.6

### 多项式朴素贝叶斯
#### sklearn.naive_bayes.MultinomialNB(alpha=1.0, fit_prior=True, class_prior=None)
- alpha : 贝叶斯估计时用到的alpha ，一般设置为1
- fit_proir : 表示是否要设置先验概率，False：代表先验概率=1/N，True：先验概率：n/N(n为类别所占个数）
- class_proir:表示预先设置先验概率，一般输入数组或None

In [16]:
from sklearn.naive_bayes import MultinomialNB
X = np.array([[1,2,3,4],[1,3,4,4],[2,4,5,5],[2,5,6,5],[3,4,5,6],[3,5,6, 6]])
y = np.array([1,1,4,2,3,3])
clf = MultinomialNB(alpha=1.0)
clf.fit(X,y)

MultinomialNB(alpha=1.0, class_prior=None, fit_prior=True)

#### 属性值
- class_log_prior_：各类标记的平滑先验概率对数值，其取值会受fit_prior和class_prior参数的影响
- intercept_：将多项式朴素贝叶斯解释的class_log_prior_映射为线性模型，其值和class_log_propr相同
- feature_log_prob_：指定类的各特征概率(条件概率)对数值，返回形状为(n_classes, n_features)数组。假设X对应的四个特征为A1、A2、A3、A4，类别为y1,y2,类别为y1时，特征A1的概率为：P(A1|y=y1) = P(A1=0|y=y1)*A1+P(A1=1|y=y1)*A1
- coef_：将多项式朴素贝叶斯解释feature_log_prob_映射成线性模型，其值和feature_log_prob相同
- class_count_：训练样本中各类别对应的样本数，按类的顺序排序输出
- feature_count_：各类别各个特征出现的次数，返回形状为(n_classes, n_features)数组

In [19]:
clf.class_log_prior_
clf.intercept_

array([-1.09861229, -1.79175947, -1.09861229, -1.79175947])

In [20]:
clf.feature_log_prob_

array([[-2.15948425, -1.46633707, -1.178655  , -1.06087196],
       [-1.99243016, -1.29928298, -1.1451323 , -1.29928298],
       [-1.79175947, -1.43508453, -1.25276297, -1.17272026],
       [-1.89711998, -1.38629436, -1.2039728 , -1.2039728 ]])

In [24]:
clf.class_count_

array([2., 1., 2., 1.])

In [25]:
clf.feature_count_

array([[ 2.,  5.,  7.,  8.],
       [ 2.,  5.,  6.,  5.],
       [ 6.,  9., 11., 12.],
       [ 2.,  4.,  5.,  5.]])

#### 方法
- fit(X,y,sample_weight)
- get_params(deep=True)
- partial_fit(X, y, classes=None, sample_weight=None)
- predict(X)
- predict_log_proba(X)：测试样本划分到各个类的概率对数值
- predict_proba(X)：输出测试样本划分到各个类别的概率值
- score(X, y, sample_weight=None)

### 伯努利朴素贝叶斯
sklearn.naive_bayes.BernoulliNB(alpha=1.0, binarize=0.0,fit_prior=True,class_prior=None)
- alpha
- binarize：代表阈值线，大于则为1，小于等于则为0
- fit_prior
- class_prior

In [28]:
from sklearn.naive_bayes import BernoulliNB
X = np.array([[1,2,3,4],[1,3,4,4],[2,4,5,5]])
y = np.array([1,1,2])
clf = BernoulliNB(alpha=2.0,binarize = 3.0,fit_prior=True)
clf.fit(X,y)
clf.class_log_prior_

array([-0.40546511, -1.09861229])