In [1]:
import math
import time
import collections
from tqdm import tqdm_notebook

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import scipy.stats as sts
from sklearn import model_selection
from sklearn import naive_bayes, dummy
from sklearn import datasets, metrics, neighbors
from matplotlib.colors import ListedColormap

%matplotlib inline

In [2]:
digits = datasets.load_digits()
print(digits.data[0:3])
print()
breast_cancer = datasets.load_breast_cancer()
print(breast_cancer.feature_names)
print(breast_cancer.data[0:3])

[[  0.   0.   5.  13.   9.   1.   0.   0.   0.   0.  13.  15.  10.  15.
    5.   0.   0.   3.  15.   2.   0.  11.   8.   0.   0.   4.  12.   0.
    0.   8.   8.   0.   0.   5.   8.   0.   0.   9.   8.   0.   0.   4.
   11.   0.   1.  12.   7.   0.   0.   2.  14.   5.  10.  12.   0.   0.
    0.   0.   6.  13.  10.   0.   0.   0.]
 [  0.   0.   0.  12.  13.   5.   0.   0.   0.   0.   0.  11.  16.   9.
    0.   0.   0.   0.   3.  15.  16.   6.   0.   0.   0.   7.  15.  16.
   16.   2.   0.   0.   0.   0.   1.  16.  16.   3.   0.   0.   0.   0.
    1.  16.  16.   6.   0.   0.   0.   0.   1.  16.  16.   6.   0.   0.
    0.   0.   0.  11.  16.  10.   0.   0.]
 [  0.   0.   0.   4.  15.  12.   0.   0.   0.   0.   3.  16.  15.  14.
    0.   0.   0.   0.   8.  13.   8.  16.   0.   0.   0.   0.   1.   6.
   15.  11.   0.   0.   0.   1.   8.  13.  15.   1.   0.   0.   0.   9.
   16.  16.   5.   0.   0.   0.   0.   3.  13.  16.  16.  11.   5.   0.
    0.   0.   0.   3.  11.  16.   9.   0.]]

['mea

In [3]:
digits_dummy_acc = model_selection.cross_val_score(
    dummy.DummyClassifier(strategy='most_frequent'), digits.data, digits.target).mean()
digits_bern_acc = model_selection.cross_val_score(
    naive_bayes.BernoulliNB(), digits.data, digits.target).mean()
digits_mult_acc = model_selection.cross_val_score(
    naive_bayes.MultinomialNB(), digits.data, digits.target).mean()
digits_gauss_acc = model_selection.cross_val_score(
    naive_bayes.GaussianNB(), digits.data, digits.target).mean()

bc_dummy_acc = model_selection.cross_val_score(
    dummy.DummyClassifier(strategy='most_frequent'), breast_cancer.data, breast_cancer.target).mean()
bc_bern_acc = model_selection.cross_val_score(
    naive_bayes.BernoulliNB(), breast_cancer.data, breast_cancer.target).mean()
bc_bern_acc_2 = model_selection.cross_val_score(
    naive_bayes.BernoulliNB(binarize=3), breast_cancer.data, breast_cancer.target).mean()
bc_mult_acc = model_selection.cross_val_score(
    naive_bayes.MultinomialNB(), breast_cancer.data, breast_cancer.target).mean()
bc_gauss_acc = model_selection.cross_val_score(
    naive_bayes.GaussianNB(), breast_cancer.data, breast_cancer.target).mean()

print('digits:')
print('Dummy:', digits_dummy_acc, ', Bernoulli:', digits_bern_acc,
      ', MultinomialNB:', digits_mult_acc, ', Gaussian: ', digits_gauss_acc)
print()
print('breast cancer:')
print('Dummy:', bc_dummy_acc, ', Bernoulli:', bc_bern_acc, 
      ' , Bernoulli(3):', bc_bern_acc_2, ', MultinomialNB:', bc_mult_acc,
      ', Gaussian: ', bc_gauss_acc)

digits:
Dummy: 0.101278812861 , Bernoulli: 0.825823650778 , MultinomialNB: 0.870877148974 , Gaussian:  0.818600380355

breast cancer:
Dummy: 0.627420402859 , Bernoulli: 0.627420402859  , Bernoulli(3): 0.804966119001 , MultinomialNB: 0.894579040193 , Gaussian:  0.936749280609


На датасете с целочисленными признаками (digits) лучше всех сработал классификатор с мультиномиальным распределением. На датасете с вещественными признаками (breast_cancer) лучше всех сработал классификатор с нормальным распределением.

Классификатор с распределением Бернулли на датасете breast_cancer практически не работает (точности 0.627 можно достичь, всё время выдавая одинаковый ответ), поскольку почти все значения признаков больше нуля. Однако, если установать трешхолд равным 3, получится какой-то результат. Результат хуже остальных, поскольку трешхолд устанавливается одинаковым для всех признаков.

1. Максимальная точность на датасете breast_cancer равна 93.7%
2. Максимальная точность на датасете digits равна 87.1%
3. Верны утверждения (c) и (d)