In [None]:
import numpy as np
import os
from abc import abstractmethod

In [None]:
def load_data(folder):
    x_train = np.load(os.path.join(folder, 'x_train.npy'))
    y_train = np.load(os.path.join(folder, 'y_train.npy'))    
    x_test = np.load(os.path.join(folder, 'x_test.npy'))    
    y_test = np.load(os.path.join(folder, 'y_test.npy'))    
    return x_train, y_train, x_test, y_test

In [None]:
def assert_preds_correct(your_preds, sklearn_preds) -> bool:
    return np.abs(your_preds - sklearn_preds).sum() == 0

In [None]:
def assert_probs_correct(your_probs, sklearn_probs) -> bool:
    return np.abs(your_probs - sklearn_probs).mean() < 1e-3

In [None]:
class NaiveBayes:
    def __init__(self, n_classes):
        self.n_classes = n_classes
        self.params = dict()
        
    # --- PREDICTION ---
        
    def predict(self, x, return_probs=False):
        """
        x - np.array размерности [N, dim], 
        где N - количество экземпляров данных, 
        dim -размерность одного экземпляра (количество признаков).
        
        Возвращает np.array размерности [N], содержащий номера классов для
        соответствующих экземпляров.
        """
        preds = []
        for sample in x:
            preds.append(
                self.predict_single(sample, return_probs=return_probs)
            )
        
        if return_probs:
            return np.array(preds, dtype='float32')
        
        return np.array(preds, dtype='int32')
    
    def predict_single(self, x, return_probs=False) -> int:
        """
        Делает предсказание для одного экземпляра данных.
        
        x - np.array размерности dim.
        
        Возвращает номер класса, которому принадлежит x.
        """
        assert len(x.shape) == 1, f'Expected a vector, but received a tensor of shape={x.shape}'
        marginal_prob = self.compute_marginal_probability(x)  # P(x) - безусловная вероятность появления x
        
        probs = []
        for c in range(self.n_classes):                 # c - номер класса
            prior = self.compute_prior(c)               # P(c) - априорная вероятность (вероятность появления класса)
            likelihood = self.compute_likelihood(x, c)  # P(x|c) - вероятность появления x в предположении, что он принаждлежит c
            
            # Используем теорему Байесса для просчёта условной вероятности P(c|x)
            # P(c|x) = P(c) * P(x|c) / P(x)
            prob = prior * likelihood / marginal_prob
            probs.append(prob)
            
        if return_probs:
            return probs
        
        return np.argmax(probs)
    
    # Вычисляет P(x) - безусловная вероятность появления x.
    @abstractmethod
    def compute_marginal_probability(self, x) -> float:
        pass
    
    # Вычисляет P(c) - безусловная вероятность появления класса c (априорная вероятность).
    @abstractmethod
    def compute_prior(self, c) -> float:
        pass
    
    # Вычисляет P(x|c) - условная вероятность появления x в предположении, что он принаждлежит c.
    @abstractmethod
    def compute_likelihood(self, x, c) -> float:
        pass
    
    # --- FITTING ---
    
    def fit(self, x, y):
        self._estimate_prior(y)
        self._estimate_params(x, y)
    
    @abstractmethod
    def _estimate_prior(self, y):
        pass
    
    @abstractmethod
    def _estimate_params(self, x, y):
        pass

## 1. Наивный классификатор Байеса: гауссово распределение

Напишите недостающий код, создайте и обучите модель. 

Пункты оценки:
1. совпадение предсказанных классов с оными у модели sklearn. Для проверки совпадения используйте функцию `assert_preds_correct`.
2. совпадение значений предсказанных вероятностей принадлежности классами с оными у модели sklearn. Значения вероятностей считаются равными, если функция `assert_probs_correct` возвращает True.

In [None]:
x_train, y_train, x_test, y_test = load_data('gauss')

In [None]:
class NaiveGauss(NaiveBayes):
    def compute_marginal_probability(self, x) -> float:
        # Для просчёта безусловной вероятности используйте 
        # методы compute_prior и compute_likelihood.
        # Напишите свой код здесь
        pass
    
    def compute_prior(self, c) -> float:
        assert abs(sum(self.params['prior']) - 1.0) < 1e-3, \
            f"Sum of prior probabilities must be equal to 1, but is {sum(self.params['prior'])}"
        assert c < self.n_classes, f'Class index must be < {self.n_classes}, but received {c}.'
        # Напишите свой код здесь
        pass
    
    def compute_likelihood(self, x, c) -> float:
        assert c < self.n_classes, f'Class index must be < {self.n_classes}, but received {c}.'
        # Напишите свой код здесь
        pass
    
    # --- FITTING ---
    
    def _estimate_prior(self, y):
        # Значения априорных вероятностей сохраните в `params` с ключом 'prior'
        # Напишите свой код здесь
        pass
    
    def _estimate_params(self, x, y):
        # Напишите свой код здесь
        pass

In [None]:
# Создайте и обучите модель

In [None]:
# Оцените качество модели

In [None]:
# Сравните вашу модель с аналогом sklearn (GaussianNB)

## 2. Доп. задания (любое на выбор, опционально)

### 2.1  Упрощение наивного классификатора Байеса для гауссова распределения

Уберите из класса NaiveBayes 'лишние' вычисления и удалите код, что соответствует этим вычислениям. Под 'лишним' подразумеваются вещи, что не влияют на итоговое решение о принадлежности классу (значения вероятностей при этом могу стать некорректными, но в данном задании это допустимо).

Напишите в клетке ниже код упрощенного 'классификатора Гаусса' и убедитесь, что его ответы (не значения вероятностей) совпадают с ответами классификатора из задания 1.

Указание: работайте в предположении, что классы равновероятны.

In [None]:
# Напишите обновленный код модели здесь

In [None]:
# Создайте и обучите модель

In [None]:
# Оцените качество модели

In [None]:
# Сравните вашу модель с моделью из задания 1

### 2.1  Наивный классификатор Байеса: мультиномиальное распределения

Напишите недостающий код, создайте и обучите модель.

Подсказка: в определении функции правдоподобия много факториалов. Для избежания численного переполнения посчитайте сначала логарифм функции правдоподобия, после примените экспоненту для получения значения вероятности.

Пункты оценки аналогичны оным из задания 1.

Сложность: математический гений.

In [None]:
x_train, y_train, x_test, y_test = load_data('multinomial')

In [None]:
"""
При желании данный класс можно переписать с нуля. Изменения должны сопровождаться комментариями.
"""
class NaiveMultinomial(NaiveBayes):
    def compute_marginal_probability(self, x) -> float:
        # Для просчёта безусловной вероятности используйте 
        # методы compute_prior и compute_likelihood.
        # Напишите свой код здесь
        pass
    
    def compute_prior(self, c) -> float:
        assert abs(sum(self.params['prior']) - 1.0) < 1e-3, \
            f"Sum of prior probabilities must be equal to 1, but is {sum(self.params['prior'])}"
        assert c < self.n_classes, f'Class index must be < {self.n_classes}, but received {c}.'
        # Напишите свой код здесь
        pass
    
    def compute_likelihood(self, x, c) -> float:
        assert c < self.n_classes, f'Class index must be < {self.n_classes}, but received {c}.'
        # Напишите свой код здесь
        pass
    
    # --- FITTING ---
    
    def _estimate_prior(self, y):
        # Значения априорных вероятностей сохраните в `params` с ключом 'prior'
        # Напишите свой код здесь
        pass
    
    def _estimate_params(self, x, y):
        # Напишите свой код здесь
        pass

In [None]:
# Создайте и обучите модель

In [None]:
# Оцените качество модели

In [None]:
# Сравните вашу модель с аналогом sklearn (MultinomialNB)