## Как связаны мат. статистика и анализ данных?

Пусть
* $X$ — множество объектов, 
* $Y$ — конечное множество имён классов.

Предположим, что $X \times Y$ является вероятностным пространством с заданной на нём плотностью распределения 

$p(x, y) = P(y)p(x|y)$.

Вероятности появления объектов каждого из классов

$P_y = P(y)$

называются **априорными вероятностями классов**. Плотности распределения 

$p_y(x) = p(x|y)$

называются **функциями правдоподобия классов**.


Пусть известны априорные вероятности классов $P_y$ и их функции правдоподобия $p_y(x)$, тогда для нахождения ответа на новом объекте $x$ будем максимизировать $p(y|x)$:

$a(x) = \arg max_{y} \frac{p(x|y) P(y)}{p(x)} = \arg max_{y} p(x|y) P(y).$

Проблема в том, что мы, как правило, не знаем $P_y$ и $p_y(x)$, поэтому их приходится _оценивать_.

* $P_y$ для каждого класса $y \in Y$ можно оценить следующим образом:

$\hat{P}_y = \frac{l_y}{l},$

где

$l_y$ — количество объектов класса $y$ в обучающей выборке,

$l$ — общее количество объектов в обучающей выборке.

По закону больших чисел (ЗБЧ) данная оценка будет стремится к априорной вероятности класса при увеличении обучающей выборки.

* Существуют **параметрический** и **непараметрический** подходы к оцениванию функции правдоподобия класса.

1) Параметрический подход предполагает, что распределение объектов данного класса взято из некоторого заданного семейства (например, нормальное распределение). Таким образом, необходимо лишь оценить его параметры (например, при помощи метода максимального правдоподобия).

2) Непараметрический подход — нечто близкое к построению гистограммы, однако чуть более усложненной. Рассмотрим несколько вариантов

### Непараметрические оценки плотности

Будем рассматривать одномерную выборку $(x_1, ... x_m), x_m \in \mathbb{R}$ из распределения с плотностью $p(x)$.

1) Дискретный случай

Пусть $X$ — конечное множество. Тогда оценкой плотности может служить гистограмма значений:

$$\hat{p}(x) = \frac{1}{l} \sum_{i = 1}^m [x_i = x]$$

2) Непрерывный случай

Пусть $X = \mathbb{R}.$ Тогда предыдущую оценку можно немного модифицировать:

$$\hat{p}(x) = \frac{1}{l \cdot h} \sum_{i = 1}^m [|x - x_i| < h],$$

где $h > 0$ — параметр, _ширина окна_.

3) Локальная непараметрическая оценка Парзена-Розенблатта

Оценка из предыдущего пункта является кусочно-постоянной. Чтобы избежать этого, используют следующую оценку:

$$\hat{p}(x) = \frac{1}{l \cdot h} \sum_{i = 1}^m K(\frac{x - x_i}{h}),$$

где $K(z)$ — функция, называемая ядром.

Таким образом, для восстановления плотности распределения в точке $x$ используются лишь те точки обучающей выборки, которые попали в окно заданной ширины $h$ вокруг $x$, причём чем ближе точка к $x$ — тем выше её вклад.

<img src = "kernels.png">

### Наивный байесовский классификатор

Итого, у нас имеются различные способы оценки одномерных выборок. Что делать, если выборка имеет более 1 признака?

Будем использовать **наивный байесовский классификатор**. Его идея заключается в том, что все признаки являются независимыми, следовательно, можно записать следующее выражение для функции правдоподобия произвольного класса:

$$p_y(x) = \prod_{i=1}^d p_{yi} (x^i) = p_{y1}(x^1) \cdot ... \cdot p_{yd}(x^d),$$

где

$x = (x^1, ... x^d) \in X,$

$p_{yi}(s)$ — плотность распределения $i$-ого признака среди объектов класса $y$.

То есть оценку функции правдоподобия класса $y$ можно записать следующим образом:

$$\hat{p}_y(x) = \prod_{i=1}^d \hat{p}_{yi} (x^i) = \hat{p}_{y1}(x^1) \cdot ... \cdot \hat{p}_{yd}(x^d),$$

где $\hat{p}_{yi}(s)$ — оценка плотности распределения $i$-ого признака объектов класса $y$, построенная согласно приведенным ранее способам.

Таким образом для построения алгоритма необходимо:

1) для каждого класса $y \in Y$ оценить $P_y$;

2) для каждого класса $y \in Y$ и каждого признака $i \in {1, ..., d}$ оценить $p_{yi}(s)$;

3) вычислить $a(x)$ по указанной выше формуле на новых объектах.
