## Элеметы теории статистического обучения

## Задача:

Имется две пары игральных костей. Одна стандартная (на гранях числа от 1 до 6), а вторая "подправленная", где на каждой грани записано число на два больше (т.е. от 3 до 9). Я случайно с равной вероятностью выбираю или первую пару костей или вторую, а затем бросаю их. Вам сообщаю число выпавших очков, ваша задача - угадать, какую пару костей я подбросил стандартную или "подправленную". Если угадываете - получаете 10 рублей, не угадываете - вы платите мне 10 рублей :))

Допустим, я сообщаю, что выпало 8 очков. На что вы поставите?



## Ответ
<img src="img/lecBayes/DiceProbas.png" height="30%">

<img src="img/lecBayes/DiceProbas1.png" height="30%">

# Формализация

* Имеется несколько типов (классов) объектов (ситуаций): $1, 2, \dots, K$.
* Каждый объект (ситуация) описывается некоторым набором параметров, которые формируют вектор признаков: $X = (x_1, x_2, \dots, x_p) \in \mathscr{X}$. (Обычно $\mathscr{X}$ -- подмножество $\mathbb{R}^p$).
* Пропорция каждого класса $k$ в общей "популяции" объектов: $\pi_k$ (может быть известна заранее).
* Объекты каждого класса $k$ распределены в соответствии с плотностью распределения (вероятностью) $p_k(x)$, которая является функцией от $x$.

*Задача:* классифицировать предъявляемый классификатору объект. Т.е. глядя на вектор признаков объекта $X=x$ вернуть одно из $K+2$ возможных решений: $1, 2, \dots, K, \mathscr{D}, \mathscr{O}$ (где $\mathscr{D}$ - отказ от классификации, $\mathscr{O}$ - выброс, т.е. объект точно не принадлежит ни одному из $K$ классов).


## Простейший случай: пропорции классов $\pi_k$ известны, выбросы не учитываются

1. Предположим, мы построили два классификатора. Как узнать, который из них лучше? Какие параметры нам понадобится знать, чтобы ответить на вопрос о качестве?

Нам понадобятся: 
* вероятность ошибки классификатора для каждого класса ($\hat{c}(X)$ -- какой ответ выдает классификатор для объекта с вектором признаков $X$): 
\begin{equation*}
    p_{er}(k) = P\{\hat{c}(X) \neq k, \quad \hat{c}(X)\in \{1, 2, \dots, K\} \quad |\quad C=k \}
\end{equation*}
* вероятность отказа от классификации:
\begin{equation*}
    p_{d}(k) = P\{\hat{c}(X) = \mathscr{D} \quad | \quad C=k \}
\end{equation*}
* величина проигрыша при неверно выбранном ответе (функция потерь).

### Функция потерь (loss function)

Пусть $L(k, l)$ -- величина потерь при ответе "объект принадлежит классу $l$", если на самом деле объект принадлежит классу $k$. (Логично допустить: $L(k,k) = 0$).
\begin{equation*}
    L(k,l)  = \left\lbrace 
        \begin{array}{rl}
            0, & \mbox{если } l= k \mbox{ (корректный ответ)}\\
            1, & \mbox{если } l\neq k \mbox{ и } l\in \{1,2,\dots,K\} \\
            d, & \mbox{если } l=\mathscr{D} \mbox{ (в затруднении)}.
        \end{array}  \right. 
\end{equation*}


### Функция риска

У нас есть классификатор $\hat{c}$, нужно оценить, насколько много он "проигрывает" в случае, если правильный ответ $C=k$, т.е. его ожидаемые потери $R(\hat{c}, k)$.

Ожидаемая величина потерь для классификатора $\hat{c}$:

\begin{equation*}
    R(\hat{c}, k) = E[L(k, \hat{c}(X)) \ | \  C=k] = 
\end{equation*}
\begin{equation*}
    = \sum_{l=1}^K L(k, l) P\{\hat{c}(X) =l \ | \ C=k\} + L(k, \mathscr{D}) P\{\hat{c}(X)=\mathscr{D} \ | \ C=k\})
\end{equation*}

Мы несколько упростили жизнь тем, что функция потерь $L(k, l)$ одинакова для разных ошибок, пэтому:
\begin{equation*}
  R(\hat{c}, k) = p_{er}(k) + d p_d(k).
\end{equation*}

Общий риск когда ожидаемый класс $C$ и вектор $X$ случайны:

\begin{equation*}
   R(\hat{c}) = E [R(\hat{c}, C)] = \sum_{k=1}^k \pi_k p_{er}(k) + d \sum_{k=1}^k \pi_k p_d(k).
\end{equation*}

Пусть мы взяли некоторый объект и измерили его характеристики $X=(x_1, x_2, \dots, x_p)$. 

\begin{equation*}
   p(k \ | \ x) = P\{C=k \ | \ X=x\} = \frac{\pi_k p_k(x)}{\sum_{l=1}^K \pi_j p_l(x)}
\end{equation*}

<img src="img/lecBayes/DiceProbas1.png" height="30%">

### Правило классификации
Для минимизации риска 
\begin{equation*}
    L(k,l)  = \left\lbrace 
        \begin{array}{rl}
            0, & \mbox{если } l= k \mbox{ (корректный ответ)}\\
            1, & \mbox{если } l\neq k \mbox{ и } l\in \{1,2,\dots,K\} \\
            d, & \mbox{если } l=\mathscr{D} \mbox{ (в затруднении)}.
        \end{array}  \right. 
\end{equation*}

нужно действовать по правилу:


\begin{equation*}
    c(x)  = \left\lbrace 
        \begin{array}{rl}
            k, & \mbox{если } p(k|x) = \max_{l \leq K} \mbox{ и это больше } 1-d\\
            \mathscr{D}, & \mbox{если каждый} p(k|x) \leq 1-d.
        \end{array}  \right. 
\end{equation*}

Для минимизации риска в случае, когда потери для разных классов не равны, нужно действовать по правилу:


\begin{equation*}
    c(x)  = \left\lbrace 
        \begin{array}{rl}
            k, & \mbox{если это дает минимум }  min_{l\leq K} \sum L(j, l) p(j | x) < d\\
            \mathscr{D}, & \mbox{иначе}.
        \end{array}  \right. 
\end{equation*}

## <<Проклятие размерности>>
### Эффект Хьюза (Hughes)

* Есть (квантованное) пространство признаков, состоящее из $n$ элементов.
* В этом пространстве 
 1. Строим все возможные пары классов в этом пространстве, 
 2. Строим классификаторы для разделения этих классов,
 3. Вычисляем среднюю точность классификаторов.

<img src="img/lecBayes/Hughes0.png" height="30%">
Hughes G. On the mean accuracy of statistical pattern recognizers //IEEE transactions on information theory. – 1968



### Бесконечная обучающая выборка
Точность классификатора напрямую зависит от $n$: чем больше признаков, тем точнее результат (но существует предел).
<img src="img/lecBayes/Hughes1.png" height="30%">
Hughes G. On the mean accuracy of statistical pattern recognizers //IEEE transactions on information theory. – 1968

### Конечная обучающая выборка
Зависимость точности от размера обучающей выборки (для случая равновероятных классов).
<img src="img/lecBayes/Hughes2.png" height="30%">
Hughes G. On the mean accuracy of statistical pattern recognizers //IEEE transactions on information theory. – 1968

**Почему при конечной выборке сначала точность классификаторов увеличивается, а затем после некоторого предела падает?**

Две противоположные тенденции:
 * с увеличением размерности разделимость классов также увеличивается (может увеличиться);
 * чем больше размерность, тем больше параметров классификатора нужно оценить.

### Отбор признаков

Как оценить качество набора признаков?

<img src="img/lecBayes/DiceProbas.png" height="30%">


#### Дивергенция - мера несходства между двумя классами
<img src="img/lecBayes/Divergence.png" height="30%">

Отношение плотностей и логарифм отношения:
$$
L_{ij} = \frac{p(X|C=i)}{p(X|C=j)}; \qquad L'_{ij} = \ln [p(X|C=i)] - \ln[p(X|C=j)]
$$

Дивергенция:

$$
D_{ij} = E\big (L'_{ij}| C=i \big) + E\big ( L'_{ji} | C=j\big)
$$

(где $E\big (L'_{ij}| C=1 \big) = \int_x p(x|C=i) \ln \frac{p(x|C=i)}{p(x|C=j)} dx $)

## VC-размерность 
#### [Размерность Вапника-Червоненкиса](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D0%B7%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%92%D0%B0%D0%BF%D0%BD%D0%B8%D0%BA%D0%B0_%E2%80%94_%D0%A7%D0%B5%D1%80%D0%B2%D0%BE%D0%BD%D0%B5%D0%BD%D0%BA%D0%B8%D1%81%D0%B0)

* Есть два класса.
* Мы хотим построить классификатор, которые разделяет выбранные классы.

Вопрос <<Сколько параметров должно быть у классификатора, чтобы различать классы>> тесно связан с понятием VC-измерения.

### Дихотомия

Задача разделения двух классов $C_0$ и $C_1$ в пространстве $\mathscr{X} \subset \mathbb{R}^m$. Обозначим через $\mathbb{F}$ множество дихотомий, реализованных обучающей машиной:

$$
\mathbb{F} = \{F(x, w): w\in\mathbb{W}, F: \mathscr{X}\times\mathbb{W} \to \{0, 1\} \}
$$

Пусть $\mathbb{L}$ -- множество из $N$ точек $m$-мерного пространства $\mathscr{X}$
$$
\mathbb{L} = \{x_i \in \mathscr{X}; i=1, 2, \dots, N\}
$$

Дихотомия, реализованная обучаемой машиной разбивает $\mathbb{L}$ на два непересекающихся подмножества $\mathbb{L}_0$ и $\mathbb{L}_1$:

\begin{equation}
		F(x, w) = 	\left\lbrace 
				\begin{array}{rl}
					0, & \mbox{ для } x\in \mathbb{L}_0\\
					1, & \mbox{ для } x\in \mathbb{L}_1
				\end{array}  \right. .
\end{equation}

<img src="img/lecBayes/Dichotomy.png" height="30%">

### VC-размерность

Определение:

**VC-размерностью называется мощность наибольшего множества $\mathbb{L}$, разбиением которого является $\mathbb{F}$**

Другими словами VC-размерностью называют самое большое значение $N$ для которого машина может реализовать все $2^N$ разбиений.

<img src="img/lecBayes/Dichotomy1.png" height="30%">



### Применение к нейросетям.

* Пусть решающее правило задается формулой 
$$F: y = \phi (w\times x + b)$$ где $w$ -- $m$-мерный вектор весов, $b$ -- порог, функция активации пороговая 
$$\phi (u)= \left\lbrace 
				\begin{array}{rl}
					1, & \mbox{если $u \geq 0$}\\
					-1, & \mbox{если u<0}
				\end{array}  \right.$$
Тогда VC-размерность правила равна $m+1$.

* Пусть NN -- произвольная нейросеть прямого распространения, состоящая из нейронов с пороговой функцией активации. Тогда VC-размерность нейросети составляет $O(W \log W)$, где $W$ - общее количество свободных параметров сети. (Baum E. B., Haussler D. What size net gives valid generalization? //Advances in neural information processing systems. – 1989.)

* Пусть NN -- произвольная нейросеть прямого распространения, состоящая из нейронов с сигмоидальной функцией активации
\begin{equation}
    f(u) = \frac{1}{1+e^{-au}},
\end{equation}	
Тогда VC-размерность нейросети составляет $O(W^2)$, где $W$ - общее количество свободных параметров сети. (Koiran P., Sontag E. D. Neural networks with quadratic VC dimension //Advances in neural information processing systems. – 1996)

## Задача

In [None]:
import numpy as np
import pandas as pd
from sklearn.neighbors import KernelDensity
from sklearn.model_selection import GridSearchCV

import seaborn as sb

url="http://mlr.cs.umass.edu/ml/machine-learning-databases/abalone/abalone.data"
abalone = pd.read_csv(url, header=None, 
    names=['Sex', 'Length', 'Diameter', 'Height', 'Whole_weight', 'Shucked_weight', 
          'Viscera_weight', 'Shell_weight', 'Rings']
)
abalone.head()

In [None]:
sample = abalone.loc[ ~ (abalone['Sex'] =='M')]
sample = sample.copy()

sample['Class'] = 0
sample.loc[(sample['Sex'] =='I'), 'Class'] = 1.0

sample.head()

In [None]:
plus = sample.loc[(sample['Class'] == 1.0)]
minus = sample.loc[(sample['Class'] == 0)]
minus.head()

plus = np.array(plus)[:, 1:9]
minus = np.array(minus)[:, 1:9]

print(plus.shape)
print(minus.shape)


In [None]:
np.random.seed(42)

grid = GridSearchCV(KernelDensity(),
                        {'bandwidth': np.linspace(0.001, 0.1, 50)},
                        n_jobs=-1,
                        cv=10) # 10-fold cross-validation

grid.fit(plus)
print('Best bandwidth (plus):', grid.best_params_)
kde_plus = grid.best_estimator_

grid.fit(minus)
print('Best bandwidth (minus):', grid.best_params_)
kde_minus = grid.best_estimator_

In [None]:
density_plus_p = kde_plus.score_samples(plus)
density_plus_m = kde_plus.score_samples(minus)

In [None]:
density_minus_p = kde_minus.score_samples(plus)
density_minus_m = kde_minus.score_samples(minus)

true_plus = density_plus_p > density_minus_p
true_plus_prop =  1.0 * sum(true_plus.astype(np.int))/len(true_plus)

true_minus = density_minus_m > density_plus_m
true_minus_prop = 1.0 * sum(true_minus.astype(np.int)) / len(true_minus)

print('True plus:', true_plus_prop)
print('True minus:', true_minus_prop)

In [None]:
plus_prob = 1342/ (1342+1307)
print(plus_prob)

minus_prob = 1307/ (1342+1307)
print(minus_prob)

true_plus_prop*plus_prob + true_minus_prop*minus_prob