In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

plt.style.use('ggplot')
plt.rcParams['figure.figsize'] = (12,5)

# Для кириллицы на графиках
font = {'family': 'Verdana',
        'weight': 'normal'}
plt.rc('font', **font)

try:
    from ipywidgets import interact, IntSlider, fixed, FloatSlider
except ImportError:
    print u'Так надо'

# Машинное обучение и майнинг данных

## 09/03/2017 Методы понижения размерности

## Проклятье размерности

<style type="text/css">
.tg  {border-collapse:collapse;border-spacing:0;}
.tg td{font-family:Arial, sans-serif;font-size:14px;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;}
.tg th{font-family:Arial, sans-serif;font-size:14px;font-weight:normal;padding:10px 5px;border-style:solid;border-width:1px;overflow:hidden;word-break:normal;}
</style>
<table class="tg">
  <tr>
    <th class="tg-031e">$d=2$<img src='https://jeremykun.files.wordpress.com/2016/01/2d-distances.png' width=400></th>
    <th class="tg-031e">$d=2 \dots 100$<img src='https://jeremykun.files.wordpress.com/2016/01/distances-animation.gif' width=400></th>
  </tr>
</table>

$$ \lim_{d \rightarrow \infty} \frac{\text{dist}_{max} - \text{dist}_{min}}{\text{dist}_{min}} = 0$$

# Проклятье размености

<center><img src='http://www.visiondummy.com/wp-content/uploads/2014/04/curseofdimensionality.png'></center>

## Способы понижения размерности

Избавляться от размерности можно методами **отбора признаков (Feature Selection)** и методами **уменьшения размерности (Feature Reduction)**

### Feature Selection
Методы деляться на три группы:
* Filter methods 
    * Признаки рассматриваются независимо друг от друга
    * Изучается индивидуальный "вклад" призника в предсказываемую переменную
    * Быстрое вычисление
    * *Пример?*
* Wrapper methods
    * Идет отбор группы признаков
    * Может быть оооочень медленным, но качество, обычно, лучше чем у Filter Methods
    * Stepwise feature selection for regression
* Embedded methods
    * Отбор признаков "зашит" в модель
    * *Пример?*

#### Filter method - Mutual Information
$$MI(y,x) = \sum_{x,y} p(x,y) \ln\left[\frac{p(x,y)}{p(x)p(y)}\right]$$
Сколько информации $x$ сообщает об $y$.
$$NormalizedMI(y,x) = \frac{MI(y,x)}{H(y)}$$

#### Wrapper Methods - Recursive Feature Elimination

При данном подходе из линейной модели последовательно удаляются признаки с наименьшим коэффициентом

* [AIC](https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%90%D0%BA%D0%B0%D0%B8%D0%BA%D0%B5)
* [BIC](https://en.wikipedia.org/wiki/Bayesian_information_criterion)

# Principal Component Analysis
## Метод Главных Компонент

# PCA

* Позволяет уменьшить число переменных, выбрав самые изменчивые из них
* Новые переменные являются линейной комбинацией старых переменных
* Переход к ортономированному базису

<center><img src='http://www.visiondummy.com/wp-content/uploads/2014/05/correlated_2d.png' width=600></center>

## Построение PCA
*  Пусть $x \in \mathbb{R}^d$ - вектор признаков для какого-то объекта. Будем считать, что $x$ - центрировано и отшкалировано. $E[x_i] = 0, \sqrt{V[x_i]} = 1, \quad i=1 \dots d$
* Требуется найти линейное преобразование, которое задается ортогональной матрицей $A$:
$$ pc = A^\top x $$

* $pc_i = a_i^\top x = x^\top a_i$
* $cov[x] = E[(x - E[x])(x - E[x])^\top] = Exx^\top = \Sigma$ -  ковариационная матрица

## Построение PCA

* $E[pc_i] = E[a_i^\top x] = a_i^\top E[x]$
* $cov[pc_i, pc_j] = E[pc_i \cdot pc_j^\top] = a_i^\top \Sigma a_j $
* $\Sigma$ - симметричная и положительно определенная матрица.
    * Собственные числа $\lambda_i \in \mathbb{R}, \lambda_i \geq 0$ (Будем считать, что $\lambda_1 > \lambda_2  > \dots > \lambda_d $
    * Собственные вектора при $\lambda_i \neq \lambda_j $ ортогональны: $v_i^\top v_j = 0$
    * У каждого $\lambda_i$ есть единственный $v_i$

## Первая компонента
$$ pc_1 = a_1 ^\top x $$

\begin{equation}
\begin{cases}
V[pc_1] = a_1^\top \Sigma a_1 \rightarrow \max_a \\
a_1^\top a_1 = 1
\end{cases}
\end{equation}
* Строим функцию лагранжа
$$ \mathcal{L}(a_1, \nu) = a_1^\top \Sigma a_1 - \nu (a_1^\top a_1 - 1) \rightarrow max_{a_1, \nu}$$
* Считаем производую по $a_1$
$$ \frac{\partial\mathcal{L}}{\partial a_1} = 2\Sigma a_1 - 2\nu a_1 = 0 $$
* Получается, что $a_1$ один из собственных векторов матрицы $\Sigma$, причем при $\lambda_1$
$$ V[pc_1] = a_1^\top \Sigma a_1 = \lambda_i a_1^\top a_1 = \lambda_i $$

## Вторая компонента
$$ pc_2 = a_2 ^\top x $$

\begin{equation}
\begin{cases}
V[pc_1] = a_2^\top \Sigma a_2 \rightarrow \max_a \\
a_2^\top a_2 = 1 \\
cov[pc_1, pc_2] = a_2^\top \Sigma a_1 = \lambda_1 a_2^\top a_1 = 0
\end{cases}
\end{equation}
* Строим функцию лагранжа
$$ \mathcal{L}(a_2, \nu, \tau) = a_2^\top \Sigma a_2 - \nu (a_2^\top a_2 - 1) - \tau a_2^\top a_1 \rightarrow max_{a_1, \nu}$$

Аналогичными выкладками приходим к тому, что $a_2$ - собственный вектор $\Sigma$ при $\lambda_2$

## Singular Value Decomposition

Для любой матрицы $X$ размера $n \times m$ можно найти разложение вида:
$$ X = U S V^\top ,$$
где 
* $U$ - унитарная матрица, состоящая из собственных векторов $XX^\top$
* $V$ - унитарная матрица, состоящая из собственных векторов $X^\top X$
* $S$ - диагональная матрица с сингулярными числами $s_i = \sqrt{\lambda_i}$

## SVD
Матрицы $U$ и $V$ ортогональны и могут быть использованы для перехода к ортогональному базису:
$$ XV = US $$

Сокращение размерности заключается в том, что вместо того, чтобы умножать $X$ на всю матрицу $V$, а лишь на первые $k<m$ её столбцов - матрицу $V'$

Квадраты сингулярных чисел в $S$ содержат дисперсию, объясненную в главных компонентах

## MNIST
<center><img src='https://habrastorage.org/files/cca/f67/7de/ccaf677ded5d4028a3095e9bfbd7fa19.png'></center>

## MNIST PCA

<center><img src='http://nikhilbuduma.com/img/autoencoder_digit_exp.png' width=800></center>

## Резюме

* PCA понижает размерность признакового пространства
* Новые компоненты являются линейной комбинацией исходных признаков
* Новые компоненты - ортогональны
* Можно применять в моделях и для визуализации

# t-SNE
## t-distributed stochastic neighbor embedding

## Идея

* Перейти в пространство меньшей размерности так, чтобы расстояния между объектами в новом пространстве были подобны расстояниям в исходном пространстве.
* Это многомерное шкалирование!

* Схожесть между объектами в исходном пространстве $\mathbb{R}^m$
$$
p(i, j) = \frac{p(i | j) + p(j | i)}{2n}, \quad p(j | i) = \frac{\exp(-\|\mathbf{x}_j-\mathbf{x}_i\|^2/{2 \sigma_i^2})}{\sum_{k \neq i}\exp(-\|\mathbf{x}_k-\mathbf{x}_i\|^2/{2 \sigma_i^2})}
$$
$\sigma_i$ неявно задается пользователем
* Схожесть между объектами в целевом пространстве $\mathbb{R}^k, k << m$
$$
q(i, j) = \frac{g(|\mathbf{y}_i - \mathbf{y}_j|)}{\sum_{k \neq l} g(|\mathbf{y}_i - \mathbf{y}_j|)}
$$ 
где $g(z) = \frac{1}{1 + z^2}$ - распределение Коши
* Критерий
$$
J_{t-SNE}(y) = KL(P \| Q) = \sum_i \sum_j p(i, j) \log \frac{p(i, j)}{q(i, j)} \rightarrow \min
$$

## Дивергенция Кульбака-Лейблера

* Насколько распределение $P$ отличается от распределения $Q$?
$$
KL(P \| Q) = \sum_z P(z) \log \frac{P(z)}{Q(z)}
$$

<center><img src='http://www.science-emergence.com/media/images/381.png' width=1200></center>

## Оптимизация

* Оптимизируем $J_{t-SNE}(y)$ с помощью градиентного спуска

$$\frac{\partial J_{t-SNE}}{\partial y_i}=4 \sum_j(p(i,j)−q(i,j))(y_i−y_j)g(|y_i−y_j|)$$

* [Вывод](http://jmlr.csail.mit.edu/papers/volume9/vandermaaten08a/vandermaaten08a.pdf)
* [Примеры](http://lvdmaaten.github.io/tsne/)
* [Демо](http://distill.pub/2016/misread-tsne/)