In [342]:
import numpy as np
import pandas as pd
import sklearn
import warnings
warnings.filterwarnings('ignore')
from numpy.testing import assert_array_equal, assert_array_almost_equal, assert_equal, assert_almost_equal
from pandas.testing import assert_frame_equal

# SLIDE (1) Метод главных компонент

Вспомним формулировку метода главных компонент. $X$ - матрица данных размерности $(n,p)$ с $n$ наблюдениями и $p$ признаками, $W$ - отображение в базис главных компонент, $\Lambda$ - диагональная матрица из спектрального разложения (на диагонали стоят собственные значения). Нахождение отображения $W$ сводится к решению системы уравнений:
$$Cov(X,X)W=W\Lambda $$

Найдите решение PCA и выведите матрицу, у которой каждой строчке соответствует компонента $W$, домноженная на корень собственного значения. Порядок строчек по убыванию собственных значений.

Найдите честное решение, в том числе посчитайте матрицу ковариаций с помощью матричного умножения. Для нахождения спектрального разложения воспользуйтесь методом [np.linalg.eig](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.eig.html). Совет: обратите внимание на формат вывода метода eig и не забудьте отцентрировать данные.

### Sample 1
#### Input
```python
X = np.array([[5.1, 3.5, 1.4, 0.2],
              [4.9, 3. , 1.4, 0.2],
              [4.7, 3.2, 1.3, 0.2],
              [4.6, 3.1, 1.5, 0.2],
              [5. , 3.6, 1.4, 0.2],
              [5.4, 3.9, 1.7, 0.4],
              [4.6, 3.4, 1.4, 0.3],
              [5. , 3.4, 1.5, 0.2],
              [4.4, 2.9, 1.4, 0.2],
              [4.9, 3.1, 1.5, 0.1],
              [5.4, 3.7, 1.5, 0.2],
              [4.8, 3.4, 1.6, 0.2],
              [4.8, 3.,  1.4, 0.1],
              [4.3, 3.,  1.1, 0.1],
              [5.8, 4.,  1.2, 0.2],
              [5.7, 4.4, 1.5, 0.4],
              [5.4, 3.9, 1.3, 0.4],
              [5.1, 3.5, 1.4, 0.3],
              [5.7, 3.8, 1.7, 0.3],
              [5.1, 3.8, 1.5, 0.3]])
```
#### Output
```python
FindPCA(X) == np.array(
    [[ 1.80580188,  1.71516927,  0.20432835, 0.27950407],
     [ 0.41552965, -0.44413871,  0.25044627, -0.14226775],
     [ 0.1761697 , -0.09586739, -0.54736968, -0.14974962],
     [ 0.02964646, -0.06119331, -0.03759026,  0.2114531 ]])
```

# Task

In [343]:
def FindPCA(X):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [344]:
def FindPCA(X):
    X_c = X - X.mean(axis=0)
    cov = X_c.T @ X_c
    v, w = np.linalg.eig(cov)
    order = np.argsort(-v)
    return (np.diag(np.sqrt(v)) @ w.T)[order]

def rotate(W):
    return W * np.sign(W)[:,0:1]

In [345]:
######################################################
X = np.array([[5.1, 3.5, 1.4, 0.2],
              [4.9, 3. , 1.4, 0.2],
              [4.7, 3.2, 1.3, 0.2],
              [4.6, 3.1, 1.5, 0.2],
              [5. , 3.6, 1.4, 0.2],
              [5.4, 3.9, 1.7, 0.4],
              [4.6, 3.4, 1.4, 0.3],
              [5. , 3.4, 1.5, 0.2],
              [4.4, 2.9, 1.4, 0.2],
              [4.9, 3.1, 1.5, 0.1],
              [5.4, 3.7, 1.5, 0.2],
              [4.8, 3.4, 1.6, 0.2],
              [4.8, 3.,  1.4, 0.1],
              [4.3, 3.,  1.1, 0.1],
              [5.8, 4.,  1.2, 0.2],
              [5.7, 4.4, 1.5, 0.4],
              [5.4, 3.9, 1.3, 0.4],
              [5.1, 3.5, 1.4, 0.3],
              [5.7, 3.8, 1.7, 0.3],
              [5.1, 3.8, 1.5, 0.3]])
u, l, w = np.linalg.svd(X - X.mean(axis=0))

X_c = X - X.mean(axis=0)
cov = X_c.T @ X_c
print(cov @ w.T)
print(w.T @ np.diag(l)**2)

true = np.array(
    [[ 1.80580188,  1.71516927,  0.20432835, 0.27950407],
     [ 0.41552965, -0.44413871,  0.25044627, -0.14226775],
     [ 0.1761697 , -0.09586739, -0.54736968, -0.14974962],
     [ 0.02964646, -0.06119331, -0.03759026,  0.2114531 ]])

assert_array_almost_equal(rotate(true), rotate(FindPCA(X)))
######################################################
X = np.diag([1,2,3,4])

true = np.array(
    [[ 1.66260670e-01,  4.37167349e-01,  1.37909923e+00,
        -3.37817635e+00],
     [ 2.88297587e-01,  1.21501293e+00, -2.15589188e+00,
        -7.08693698e-01],
     [ 7.99526041e-01, -1.15439521e+00, -4.47454512e-01,
        -2.92707730e-01],
     [ 3.01652590e-08,  1.50826295e-08,  1.00550863e-08,
         7.54131476e-09]])

assert_array_almost_equal(rotate(true), rotate(FindPCA(X)))

[[-4.54064876  0.27963865  0.10603379 -0.00667862]
 [-4.31275507 -0.29889167 -0.05770109  0.01378534]
 [-0.5137791   0.16854262 -0.32945327  0.00846816]
 [-0.70280678 -0.09574181 -0.09013196 -0.04763517]]
[[-4.54064876  0.27963865  0.10603379 -0.00667862]
 [-4.31275507 -0.29889167 -0.05770109  0.01378534]
 [-0.5137791   0.16854262 -0.32945327  0.00846816]
 [-0.70280678 -0.09574181 -0.09013196 -0.04763517]]


# SLIDE (2) tSNE

Функционал, который tSNE оптимизирует во время обучения - это [расстояние Кульбака - Лейблера](https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence) между вероятностным распределением в исходных данных и распределением после трансформации. Эта метрика определяется так:
$$D_{KL}(P\parallel Q)=\sum_{i=1}^{n}p_i \log(\frac{p_i}{q_i})$$
Реализуйте метод, который считает KL-divergence. При наличии нулей во втором векторе должен возвращаться np.inf. Вообще, обратите внимание на крайние случаи и напишите пользуясь только numpy движком. Если векторы не являются распределениями вероятности, сделайте с ними необходимую трансформацию.

### Sample 1
#### Input
```python
p, q = [0.5,0.5], [1,0]
```
#### Output
```python
KLDivergence(p,q) == np.inf
```
### Sample 2
#### Input
```python
p, q = [0.2, 0.1, 0., 0.7], [0.4, 0.1, 0.1, 0.4]
```
#### Output
```python
KLDivergence(p,q) == 0.2531
```

In [379]:
def KLDivergence(p,q):
    ### ╰( ͡° ͜ʖ ͡° )つ──☆*:・ﾟ
    pass

In [380]:
def KLDivergence(p, q):
    p = np.array(p) / np.sum(p)
    q = np.array(q) / np.sum(q)
    log = np.log(p/q)
    log[np.where(p==0)] = 0
    return p @ log

In [390]:
######################################################
p, q = [0.5,0.5], [1,0]

assert_almost_equal(KLDivergence(p,q), np.inf)
######################################################
p, q = [0.2, 0.1, 0., 0.7], [0.4, 0.1, 0.1, 0.4]
assert_almost_equal(KLDivergence(p,q), 0.25310161544280674)
######################################################
p, q = [0, 0, 0, 1], [0.3333, 0.3333, 0.3333, 0.3333]
assert_almost_equal(KLDivergence(p,q),1.3862943611198906)

# SLIDE (3) LLoyd's

# SLIDE (4) Elkan's

# SLIDE (5) DBSCAN 'knee' epsilon selection

In [364]:
kl(P, P)

0.0

In [365]:
kl(Q, P)

0.4737363769318541

In [371]:
kl([0,1,2,3],[1,0.000000000000000001,2,3])

41.44653167389282

In [352]:
P[np.where(Q==0)] = 0

In [353]:
import scipy.stats

In [354]:
scipy.stats.entropy([0.5,0.5],qk=[0.00001,0.99999])

5.063320551950169

In [359]:
a= np.array([0,1])
b=np.array([1,0])
np.log(a/b)

array([-inf,  inf])