In [6]:
# Importy:
from IPython.display import Image
import numpy as np
from sklearn.manifold import TSNE
import io
import base64
from IPython.display import clear_output
from IPython.display import HTML
import matplotlib.cm as cm
import matplotlib.colors as mcolors
import matplotlib.pyplot as plt
import numpy
import matplotlib.pyplot as plt
import time

# LargeVis
## Wstęp
Naszym problemem pozostaje sensowna reprezentacja wielo-wymiarowych danych w 2/3 wymiarowej przestrzeni.<br>
Najtrywialniejsze: podejście z policzeniem prawdopodobieństwa wszystkich par punktów -> O(n^2*d) d-liczba wymiarów<br>
Lepsze: t-SNE -> konstrukcja grafu KNN (k najbliższych sąsiadów) i projekcja wyników do wymiaru 2D.

Dla dużej ilości wymiarów algorytmy z rodziny SNE: t-SNE (O(n^2)) / bh-SNE (O(NlogN)) nie radzą sobie z danymi w rozsądnym czasie.
Z punktu widzenia praktyczności i użyteczności zależy nam bardzo na tym aby cała procedura działała jak najszybciej.

Jak to osiągnąć - z pomocą przychodzi largeVis!

Metoda zaproponowana w 2016 roku używa dużo bardziej wydajnego algorytmu dla konstrukcji KNN oraz innego modelu probabilistycznego do wizualizacji grafu. 

Official paper: https://arxiv.org/pdf/1602.00370.pdf

# Podejście
<img src="img/pipeline.jpg" alt="Drawing" style="width: 800px;"/>

## 1.Konstrukcja grafu KNN
* Random projection tree used for nearest-neighborhood search in the high-dimensional space with euclidean distance as metric of distance.
* Tree is constructed by partitioning the entire space and the nodes in the tree correspond to subspaces.
* For every non-leaf node of the tree, select a random hyperplane that splits the subspace (corresponding to the leaf node) into two children.
* This is done till the number of nodes in the subspace reaches a threshold.
* Once the tree is constructed, each data point gets assigned a leaf node and points in the subspace of the leaf node are the candidate nearest neighbors of that datapoint.
* For high accuracy, a large number of trees should be constructed (which increases the computational cost).
* The paper counters this bottleneck by using the idea "a neighbor of my neighbor is also my neighbor" to increase the accuracy of the constructed graph.
* Basically construct an approximate KNN graph using random projection trees and then for each node, search its neighbor's neighbors as well.
* Edges are assigned weights just like in t-SNE.

<img src="img/algo_KNN.jpg" alt="Drawing" style="width: 500px;"/>

W skrócie:
* opiera się na metodyce "sąsiad mojego sąsiada jest moim sąsiadem"
* Budujemy kilka random projection trees -> przybliżony graf KNN. Póki co dokładność niewielka.
* Dla każdgo wierzchołka w grafie przeszukujemy sąsiadów jego sąsiadów. Krok powinno się powtórzyć w kilku iteracjach, aby zwiększyć dokładność.

Przewagą tego podejścia jest fakt, że potrzebujemy tylko kilku iteracji, aby dokładność grafu znacznie zbliżyła się do 100%

<img src="img/knn_accuracy.jpg" alt="Drawing" style="width: 500px;"/>
<br>
<br>
<img src="img/knn_porownanie.jpg" alt="Drawing"/>

***
## 2.Wizualizacja (redukcja do 2D/3D)
Redukcja wymiarowości otrzymanego grafu kNN do 2 albo 3<br>
Podstawowe podejście:<br>
* transforamcje liniowe, np. PCA
* nieliniowe, np. MDS

Metody transformacji nieliniowej są z reguły lepsze, ale mają duża złożoność i kiepsko radzą sobie z niespreparowanymi wcześniej danymi.

Transformacją nieliniową, działająca dobrze na realnych danych jest np. tSNE. Jednakże jest słabo skalowalna i wrażliwa na zmianę parametrów.


Podjeście w largeVis:
* Given a pair of vertices, the probability of observing an edge between them is given as a function of the distance between the projection of the pair of vertices in the lower dimensional space.
* The probability of observing an edge with weight w is given as wth power of probability of observing an edge.
* Given a weighted graph, G, the likelihood of the graph can be modeled as the likelihood of observed edges plus the likelihood of negative edges (vertex pairs without edges).
* To simplify the objective function, some negative edges are sampled corresponding to each vertex using a noisy distribution.
* The edges are sampled with probability proportional to their weight and then treated as binary edges.
* The resulting objective function can be optimized using asynchronous stochastic gradient descent (very effective on sparse graphs).
* The overall complexity is O(sMN), s is the dimension of lower dimensional space, M is the number of negative samples and N is the number of vertices.

W skrócie:
Dokonuje się tego za pomocą funkcji probabilistycznej, która jest optymalizowana za pomocą "asynchronous stochastic gradient descent".<br>
Dzięki temu udaje nam się zejść do złożoności liniowej O(N).

<br>
Klasyfikacja punktów 2D:
<img src="img/knn_classification.png" alt="Drawing"/>

# LargeVis vs t-SNE/bh-SNE

## Czas działania:
<img src="img/largevis_vs_sne_graph.jpg" alt="Drawing" style="width: 900px;"/>

Tabela:
<img src="img/largevis_vs_sne_table.jpg" alt="Drawing" style="width: 800px;"/>

### Przykłady:
<img src="img/largevis_ex_1.jpg" alt="Drawing" style="width: 800px;"/>
<br>
<img src="img/largevis_ex_2.jpg" alt="Drawing" style="width: 800px;"/>
<br>
<img src="img/largevis_ex_3.jpg" alt="Drawing" style="width: 800px;"/>

In [None]:
import itertools as itools
def subset_of_dataset(input_f, output_f, no_of_points, no_of_dims, categories):
    lines = []
    p_no = 0
    with open(input_f,"r") as f:
        lines = f.readlines()
    with open(output_f,"w") as f:
        f.write(lines[0])
        for line in lines[1:]:
            if p_no >= no_of_points:
                break
            l = line.strip()
            category = l[-1]
            if category in categories:
                p_no += 1
            else:
                continue
            sliced_l = itools.islice(l, no_of_dims)
            sliced_l
            
        
        