# L11 - Uczenie reprezentacji

Na dzisiejszych zajęciach dowiemy się o paru metodach nauki reprezentacji (a nie gęstości danych), co może być przydatne do projektu (w szczególności autoenkodery).

Ref:
* (Repr. Learning, review) http://www.cl.uni-heidelberg.de/courses/ws14/deepl/BengioETAL12.pdf
* (Deep Learning book, ch. 15) http://www.deeplearningbook.org/
* (Autoenkodery w Keras) https://blog.keras.io/building-autoencoders-in-keras.html
* Isomap
* LLE
* C-Isomap
* Blog post o wektorkach

In [6]:
import matplotlib.pylab as plt
import time as time
import numpy as np
import matplotlib.pyplot as plt
import mpl_toolkits.mplot3d.axes3d as p3
from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets.samples_generator import make_swiss_roll
%matplotlib inline

# Zbiory danych

* Swissroll (2 -> 3)

* MNIST (? -> 784), ? pewnie nie dużo większe niż 30

* Fishbowl (2 -> 3)

In [9]:
## Swissroll
n_samples = 1500
noise = 0.05
X_swissroll, z_swissroll = make_swiss_roll(n_samples, noise)
X_swissroll[:, 1] *= .5

# Postawienie problemu

## Odwracanie funkcji

Z jednej strony możemy patrzeć na problem uczenia nienadzorowanego jako problemu "odwrócenia" funkcji generującej dane.

Przykładowo, punkt ze zbioru danych swissroll powstaje przez wylosowanie 2 zmiennych $u_1$ oraz $u_2$ a potem ich zanurzeniu w 3 wymiarach. Ten proces staramy się odwrócić i znaleźć (nieliniowy) układ współrzędnych w którym swissroll "jest wypłaszczony".

In [13]:
fig = plt.figure()
ax = p3.Axes3D(fig)
ax.view_init(7, -80)
ax.plot3D(X_swissroll[:,0], X_swissroll[:, 1], X_swissroll[:, 2], 'o', color=z_swissroll)

[<mpl_toolkits.mplot3d.art3d.Line3D at 0x10e491ad0>]

Error in callback <function post_execute at 0x106c406e0> (for post_execute):


ValueError: to_rgba: Invalid rgba arg "[ 14.02791168  12.25607296   9.38746938 ...,   7.64842206  10.94529351
   9.10532349]"
length of rgba sequence should be either 3 or 4

ValueError: to_rgba: Invalid rgba arg "[ 14.02791168  12.25607296   9.38746938 ...,   7.64842206  10.94529351
   9.10532349]"
length of rgba sequence should be either 3 or 4

<matplotlib.figure.Figure at 0x10e168e50>

<img width=300 src="figures/L11/swissroll.png">

## Maximum likelihood

Z drugiej strony popularnym podejściem jest stawianie problemu uczenia nienadzorowanego jako znajdowania rozwiązania 

$$ \theta^{*} = argmax_{\theta} \mathbb{E}[p_\theta(x)] $$

Co istotne, jeśli naszym celem jest nauka cech (a nie aproksymacja gęstości), to nie ma zadnych gwarancji że podejścia typu "maximum likelihood" nauczą się ciekawych cech, patrz np. http://www.inference.vc/maximum-likelihood-for-representation-learning-2/.

## PCA / liniowy autonkoder

Najprostsza sieć neuronowa do nauki cech jednocześnie implementuje PCA 

"'In the auto-associative case ... and therefore the unique locally and globally optimal map W is the orthogonal projection onto the space spanned by the first pp eigenvectors of ΣXX"


In [16]:
### TODO: Pokazac na fishbowl co robi PCA, AE

In [None]:
from keras.layers import Input, Dense
from keras.models import Model

# this is the size of our encoded representations
encoding_dim = 32  # 32 floats -> compression of factor 24.5, assuming the input is 784 floats

# this is our input placeholder
input_img = Input(shape=(784,))
# "encoded" is the encoded representation of the input
encoded = Dense(encoding_dim, activation='relu')(input_img)
# "decoded" is the lossy reconstruction of the input
decoded = Dense(784, activation='sigmoid')(encoded)

# this model maps an input to its reconstruction
autoencoder = Model(input_img, decoded)

In [None]:
# this model maps an input to its encoded representation
encoder = Model(input_img, encoded)

In [None]:
# create a placeholder for an encoded (32-dimensional) input
encoded_input = Input(shape=(encoding_dim,))
# retrieve the last layer of the autoencoder model
decoder_layer = autoencoder.layers[-1]
# create the decoder model
decoder = Model(encoded_input, decoder_layer(encoded_input))

### Problemy PCA / liniowego autoenkodera

* Brak modelu prawdopodobieństwa (0 poza nieskończonie małym podzbiorem) - Probabilistic PCA, patrz np. http://edwardlib.org/tutorials/probabilistic-pca oraz VAE/denoising autoenckoder
* Zakłada globalną strukture euklidesową - MDS generalizuje na dowolną metryke
* Zakłada globalną strukturę liniową - Isomap/LLE/kernelPCA/nieliniowe autoenkodery wszystkie rozwiązać ten problem

## Isomap oraz LLE

"PCA
finds a low-dimensional embedding of the
data points that best preserves their variance
as measured in the high-dimensional input
space. Classical MDS finds an embedding
that preserves the interpoint distances, equivalent
to PCA when those distances are Euclidean.
However, many data sets contain
essential nonlinear structures that are invisible
to PCA and MDS (4, 5, 11, 14). For
example, both methods fail to detect the true
degrees of freedom of the face data set (Fig.
1A), or even its intrinsic three-dimensionality
(Fig. 2A)." (http://wearables.cc.gatech.edu/paper_of_week/isomap.pdf)

## t-SNE

t-SNE służy do wizualizacji, nie nauki cech! Ale jest zamieszczony ze względu na ogromną popularność.

## Autoenkoder

TODO: Pokazac na fishbowl co robi PCA, AE

## O czym nie wspominamy

* Metody klastrowania (w szczególności spectral clustering)
* kernel PCA / probabilistic PCA
* Factor analysis

## Algebra na reprezentacji

In [14]:
# TODO: Rozwiązać similarity za pomocą word embeddingów

# TODO: Wykres analogy word embeddingów

## Zadanie [3 pkt]

Zaimplementuj rozwiązywanie analogii za pomocą word-embeddingów. 