# Autoencoder in Python

Python Numpy를 이용해서 Autoencoder를 구현합니다.

In [10]:
%pylab inline
import numpy as np
from keras.datasets import mnist
import sympy

Populating the interactive namespace from numpy and matplotlib


### Data Compression via Autoencoders

예를 들어서 모바일 데이터를 클라우드로 보내려고 합니다.<br>
이때 데이터는 다음과 같은 좌표로 구성이 되어 있으며, 눈으로 보면 알수 있듯이 x에 비해서 y값이 2배이상 빠르게 증가하는것을 알 수 있습니다.

<img src="images/autoencoder01.png" class="img-responsive img-rounded">

즉 이러한 관계를 이용하여, 데이터의 1 dimension만 클라우드로 보낸다면 데이터의 양을 compress할 수 있을 것입니다. <br>
클라우드에서는 받은 데이터를 2배정도 증가시켜서 대략의 데이터값을 복원할 수 있습니다. 

1. **Encoding**: $ x^{(i)} $ data의 compress 해서 $ z^{(i)} $ data로 변환시킵니다.
2. **Sending**: $ z^{(i)} $를 클라우드로 보냅니다.
3. **Decoding**: $ z^{(i)}$ 데이터를  $ \hat{x}^{(i)} $ 로 변환시킵니다.

### $$ z^{(i)} = W_1  x^{(i)} + b_1$$

### $$ \hat{x}^{(i)} = W_2 z^{(i)} + b_2 $$

Autoencoder는 2개의 부분으로 이루어져 있습니다. <br>
Encoder 부분은 $ \textit{h} = f(x) $ 그리고 Decoder부분으로 $ r = g(h) $<br>
x -> hidden layer -> reconstruction

<img src="images/autoencoder_layer.png" class="img-responsive img-rounded">



### Undercomplete

x에서 reconstruction으로 copy하는 수준인데.. 이게 대체 왜 필요한가에 대한 의문이 들 것입니다.<br>
실제로 reconstruction layer를 사용하는 경우보다는 hidden layer에 주목할 필요가 있습니다. 

hidden layer를 x보다 더 작은 dimension으로 제약을 줌으로서 여기서 사용할만한 feature 정보를 얻을수 있습니다. <br>
이렇게 hidden layer가 x보다 작게하는 방법을 **undercomplete**라고 하며<br>
이때 데이터를 줄임으로서 x의 아주 중요한 features 정보들만 저장할수 있게 됩니다.


### Cost function

Gradient descent를 활용하기 위해서 sum of sqaured error (SSE)를 사용합니다.

### $$ \sum^m_{i=1} \left( \hat{x}^{(i)} - x^{(i)} \right)  $$

###  $$ = \sum^m_{i=1} \left( W_2 z^{(i)} + b_2 - x^{(i)} \right)  $$

###  $$ = \sum^m_{i=1} \left( W_2 (W_1  x^{(i)} + b_1) + b_2 - x^{(i)} \right)  $$

### Backpropagation & Weight Update

아래의 공식은 weight update하는 공식

$$ w_1 = \Delta w_1 + w_1 $$

weight change를 구하는 공식은 아래에 있습니다.<br>
* $ \eta $ 는 learning rate
* $ \| x \|^2 $ 는 norm2 를 뜻함
* $ \frac{1}{2} $ 는 derivation 할때 쉽게 하기 위해서 붙음




$$ \Delta w_1 = - \eta \cdot \frac{\partial}{\partial w_1} \frac{1}{2} \| x - \hat{x} \|^2  $$

$$ \Delta w_1 = -\eta \cdot \frac{\partial}{\partial w_1} \frac{1}{2} \sum^m_{i=1} (x - \hat{x})^2 $$

### Data

In [11]:
(train_x, train_y), (test_x, test_y) = mnist.load_data()
train_x = train_x.astype('float32')/255.
test_x = test_x.astype('float32')/255.

print('Train x Shape:', train_x.shape)
print('Test x Shape:', test_x.shape)

# Reshape
train_x = train_x.reshape((len(train_x), np.prod(train_x.shape[1:]))) # (60000, 28*28=784))
test_x = test_x.reshape((len(test_x), np.prod(test_x.shape[1:]))) # (60000, 28*28=784))

print('\n[After Reshaping]')
print('Train x Shape:', train_x.shape)
print('Test x Shape:', test_x.shape)

Train x Shape: (60000, 28, 28)
Test x Shape: (10000, 28, 28)

[After Reshaping]
Train x Shape: (60000, 784)
Test x Shape: (10000, 784)


### Autoencoder in Python 

In [12]:
class Autoencoder(object):
    def __init__(self, input_dim=784, encoding_dim=32, batch_size=50):
        self.batch_size = batch_size
        self.input_w = np.random.rand(batch_size, input_dim + 1) # (50, 784+1) 이미지 받기
        self.encoded_w = np.random.rand(batch_size, encoding_dim + 1) # (50, 32+1) Compressed
        self.output_w = np.random.rand(encoding_dim, input_dim) # (32, 784) 복원
        self.output_b = np.random.rand(batch_size)
    
    def train(self, X, nb_epoch=50, eta=0.01):
        N = len(X)
        
        for epoch in range(nb_epoch):
            for step in range(int(N/self.batch_size)):
                samples = self.get_batch(X, N)

                # Forward Propagation
                encoded = self.encode(samples) # (32, 50)
                decoded = self.decode(encoded) # (32, 784)

                # Back Propagation
                samples - decoded
                break
            
            break
                
    def get_batch(self, X, N):
        indices = np.random.randint(0, N, size=self.batch_size)
        return X[indices]
    
    def encode(self, data):
        encoded_input = self.input_w[:, 1:].dot(data.T) + self.input_w[:, 0] # (50, 50)
        return self.sigmoid(self.encoded_w[:, 1:].T.dot(encoded_input) + self.encoded_w[:, 0]) # (32, 50)
    
    def decode(self, data):
        decoded = (data.T.dot(self.output_w).T + self.output_b).T
        return self.sigmoid(decoded)  # (50, 784)
    
    def relu(self, data):
        return np.maximum(data, 0)
    
    def sigmoid(self, data):
        return 1./(1. + np.exp(-data))
    
    def desigmoid(self, data):
        return 1(-data) * data
    
    def norm2(self, data):
        return data/np.sqrt(np.sum(data**2))
        
autoencoder = Autoencoder()
autoencoder.train(train_x)

### References

[Autoencoder - Xiaogang Wang](https://piazza-resources.s3.amazonaws.com/i48o74a0lqu0/i64w68xz4oe4sa/deep_learning.pdf?AWSAccessKeyId=AKIAIEDNRLJ4AZKBW6HA&Expires=1483614971&Signature=tsrGbBBAQMsNfPOEImqhjp6IAQw%3D)