### Intro

보다 유의미하고 활용도 높은 유저의 몰입도(인게이지먼)를 산출하기 위해 다양한 시도를 하고 있습니다.    

얼마전부터 Variational Auto-Encoder를 이용해 이 지표를 개선하려는 작업을 진행해왔고    
작업 내용들을 공유해드도록 하겠습니다.

다소 테크니컬한 내용이 포함되어 있어서 지루할 수 있음을 미리 말씀드립니다.

> - 인게이지먼트(몰입도)
- VAE

### Dimensionality reduction

우리에게 주어진 다양한 시점의 로그 데이터를 이용해 '유저의 몰입도 혹은 인게이지먼트'를 구한다는건, 말 그대로 정보의 축약/압축을 의미합니다.

이런 일을 하기 위한 다양한 차원 축소 방법들이 존재합니다. feature selection을 할수도 있고, PCA나 Kernel PCA, NMF(Non-negative matrix factorization), LDA(Linear discriminant analysis), GDA(Generalized discriminant analysis) 혹은 곧 소개해드릴 Autoencoder류의 방법을 사용할 수도 있습니다.

여러 방법들 중 저희가 갖고 있는 데이터의 특성에 가장 잘 맞는 방법을 선택하면 되겠습니다.

저희가 갖고 있는 데이터의 특성은 우선 양이 많고, feature가 상당히 가변적입니다. 예를들어 map별 플레이 횟수라는 더미 변수들이 있다면 기간마다 유저들이 플레이하는 map의 종류가 달라질 수 있습니다. 이밖에도 이렇게 가변적인 feature가 상당히 많이 존재합니다. 또한 변수의 수 또한 상당히 많을 수 있습니다. 예를들어 아이템별 획득 수량을 더미 변수로 사용한다면 몇십에서 몇천개의 feature가 존재할 수 있습니다. 또한 입력 변수간 그리고 입력 변수와 출력변수의 관계가 선형적이리라고 보장할 수 없습니다. 마지막으로 단순히 차원 축소만 할게 아니라 몰입도가 낮은 유저를 기준으로 상대적인 몰입도를 정량화 하고 싶은 니즈 또한 존재합니다.
- 대용량 데이터
- 많은 feature 수
- 가변적인 feature 수
- 비선형성
- 축소된 공간에서 거리의 정량화 필요성

이런 요구사항을 만족하는 방법을 찾고 있었고, Autoencoder와 Variational Bayes가 혼합된 모형이라 할 수 있는 Variational Auto-Encoder가 그나마 가장 적절하다는 판단으로 작업을 진행하고 있습니다.

그럼 왜 Variational Auto-Encoder가 여기에 사용되었는지 설명드리겠습니다.

> - 차원축소
 - PCA, Kernel PCA, NMF, LDA, GDA, Autoencoder, ...

> - 우리 데이터
 - 대용량
 - 많은 feature 수
 - 가변적 feature 수
 - 비선형성
 - 지표로서 거리의 정량화

### VAE Theoretical perspective

머신러닝을 공부해보신 분들은 옵티마이져로 아담 옵티마이져를 많이 사용하는데요. 이 아담 옵티마이져를 만든 Kingma와 그의 지도교수인 Max Welling이 2013년에 발표한 'Auto-Encoding Variational Bayes'라는 논문에 VAE가 처음 소개됩니다.

이 논문에서 풀려는 문제를 간단히 말하자면 z가 원인이 되어 x가 결과가 되는 어떤 인과관계 p(z|x)를 기존 방법들보다 쉽게 구해보자는건데요. 이 문제에 대한 접근법으로 확률적 변분 추론과 학습(stochastic variational inference & learning) 방법을 사용합니다. 그리고 이 접근법의 한 예시가 VAE라고 할 수 있습니다.

여기서 결과 x라는건 우리가 관찰하는 데이터, 로그 데이터, nxlog라고 할 수 있습니다.      
그리고 원인 z라는건 유저마다의 어떤 특성, 이 특성이 몰입도 혹은 인게이지먼트를 나타낼 수 있다면 참 좋을것 같습니다.     
그리고 p(z|x)는 데이터가 주어졌을 때 원인 z의 확률 분포를 의미하기 때문에, nxlog가 주어졌을 때 각 유저의 어떤 잠재적 특성을 찾는 것이라 할 수 있습니다.

복잡한 p(z|x)를 구하는 방법은 MCMC와 같은 샘플링 방법이나 Variational Bayes와 추정 방법을 사용할 수 있습니다. 하지만 우리가 다루는 데이터 처럼 양이 많고 복잡한 상황에서는 이런 방법들을 사용할수가 없습니다.

> - Variational Auto-encoder

###### Auto-encoder

오토 인코더는 기본적으로 두개의 네트워크가 서로 마주보고 붙어 있는 구조 입니다.     
각 네트워크는 내부적으로 feed-forward로 연결되어 있고, 입력 데이터의 종류에 따라서 다양한 구조로 변형할 수 있습니다.

// simple autoencoder picture here

입력 데이터가 x가 d차원이고 가운데 레이어 z가 p 차원이라면,     
d차원 데이터가 들어가서 어떤 좁은 차원 p로 축소되었다가     
다시 d차원 출력 x'로 나오는 구조 입니다.

이런 네트워크의 학습 목표는     
입력 데이터 x가 들어가서 나오는 출력 x'가 최대한 입력과 같아지는 것 입니다.
즉 목적함수가 $\mid x - \hat{x}\mid$와 같은 형태라고 할 수 있습니다.

이런 구조에서 만약 hidden layer가 인코더, 디코어에 각각 하나식만 있고      
activation function을 사용하지 않으면(즉 입력을 그대로 bypass)      
z 레이어의 출력값은 잘 알려진 PCA류의 방법과 같습니다.  

// simple autoencoder and U animation below

PCA에서는 기본적으로      
입력데이터가 d차원($x \in \mathbb{R}^d$)의 어떤 점일때      
$p \times d$ 차원의 $U^\intercal$라는 어떤 transformation을 해서 $p$차원의 어떤 점 $z$를 얻는 방식입니다.    
$$z = U^\intercal x$$

$y$는 $x$의 축약된 혹은 변형된 표현이라 할 수 있고,   
matrix $U$를 이용해 $z$에서 다시 $x$를 복원할수도 있습니다.
$$\hat{x} = Uz $$

그리고 이 두 관계는 아래 관계를 의미합니다.
$$\hat{x} = UU^\intercal x $$

autoencoder에서 이 관계를 생각해보면       
만약 첫 히든 레이어와 z 레이어 사이의 weight matrix가 $U^\intercal$이면
$$z = U^\intercal x$$
이 되고

z 레이어와 뒷단 히든 레이어 사이의 weight matrix가 $U$라면 
$$\hat{x} = Uz $$
인 관계가 성립합니다.
또한 이때의 objective function은 $\mid x - U^\intercal U x \mid$이고 이를 최소화 하게 됩니다.

PCA와 방금 말씀드린 초간단 autoencoder의 차이점이라면, PCA에서는 $U^\intercal U$가 identity matrix $I$라는 제약조건이 추가된것 뿐입니다.

이런 autoencoder에 히든 레이어를 더 추가하고, activation function으로 RELU같은 non-linear한 함수를 사용하면 흔히 말하는 deep autoencoder가 되는 거고, 좀더 복잡한 데이터의 비선형적 관계를 축약하는 역할을 하게 된다.

 ![Remote image](https://upload.wikimedia.org/wikipedia/commons/2/28/Autoencoder_structure.png "Tooltip for remote image")
 

autoencoder에서는 이 앞단을 encoder라 하고, 뒷단을 decoder 부르고, z 레이어는 일종의 '잠재변수 공간' 혹은 'latent space'라 할 수 있다.

물론 autoencoder를 차원축소가 아니라 다른 목적으로도 사용할 수 있는데, 여기서 설명드리지는 않겠습니다.

###### Variational Inference

autoencoder의 다양한 목적의 다양한 변형이 있는데, 지금 소개드릴건 Variational AutoEncoder 혹은 약어로 VAE입니다.   

VAE는 autoencoder + deep neural network + variational Inference가 혼합된 방법입니다.   
autoencoder는 방금전에 말씀드렸고    
변분추론 혹은 variational inference에 대해 간단히 소개해드리겠습니다.



##### Information

정보이론으로 유명한 클로드 새넌에 따르면    

정보을 아래와 같이 정량화할 수 있습니다.
$$I(m) = -\log\big( p(m) \big)$$
$m$은 어떤 메시지를 의미하고 $p(m)$은 이 메시지가 일어날 확률을 의미합니다.

// http://fooplot.com/#W3sidHlwZSI6MCwiZXEiOiItbG9nKHgpIiwiY29sb3IiOiIjMDAwMDAwIn0seyJ0eXBlIjoxMDAwLCJ3aW5kb3ciOlsiLTEuODYyODYwOCIsIjIuMzk2OTc5MTk5OTk5OTk5NiIsIi0wLjUzNTkyMDYzOTk5OTk5OTgiLCIyLjA4NTUxOTM2Il19XQ--

위 그림과 같이 일어날 확률이 높을수록 정보량이 작아집니다.

예를들어 '내일 삼성전자 주식이 몇만원 오를것이다'라는 메시지와 '내일 누구 누구는 회사에 출근할거야'라는 정보가 있다면, 주식 오를거라는 정보의 확률이 더 낮고 정보의 양이 더 크다고 할 수 있습니다.

###### Entropy

평균 정보량을 엔트로피라고 한다.
$$H(M) = \mathbb{E}[I(M)] =  - \sum_{i=1}^n p(m_i) \log p(m_i)$$

###### KL divergence

분포 $p$와 $q$가 있을 때 이 둘의 평균 정보량 차이, 즉 엔트로피 차이는 아래와 같다.
$$\begin{align}
 -\sum \color{red}{q(x)} \log q(x) + \sum p(x) \log p(x)
 \end{align}$$
 
위 식에서 기댓값의 기준 확률을 $p$로 통일하면 아래와 같이 $KL(p \Vert q)$가 된다.
$$\begin{align}
& -\sum \color{red}{p(x)} \log q(x) + \sum p(x) \log p(x) \\
& = \sum_x p(x) \log \frac{p(x)}{q(x)} \\
& = KL(p \Vert q)
\end{align}$$

KL divergence는 두 분포의 차이를 나타내는 지표이고 0보다 큰 특성을 갖는다.

###### Variational inference

우리가 알고 싶은 것은 데이터 $x$가 주어졌을 때 잠재변수 $z$는 어떠한가이다.

$p(z \mid x)$를 $q(z \mid x)$로 근사

$z$가 원인이고 $x$가 결과가 되는 상황($z \rightarrow x$)에서 우리는 $x$를 데이터로 관찰하게 되고,      
이에 대한 marginal likelihood를 구하기 위해 베이지안 접근법에서는 아래와 같은 방식을 취한다.
$$p(\mathbf{x}) = \int_\mathbf{z} p(\mathbf{x} \mid \mathbf{z}) p(\mathbf{z}) ~ d\mathbf{z}$$

하지만 latent $\mathbf{z}$가 고차원인경우 이 적분을 계산하는 것이 어려워진다.      
대신 아래와 같이 베이즈룰과 Kullback-Leibler divergence를 이용한 근사를 이용할 수 있다.

$p(\mathbf{x})$를 잘 정리하면 아래와 같이 표현할 수 있고, marginal likelihood를 최대화 하는 

$$\begin{align}
\log p(\mathbf{x}) &= KL\big( q(\mathbf{z}|\mathbf{x}) \Vert p(\mathbf{z} \mid \mathbf{x}) \big) - \mathbb{E}_{q(\mathbf{z}|\mathbf{x})} \bigg[ \log q(\mathbf{z}|\mathbf{x}) - \log p(\mathbf{x} \mid \mathbf{z}) p(\mathbf{z}) \bigg] \\
&\geq \mathbb{E}_{q(\mathbf{z}|\mathbf{x})} \bigg[ \log p(\mathbf{x} \mid \mathbf{z}) p(\mathbf{z}) - \log q(\mathbf{z}|\mathbf{x}) \bigg] \\
&= \mathbb{E}_{q(\mathbf{z}|\mathbf{x})} \bigg[ \log p(\mathbf{x} \mid \mathbf{z}) - \log \frac{q(\mathbf{z}|\mathbf{x})}{p(\mathbf{z})} \bigg] \\
&= \mathbb{E}_{q(\mathbf{z}|\mathbf{x})} \bigg[ \log p(\mathbf{x} \mid \mathbf{z}) \bigg] - KL\big( q(\mathbf{z}|\mathbf{x}) \Vert p(\mathbf{z}) \big)
\end{align}$$

$p_\theta(\mathbf{x})$를 잘 정리하면 아래와 같이 표현할 수 있고,               
marginal likelihood를 최대화 하는 $q_\phi(\mathbf{z}|\mathbf{x})$의 파라미터 $\theta$와             
$q_\phi(\mathbf{z}|\mathbf{x})$의 파라미터 $\phi$를 찾을 수 있다면 $x$와 $z$에 대한 많은걸 알게 된다.

$$\begin{align}
\log p_\theta(\mathbf{x}) &= KL\big( q_\phi(\mathbf{z}|\mathbf{x}) \Vert p_\theta(\mathbf{z} \mid \mathbf{x}) \big) - \mathbb{E}_{q_\phi(\mathbf{z}|\mathbf{x})} \bigg[ \log q_\phi(\mathbf{z}|\mathbf{x}) - \log p_\theta(\mathbf{x} \mid \mathbf{z}) p_\theta(\mathbf{z}) \bigg] \\
&\geq_\phi \mathbb{E}_{q_\phi(\mathbf{z}|\mathbf{x})} \bigg[ \log p_\theta(\mathbf{x} \mid \mathbf{z}) p_\theta(\mathbf{z}) - \log q_\phi(\mathbf{z}|\mathbf{x}) \bigg] \\
&= \mathbb{E}_{q_\phi(\mathbf{z}|\mathbf{x})} \bigg[ \log p_\theta(\mathbf{x} \mid \mathbf{z}) - \log \frac{q_\phi(\mathbf{z}|\mathbf{x})}{p_\theta(\mathbf{z})} \bigg] \\
&= \mathbb{E}_{q_\phi(\mathbf{z}|\mathbf{x})} \bigg[ \log p_\theta(\mathbf{x} \mid \mathbf{z}) \bigg] - KL\big( q_\phi(\mathbf{z}|\mathbf{x}) \Vert p_\theta(\mathbf{z}) \big)
\end{align}$$

###### Variational autoencoder

Variational inference를 이용해서 이 위 문제를 다뤄볼수도 있지만, 샘플 사이즈가 커지거나 분포에 대한 몇가지 조건이 필요하므로 현실적이지 않고, VAE에서 제시하는 reparameterization trick을 이용해 효과적으로 풀어볼 수 있다.

VAE에서는 잠재변수 분포 $p(z\mid x)$가 정규분포로 모델링하며, 디코더 입력으로 사용될 $p(z\mid x)$에서의 샘플을 얻기 위해서 $\mu + \sigma \cdot \epsilon, ~ \epsilon \sim N(0, 1)$에서 대신 샘플링하는 트릭을 이용한다. 이런 트릭을 을 이용해 marginal likelihood를 다시 정리하면 아래와 같다.

$$\begin{align}
\log p_\theta(\mathbf{x}) &\geq \frac{1}{L} \sum_{l=1}^L \log p_\boldsymbol{\theta}(\mathbf{x}^{(i)}, \mathbf{z}^{(i, l)}) - KL\big( q_\phi(\mathbf{z}|\mathbf{x}) \Vert p_\theta(\mathbf{z}) \big) \\
&\approx -  KL\big (q_\phi (\mathbf{z}^{(i, l)} \mid \mathbf{x}^{(i)}) \Vert p_\theta(\mathbf{z}^{(i, l)}) \big) + \frac{1}{L} \sum_{l=1}^L \log p_\boldsymbol{\theta}(\mathbf{x}^{(i)}, \mathbf{z}^{(i, l)}) \\
&=\frac{1}{2} \sum_{j=1}^J \bigg( 1 + \log( (\sigma_j^{(i)})^2 - (\mu_j^{(i)})^2) - (\sigma_j^{(i)})^2 \bigg) + \frac{1}{L} \sum_{l=1}^L \log p_\theta (\mathbf{x}^{(i)} \mid \mathbf{z}^{(i, l)} ) \\
~~~ &\text{where} ~~ \mathbf{z}^{(i, l)} = \boldsymbol{\mu}^{(i)} + \boldsymbol{\sigma}^{(l)} ~ \text{and} ~ \epsilon^{(l)} \sim \mathcal{N}(0, \mathbf{I}) 
\end{align}$$

3번째 식을 objective function으로 네트워크를 학습시키는데,       
이 loss function의 의미를 생각해보면 첫번째 항은 잠재변수가 각각 정규분포(N(0, 1))에 가까워지도록 하는 역할을 하고, 두번째 항은 autoencoder의 기본적인 특성인 입력과 출력이 같아져야 한다는 조건을 의미한다.

네트워크 구조는 아래 우측과 같다. 좌측의 기본적인 autoencoder와 조금 달라진 부분을 확인할 수 있다.

 ![Remote image](https://www.renom.jp/notebooks/tutorial/generative-model/VAE/fig4.png "Tooltip for remote image")


### Latent space and dimensionality reduction


	* https://arxiv.org/pdf/1706.05148.pdf
	* 
connection to PCA in the https://www.youtube.com/watch?v=uaaqyVS9-rM
	* 
shortcommings : randomness but data


> this is much better dimensionality reduction methodology for us

.

### Qualitative point of view

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.

.