# Chapter 13. Linear Factor Models
13.0 Intro  
13.1 Probabilistic PCA and Factor Analysis  
13.2 Independent Component Analysis (ICA)  
13.3 Slow Feature Analysis  
13.4 Sparse Coding  
13.5 Manifold Interpretation of PCA  


## 13.0 Intro
- 많은 딥러닝 연구에서 입력데이터의 확률모델을 만들어 사용
- 원칙적으로, 다른 변수들이 주어진 환경에서 어떤 변수들을 예측하기 위해 probabilistic inference(확률론적 추론)을 사용가능
- 또한, latent variables (잠재 변수) $\textbf{h}$ 를 갖고, 입력데이터의 확률모델을 다음과 같이 표현 ; 볼드체=벡터  
$$ p_{model}(\textbf{x})=\mathbb{E}_{\textbf{h}p_{model}}(\textbf{x}|\textbf{h}) $$  
- 위처럼 잠재변수에 의해 데이터 확률모델을 다르게 표현 가능
- 잠재변수로 표현하는 distributed representations은 deep feed-forward network와 recurrent network에서 봤던 ***표현학습의 장점들*** 을 획득 가능
  
  -------------------------------
   
- 잠재 변수를 가진 가장 단순한 확률모델 : **linear factor models**
	- blocks of mixture models 설계시 이용
	- 더 크고 깊은 확률 모델 설계시 이용
	- generative models 설계시 필요한 기본 접근법 제시

-  $\textbf{h}$의 linear transformation에 noise를 추가하여 $\textbf{x}$를 생성하는
 ***stochastic linear decoder function*** 을 이용하여 linear factor model 정의
- 이 모델들은 ***simple joint distribution*** 을 가진 ***explanatory factor*** 들을 우리가 찾을 수 있도록 도움
- linear decoder 이용의 단순함은 이 모델들을 확장적으로 학습되는 첫번째 잠재변수 모델로 만든다.(??? 도대체 뭔뜻)
- linear factor model은 다음과 같은 데이터 생성 프로세스를 설명
	1. explanatory factor $\textbf{h}$ 를 distribution $\textbf{h} \sim p(\textbf{h})$로부터 샘플링
	 $p(\textbf{h})$ 는 factorial distribution,  샘플링하기 쉬움 
	  $$p(\textbf{h})= \prod_{i=1} p(h_i) $$
	2. 주어진 factor $\textbf{h}$ 에서 관찰가능한 실수값 변수들로 샘플링
	노이즈는 가우시안 + diagonal (independent across dimensions)
	$$ \textbf{x}=\textbf{Wh} + \textbf{b} + noise$$
- 이후 소개될 probabilistic PCA나 다른 linear factor model들은 
	$$ \textbf{h} \sim p(\textbf{h})  \\\\
	  \textbf{x}=\textbf{Wh} + \textbf{b} + noise $$
	위 두 식의 특별한 케이스
	노이즈 분포가 다르거나, h의 model의 prior가 다르거나

## 13.1 Probabilistic PCA and Factor Analysis

- Factor analysis에서 잠재변수의 prior는 unit variance 가우시안  
$$ \textbf{h} \sim \mathcal{N}(\textbf{h};\textbf{0},\textbf{I}) $$
- 반면, $\textbf{h}$가 주어졌을 때, observed 변수들 $x_{i}$는 conditionally independent(조건부 독립)로 가정  
(참고 : http://norman3.github.io/prml/docs/chapter08/2.html )
$$ \psi = diag(\sigma ^2) $$
$$ \sigma ^2 = [\sigma ^2 _1 , \dotsc ,\sigma ^2 _n]^\top $$
    위와 같이 noise가 diagonal covariance 가우시안 분포임을 가정, 각 변수 별로.
- 잠재변수 $\textbf{h}$의 역할은 다른 변수들 $x_{i}$ 사이 ***dependecies capture***
- 즉, data vector $\textbf{x}$가 multivariate noraml random variable  
$$ \textbf{x} \sim \mathcal{N}(\textbf{x};\textbf{b},\textbf{WW}^\top + \psi) $$
----------------------------------
- PCA : principal components analysis  
    (참고 : https://wikidocs.net/7646 [공돌이의 수학정리노트]) 
- probabilistic PCA는 multivariate가 아닌 동일한 variation인 경우 ($\textbf{z}$는 $noise$)
	$$ \sigma^2 = \sigma^2 _1 = \dotsc = \sigma^2 _n $$
	$$ \textbf{x} = \textbf{Wh} + \textbf{b} + \sigma\textbf{z} , \textbf{z} \sim \mathcal{N}(\textbf{z};\textbf{0},\textbf{I})$$  
- Probabilistic PCA 모델의 장점
    - data가 가지고 있는 대부분의 variation들을 $\textbf{h}$에 의해 잡아냄
- reconstruction error $\sigma ^2$
- $\sigma$가 0에 수렴 -> Sharp, https://www.desmos.com/calculator/0x3rpqtgrx [그래프]
$$  \textbf{x} = \textbf{Wh} + \textbf{b} + \sigma\textbf{z} $$ 
$$  \textbf{x} - \textbf{b} = \textbf{Wh} $$
- data에 노이즈가 없다는 전제
	- data가 정확하게 hyperplane에 대해 clustering되어야 함
	- 가능성이 떨어지는 전제

## 13.2 Independent Component Analysis (ICA)

- Linear factor를 모델링
	- linear factor : 많은 underlying signal들 속에서 observed signal을 분리를 목표로 함
		- underlying signals : observed signal(data)을 만들기 위해 같이 추가되고 scale된 신호들
		- 서로 fully independent
- 주로 ICA는 signal들을 분리시키기 위한 분석 tool로 사용
- ICA의 많은 변형들 존재
- user에 의해 $p(\textbf{h})$가 고정
	- non-Gaussian
	- $p(\textbf{h})$가 Gaussian이면 $\textbf{W}$를 확정할 수 없음(여러 개의 값)
- model을 $\textbf{x}=\textbf{Wh}$로 생성
- $\textbf{x}$에 대한 확률분포 $p(\textbf{x})$를 nonlinear하게  
![image](https://user-images.githubusercontent.com/33209778/50593943-de33aa80-0edd-11e9-930a-f9972e90e013.png)

- Nonlinear independent components estimation(NICE)
	- encoder stage에서 invertible transformations을 쌓아 올린 형태
        - 각 transforamtion의 Jacobian의 determinant 계산을 효율적으로 할 수 있게
- independent subspace analysis
	- feature들을 그룹별로 학습하도록
        - feature 그룹간에는 discouraged, 그룹내에서는 allowed한 통계적 dependence를 가지게끔

## 13.3 Slow Feature Analysis(SFA)

- invariant feature를 학습하기 위해 time signal로 부터의 정보를 이용한 linear factor model
------------------------
- Slowness principle
- scenes의 중요 특성들은 개별적 measurements에 비해 느리게 변화
	- 예시 : zebra가 달리는 장면
		- pixel 값은 white - black 매우 빠르게 변화
		- zebra자체는 매우 느리게 변화
- 즉, 시간에 대해 느리게 변화하는 feature들을 학습할 모델
- slowness principle은 gradient descent로 학습한 미분가능한 모델이면 적용 가능
	- cost function에 특정 term을 적용
	- ![image](https://user-images.githubusercontent.com/33209778/50596044-379fd780-0ee6-11e9-9593-8a1fc366730d.png)
	- $\lambda$ slowness regularization 조절 파라미터
	- $t$ time index
	- $f$ feature extractor
	- $L$ loss function, 둘 사이 distance

-----------------
- SFA는 slowness principle의 특정적 - 효율적 적용
	- linear feature extractor에 적용
	- closed form(linear algebra)으로 train 가능
- input 과 feature 사이의 linear map을 정의
	- feature space에 대한 prior $p(\textbf{h})$ 를 정의하는 건 아님
	- input space에서 $p(\textbf{x})$를 정의하는 건 아님
- SFA 알고리즘은 linear transformation $f(\textbf{x}; \theta )$을 정의하고, 최적화
	- ![image](https://user-images.githubusercontent.com/33209778/50599784-61f79200-0ef2-11e9-8d68-b1e102345878.png)
	- 2 constraints
		- ![image](https://user-images.githubusercontent.com/33209778/50599888-aaaf4b00-0ef2-11e9-9b33-3a76e517a38b.png)
		- 학습된 feature가 0의 mean을 갖도록 하는 constraint는 unique solution을 갖기위해 필요
		- 학습된 feature의 variance가 unit(1)이도록 하는 constraint는 모든 feature가 0이 되지 않기 위해 필요
- SFA feature들도 순서 존재, 가장 slowest 하면 first feature
- 학습된 feature들끼리는 서로 linearly decorrelated 해야만 함
	- ![image](https://user-images.githubusercontent.com/33209778/50600221-cb2bd500-0ef3-11e9-991b-30b49d7ef8a1.png)
	- 같은 시간상에서 모든 feature들 사이의 expectation이 0
	- 위 constraint가 없으면, slowest signal을 모든 feature가 학습
-  SFA 적용 전에 data에 대해 nonlinear basis expansion을 적용하여, nonlinear한 feature를 학습
	- $x$를 quadratic basis expansion -> data사이의 차이를 더 크게 볼 수 있게
- 이론적으로 nonlinear setting에서도 SFA가 어떤 feature들을 학습할지 예측 가능
	- 구성 공간의 관점에서 environment의 dynamics에 대한 정보 필요
		- 카메라의 속도, 위치에 대한 확률분포
	- underlying factor들이 어떻게 변화하는지에 대한 정보 필요
		- 이 factor들을 표현하는 최적의 함수들에 대해 분석적으로 solve 가능

## 13.4 Sparse Coding

- unsupervised feature learning 과 feature extraction mechanism으로 학습된 linear factor model
- 엄격히는 $\textbf{h}$ 값에 대한 과정인 sparse coding과 model 학습과 설계 과정인 sparse modeling으로 나뉘어지지만, 보통 sparse coding으로 같이 묶어서 씀
- data $\textbf{x}$의 복원을 위해 noise가 추가된 linear decoder 사용
- linear factor들이 isotropic precision $\beta$가 있는 가우시안 noise를 갖는다고 가정
	- ![image](https://user-images.githubusercontent.com/33209778/50602284-4c866600-0efa-11e9-84b0-0cb4878e23a0.png)
- $p(\textbf{h})$는 0근처에서 sharp peak을 갖는 분포로 선택
	- 보통 factorized Laplace, Cauchy 또는  factorized Student t-distribution 사용
	- ![image](https://user-images.githubusercontent.com/33209778/50602493-c3bbfa00-0efa-11e9-905d-c96cf073a4e6.png)
	- factorized Student t-distribution
	![image](https://user-images.githubusercontent.com/33209778/50602518-d9312400-0efa-11e9-9360-77a2ce518d2e.png)
- maximum likelihood로 sparse coding을 training 하는 것은 어려움
	- data를 encoding하고,
	- encoding된 data를 더 잘 reconstruction하기 위해 decoder를 training하는 것을 반복

- sparse coding에서 encoder는 최적화 알고리즘
	- 가장 가능성이 큰 값을 찾기 위한
	- ![image](https://user-images.githubusercontent.com/33209778/50603122-c4ee2680-0efc-11e9-9ae2-0d1196893e3a.png)
![image](https://user-images.githubusercontent.com/33209778/50603110-bc95eb80-0efc-11e9-8ebc-9a01fcd53f48.png)
	- $\textbf{h}$에 대한 $L^1$ norm 에 의해 sparse $\textbf{h}^*$ 발생
	- $\lambda$와 $\beta$에 의해 $\textbf{h}$와 $\textbf{W}$ 각각의 minimization 조절
- non-parametric encoder를 이용한 sparse coding
	- log-prior와 reconstruction error의 combination을 최소화 가능
	- encoder에 generalization error가 없음
		- parametric encoder는 $\textbf{x}$와 $\textbf{h}$사이를 generalize하며 mapping을 학습
			- 못보던 data에 대해선 제대로 작동하지 않음
		- classifier를 위한 feature extractor로 좋은 성능

	- 단점1 : 반복적으로 알고리즘을 실행해야 해서 시간이 많이 걸림
	- 단점2 : back-propagate 어려움

## 13.5 Manifold Interpretation of PCA

- PCA를 포함한 linear factor models, factor analysis는 "manifold를 학습하는 것"으로 해석
- ![image](https://user-images.githubusercontent.com/33209778/50604456-61ff8e00-0f02-11e9-98b1-ea420b892993.png)
- ( manifold 참고 : http://t-robotics.blogspot.com/2015/12/pca.html#.XCz-MlwzaUk )
- encoder
![image](https://user-images.githubusercontent.com/33209778/50605284-40ec6c80-0f05-11e9-94d3-762109766a2b.png)
- decoder
![image](https://user-images.githubusercontent.com/33209778/50605296-4ba70180-0f05-11e9-948a-ed23b2916df1.png)
-reconstruction error
![image](https://user-images.githubusercontent.com/33209778/50605313-56619680-0f05-11e9-8a62-303bf4e2624c.png)
- covariance matrix
![image](https://user-images.githubusercontent.com/33209778/50605328-624d5880-0f05-11e9-9e21-281453db05cb.png)

- PCA에서 $C$의 eigenvector가 $\textbf{W}$의 열벡터, 크기 순 나열
- ![image](https://user-images.githubusercontent.com/33209778/50605594-0931f480-0f06-11e9-9451-1089e09e322b.png)
	- $C$의 rank 가 $d$이면 eigenvalue $\lambda_{d+1}$ 에서 $\lambda_D$가 0이고, reconstruction error가 0
	- $D$ data의 차원
	- $d$ $\textbf{h}$의 차원

<딥러닝 스터디 공지>
- 매주 목요일 오전 8시30분 시작
- 깃헙 마크다운파일로 발표자료 정리

※지각시 5천원
지각 벌금은 마지막 스터디 발표 후 
커피 또는 간식비로 사용

- 특별한 경우가 아니면 k201로 계속 빌릴 예정
- 다음 발표자는?
- 정리할 포맷을 다시 정해보기
