# Kernel PCA

**kernel을 사용해 비선형 차원 축소를 달성하는 pca의 확장**
![3.png](./image/3.png)

## Kernel 기법

PCA,SVM 등에서 사용되는 kernel기법은 비선ㄴ형 함수인 kernel함수를 이용해 비선형 데이터를 고차원 공간으로 매핑하는 기술이다.

![1.png](./image/1.png)
* (위 좌측의 데이터 분포)어떠한 방향으로의 선형변환으로도 데이터 분류 어려움
* kernel 함수를 이용해 고차원 공간으로 매핑해 PCA를 수행하면 데이터 분포를 분류할 수 있는 결정 공간 생성할 수 있음

### Kernel 정의
* m차원을 n차원으로 매칭하는 매핑함수 Φ에 대한 정의
    -  $K(X_1,X_2)={Φ(x_1)^T}{Φ(X_2)}$
    - 매핑함수 Φ: 선형변환 함수이며, $Φ(x)=Ax$로 표현할 수 있음
        + $k(x_1,x_2)={(x_1)^T}{A^T}{A_(x_2)}$    
    - 결과적으로 K는 스칼라
        + $(x_1)^T$ : (1 x m), $A^t$:(m x n), A:(n x m), $x_1$: (m x 1)
    - Mercer's Theorm에 의해 K의 값은 $K(x_1,x_2)= K(x_2,x_1)$을 만족하며 0이상의 값을 갖는 대칭 행렬이여야 함
    
### Kernel 종류

위 조건을 만족하면서 사용되는 kernel
- **rbf(Gaussian)** kernel : $K(x_1,x_2) =exp[\frac{∥x_1-x_2∥^2}{2σ^2}], σ≠0$
- **poly(polynomial)** kernel : $K(x_1,x_2) = ({{x_1}^T}{x_2}+c)^d, c>0$ 
- **sigmoid** kernel : $K(x_1,x_2) = tanh(a({{x_1}^T}{x_2}+b)), a≥0,b≥0$
- *Linear* kernel : $K(x_1,x_2) = {{x_1}^T}{x_2}$





# skleaen.decomposition.KernelPCA Parameters


sklearn.decomposition.KernelPCA(n_components=None, kernel='linear', gamma=None, degree=3, coef0=1, kernel_params=None, alpha=1.0, fit_inverse_transform=False, eigen_solver='auto', tol=0, max_iter=None, remove_zero_eig=False, random_state=None, copy_X=True, n_jobs=None)


1. **n_components** : int
    * component의 수
    * 기본값 None일 경우, non-zero component가 할당


2. **kernel** : "linear", "poly", "rbf", "sigmoid", "cosine", "precomputed" 6개의 option 



3. **gamma** : float
    * rbf, poly, sigmoid를 위한 kernel 계수(그 외와는 상관 없음)
  


4. **degree** : int
    * poly 커널을 위한 degree
   


5. **coef0** : float 
    * poly, sigmoid kernel에서의 독립 용어
   


6. **kernel_params** : mapping of string to any
    * 호출가능한 object에 적용된 kernel의 매개변수 및 값


7. **alpha** : int
    * 역변환을 학습하는 ridge regression의 hyper parameter(fit_inverse_trasform=True일때)


8. **fit_inverse_transform** : bool
    * True 지정 시 사전에 계산되지 않은 kernel에 대한 역변환을 계산한다

9. **eigen_solver** : 'auto', 'dense', 'arpack' 3개의 option
    * n_components가 학습 sample 수보다 매우 적을 경우 'arpack'이 'dense'보다 효율적
    

10. **tol**: float
    * arpack의 수렴 공차
    * 0인 경우 arpack이 최적의 값 선택
    

11. **max_iter**
    * 'arpack'의 최대 반복 횟수
    * None인 경우 arpack이 최적의 값 선택


12. **remove_zero_eig**: bool
    * True인 경우, 고유값이 0인 모든 component가 제거됨 -> 출력되는 component 수( n_component)가 0이 될 수 있음
    * n_component가 None인 경우 remove_zer0_eig 는 무시되고 모든 zero 고유값을 가진 component는 제거됨 


13. **random_state**: int, RandomState instance, None
    * int 입력 경우, parameter 값은 난수 generator에서 seed 역할
    * RandomState instance인 경우, 난수 generator 역할
    * None인 경우, 난수 generator은 np.random을 사용하는 RandomState instance(eigen_solver=='arpack'인 경우)


14. **copy_X**: boolean
    * True인 경우. input X가 x_fit_ attribute에 의해 복사 및 저장
    * x를 더 이상 변경하지 않으면, copy_X=False로 두어 reference를 저장하여 메모리 절약


15. **n_jobs**: int, None
    * 실행할 parallel 작업의 수
    * None은 'joblib.parallel_backend'맥락에서 1을 의미 
    * -1은 모든 프로세서를 사용함을 의미