# PCA, 주성분 분석
Principal component analysis(PCA)

---
고차원 데이터
- 변수의 수가 많음 -> 불필요한 변수 존재
- 시각적으로 표현하기 어려움
- 계산 복잡도 증가 -> 모델링 비효율적
- 중요한 변수만을 선택 -> 차원축소


## 변수선택/추출을 통한 차원 축소
- 변수선택(selection): 분석 목적에 부합하는 소수의 예측변수만을 선택
 - 장점: 선택한 변수 해석 용이
 - 단점: 변수간 상관관계 고려 어려움
- 변수추출(extraction): 예측변수의 변환을 통해 새로운 변수 추출
 - 장점: 변수간 상관관계 고려, 일반적으로 변수의 개수를 많이 줄일 수 있음
 - 단점: 추출된 변수의 해석이 어려움


지도학습 변수선택/추출, 비지도학습 변수선택/추출 방식으로 총 4가지
- Supervised feature selection: Information gain, Stepwise regression, LASSO, Genetic algorithm
- Supervised feature extraction: Partial least squares (PLS)
- Unsupervised feature selection: PCA loading
- Unsupervised feature extration: **Principal component analysis(PCA)**, Wavelets transforms, Autoencoder

## PCA 개요
- 고차원 데이터를 효과적으로 분석하기 위한 대표적 분석 기법
- 차원축소, 시각화, 군집화, 압축
- p개의 변수로 구성된 데이터를 k개의 변수로 구성된 데이터로 요약(기존 변수의 선형조합)
- 원래 데이터의 분산을 최대한 보존하는 새로운 축을 찾고, 그 축에 데이터를 사영(Projection) 시키는 기법
- 주요 목적
 - 데이터 차원 축소(n by p -> n by k, where k << p )
 - 데이터 시각화 및 해석
- 일반적으로 PCA는 전체 분석 과정중 초기에 사용


## PCA 수리적 배경
- 공분산(Covariance)의 성질
 - X를 p개의 변수와 n개의 개체로 구성된 n by p 행렬로 정의할 때 X의 공분산 행렬은 다음과 같음

 ![대체 텍스트](https://t1.daumcdn.net/cfile/tistory/255AAC3758C530412A)
 - 공분산 행렬의 대각 성분은 각 변수의 분산과 같으며, 비대각행렬은 대응하는 두 변수의 공분산과 같음(변수 개수: p)

 ![대체 텍스트](https://t1.daumcdn.net/cfile/blog/26495346552F6CE816)

- 사영
 - 한 벡터 b를 다른 벡터 a에 사영시킨다는 것은 벡터 b로부터 벡터 a에 수직인 점까지의 길이를 가지며 벡터 a와 같은 방향을 갖는 벡터를 찾는다는 것을 의미

![대체 텍스트](https://i.imgur.com/h21igrF.png)

- 고유값 및 고유벡터
 - 어떤 행렬 A에 대해 상수 λ와 벡터 x가 다음 식을 만족할 때, λ와 x를 각각 행렬 A의 고유값(eigenvalue) 및 고유벡터(eigenvector)라고 함
 - 벡터에 행렬을 곱한다는 것은 해당 벡터를 선형변환(linear transformatin)한다는 의미 -> 고유벡터는 이 변환에 의해 방향이 변하지 않는 벡터를 의미

## PCA

## PCA 과정
1. 데이터 정규화
2. 기존 변수의 Covariance(correlation) matrix 계산
3. Covariance(correlation) matrix로부터 eigenvalue 및 이에 해당되는 eigenvector를 계산
4. Eigenvalue 및 해당되는 eigenvectors를 순서대로 나열
 > λ(1) > λ(2) > λ(3) > λ(4) > λ(5) 
 
 > e(1) > e(2) > e(3) > e(4) > e(5)
5. 정렬된 egienvector를 토대로 기존 변수를 변환


## PCA 한계
- 주성분 분석의 특징
 - 공분산 행렬의 고유벡터를 사용하므로 단일 가우시안(봉우리가 하나만 있는) 분포로 추정할 수 있는 데이터에 대해 서로 독립적인 축을 찾는데 사용할 수 있음
- 한계점 1
 - 데이터의 분포가 가우시안이 아니거나 다중 가우시안 자료들에 대해서는 적용하기가 어려움
 - 대안: 커널 PCA, LLE(Locally Linear Embedding)
- 한계점 2
 - 분류/예측 문제에 대해서 데이터의 범주 정보를 고려하지 않기 떄문에 범주간 구분이 잘 되도록 변환을 해주는 것은 아님
 > 주성분분석은 단순히 변환된 축이 최대 분산방향과 정렬되도록 좌표회전을 수행함.
 >
 > 대안: Partial Least Square(PLS)