# 차원축소

### 차원의 저주
- 차원이 커질수록 데이터 포인트들간 거리가 크게 늘어남
- 데이터가 희소화(sparse) 됨
- 수백~ 수천개 이상의 피처로 구성된 포인트들간 거리에 기반한 ML 알고리즘이 무력화됨
- 또한 피처가 많을 경우 개별 피처간에 상관관계가 높아 **선형 회귀**와 같은 모델에서는 *다중공선성* 문제로 모델의 예측 성능이 저하될 가능성이 높음

### 차원 축소의 장점
- 학습 데이터 크기를 줄여서 학습 시간 절약
- 불필요한 피처들을 줄여서 모델 성능 향상에 기여(주로 이미지 관련 데이터)
- 다차원의 데이터를 3차원 이하의 차원 축소를 통해서 시각적으로 보다 쉽게 데이터 패턴 인지

### 피처 선택과 피처 추출
1. 피처 선택
    - 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 데이터의 특징을 잘 나타내는 주요 피처만 선택하는 것입니다.

2. 피처 추출
    - 피처(특성) 추출은 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것입니다. 이렇게 새롭게 추출된 중요 특성은 기존의 피처를 반영해 압축된 것이지만 새로운 피처로 추출하는 것입니다.
    - 피처 추출은 기존 피처를 **단순 압축**이 아닌, 피처를 함축적으로 더 잘 설명할 수 있는 또 다른 공간으로 매핑해 추출하는 것입니다.

### 차원 축소의 의미
- 차원축소는 단순히 데이터의 압축을 의미하는 것이 아닙니다. 더 중요한 의미는 차원 축소를 통해 좀 더 **데이터를 잘 설명할 수 있는 잠재적(Latent)인 요소를 추출**하는 데에 있습니다.
- 추천 엔진/이미지 분류 및 변환/문서 토픽 모델링

# PCA

### PCA(Principal Component Analysis)의 이해
- 고차원의 원본 데이터를 저차원의 부분공간으로 투영하여 데이터를 축소하는 기법
- 예를 들어 10 차원의 데이터를 2차원의 부분 공간으로 투영하여 데이터를 축소
- PCA는 원본 데이터가 가지는 **데이터 변동성을 가장 중요한 정보로 간주**하며 이 변동성에 기반한 원본 데이터 투영으로 차원 축소를 수행
- PCA는 원본 데이터 변동성이 가장 큰 방향으로 순차적으로 축들을 생성하고, 이렇게 생성된 축으로 데이터를 투영하는 방식
- 원본 데이터의 피처 개수에 비해 매우 작은 주성분으로 원본 데이터의 총 변동성을 대부분 설명할 수 있는 분석법
![image.png](attachment:image.png)

### PCA 변환과 수행 절차
1. PCA 변환
    - 입력 데이터의 공분산 행렬이 고유벡터와 고유값으로 분해될 수 있으며, 이렇게 분해된 고유벡터를 이용해 입력 데이터를 선형 변환하는 방식
2. PCA 변환 수행 절차
    - 입력 데이터 세트의 공분산 행렬을 생성합니다.
    - 공분산 행렬의 고유벡터와 고유값을 계산합니다.
    - 고유값이 가장 큰 순으로 K개(PCA 변환 차수) 만큼 고유벡터를 추출합니다.
    - 고유값이 가장 큰 순으로 추출된 고유벡터를 이용해 새롭게 입력 데이터를 변환합니다.

# 사이킷런 PCA

### 사이킷런 PCA
> sklearn.decomposition.PCA(n_components= None,...)

- n_components는 PCA 축의 개수, 즉 변환 차원을 의미합니다.
- PCA를 적용하기 전에 입력 데이터의 개별 피처들을 무조건 **스케일링** 해야합니다. PCA는 여러 피처들의 값을 연산해야 하므로 피처들의 스케일에 영향을 받습니다. 따라서 여러 속성을 PCA로 압축하기 전에 각 피처들의 값을 동일한 스케일로 변환하는 것이 필요합니다. 일반적으로 평균이 0, 분산이 1인 표준 정규 분포로 변환합니다.
- explained_variance_ratio_ : 전체 변동성에 개별 PCA 컴포넌트별로 차지하는 **변동성 비율**을 제공합니다.