## 차원 축소(Dimension Reduction)
- 매우 많은 피처로 구성된 다차원 데이터셋의 차원을 축소
    - 새로운 차원의 데이터 세트를 생성하는 것을 의미
- 차원이 증가할 수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 됨
    - 희소한 구조를 갖게 됨
- 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어짐
- **변수가 많다 : 개별 피처간의 상관관계가 높을 가능성이 크다**
    - 선형회귀와 같은 선형 모델에서는 입력 변수간의 상관관계가 높을 경우
        - 다중공선성 문제로 예측 성능 저하

#### 차원 축소 이점
- 다차원 피처를 축소해 피처 수를 줄이면 더 직관적으로 데이터 해석 가능
- 데이터를 시각적으로 표현시 데이터 특성 파악이 쉽다
    - 2차원 데이터로 압축해서 표현하는 것이 가능

#### 차원 축소 유형
1. 피처 선택
    - 특성 선택
    - 특정 피처에 종속성이 강한 불필요한 피처는 제거하고
    - 데이터의 특징을 잘 나타내는 주요 피처만 선택
2. 피처 추출
    - 특성 추출
    - 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것
    - 새롭게 추출된 중요 특성은 기존의 피처가 압축된 것이므로
    - 기존의 피처와는 완전히 다른 값이 됨
    - 기존 피처를 단순 압축이 아니고
    - 피처를 함축적으로 더 잘 설명할 수 있는 또 **다른 공간으로 매핑해 추출**하는 것


#### 차원축소의 응용분야
1. 이미지(컴퓨터 비전)
2. 텍스트
    - 문서의 숨겨진 의미를 추출하는 작업을 진행
        - 단어가 의미를 인지
        - 같은 뜻을 가진 단어들을 하나의 피처로 축소
        

#### 대표적인 차원 알고리즘
- PCA
    - **입력 데이터의 변동성이 가장 큰 축을 구하고**
    - 다시 이 축에 직각인 축을 반복적으로 축소하려는 차원 개수만큼 구한 뒤
    - 입력 데이터를 이 축들에 투영해 차원을 축소하는 방식
    - 이를 위해 입력 데이터의 공분산 행렬을 기반으로 고유 벡터(Eigenvector)를 생성하고
    - 이렇게 구한 고유 벡터에 입력 데이터를 선형 변환하는 방식


- LDA
    - 선형 판별 분석법
    - PCA와 유사하게
    - 입력 데이터 세트를 저차원 공간에 투영해 차원을 축소하는 기법이지만
    - 중요한 차이는 지도학습의 분류에서 사용하기 쉽도록 
    - 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원 축소
    - PCA는 입력 데이터의 변동성의 가장 큰 축을 찾지만
    - LDA는 입력 데이터의 결정 값 클래스를 최대한으로 분리할 수 있는 축을 찾음


- SDV/NMF
    - 매우 많은 피처 데이터를 가진 고차원 행렬을 
    - 두 개의 저차원 행렬로 분리하는 행렬 분해 기법
    - 행렬 분해를 수행하면서 
    - 원본 행렬에서 잠재된 요소를 추출하기 때문에 
    - 토픽 모델링이나 추천 시스템에서 활발하게 사용됨

### PCA

**위 2차원 공간 데이터를 1차원 공간의 데이터를 만들려면**
- 1차원 변환 방법 1
    - X축이나 Y축으로 내려버리기
        - 차원의 정보는 유실되고 값이 겹치는 데이터들이 많아짐

- 1차원 변환 방법 2
    - 새로운 차원을 찾기
        - 차원의 정보는 유실되고 값이 겹치는 데이터들이 많아짐
        ![image.png](attachment:image.png)

데이터를 안겹치고 쭉 펼치수 있는 차원
![image.png](attachment:image.png)

- 2차원 상에서 무수히 많은 다양한 화살표를 그를 수 있음
    - 데이터들이 겹치지 않는 화살표를 찾는 것
    -  화사표 차원 (1차원) 위로 데이터를 내렸을 때 겹치지 않게 하는 화살표를 찾아야  함
        - longest distance

### 정리

1. 수많은 화살표 들 중, 데이터 들을 화살표에 내렸을 때,  데이터가 최대한 안 겹치게, 멀리 퍼지게 하는 길이가 긴 화살표 찾기

2. 거기에 데이터들을 투영

3. (2차원 이상의 경우 2차원으로 만들고자 한다면) 

    - 만약 또 하나의 화살표 만들 때 축 끼리는 직각이 되어야 함, 최대한 데이터가 겹치지 않도록


![%EC%9B%80%EC%A7%81%EC%9D%B4%EB%8A%94pca.gif](attachment:%EC%9B%80%EC%A7%81%EC%9D%B4%EB%8A%94pca.gif)