차원의 저주를 해결하는 대표적인 방법으로 <span style='color:yellowgreen'>차원 축소</span>(Dimensionality Reduction)가 있습니다.  
차원 축소란, 데이터에 있는 차원(변수)의 숫자를 줄여서 차원의 저주 문제를 해결하는 기법인데요. 이전 레슨에서 6개의 변수로 된 데이터를  
2개 변수로 줄여서 k-means를 한 것도 모델의 성능을 좀 더 좋게 하기 위하여 차원 축소가 활용된 것입니다.

차원 축소에는 크게 두 가지 접근법이 있습니다.

## 차원 선택
첫 번째는 전체 차원 중 의미 있다고 판단되는 것들만 선택해서 사용하는 차원 선택이란 방법입니다. 차원 선택을  
적용할 때는 변수 중 무엇이 중요한지, 의미상 중복되는 것들이 있는지 등을 확인해야 합니다.  

In [1]:
import pandas as pd

user = pd.read_csv('data/custom_data.csv')
user.head(10)

Unnamed: 0,recency,age,children,spent_all,purchase_num_all,family_size
0,58,66,0,1617,25,1
1,38,69,2,27,6,3
2,26,58,0,776,21,2
3,26,39,1,53,8,3
4,94,42,1,422,19,3
5,16,56,1,716,22,3
6,34,52,1,590,21,2
7,32,38,1,169,10,3
8,19,49,1,46,6,3
9,68,73,2,49,2,4


생각해 보면 자녀가 있는 집은 그렇지 않은 집보다 가족 구성원 수가 좀 더 많겠죠? 이렇게 의미상 중복이 되는 경우에는  
두 변수 중 하나를 제거하여 차원을 줄일 수 있습니다. `children`이라는 변수를 제거해 볼게요.

In [2]:
user = user.drop('children', axis=1)
user.head()

Unnamed: 0,recency,age,spent_all,purchase_num_all,family_size
0,58,66,1617,25,1
1,38,69,27,6,3
2,26,58,776,21,2
3,26,39,53,8,3
4,94,42,422,19,3


예시에서는 대략적으로 변수 간 의미를 통해 탈락시킬 변수를 선택했는데요. 실제로는 변수 간의 관계를  
면밀히 확인하여 제거할 변수를 판단해야 합니다. 이렇게, <span style='color:yellowgreen'>변수들 간의 관계를 통해 덜 중요하거나  
불필요한 변수를 찾아 데이터에서 빼는 작업</span>을 차원 선택이라고 합니다.

차원 선택의 가장 큰 장점은 사용이 쉽다는 점입니다. 단순히 제거할 변수를 직관적으로 판단하고 선택하면 되기 때문에  
쉽고 빠르게 적용할 수 있습니다. 또한, 각 변수들의 특성이 유지되면서 차원을 줄이기 대문에  
결과를 이해하고 해석하기 쉽다는 장점도 있습니다.

하지만, 단점도 있습니다. 바로, 정보 손실이 커진다는 점인데요. 데이터에서 탈락시킨 변수들은 분명 이유가 있겠지만,  
그래도 전체 데이터에서 해당 변수만으로 설명되는 정보가 분명 존재할 수 있습니다.  
위의 예시에서도 `children`과 `family_size`는 분명 중복되는 의미가 크지만, 그렇다고 `children`이라는 변수를  
그냥 데이터에서 제거하게 되면 해당 변수가 가지는 고유의 정보인 자여 숫자에 대한 정보는 사라지게 되죠.

## 차원 추출
차원 추출은 데이터를 가장 잘 설명하는 차원을 새롭게 생성하여 차원을 줄이는 방법입니다.  
다른 말로 표현해보면, <span style='color:yellowgreen'>여러 변수의 특징을 종합적으로 잘 나타내는 새로운 변수를 찾아내 변수를 통합</span>하여  
차원을 줄이는 방법이죠. 차원 선택과 달리 데이터를 설명하는 데 필요한 정보를 최대한 보존하기 때문에,  
차원 선택으로 뽑은 변수들로만 분석을 할 때 보다 상대적으로 더 나은 성능을 보입니다.

하지만, 여러 변수의 특징을 대표하기 위해 만들어진 새로운 변수가 정확하게 무엇을 의미하는 것인지 해석하기 어렵다는  
단점이 있습니다. 만약에 `children`과 `family_size`라는 변수로 새로운 변수 `PC1`을 추출했다면,  
해당 변수가 무엇을 의미하는 것인지 이해하는 게 어려워질 수 있는 것이죠.  
그리고, 여러 변수를 대표하기 위한 새로운 변수를 생성하는 과정에서 데이터 간의 분산이나 거리를 계산하는 등  
추가적인 연산을 해야 하므로 계산 비용이 증가한다는 단점도 있습니다.

차원 선택과 차원 추출은 각각의 장단점이 있기 때문에 상황에 따라 적절한 방법을 선택하여 사용해야 하는데요.  
일단 이번 토픽에서는 차원 추출 중에서도 가장 널리 사용하는 PCA(Principal Component Analysis)에  
대한 내용을 위주로 학습해 볼게요. 차원 선택을 위한 기법들은 이후 머신러닝 토픽들에서 관련 내용이 나올 때마다 따로 다루겠습니다.