# 8장. 차원 축소

https://nbviewer.jupyter.org/github/rickiepark/handson-ml/tree/master/

이 코드의 내용은 Hands-On Machine Learning with Scikit-Learn & TensorFlow을 참고했음을 밝힙니다.

많은 경우 머신러닝 문제는 훈련 샘플 각각이 수천 심지어 수백만 개의 특성을 가지고 있습니다. 이는 훈련을 느리게 할 뿐만 아니라, 앞으로 보게 되겠지만 좋은 솔루션을 찾기 어렵게 만듭니다. 이런 문제를 종종 차원의 저주(curse of dimensionality)라고 합니다.<br>
다행히도 실전 문제에서는 특성 수를 크게 줄여서 불가능한 문제를 가능한 범위로 변경할 수 있는 경우가 많습니다. 예를 들어 MNIST 이미지를 생각해보세요. 이미지 경계에 있는 픽셀은 거의 항상 흰색이므로 훈련 세트에서 이런 픽셀을 완전히 제거해도 많은 정보를 잃지 않습니다. 게다가 인접한 두 픽셀은 종종 많이 연관되어 있습니다. 두 픽셀을 하나의 픽셀로 합치더라도(예를 들어 두 픽셀 강도를 평균 냄으로써) 잃는 정보가 많지 않을 것입니다.<br>

차원을 축소시키면 일부 정보가 유실됩니다(JPEG로 이미지를 압축하면 품질이 감소되는 것처럼). 그래서 훈련 속도가 빨라질 수는 있지만 시스템의 성능이 조금 나빠질 수 있습니다. 또한 작업 파이프라인이 조금 더 복잡하게 되고 유지 관리가 어려워집니다. 그러므로 차원 축소를 고려하기 전에 훈련이 너무 느린지 먼저 원본 데이터로 시스템을 훈련시켜 봐야 합니다. 그러나 어떤 경우에는 훈련 데이터의 차원을 축소시키면 잡음이나 불필요한 세부사항을 걸러내므로 성능을 높일 수 있습니다(일반적으로는 훈련 속도만 빨라집니다).

훈련 속도를 높이는 것 외에 차원 축소는 데이터 시각화(data visualization 또는 DataViz)에도 아주 유용합니다. 차원 수를 둘로(또는 셋으로) 줄이면 고차원 훈련 세트를 하나의 그래프로 그릴 수 있고 군집 같은 시각적인 패턴을 감지해 중요한 통찰을 얻는 경우가 많습니다.

#### Note) 차원축소의 장점
* 훈련속도 향상
* 잡음 제거
* 데이터 시각화

#### Note) 차원축소의 단점
* 일부 정보가 유실(품질 감소)
* 작업 파이프라인의 복잡성 증가, 유지관리의 어려움

## 차원의 저주(p270)

![image.png](https://i.imgur.com/YNy03nd.png)

고차원의 데이터셋은 매우 희박한 상태일 수 있습니다. 즉, 대부분의 훈련 데이터가 서로 멀리 떨어져 있습니다. 물론 이는 새로운 샘플도 훈련 샘플과 멀리 떨어져 있을 가능성이 높다는 뜻입니다. 이 경우 예측을 위해 훨씬 많은 와삽(extrapolation)을 해야 하기 때문에 저차원일 때보다 예측이 더 불안정합니다. 간단히 말해 훈련 세트의 차원이 클수록 과대적합 위험이 커집니다.<br>
이론적으로 차원의 저주를 해결하는 해결책 하나는 훈련 샘플의 밀도가 충분히 높아질 때까지 훈련 세트의 크기를 키우는 것입니다. 불행하게도 실제로는 일정 밀도에 도달하기 위해 필요한 훈련 샘플 수는 차원 수가 커짐에 따라 기하급수적으로 늘어납니다. 특성 수가 (MNIST 문제보다 훨씬 적은) 단 100개라고 생각해도, 모든 차원에 걸쳐 균일하게 퍼져 있다고 가정하고 훈련 샘플을 서로 평균 0.1 이내에 위치시키려면 관측 가능한 우주에 있는 원자 수 모두를 합친 것보다 더 많은 훈련 샘플을 모아야 합니다.

## 차원 축소를 위한 두 가지 주요한 접근법

## 투영

![image.png](https://i.imgur.com/lscHi51.png)

대부분의 실전문제는 훈련 샘플이 모든 차원에 걸쳐 균일하게 퍼져 있지 않습니다. 많은 특성은 거의 변화가 없는 반면, (앞서 말한 MNIST의 경우처럼) 다른 특성들은 서로 강하게 연관되어 있습니다. 결과적으로 모든 훈련 샘플이 사실 고차원 공간 안의 저차원 부분 공간(subspace)에 (또는 가까이) 놓여 있습니다. 위의 왼쪽 그림에 원 모양을 띤 3차원 데이터셋이 있습니다. 모든 훈련 샘플이 거의 평면 형태로 놓여 있습니다. 이것이 고차원(3D) 공간에 있는 저차원(2D) 부분 공간입니다. 여기서 모든 훈련 샘플을 이 부분 공간에 수직으로(즉, 샘플과 평면 사이의 가장 짧은 직선을 따라) 투영하면 위의 오른쪽 그림과 같은 2D 데이터셋을 얻습니다. 이것이 데이터셋의 차원을 3D에서 2D로 줄이는 하나의 방법입니다. 각 축은 (평면에 투영된 좌표인) 새로운 특성 z1과 z2에 대응됩니다.

그러나 차원 축소에 있어서 투영이 언제나 최선의 방법은 아닙니다. 많은 경우 아래 그림에 표현된 스위스 롤(Swiss roll) 데이터셋처럼 부분 공간이 뒤틀리거나 휘어 있기도 합니다.<br>
그냥 평면에 투영시키면(예를 들면 x3을 버리고) 아래 왼쪽 그림처럼 스위스 롤의 층이 서로 뭉개집니다. 하지만 우리가 원하는 것은 스위스 롤을 펼쳐서 오른쪽처럼 2D 데이터셋을 얻는 것입니다.

![image.png](https://i.imgur.com/lEnVk5V.png)

## 매니폴드 학습

스위스 롤은 2D 매니폴드의 한 예입니다. 간단히 말해 2D 매니폴드는 고차원 공간에서 휘어지거나 뒤틀린 2D 모양입니다. 더 일반적으로 d차원 매니폴드는 국부적으로 d차원 초평면으로 보일 수 있는 n차원 공간의 일부입니다(d<n). 스위스 롤의 경우에는 d=2이고 n=3입니다. 국부적으로는 2D 평면으로 보이지만 3차원으로 말려 있습니다. <br>
많은 차원 축소 알고리즘이 훈련 샘플이 놓여 있는 매니폴드를 모델링하는 식으로 작동합니다. 이를 매니폴드 학습(Manifold Learning)이라고 합니다. 이는 대부분 실제 고차원 데이터셋이 더 낮은 저차원 매니폴드에 가깝게 놓여 있다는 매니폴드 가정(manifold assumption) 또는 매니폴드 가설(manifold hypothesis)에 근거합니다. 경험적으로도 이런 가정은 매우 자주 발견됩니다.<br>
여기에서도 MNIST 데이터셋으로 생각해보겠습니다. 전체 손글씨 숫자 이미지는 어느 정도 비슷한 면이 있습니다. 선으로 연결되어 있고 경계는 흰색이고 어느 정도 중앙에 있습니다. 무작위로 생성된 이미지라면 그 중 아주 적은 일부만 손글씨 숫자처럼 보일 것입니다. 다시 말해 숫자 이미지를 만들 때 가능한 자유도는 아무 이미지나 생성할 때의 자유도보다 훨씬 낮습니다. 이런 제약은 데이터셋을 저차원의 매니폴드로 압축할 수 있도록 도와줍니다.<br>
매니폴드 가정은 종종 암묵적으로 다른 가정과 병행되곤 합니다. 바로 처리해야 할 작업(예를 들면 분류나 회귀)이 저차원의 매니폴드 공간에 표현되면 더 간단해질 것이란 가정입니다. 예를 들어 아래 그림의 첫 번째 행에서는 스위스 롤이 두 개의 클래스로 나뉘어 있습니다. 3D(왼쪽)에서는 결정 경계가 매우 복잡하지만 펼쳐진 매니폴드 공간인 2D(오른쪽)에서는 결정 경계가 단순한 직선입니다.<br>
그러나 이런 가정이 항상 유효하지는 않습니다. 아래 그림의 두 번째 행의 경우에는 결정 경계가 x1=5에 놓여 있습니다. 이 결정 경계는 3D 공간에서는 매우 단순합니다(수직 평면). 하지만 펼쳐진 매니폴드에서는 결정 경계가 더 복잡해졌습니다(네 개의 독립된 수직선).<br>
요약하면 모델을 훈련시키기 전에 훈련 세트의 차원을 감소시키면 훈련 속도는 빨라지지만 항상 더 낫거나 간단한 솔루션이 되는 것은 아닙니다. 이는 전적으로 데이터셋에 달렸습니다.

![image.png](https://i.imgur.com/JepJSVF.png)

## PCA(Principal Component Analysis)(p276)

주성분 분석(PCA)은 가장 인기 있는 차원 축소 알고리즘입니다. 먼저 데이터에 가장 가까운 초평면(hyperplane)을 정의한 다음, 데이터를 이 평면에 투영시킵니다.

## 분산 보존(p277)

저차원의 초평면에 훈련 세트를 투영하기 전에 먼저 올바른 초평면을 선택해야 합니다. 예를 들어 아래 그림의 왼쪽 그래프는 간단한 2D 데이터셋이 세 개의 축(즉, 일차원 초평면)과 함께 표현되어 있습니다. 오른쪽 그래프는 데이터셋이 각 축에 투영된 결과입니다. 여기서 볼 수 있듯이 실선에 투영된 것은 분산을 최대로 보존하는 반면, 점선에 투영된 것은 분산을 매우 적게 유지하고 있습니다. 가운데의 파선에 투영된 것은 분산을 중간 정도로 유지하고 있습니다.

![image.png](https://i.imgur.com/Y1BhYkR.png)

다른 방향으로 투영하는 것보다 분산이 최대로 보존되는 축을 선택하는 것이 정보가 가장 적게 손실되므로 합리적으로 보입니다. 이 선택을 다른 방식으로 선택하면 원본 데이터셋과 투영된 것 사이의 평균 제곱 거리를 최소화하는 축입니다. 이 방식이 PCA를 더 간단하게 설명할 수 있습니다.

## 주성분(p277)

PCA는 훈련 세트에서 분산이 최대인 축을 찾습니다. 위의 그림에서는 실선이 됩니다. 또한 첫 번째 축에 직교하고 남은 분산을 최대한 보존하는 두 번째 축을 찾습니다. 이 2D 예제에서는 선택의 여지가 없습니다. 즉, 점선이 됩니다. 고차원 데이터셋이라면 PCA는 이전의 두 축에 직교하는 세 번째 축을 찾으며 데이터셋에 있는 차원의 수만큼 네 번째, 다섯 번째, ... 축을 찾습니다.<br>
i번째 축을 정의하는 단위 벡터를 i번째 주성분(PC, principal component)이라고 부릅니다. 위의 그림에서 1번째 PC는 c1이고 2번째 PC는 c2입니다. 투영 파트에서 예시로 든 그림에서는 처음 두 개의 PC를 평면 위에 직교하는 화살표로 나타냈습니다. 그리고 세 번째 PC는 아마도 이 평면에 수직일 것입니다(위 또는 아래 방향으로).

주성분의 방향은 일정치 않습니다. 훈련 세트를 조금 섞은 다음 다시 PCA를 적용하면 새로운 PC 중 일부가 원래 PC와 반대 방향일 수 있습니다. 그러나 일반적으로 같은 축에 놓여 있을 것입니다. 어떤 경우에는 한 쌍의 PC가 회전하거나 서로 바뀔 수 있지만 보통은 같은 평면을 구성합니다.

그럼 훈련 세트의 주성분을 어떻게 찾을까요? 다행히 특잇값 분해(SVD, Singular Value Decomposition)라는 표준 행렬 분해 기술이 있어서 훈련 세트 행렬 X를 세 개의 행렬의 점곱으로 분해할 수 있습니다. 여기서 찾고자 하는 모든 주성분이 V에 아래 식과 같이 담겨 있습니다.

![image.png](https://i.imgur.com/3JZig0E.png)

In [1]:
# 다음 파이썬 코드는 넘파이의 svd() 함수를 사용해 훈련 세트의 모든 주성분을 구한 후 처음 두 개의 PC를 추출합니다.

import numpy as np

np.random.seed(4)
m = 60
w1, w2 = 0.1, 0.3
noise = 0.1

angles = np.random.rand(m) * 3 * np.pi / 2 - 0.5
X = np.empty((m, 3))
X[:, 0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m) / 2
X[:, 1] = np.sin(angles) * 0.7 + noise * np.random.randn(m) / 2
X[:, 2] = X[:, 0] * w1 + X[:, 1] * w2 + noise * np.random.randn(m)

X_centered = X - X.mean(axis=0) # Normalization
U, s, Vt = np.linalg.svd(X_centered)
c1 = Vt.T[:,0]
c2 = Vt.T[:,1]

In [2]:
Vt

array([[ 0.93636116,  0.29854881,  0.18465208],
       [-0.34027485,  0.90119108,  0.2684542 ],
       [-0.08626012, -0.31420255,  0.94542898]])

In [3]:
c1

array([0.93636116, 0.29854881, 0.18465208])

In [4]:
c2

array([-0.34027485,  0.90119108,  0.2684542 ])

PCA는 데이터셋의 평균이 0이라고 가정합니다. 앞으로 볼 사이킷런의 PCA 파이썬 클래스는 이 작업을 대신 처리해줍니다. 그러나 (앞의 코드처럼) PCA를 직접 구현하거나 다른 라이브러리를 사용한다면 먼저 데이터를 원점에 맞추는 것을 잊어서는 안 됩니다.

## d차원으로 투영하기(p279)

주성분을 모두 추출해냈다면 처음 d개의 주성분으로 정의한 초평면에 투영하여 데이터셋의 차원을 d차원으로 축소시킬 수 있습니다. 이 초평면은 분산을 가능한 한 최대로 보존하는 투영임을 보장합니다. 예를 들어 투영 파트에서 예시로 든 그림에서 3D 데이터셋은 데이터셋의 분산이 가장 큰 첫 두개의 주성분으로 구성된 2D 평면에 투영되었습니다. 결과를 보면 이 2D 투영은 원본 3D 데이터셋과 매우 비슷해 보입니다.<br>
초평면에 훈련 세트를 투영하기 위해서는 아래 식과 같이 행렬 X와 첫 d개의 주성분을 담은(즉, V의 첫 d열로 구성된) 행렬 Wd를 점곱하면 됩니다.

![image.png](https://i.imgur.com/MrfXOXu.png)

In [5]:
# 다음 파이썬 코드는 첫 두 개의 주성분으로 정의된 평면에 훈련 세트를 투영합니다.

W2 = Vt.T[:,:2]
X2D = X_centered.dot(W2) # PCA 변환 완료

In [8]:
X_centered.shape

(60, 3)

In [9]:
X2D.shape

(60, 2)

## 사이킷런 이용하기(p280)

In [10]:
# 사이킷런의 PCA 모델은 앞서 한 것처럼 SVD 분해 방법을 사용하여 구현합니다.
# 다음은 PCA 모델을 사용해 데이터셋의 차원을 2로 줄이는 코드입니다(사이킷런의 PCA 모델은 자동으로 데이터를 중앙에 맞춰줍니다).

from sklearn.decomposition import PCA

pca = PCA(n_components = 2)
X2D = pca.fit_transform(X)

In [12]:
# PCA 변환기를 데이터셋에 학습시키고 나면 components_ 변수를 사용해 주성분을 확인할 수 있습니다.
# 이 변수에는 주성분이 행 벡터로 포함되어 있으므로 첫 번째 주성분은 아래와 같습니다.
pca.components_.T[:,0]

array([-0.93636116, -0.29854881, -0.18465208])

## 설명된 분산의 비율(p280)

explained_variance_ratio_ 변수에 저장된 주성분의 설명된 분산의 비율(explained variance ratio)도 유용한 정보 중 하나입니다. 이 값은 각 주성분의 축을 따라 있는 데이터셋의 분산 비율을 나타냅니다. 예를 들어 투영파트에서 예시로 든 그림에 나타난 3D 데이터셋의 처음 두 주성분에 대한 설명된 분산의 비율을 살펴보겠습니다.

In [14]:
# 이는 데이터셋 분산의 84.2%가 첫 번째 축에 놓여 있고 14.6%가 두 번째 축에 놓여 있음을 알려줍니다.
# 세 번째 축에는 1.2% 미만이 남아 있을 것이므로 아주 적은 양의 정보가 들어 있다고 생각해도 됩니다.

pca.explained_variance_ratio_

array([0.84248607, 0.14631839])

![image.png](https://i.imgur.com/4sxnHAv.png)

## 적절한 차원 수 선택하기(p281)

축소할 차원 수를 임의로 정하기보다는 충분한 분산(예를 들면 95%)이 될 때 까지 더해야 할 차원 수를 선택하는 쪽을 더 선호합니다. 물론 데이터 시각화를 위해 차원을 축소하는 경우에는 차원을 2개나 3개로 줄이는 것이 일반적입니다.

In [25]:
# 다음 코드는 차원을 축소하지 않고 PCA를 계산한 뒤 훈련 세트의 분산을 95%로 유지하는 데 필요한 최소한의 차원 수를 계산합니다.

from sklearn.model_selection import train_test_split
from sklearn.datasets import fetch_openml
mnist = fetch_openml('mnist_784', version=1)

X = mnist["data"]
y = mnist["target"]

X_train, X_test, y_train, y_test = train_test_split(X, y)

pca = PCA() # n_components를 지정하지 않으면 특성 수와 샘플 수 중 작은 값으로 설정됩니다.
pca.fit(X_train)
cumsum = np.cumsum(pca.explained_variance_ratio_) # np.cumsum 함수는 입력 배열의 원소를 차례대로 누적한 배열을 반환합니다.
d = np.argmax(cumsum >= 0.95) + 1;d

153

In [26]:
# 그런 다음 n_components=d로 설정하여 PCA를 다시 실행합니다.
# 하지만 유지하려는 주성분의 수를 지정하기보다는 보존하려는 분산의 비율을 n_components에 0.0에서 1.0 사이로 설정하는 편이 훨씬 낫습니다.

pca = PCA(n_components=0.95)
X_reduced = pca.fit_transform(X_train)

In [27]:
X_train.shape

(52500, 784)

In [28]:
X_reduced.shape

(52500, 153)

또 다른 방법은 설명된 분산을 차원 수에 대한 함수로 그리는 것입니다(그냥 cumsum을 그래프로 그리면 됩니다). 일반적으로 이 그래프에는 설명된 분산의 빠른 성장이 멈추는 변곡점이 있습니다. 이를 데이터셋에 내재된 고유 차원으로 생각할 수 있습니다. 여기서는 차원을 약 100으로 축소해도 설명된 분산을 크게 손해 보지 않을 것입니다.

![image.png](https://i.imgur.com/Y1izxS7.png)

## 압축을 위한 PCA(p282)

확실히 차원을 축소하고 난 후에는 훈련 세트의 크기가 줄어듭니다. 예를 들어 MNIST 데이터셋에 분산의 95%를 유지하도록 PCA를 적용해보겠습니다. 각 샘플은 원래의 784개 특성이 아니라 150개 정도만 가지고 있을 것입니다. 대부분의 분산은 유지되었지만 데이터셋은 원본 크기의 20% 미만이 되었습니다! 이는 상당한 압축률이고 (SVM 같은) 분류 알고리즘의 속도를 크게 높일 수 있습니다.<br>
또한 압축된 데이터셋에 PCA 투영의 변환을 반대로 적용하여 784개의 차원으로 되돌릴 수도 있습니다. 물론 투영에서 일정량의 정보(유실된 5%의 분산)를 잃어버렸기 때문에 이렇게 해도 원본 데이터셋을 얻을 수는 없습니다. 하지만 원본 데이터와 매우 비슷할 것입니다. 원본 데이터와 재구성된 데이터(압축 후 원복한 것) 사이의 평균 제곱 거리를 재구성 오차(reconstruction error)라고 합니다. 예를 들어 다음 코드는 MNIST 데이터셋을 154차원으로 압축하고 inverse_transform() 메서드를 사용해 784차원으로 복원합니다. 아래 그림은 원본 훈련 세트(왼쪽)와 샘플을 압축한 후 복원한 결과를 보여줍니다. 이미지 품질이 조금 손실된 것을 볼 수 있지만 숫자 모양은 거의 온전한 상태입니다.

In [18]:
pca = PCA(n_components=154)
X_reduced = pca.fit_transform(X_train)
X_recovered = pca.inverse_transform(X_reduced)

In [19]:
X_train.shape

(52500, 784)

In [20]:
X_reduced.shape

(52500, 154)

In [21]:
X_recovered.shape

(52500, 784)

![image.png](https://i.imgur.com/nMdgjkL.png)

![image.png](https://i.imgur.com/8Z6sqrN.png)

## 점진적 PCA

PCA 구현의 문제는 SVD 알고리즘을 실행하기 위해 전체 훈련 세트를 메모리에 올려야 한다는 것입니다. 다행히 점진적 PCA(IPCA, Incremental PCA) 알고리즘이 개발되었습니다. 훈련 세트를 미니배치로 나눈 뒤 IPCA 알고리즘에 한 번에 하나씩 주입합니다. 이런 방식은 훈련 세트가 클 때 유용하고 온라인으로(즉, 새로운 데이터가 준비되는 대로 실시간으로) PCA를 적용할 수도 있습니다.

In [22]:
# 다음 코드는 MNIST 데이터셋을 (넘파이의 array_split() 함수를 사용해) 100개의 미니배치로 나누고 사이킷런의 IncrementalPCA 파이썬 클래스에 주입하여 MNIST 데이터셋의 차원을 (이전과 같은) 154개로 줄입니다.
# 전체 훈련 세트를 사용하는 fit() 메서드가 아니라 partial_fit() 메서드를 미니배치마다 호출해야 합니다.

from sklearn.decomposition import IncrementalPCA

n_batches = 100
inc_pca = IncrementalPCA(n_components=154)
for X_batch in np.array_split(X_train, n_batches):
    inc_pca.partial_fit(X_batch)
    
X_reduced = inc_pca.transform(X_train)

In [24]:
X_train.shape

(52500, 784)

In [23]:
X_reduced.shape

(52500, 154)

또 다른 방법은 넘파이의 memmap 파이썬 클래스를 사용해 하드 디스크의 이진 파일에 저장된 매우 큰 배열을 메모리에 들어 있는 것처럼 다루는 것입니다. 이 파이썬 클래스는 필요할 때 데이터를 메모리에 적재합니다. IncrementalPCA는 특정 순간에 배열의 일부만 사용하기 때문에 메모리 부족 문제를 해결할 수 있습니다.

In [30]:
# Skip

filename = "my_mnist.data"
X_mm = np.memmap(filename, dtype='float32', mode='readonly', shape=(m,n))

batch_size = m//n_batches
inc_pca = IncrementalPCA(n_components=154, batch_size=batch_size)
inc_pca.fit(X_mm)

NameError: name 'n' is not defined

## 랜덤 PCA(p284)

사이킷런에는 PCA의 또 다른 옵션으로 랜덤 PCA(Randomized PCA)를 제공합니다. 이 방식은 확률적인 알고리즘으로, 첫 d개의 주성분에 대한 근삿값을 빠르게 찾습니다. 이 알고리즘의 계산복잡도는 O(m\*n^2)+O(n^3)이 아니라 O(m\*d^2)+O(d^3)입니다. 그래서 d가 n보다 많이 작으면 앞선 알고리즘보다 매우 빨라집니다.

![image.png](https://i.imgur.com/1JgCNal.png)

In [31]:
rnd_pca = PCA(n_components=154, svd_solver='randomized')
X_reduced = rnd_pca.fit_transform(X_train)

## 커널 PCA

5장에서 샘플을 매우 높은 고차원 공간(특성 공간, feature space)으로 암묵적으로 매핑하여 서포트 벡터 머신의 비선형 분류와 회귀를 가능하게 하는 수학적 기법인 커널 트릭에 대해 이야기했습니다. 고차원 특성 공간에서의 선형 결정 경계는 원본 공간에서는 복잡한 비선형 결정 경계에 해당한다는 것을 배웠습니다.<br>
같은 기법을 PCA에 적용해 차원 축소를 위한 복잡한 비선형 투형을 수행할 수 있습니다. 이를 커널 PCA(kPCA, kernel PCA)라고 합니다. 이 기법은 투영된 후에 샘플의 군집을 유지하거나 꼬인 매니폴드에 가까운 데이터셋을 펼칠 때도 유용합니다.

In [33]:
# 예를 들어 다음 코드는 사이킷런의 KernelPCA를 사용해 RBF 커널로 kPCA를 적용하고 있습니다.

from sklearn.decomposition import KernelPCA
from sklearn.datasets import make_swiss_roll
X, t = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)

rbf_pca = KernelPCA(n_components = 2, kernel='rbf', gamma=0.04)
X_reduced = rbf_pca.fit_transform(X)

아래 그림은 (단순히 PCA를 사용한 것과 동일한) 선형 커널, RBF 커널, 시그모이드(로지스틱) 커널을 사용하여 2차원으로 축소시킨 스위스 롤의 모습입니다.

![image.png](https://i.imgur.com/0SsxVEV.png)

## 커널 선택과 하이퍼파라미터 튜닝(p286)

kPCA는 비지도 학습이기 때문에 좋은 커널과 하이퍼파라미터를 선택하기 위한 명확한 성능 측정 기준이 없습니다. 하지만 차원 축소는 종종 지도 학습(예를 들면 분류)의 전처리 단계로 활용되므로 그리드 탐색을 사용하여 주어진 문제에서 성능이 가장 좋은 커널과 하이퍼파라미터를 선택할 수 있습니다. 예를 들어 다음 코드는 두 단계의 파이프라인을 만드는데, 먼저 kPCA를 사용해 차원을 2차원으로 축소하고 분류를 위해 로지스틱 회귀를 적용합니다. 그런 다음 파이프라인 마지막 단계에서 가장 높은 분류 정확도를 얻기 위해 GridSearchCV를 사용해 kPCA의 가장 좋은 커널과 gamma 파라미터를 찾습니다.

In [37]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline

X, t = make_swiss_roll(n_samples=1000, noise=0.2, random_state=42)
y = t > 6.9

clf = Pipeline([
    ('kpca', KernelPCA(n_components=2)),
    ('log_reg', LogisticRegression())
])

param_grid = [{
    'kpca__gamma':np.linspace(0.03, 0.05, 10),
    'kpca__kernel':['rbf', 'sigmoid']
}]

grid_search = GridSearchCV(clf, param_grid, cv=3)
grid_search.fit(X, y)





GridSearchCV(cv=3, error_score='raise-deprecating',
             estimator=Pipeline(memory=None,
                                steps=[('kpca',
                                        KernelPCA(alpha=1.0, coef0=1,
                                                  copy_X=True, degree=3,
                                                  eigen_solver='auto',
                                                  fit_inverse_transform=False,
                                                  gamma=None, kernel='linear',
                                                  kernel_params=None,
                                                  max_iter=None, n_components=2,
                                                  n_jobs=None,
                                                  random_state=None,
                                                  remove_zero_eig=False,
                                                  tol=0)),
                                       ('log_reg',
                 

In [38]:
# 가장 좋은 커널과 하이퍼파라미터는 best_params_ 변수에 저장됩니다.

print(grid_search.best_params_)

{'kpca__gamma': 0.043333333333333335, 'kpca__kernel': 'rbf'}


완전한 비지도 학습 방법으로, 가장 낮은 재구성 오차를 만드는 커널과 하이퍼파라미터를 선택하는 방식도 있습니다. 하지만 재구성은 선형 PCA만큼 쉽지 않습니다. 아래 그림은 스위스롤의 원본 3D 데이터셋(왼쪽 위)과 RBF 커널의 kPCA를 적용한 2D 데이터셋(오른쪽 위)을 보여줍니다.

![image.png](https://i.imgur.com/GXkYGHE.png)

커널 트릭 덕분에 훈련 세트를 특성 맵(feature map)을 사용한 무한 차원의 특성 공간(오른쪽 아래)에 매핑한 다음, 변환된 데이터셋을 선형 PCA를 사용해 2D로 투영한 것과 수학적으로 동일합니다. 축소된 공간에 있는 샘플에 대해 선형 PCA를 역전시키면 재구성된 데이터 포인트는 원본 공간이 아닌 특성 공간에 놓이게 됩니다(예를 들어 그림에서 x로 표현한 것처럼). 이 특성 공간은 무한 차원이기 때문에 재구성된 포인트를 계산할 수 없고 재구성에 따른 실제 에러를 계산할 수 없습니다. 다행히 재구성된 포인트에 가깝게 매핑된 원본 공간의 포인트를 찾을 수 있습니다. 이를 재구성 원상(pre-image)이라고 부릅니다. 원상을 얻게 되면 원본 샘플과의 제곱 거리를 측정할 수 있습니다. 그래서 재구성 원상의 오차를 최소화하는 커널과 하이퍼파라미터를 선택할 수 있습니다.<br>
아마 재구성을 어떻게 하는지 궁금할 것입니다. 한 가지 방법은 투영된 샘플을 훈련 세트로, 원본 샘플을 타깃으로 하는 지도 학습 회귀 모델을 훈련시키는 것입니다. 사이킷런에서는 다음 코드와 같이 fint_inverse_transform=True로 지정하면 이를 자동으로 수행합니다.

In [39]:
# KernelPCA는 fit_inverse_transform=False가 기본값이며 inverse_transform() 메서드를 가지고 있지 않습니다.
# 이 메서드는 fint_inverse_transform=True를 지정했을 때만 생성됩니다.

rbf_pca = KernelPCA(n_components=2, kernel='rbf', gamma=0.0433,
                   fit_inverse_transform=True)
X_preduced = rbf_pca.fit_transform(X)
X_preimage = rbf_pca.inverse_transform(X_reduced)

In [40]:
X.shape

(1000, 3)

In [41]:
X_preduced.shape

(1000, 2)

In [42]:
X_preimage.shape

(1000, 3)

In [43]:
# 그런 다음 재구성 원상 오차를 게산할 수 있습니다.

from sklearn.metrics import mean_squared_error
mean_squared_error(X, X_preimage)

31.887534572791292

이렇게 되면 재구성 원상 오차를 최소화하는 커널과 하이퍼파라미터를 찾기 위해 교차 검증으로 그리드 탐색을 사용할 수 있습니다.

## LLE(Locally Linear Embedding)(p289)

지역 선형 임베딩(LLE)은 또 다른 강력한 비선형 차원 축소(NLDR, nonlinear dimensionality reduction) 기술입니다. 이전 알고리즘처럼 투영에 의존하지 않는 매니폴드 학습입니다. 간단히 말해 LLE는 먼저 각 훈련 샘플이 가장 가까운 이웃(c.n. closest neighbor)에 얼마나 선형적으로 연관되어 있는지 측정합니다. 그런 다음 국부적인 관계가 가장 잘 보존되는 훈련세트의 저차원 표현을 찾습니다. 이는 특히 잡음이 너무 많지 않은 경우 꼬인 매니폴드를 펼치는 데 잘 작동합니다.<br>
예를 들어 다음 코드는 사이킷런의 LocallyLinearEmbedding을 사용해 스위스 롤을 펼칩니다. 결과 2D 데이터셋이 아래 그림에 나타나 있습니다. 그림에서 볼 수 있듯이 스위스 롤이 완전히 펼쳐졌고 지역적으로는 샘플 간 거리가 잘 보존되어 있습니다. 그러나 크게 보면 샘플 간 거리가 잘 유지되어 있지 않습니다. 펼쳐진 스위스 롤의 오른쪽은 압축되어 있고 왼쪽은 확장되어 있습니다. 그럼에도 불구하고 LLE는 매니폴드를 모델링하는 데 잘 동작합니다.

![image.png](https://i.imgur.com/UzjmhPU.png)

In [44]:
from sklearn.manifold import LocallyLinearEmbedding

lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10) # n_neighbors의 기본값은 5입니다.
X_reduced = lle.fit_transform(X)

In [45]:
X.shape

(1000, 3)

In [46]:
X_reduced.shape

(1000, 2)

사이킷런이 제공하는 LLE 구현의 계산 복잡도는 k개의 가장 가까운 이웃을 찾는 데 O(mlog(m)nlog(k)), 가중치 최적화에 O(mnk^3), 저차원 표현을 만드는 데 O(dm^2)입니다. 불행하게도 마지막 항의 m^2 때문에 이 알고리즘을 대량의 데이터셋에 적용하기는 어렵습니다.

## 다른 차원 축소 기법(p291)

* 다차원 스케일링(MDS, Multidimensional Scaling)은 샘플 간의 거리를 보존하면서 차원을 축소합니다.
* lsomap은 각 샘플을 가장 가까운 이웃과 연결하는 식으로 그래프를 만듭니다. 그런 다음 샘플 간의 지오데식 거리(geodesic distance)를 유지하면서 차원을 축소합니다.
* t-SNE(t-Distributed Stochastic Neighbor Embedding)는 비슷한 샘플은 가까이, 비슷하지 않은 샘플은 멀리 떨어지도록 하면서 차원을 축소합니다. 주로 시각화에 많이 사용되며 특히 고차원 공간에 있는 샘플의 군집을 시각화할 때 사용합니다(예를 들면 MNIST 데이터셋을 2D로 시각화할 때).
* 선형 판별 분석(LDA, Linear Discriminant Analysis)은 사실 분류 알고리즘입니다. 하지만 훈련 과정에서 클래스 사이를 가장 잘 구분하는 축을 학습합니다. 이 축은 데이터가 투영되는 초평면을 정의하는 데 사용할 수 있습니다. 이 알고리즘의 장점은 투영을 통해 가능한 한 클래스를 멀리 떨어지게 유지시키므로 SVM 분류기 같은 다른 분류 알고리즘을 적용하기 전에 차원을 축소시키는 데 좋습니다.

## 연습문제

#### 1. 데이터셋의 차원을 축소하는 주요 목적은 무엇인가요? 대표적인 단점은 무엇인가요?
* 차원 축소의 주요 목적
 * 훈련 알고리즘의 속도를 높이기 위해(어떤 경우에는 잡음과 중복된 특성을 삭제할 수도 있어서 훈련 알고리즘의 성능을 높입니다.)
 * 데이터를 시각화하고 가장 중요한 특성에 대한 통찰을 얻기 위해
 * 메모리 공간을 절약하기 위해(압축)
* 주요 단점
 * 일부 정보를 잃어버려 훈련 알고리즘의 성능을 감소시킬 수 있습니다.
 * 계산 비용이 높습니다.
 * 머신러닝 파이프라인의 복잡도를 증가시킵니다.
 * 변환된 데이터를 이해하기 어려운 경우가 많습니다.
<br><br>
 
#### 2. 차원의 저주란 무엇인가요?
차원의 저주는 저차원 공간에는 없는 많은 문제가 고차원 공간에는 일어난다는 사실을 뜻합니다. 머신러닝에서 무작위로 선택한 고차원 벡터는 매우 희소해서 과대적합의 위험이 크고, 많은 양의 데이터가 있지 않으면 데이터에 있는 패턴을 잡아내기 매우 어려운 것이 흔한 현상입니다.
<br><br>

#### 3. 데이터셋의 차원을 축소시키고 나서 이 작업을 원복할 수 있나요? 할 수 있다면 어떻게 가능할까요? 가능하지 않다면 왜일까요?
여기에서 설명한 알고리즘 중 하나를 사용해 데이터셋의 차원의 축소되면 일부 정보가 차원 축소 과정에서 사라지기 때문에 이를 완벽하게 되돌리는 것은 불가능합니다. (PCA 같은) 일부 알고리즘은 비교적 원본과 비슷한 데이터셋을 재구성할 수 있는 간단한 역변환 방법을 가지고 있지만, (T-SNE 같은) 다른 알고리즘들은 그렇지 않습니다.
<br><br>

#### 4. 매우 비선형적인 데이터셋의 차원을 축소하는 데 PCA를 사용할 수 있을까요?
PCA는 불필요한 차원을 제거할 수 있기 때문에 매우 비선형적이더라도 대부분의 데이터셋에서 차원을 축소하는 데 사용할 수 있습니다. 그러나 불필요한 차원이 없다면(예를 들면 스위스 롤 데이터셋) PCA의 차원 축소는 너무 많은 정보를 잃게 만듭니다. 즉, 스위스 롤은 펼쳐야 하며 말려진 것을 뭉개면 안 됩니다.
<br><br>

#### 5. 설명된 분산을 95%로 지정한 PCA를 1,000개의 차원을 가진 데이터셋에 적용한다고 가정하겠습니다. 결과 데이터셋의 차원은 얼마나 될까요?
이 질문에는 속임수가 있습니다. 답은 데이터셋에 따라 다릅니다. 극단적인 두 가지 사례를 살펴보겠습니다. 먼저 거의 완벽하게 일렬로 늘어선 데이터 포인트로 구성된 데이터셋을 생각해보겠습니다. 이 경우 PCA는 분산의 95%를 유지하면서 데이터셋을 단 하나의 차원으로 줄일 수 있습니다. 이번에는 완전히 무작위로 1,000개의 차원에 걸쳐 흩어져 있는 데이터셋을 생각해보겠습니다. 이 경우 분산의 95%를 보존하려면 거의 950개의 차원이 필요할 것입니다. 그러므로 답은 데이터셋에 따라 달라지고 1에서 950 사이의 어떤 수도 될 수 있습니다. 차원 수에 대한 함수로 설명된 분산의 그래프를 그려보는 것이 데이터셋에 내재된 차원 수를 대략 가늠할 수 있는 한 가지 방법입니다.
<br><br>

#### 6. 기본 PCA, 점진적 PCA, 랜덤 PCA, 커널 PCA는 어느 경우에 사용될까요?
기본 PCA가 우선적으로 사용되지만 데이터셋 크기가 메모리에 맞을 때에 가능합니다. 점진적 PCA는 메모리에 담을 수 없는 대용량 데이터셋에 적합합니다. 하지만 기본 PCA보다 느리므로 데이터셋이 메모리 크기에 맞으면 기본 PCA를 사용해야 합니다. 점진적 PCA는 새로운 샘플이 발생될 때마다 실시간으로 PCA를 적용해야 하는 온라인 작업에 사용 가능합니다. 랜덤 PCA는 데이터셋이 메모리 크기에 맞고 차원을 크게 축소시킬 때 사용됩니다. 이 경우에는 기본 PCA보다 훨씬 빠릅니다. 커널 PCA는 비선형 데이터셋에 유용합니다.
<br><br>

#### 7. 어떤 데이터셋에 적용한 차원 축소 알고리즘의 성능을 어떻게 평가할 수 있을까요?
직관적으로 데이터셋에서 너무 많은 정보를 잃지 않고 차원을 많이 제거할 수 있다면 차원 축소 알고리즘이 잘 작동한 것입니다. 이를 측정하는 한 가지 방법은 역변환을 수행해서 재구성 오차를 측정하는 것입니다. 하지만 모든 차원 축소 알고리즘이 역변환을 제공하지는 않습니다. 만약 차원 축소를 다른 머신러닝 알고리즘(예를 들면 랜덤 포레스트 분류기)을 적용하기 전에 전처리 단계로 사용한다면 두 번째 알고리즘의 성능을 측정해볼 수 있습니다. 즉, 차원 축소가 너무 많은 정보를 잃지 않았다면 원본 데이터셋을 사용했을 때와 비슷한 성능이 나와야 합니다.
<br><br>

#### 8. 두 개의 차원 축소 알고리즘을 연결할 수 있을까요?
당연히 두 개의 차원 축소 알고리즘을 연결할 수 있습니다. PCA로 불필요한 차원을 대폭 제거하고 난 다음 LLE 같이 훨씬 느린 알고리즘을 적용하는 것이 대표적인 사례입니다. 이런 2단계 방식은 LLE만 사용했을 때와 거의 비슷한 성능을 내지만 속도가 몇 분의 1로 줄어들 것입니다.