# **Hands On MachineLearning**
---

# CHAPTER 8 | 차원 축소
---
---


## 1. PCA

### 1) 분산 보존

* 분산이 최대로 보존되는 축을 선택하는 것이 정보가 가장 적게 손실됨 -> *원본 데이터셋과 투영된 것 사이의 평균 제곱 거리를 최소화하는 축*

### 2) 사이킷런 사용하기

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components = 2)
X2D = pca.fit_transform(X)

### 3) 설명된 분산의 비율

In [None]:
#각 주성분의 축을 따라 있는 데이터셋의 분산 비율

pca.explained_variance_ratio_

### 4) 적절한 차원 수 선택하기

* 축소할 차원 수를 임의로 정하기 보다는 충분한 분산이 될 때까지 더해야 할 차원 수를 선택하는 것이 간단함

In [None]:
#차원을 축소하지 않고 PCA를 계산한 뒤 훈련 세트의 분산을 95%로 유지하는 데 필요한 최소한의 차원 수 계산

pca = PCA()
pca.fit(X_train)
cumsum = np.cumsum(pca.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.95) + 1

# n_components = d로 설정하여 다시 PCA 실행

pca = PCA(n_components = 0.95)
X_reduced = pca.fit_transform(X_ratio)

### 5) 압축을 위한 PCA

In [None]:
pca = PCA(n_components= 154)
X_reduced = pca.fit_transform(X_train)
X_recovered = pca.inverse_transform(X_reduced) #차원축소복원

### 6) 랜덤 PCA

In [None]:
rnd_pca = PCA(n_components = 154, svd_solcer = 'randomized')
X_reduced = rnd_pca.fit_transform(X_train)

## 2. 커널 PCA

In [None]:
from sklearn.decomposition import KernelPCA

rbf_pca = KernelPCA(n_components = 2, kernel = 'rbf', gamma = 0.04)
X_reduced = rbf_pca.fit_transform(X)

### 1) 커널 선택과 하이퍼파라미터 튜닝

In [None]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import Pipeline


In [None]:

clf = Pipeline([
    ('kpca', KernelPCA(n_components = 2)),
    ('log_reg', LogisticRegression())
])


param_grid = [{
    'kpca__gamma' : np.linspace(0.03,0.05,10),
    'kpca__kernel' : ['rbf','sigmoid']
}]

grid_search = GridSearchCV(clf, param_grid, cv = 3)
grid_search.fit(X,y)