# Dimension Reduction - 차원 축소

---

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import mglearn

plt.rc('figure', figsize=(10, 6))

from matplotlib import rcParams
rcParams['font.family'] = 'New Gulim'
rcParams['font.size'] = 10
rcParams['axes.unicode_minus'] = False

- 피처 선택(Feature selection)
- 피처 추출(Feature extraction)

# 1 PCA(Principal Component Analysis) - 주성분 분석

[PCA](https://excelsior-cjh.tistory.com/167)

In [None]:
mglearn.plots.plot_pca_illustration()

### 1.1 PCA 적용 - 유방암 데이터 셋

#### 1.1.1 데이터 로딩 및 스케일링

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.preprocessing import StandardScaler

cancer = load_breast_cancer()

scaler = StandardScaler()
scaler.fit(cancer.data)
X_scaled = scaler.transform(cancer.data)

#### 1.1.2 PCA 적용

In [None]:
from sklearn.decomposition import PCA

# PCA 모델 생성 - 주성분 2개
pca = PCA(n_components=2)

# 모델 학습(규칙 설정)
pca.fit(X_scaled)

# 데이터 변환(PCA 적용)
X_pca = pca.transform(X_scaled)

In [None]:
print('원본 데이터 형태:', X_scaled.shape)
print('PCA 적용된 데이터 형태:', X_pca.shape)

#### 1.1.3 PCA 성분

In [None]:
pca.components_.shape

In [None]:
pca.components_

In [None]:
# 정보를 담고 있는 비율
pca.explained_variance_ratio_

#### 1.1.4 주성분 2개로 데이터 시각화

In [None]:
plt.figure(figsize=(9, 9))
mglearn.discrete_scatter(X_pca[:, 0], X_pca[:, 1], cancer.target)

plt.legend(['악성', '양성'], loc='best')

plt.xlabel('첫 번째 주성분')
plt.ylabel('두 번째 주성분')
plt.show()

### 1.2 PCA 적용 - Iris 데이터 셋

#### 1.2.1 데이터 로딩

In [None]:
from sklearn.datasets import load_iris

iris = load_iris()

df = pd.DataFrame(iris.data , columns=iris.feature_names)
df['target']=iris.target
df

#### 1.2.2 데이터 시각화

In [None]:
markers=['^', 's', 'o']

for i, marker in enumerate(markers):
    x_axis_data = df[df['target']==i]['sepal length (cm)']
    y_axis_data = df[df['target']==i]['sepal width (cm)']
    
    plt.scatter(x_axis_data, y_axis_data, marker=marker,label=iris.target_names[i])

plt.xlabel('sepal length')
plt.ylabel('sepal width')
plt.legend()
plt.show()

#### 1.2.3 데이터 스케일링

In [None]:
from sklearn.preprocessing import StandardScaler

iris_scaled = StandardScaler().fit_transform(iris.data)

#### 1.2.4 PCA 적용

In [None]:
from sklearn.decomposition import PCA

# PCA 모델 생성 - 주성분 2개
pca = PCA(n_components=2)

# 모델 학습(규칙 설정)
pca.fit(iris_scaled)

# 데이터 변환(PCA 적용)
iris_pca = pca.transform(iris_scaled)

In [None]:
print('원본 데이터 형태:', iris_scaled.shape)
print('PCA 적용된 데이터 형태:', iris_pca.shape)

#### 1.2.5 PCA 성분

In [None]:
pca.components_.shape

In [None]:
pca.components_

In [None]:
# 정보를 담고 있는 비율
pca.explained_variance_ratio_

#### 1.2.6 PCA 적용된 DataFrame 생성

In [None]:
pca_columns=['pca_component_1','pca_component_2']

df_pca = pd.DataFrame(iris_pca, columns=pca_columns)

df_pca['target']=iris.target
df_pca

#### 1.2.7 PCA 적용된 데이터 시각화

In [None]:
markers=['^', 's', 'o']

for i, marker in enumerate(markers):
    x_axis_data = df_pca[df_pca['target']==i]['pca_component_1']
    y_axis_data = df_pca[df_pca['target']==i]['pca_component_2']
    
    plt.scatter(x_axis_data, y_axis_data, marker=marker,label=iris.target_names[i])

plt.title('PCA 적용된 데이터')
plt.xlabel('pca_component_1')
plt.ylabel('pca_component_2')
plt.legend()
plt.show()

#### 1.2.8 분류 예측: 원본 데이터 사용

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score

rcf = RandomForestClassifier(random_state=123)

scores = cross_val_score(rcf, iris.data, iris.target, scoring='accuracy',cv=5)

print(scores)

#### 1.2.9 분류 예측: PCA 적용된 데이터 사용

In [None]:
pca_X = df_pca[['pca_component_1', 'pca_component_2']]

scores_pca = cross_val_score(rcf, pca_X, iris.target, scoring='accuracy', cv=5)

print(scores_pca)

# 2 LDA(Linear Discriminant Analysis) - 선형 판별 분석

### 2.1 LDA 적용 - Iris 데이터 셋

#### 2.1.1 LDA 적용

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

# LDA 모델 생성 - 주성분 2개
lda = LinearDiscriminantAnalysis(n_components=2)

# 모델 학습(규칙 설정) - target data 필요
lda.fit(iris_scaled, iris.target)

# 데이터 변환(LDA 적용)
iris_lda = lda.transform(iris_scaled)

In [None]:
print('원본 데이터 형태:', iris_scaled.shape)
print('LDA 적용된 데이터 형태:', iris_lda.shape)

#### 2.1.2 LDA 적용된 DataFrame 생성

In [None]:
lda_columns=['lda_component_1','lda_component_2']

df_lda = pd.DataFrame(iris_lda, columns=lda_columns)

df_lda['target']=iris.target
df_lda

#### 2.1.3 LDA 적용된 데이터 시각화

In [None]:
markers=['^', 's', 'o']

for i, marker in enumerate(markers):
    x_axis_data = df_lda[df_lda['target']==i]['lda_component_1']
    y_axis_data = df_lda[df_lda['target']==i]['lda_component_2']
    
    plt.scatter(x_axis_data, y_axis_data, marker=marker,label=iris.target_names[i])

plt.title('LDA 적용된 데이터')
plt.xlabel('lda_component_1')
plt.ylabel('lda_component_2')
plt.legend()
plt.show()

# 3 SVD(Singular Value Decomposition) - 특이값 분해

[SVD](https://ratsgo.github.io/from%20frequency%20to%20semantics/2017/04/06/pcasvdlsa/)

### 3.1 SVD 를 이용한 행렬 분해

In [None]:
from scipy.sparse.linalg import svds
from scipy.linalg import svd

#### 3.1.1 데이터 생성

In [None]:
np.random.seed(123)
matrix = np.random.random((6, 6))

print('원본 행렬:\n',matrix)

#### 3.1.2 SVD 행렬 분해

In [None]:
U, Sigma, Vt = svd(matrix, full_matrices=False)

print('분해 행렬 차원:',U.shape, Sigma.shape, Vt.shape)
print('Sigma 행렬:', Sigma)

#### 3.1.3 Truncated SVD 행렬 분해

In [None]:
# 특이값: 4
num_components = 4

U_tr, Sigma_tr, Vt_tr = svds(matrix, k=num_components)

print('Truncated SVD 분해 행렬 차원:',U_tr.shape, Sigma_tr.shape, Vt_tr.shape)
print('Truncated SVD Sigma 행렬:', Sigma_tr)

#### 3.1.4 Truncated SVD 행렬 분해 복원

In [None]:
matrix_tr = np.dot(np.dot(U_tr,np.diag(Sigma_tr)), Vt_tr)

print('Truncated SVD로 분해 후 복원 행렬:\n', matrix_tr)

### 3.2 scikit-learn TruncatedSVD 적용 - Iris 데이터 셋

#### 3.2.1 TruncatedSVD 적용

In [None]:
from sklearn.decomposition import TruncatedSVD

# SVD 모델 생성 - 주성분 2개
tsvd = TruncatedSVD(n_components=2)

# 모델 학습(규칙 설정)
tsvd.fit(iris.data)

# 데이터 변환(SVD 적용)
iris_tsvd = tsvd.transform(iris.data)

#### 3.2.2 SVD 적용된 데이터 시각화

In [None]:
plt.scatter(x=iris_tsvd[:,0], y=iris_tsvd[:,1], c=iris.target)

plt.title('SVD 적용된 데이터')
plt.xlabel('TruncatedSVD Component 1')
plt.ylabel('TruncatedSVD Component 2')
plt.show()

#### 3.2.3 PCA - SVD 비교
- Scaled data -> 결과 동일
- PCA: 밀집 행렬에 적용
- SVD: 희소 행렬에도 적용 가능

In [None]:
# PCA
pca = PCA(n_components=2)
pca.fit(iris_scaled)
iris_pca = pca.transform(iris_scaled)

# SVD
tsvd = TruncatedSVD(n_components=2)
tsvd.fit(iris_scaled)
iris_tsvd = tsvd.transform(iris_scaled)

In [None]:
# PCA - SVD 시각화

fig, (ax1, ax2) = plt.subplots(figsize=(10,5), ncols=2)

ax1.scatter(x=iris_tsvd[:,0], y= iris_tsvd[:,1], c= iris.target)
ax2.scatter(x=iris_pca[:,0], y= iris_pca[:,1], c= iris.target)

ax1.set_title('Truncated SVD Transformed')
ax2.set_title('PCA Transformed')
plt.show()

# 4 NMF(Non-Negative Matrix Factorization) - 비음수 행렬 분해

[NMF](https://ssung-22.tistory.com/87)

- 하나의 성분만을 사용한다면 NMF는 데이터를 가장 잘 표현할 수 있는 평균으로 향하는 성분을 선택
- 성분의 개수를 바꾸면 전체 성분이 완전히 바뀜
- 모든 성분을 동등하게 취급

In [None]:
mglearn.plots.plot_nmf_illustration()

### 4.1 NMF 적용 - Iris 데이터 셋

#### 4.1.1 NMF 적용

In [None]:
from sklearn.decomposition import NMF

# NMF 모델 생성 - 성분 2개
nmf = NMF(n_components=2, init='nndsvda', max_iter=500)

# 모델 학습(규칙 설정)
nmf.fit(iris.data)

# 데이터 변환(NMF 적용)
iris_nmf = nmf.transform(iris.data)

In [None]:
print('원본 데이터 형태:', iris.data.shape)
print('NMF 적용된 데이터 형태:', iris_nmf.shape)

#### 4.1.2 NMF 적용된 데이터 시각화

In [None]:
plt.scatter(x=iris_nmf[:,0], y=iris_nmf[:,1], c=iris.target)

plt.title('NMF 적용된 데이터')
plt.xlabel('NMF Component 1')
plt.ylabel('NMF Component 2')
plt.show()

# 5 t-SNE(t-Distributed Stochastic Neighbor Embedding)

### 5.1 데이터 로딩

In [None]:
from sklearn.datasets import load_digits
digits = load_digits()

fig, axes = plt.subplots(2, 5, figsize=(10, 5), subplot_kw={'xticks':(), 'yticks': ()})
for ax, img in zip(axes.ravel(), digits.images):
    ax.imshow(img)

### 5.2 PCA 적용: 2개의 성분으로 시각화

#### 5.2.1 PCA 적용

In [None]:
from sklearn.decomposition import PCA

# PCA 모델 생성 - 주성분 2개
pca = PCA(n_components=2)

# 모델 학습(규칙 설정)
pca.fit(digits.data)

# 데이터 변환(PCA 적용)
digits_pca = pca.transform(digits.data)

#### 5.2.2 PCA 적용 시각화

In [None]:
colors = ["#476A2A", "#7851B8", "#BD3430", "#4A2D4E", "#875525",
          "#A83683", "#4E655E", "#853541", "#3A3120","#535D8E"]
          
plt.figure(figsize=(10, 10))
plt.xlim(digits_pca[:, 0].min(), digits_pca[:, 0].max())
plt.ylim(digits_pca[:, 1].min(), digits_pca[:, 1].max())

for i in range(len(digits.data)):
    # 숫자 텍스트를 이용해 산점도를 그립니다
    plt.text(digits_pca[i, 0], digits_pca[i, 1], str(digits.target[i]),
             color = colors[digits.target[i]],
             fontdict={'weight': 'bold', 'size': 9})
             
plt.title('PCA 2개의 주성분을 사용한 숫자 데이터 셋의 산점도')             
plt.xlabel('첫 번째 주성분')
plt.ylabel('두 번째 주성분')
plt.show()

### 5.3 t-SNE 적용: 2개의 성분으로 시각화

#### 5.3.1 t-SNE 적용

In [None]:
from sklearn.manifold import TSNE

# t-SNE 모델 생성
tsne = TSNE(learning_rate='auto', random_state=123)

# 모델 학습(규칙 설정) 및 데이터 변환(t-SNE 적용)
digits_tsne = tsne.fit_transform(digits.data)

#### 5.3.2 t-SNE 적용 시각화

In [None]:
plt.figure(figsize=(10, 10))
plt.xlim(digits_tsne[:, 0].min(), digits_tsne[:, 0].max() + 1)
plt.ylim(digits_tsne[:, 1].min(), digits_tsne[:, 1].max() + 1)

for i in range(len(digits.data)):
    # 숫자 텍스트를 이용해 산점도를 그립니다
    plt.text(digits_tsne[i, 0], digits_tsne[i, 1], str(digits.target[i]),
             color = colors[digits.target[i]],
             fontdict={'weight': 'bold', 'size': 9})
             
plt.title('t-SNE로 찾은 2개의 성분을 사용한 숫자 데이터 셋의 산점도')
plt.xlabel('t-SNE 특성 0')
plt.ylabel('t-SNE 특성 1')
plt.show()

---

In [None]:
# End of file