# 차원 축소 실습

* 실습 목적
    * 차원축소(PCA)를 통해
    * 저차원에서 데이터 시각화와
    * 지도학습과 연계한 모델링 적용


## 1.환경준비

### (1) 라이브러리 로딩

In [None]:
# 기본 라이브러리 가져오기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import *
from sklearn.decomposition import PCA

from sklearn.preprocessing import StandardScaler, MinMaxScaler

### (2) 데이터 준비

#### 1) 데이터 로딩

In [None]:
data = pd.read_excel('bankrupt.xlsx')
data.head()

In [None]:
data.info()

#### 2) 데이터 분할

In [None]:
target = 'target'

x = data.drop(target, axis = 1)
y = data[target]

* train, validation 분할

In [None]:
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .3, random_state = 20)

#### 3) 스케일링
* 거리계산 기반 차원축소이므로 스케일링 필요

In [None]:
scaler = MinMaxScaler()
x_train = scaler.fit_transform(x_train)
x_val = scaler.transform(x_val)

# (옵션)데이터프레임 변환
x_train = pd.DataFrame(x_train, columns=list(x))

## 2.차원 축소 : 주성분 분석 PCA

* 주성분 만들기
    * 전체 변수의 수로 주성분 생성
    * 분산 누적그래프를 그리고 적절한 주성분 수 선택
* 적용
    * 저차원 시각화
    * 지도학습 연계

### (1) 주성분 만들기

* 전체 변수의 수로 주성분 생성


In [None]:
# 주성분을 최대값으로 결정
n =

# 주성분 분석 선언
pca =

# 만들고, 적용하기
x_train_pc =
x_val_pc =

* 편리하게 사용하기 위해 데이터프레임으로 변환

In [None]:
# 칼럼이름 생성
column_names = [ 'PC'+str(i+1) for i in range(n) ]
column_names

# 데이터프레임으로 변환하기
x_train_pc = pd.DataFrame(x_train_pc, columns = column_names)
x_val_pc = pd.DataFrame(x_val_pc, columns = column_names)
x_train_pc

### (2) 주성분 누적 분산 그래프
* 그래프를 보고 적절한 주성분의 개수를 지정(elbow method!)
* x축 : PC 수
* y축 : 전체 분산크기 - 누적 분산크기

In [None]:
plt.plot(range(1,n+1),         , marker = '.')
plt.xlabel('No. of PC')
plt.grid()
plt.show()

주성분 개수 몇개면 충분할까요?

### (3) 시각화
* 주 성분 중 상위 2개를 뽑아 시각화 해 봅시다.
* 본 데이터는 시각화 결과가 만족스럽지는 않습니다.^^;;

In [None]:
sns.scatterplot(x = 'PC1', y = 'PC2', data = x_train_pc, hue = y_train)
plt.grid()
plt.show()

* [참조]feature 간 상호 상관관계 살펴보기
    * 아래 내용은 참조 자료입니다.

In [None]:
plt.figure(figsize = (8, 8))
sns.heatmap(x_train.corr())

In [None]:
plt.figure(figsize = (8, 8))
sns.heatmap(x_train_pc.corr())

### (4) 지도학습으로 연계하기

#### 1) 원본데이터로 모델 생성하기
* 로지스틱 회귀로 분류 모델을 생성해 봅시다.

* 학습

In [None]:
# 모델 선언
model0 =

# 학습


* 예측 및 평가

In [None]:
# 예측


# 평가



#### 2) 주성분 분석 데이터로 모델링
* 다음의 조건으로 모델을 만들고 성능을 확인해 봅시다.
    * 알고리즘 : KNN

In [None]:
# 여러분이 선택한 주성분 개수
n =

# 데이터 준비
cols = column_names[:n]
x_train_pc_n = x_train_pc.loc[:, cols]
x_val_pc_n = x_val_pc.loc[:, cols]

# 모델 선언 및 학습
model_n =



In [None]:
# 예측


# 평가



## 3.[참조] t-SNE

### (1) 학습(차원축소)

In [None]:
from sklearn.manifold import TSNE

In [None]:
# 2차원으로 축소하기
tsne = TSNE(n_components = 2, random_state=20)
x_tsne = tsne.fit_transform(x)

# 사용의 편리함을 위해 DataFrame으로 변환
x_tsne = pd.DataFrame(x_tsne, columns = ['T1','T2'])

In [None]:
x_tsne.shape

### (2) 시각화

In [None]:
plt.figure(figsize=(6,6))
sns.scatterplot(x = 'T1', y = 'T2', data = x_tsne, hue = y)
plt.grid()