# `make_regression`을 이용한 PCA Regression

https://scikit-learn.org/stable/modules/generated/sklearn.datasets.make_regression.html

scikit-learn에서는 `make_regression` 함수를 이용하여 회귀분석을 연습하기 위한 데이터셋을 만들 수 있다. 이를 이용해서 Principal Component Regression을 연습하는 과제를 진행해보자.



# 패키지 불러오기

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_regression

# Q1 `make_regression` 함수로 데이터 생성해보자

독립변수는 X1부터 X10까지, 종속변수는 Y를 생성하자. 표본 크기는 1000으로 설정하고, `noise`, `random_state`, `bias`등의 변수는 자유롭게 설정해보자.

In [None]:
# make_regression로 데이터 생성


# Q2 EDA를 해보자

각 변수별 히스토그램, scatterplot matrix, correlation matrix, 요약통계량(descriptive statistics)를 그려보자


In [None]:
# 히스토그램

# Scatterplot matrix

# Correlation matrix

# 요약 통계량


# Q3 `StandardScaler` 로 scaling을 해보자

X 변수들에 대해 `StandarScaler`를 이용하여 표준화를 해보자.
PCA를 하기 전에 스케일링을 한다는 점을 유의하자.

In [None]:
from sklearn.preprocessing import StandardScaler

# 스케일링하기


# Q4 `PCA`를 해보자

`PCA` 함수를 이용하여 PCA를 해보자. 또 다음을 해보자.

- PC1 부터 PC10 까지 Scree plot을 그려보자
- PC1과 PC2를 가지고 scatterplot을 그려보자.

In [None]:
from sklearn.decomposition import PCA

# PCA 계산하기
pca = PCA()

# Scree plot 그리기

# PC1 와 PC2 산점도 그리기


# Q5 `train_test_split`을 해보자

Train set과 Test set을 6:4 비율로 나눠보자

In [None]:
from sklearn.model_selection import train_test_split

# train set과 test set 나누기


#  Q6 Principal Component Regression을 진행해보자.

Q5에서 만든 데이터로부터 다음의 과정으로 문제를 풀어보자.
- Y를 종속변수(`y_train`), `X_train`의 PC1을 종속변수로 하여 Linear Regression을 적합한다.
- `y_pred`과 `y_train`을 비교하여 train error의 MSE를 구한다.
- Principal component을 하나 늘려 Linear regression을 적합한다. 즉 Y에 대해 PC1, PC2으로 Linear Regression을 적합한다.
- 마찬가지로 train error의 MSE를 구한다.
- PC10까지 같은 과정을 반복하고, MSE를 비교한다.



In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# train MSE 저장
mse_train = []

# 회귀모형 적합



# Q7 Test error을 계산해보자.

위 과정에서 적합한 모형을 바탕으로 `y_test`을 추정하고 `y_test`와의 MSE를 계산하여 test error을 구해보자.

In [None]:
# test MSE 저장
mse_test = []


# Bonus: MNIST 데이터로 PCA와 T-SNE 시각화 비교

데이터 로드

In [None]:
import tensorflow as tf
from tensorflow.keras.datasets import mnist
import matplotlib.pyplot as plt
import numpy as np

(x_train, y_train), (x_test, y_test) = mnist.load_data()
x_train = x_train.astype('float32') / 255
x_test = x_test.astype('float32') / 255
x_train = x_train.reshape((len(x_train), np.prod(x_train.shape[1:])))
x_test = x_test.reshape((len(x_test), np.prod(x_test.shape[1:])))
print(x_train.shape)
print(x_test.shape)

이미지로 보여주는 함수 정의 (가로로 10개의 이미지가 하나의 군집)

In [None]:
import matplotlib.pyplot as plt

# 가로로 10개의 이미지가 하나의 군집
def viz_img(y_pred):
    n = 10
    fig = plt.figure(1)
    box_index = 1
    for cluster in range(10):
        result = np.where(y_pred == cluster)
        for i in np.random.choice(result[0].tolist(), n, replace=False):
            ax = fig.add_subplot(n, n, box_index)
            plt.imshow(x_train[i].reshape(28, 28))
            plt.gray()
            ax.get_xaxis().set_visible(False)
            ax.get_yaxis().set_visible(False)
            box_index += 1
    plt.show()

### PCA

In [None]:
from sklearn.decomposition import PCA
pca = PCA(n_components=30).fit(x_train)
reduced_X = pca.transform(x_train)

from sklearn.cluster import KMeans
from sklearn.metrics import accuracy_score

model = KMeans(init='k-means++', n_clusters=10)
model.fit(reduced_X)
y_pred = model.labels_

viz_img(y_pred)

시각화를 위해 주성분 개수를 2개로 설정한 후 시각화를 진행해보세요.

In [None]:
pca = ###
reduced_X = pca.transform(x_train)
df = pd.DataFrame({'Column1': reduced_X[:,0], 'Column2': reduced_X[:,1]})
df['y_train'] = pd.Series(y_train, index=df.index)

plt.scatter(df['Column1'], df['Column2'], c=df['y_train'], cmap='tab10', alpha=0.7)
plt.show()

### T-SNE (그냥 실행해주세요!)

In [None]:
from sklearn.manifold import TSNE

model = TSNE(n_components=2, learning_rate=100)
transformed = model.fit_transform(x_train) # 좀 오래걸림(30분)
dataset = pd.DataFrame({'Column1': transformed[:,0], 'Column2': transformed[:,1]})
dataset['y_train'] = pd.Series(y_train, index=dataset.index)

plt.scatter(dataset['Column1'], dataset['Column2'], c=dataset['y_train'], cmap='tab10', alpha=0.7)
plt.show()