# [실습3] 금속분말 생성공정 최적화를 위한 머신러닝 기법 (정답)


---

## 실습 목표
---
- 회귀 모델에 적용할 수 있도록 데이터셋을 불러오고 활용해봅니다.
- 회귀 모델을 구현하여, 학습과 테스트 및 평가해봅니다.

## 실습 목차
---
1. **회귀 모델 실습:** 회귀 모델을 사용하여 학습 수행, 평가 및 예측 수행

2. **데이터 읽기:** 금속분말 데이터를 불러오고 데이터 이해

3. **회귀 모델 수행:** 금속분말 데이터셋을 이용하여 회귀모델 학습

## 실습 개요
---

이번 실습에서는 금속분말 데이터를 이용하여 회귀 머신러닝 모델을 학습하고, 예측 및 평가해봅니다. 

## 1. 회귀 모델 실습
---
다양한 회귀 모델의 실습을 해보겠습니다.


### 1.1 단변량 단일 선형 회귀

### 1.1.1 라이브러리 불러오기

In [None]:
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
import sklearn

### 1.1.2 데이터 생성

독립변수가 1개이고, 종속변수도 1개인 데이터를 생성해보겠습니다.

In [None]:
X = np.random.normal(size = (1000))
beta_1 = 3
beta_0 = 2
y = X * beta_1 + beta_0 + np.random.normal(scale = 0.8, size = (1000))

In [None]:
plt.scatter(X, y, s = 3)
plt.show()

### 1.1.3 데이터 분할

In [None]:
train_ratio = 0.8
train_X = X[:int(len(X) * train_ratio)].reshape(-1, 1)
train_y = y[:int(len(X) * train_ratio)].reshape(-1, 1)
test_X = X[int(len(X) * train_ratio):].reshape(-1, 1)
test_y = y[int(len(X) * train_ratio):].reshape(-1, 1)

### 1.1.4 최소 제곱 선형 회귀 모델 학습

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
fitter = LinearRegression()
fitter

In [None]:
fitter.fit(train_X, train_y)

In [None]:
pred_beta_1 = fitter.coef_
pred_beta_0 = fitter.intercept_
print('실제 식: y = %f X + %f'%(beta_1, beta_0))
print('예측 식: y = %f X + %f'%(pred_beta_1, pred_beta_0))

### 1.1.5 최소 제곱 선형 회귀 모델 예측

In [None]:
pred = fitter.predict(test_X)

In [None]:
plt.scatter(test_X, pred, s = 3, c = 'red', label = 'Pred')
plt.scatter(test_X, test_y, s = 3, c = 'blue', label = 'GT')
plt.legend()
plt.show()

### 1.1.6 최소 제곱 선형 회귀 모델 평가

In [None]:
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [None]:
def RSS(gt, pred):
    return ( (gt - pred) ** 2 ).sum()

rss = RSS(test_y, pred)
print("RSS: %f"%rss)

In [None]:
def MSE(gt, pred):
    return ( (gt - pred) ** 2 ).sum() / len(pred)

mse = MSE(test_y, pred)
print("MSE: %f"%mse)
print(mean_squared_error(test_y, pred))

In [None]:
def MAE(gt, pred):
    return ( np.abs(gt - pred) ).sum() / len(pred)

mae = MAE(test_y, pred)
print("MAE: %f"%mae)
print(mean_absolute_error(test_y, pred))

In [None]:
r2 = sklearn.metrics.r2_score(test_y, pred)
print("R2 score: %f"%r2)

### 1.2 단변량 다중 선형 회귀

### 1.2.1 데이터 생성
1.2.1 독립변수가 2개 이상이고, 종속변수가 1개인 데이터를 생성합니다.

In [None]:
# loc: 평균, scale: 표준편차, size: 임의의 행렬
X1 = np.random.normal(loc = 0, scale = 1, size = (1000, 1))
X2 = np.random.normal(loc = 2, scale = 0.5, size = (1000, 1))
X3 = np.random.normal(loc = 1, scale = 1, size = (1000, 1))
X4 = X1 * 2 + np.random.normal(scale = 0.1, size = (1000, 1))

# beta_0: 절편
# beta_1 ~ beta_4: 계수
beta_0 = 2
beta_1 = 1
beta_2 = 3
beta_3 = 0
beta_4 = 1


X = np.concatenate([X1, X2, X3, X4], axis = 1)
y = beta_0 + beta_1 * X1 + beta_2 * X2 + beta_3 * X3 + beta_4 * X4 + np.random.normal(size = (1000, 1)) * 0.5

In [None]:
X.shape

In [None]:
y.shape

### 1.2.2 상관분석

In [None]:
# fig: figure의 약자 (데이터가 담기는 프레임 사이즈)
# ax: 데이터가 그려지는 캔버스
fig, ax = plt.subplots(2, 2, figsize = (10, 10))
fig.suptitle('Correlations')

# 첫번째 그래프
ax[0, 0].scatter(X1[:, 0], y[:, 0], s = 3)
ax[0, 0].set_title('X1: %.2f'%np.corrcoef(X1[:, 0], y[:, 0])[0, 1])

# 두번째 그래프
ax[0, 1].scatter(X2[:, 0], y[:, 0], s = 3)
ax[0, 1].set_title('X2: %.2f'%np.corrcoef(X2[:, 0], y[:, 0])[0, 1])

# 세번째 그래프
ax[1, 0].scatter(X3[:, 0], y[:, 0], s = 3)
ax[1, 0].set_title('X3: %.2f'%np.corrcoef(X3[:, 0], y[:, 0])[0, 1])

# 네번째 그래프
ax[1, 1].scatter(X4[:, 0], y[:, 0], s = 3)
ax[1, 1].set_title('X4: %.2f'%np.corrcoef(X4[:, 0], y[:, 0])[0, 1])

# 전체를 다 보여주게하는 함수
plt.show()

X3 은 종속변수와 상관관계가 매우 낮으므로 제거해줍니다.

In [None]:
X = X[:, [0, 1, 3]]

In [None]:
fig, ax = plt.subplots(3, 3, figsize = (10, 10))
fig.suptitle('Correlations')
X_labels = ['X1', 'X2', 'X4']

# i: 행
for i in range(3):
    # t: 열
    for t in range(3):
        ax[i, t].scatter(X[:, i], X[:, t], s = 3)
        ax[i, t].set_title('%s and %s: %.2f'%(X_labels[i], X_labels[t], np.corrcoef(X[:, i], X[:, t])[0, 1]))
plt.show()

X1 과 X4 의 상관관계가 매우 높으므로 X4를 제거해줍니다.

In [None]:
# X1, X2만 가지고 Y를 예측하겠다.
X = X[:, [0, 1]]

### 1.2.3 데이터 분할

In [None]:
X.shape

In [None]:
train_ratio = 0.8
train_X = X[:int(len(X)*train_ratio)]
train_y = y[:int(len(X)*train_ratio)]
test_X = X[int(len(X)*train_ratio):]
test_y = y[int(len(X)*train_ratio):]
print(train_X.shape, train_y.shape)
print(test_X.shape, test_y.shape)

### 1.2.4 최소 제곱 선형 회귀 모델 학습

In [None]:
fitter = sklearn.linear_model.LinearRegression()
fitter

In [None]:
fitter.fit(train_X, train_y)

In [None]:
pred_beta_1, pred_beta_2 = fitter.coef_[0]
pred_beta_0 = fitter.intercept_
print('실제 식: y = %f + %f X1 + %f X2 + %f X3 + %f X4'%(beta_0, beta_1, beta_2, beta_3, beta_4))
print('예측 식: y = %f + %f X1 + %f X2'%(pred_beta_0, pred_beta_1, pred_beta_2))

### 1.2.5 최소 제곱 선형 회귀 모델 예측

In [None]:
pred = fitter.predict(test_X)

In [None]:
plt.scatter(test_X[:, 0], pred.reshape(-1), s = 3, c = 'red', label = 'Pred')
plt.scatter(test_X[:, 0], test_y.reshape(-1), s = 3, c = 'blue', label = 'GT')
plt.xlabel('X1')
plt.ylabel('y')
plt.legend()
plt.show()

In [None]:
plt.scatter(test_X[:, 1], pred.reshape(-1), s = 3, c = 'red', label = 'Pred')
plt.scatter(test_X[:, 1], test_y.reshape(-1), s = 3, c = 'blue', label = 'GT')
plt.xlabel('X2')
plt.ylabel('y')
plt.legend()
plt.show()

### 1.2.6 최소 제곱 선형 회귀 모델 평가

In [None]:
# Residual Sum of Squared
def RSS(gt, pred):
    return ((gt - pred) ** 2).sum()


rss = RSS(test_y, pred)
print("RSS: %f"%rss)

In [None]:
# Mean Squared Error
def MSE(gt, pred):
    return ((gt - pred) ** 2).sum() / len(pred)

mse = MSE(test_y, pred)
print("MSE: %f"%mse)

In [None]:
# Mean Absolute Error
def MAE(gt, pred):
    return np.abs(gt - pred).sum() / len(pred)

mae = MAE(test_y, pred)
print("MAE: %f"%mae)

In [None]:
r2 = sklearn.metrics.r2_score(test_y, pred)
print("R2 socre: %f"%r2)

### 1.3 다변량 다중 선형 회귀

### 1.3.1 데이터 생성
독립변수와 종속변수가 모두 2개 이상인 데이터를 생성해보겠습니다.

In [None]:
# 1000행 3열 무작위 행렬을 정규분포에서 추출
X = np.random.normal(size = (1000, 3)) # 3개 독립변수, 1000개의 데이터

# y1 = X1 + X2 + 난수
y1 = X[:, 0] + X[:, 1] + np.random.normal(size = (1000)) * 0.3

# y2 = X1 * 2 + X2 + X3 + 난수
y2 = X[:, 0] * 2 + X[:, 1] + X[:, 2] * 0.1 + np.random.normal(size = (1000)) * 0.3


y = np.concatenate([y1.reshape(-1, 1), y2.reshape(-1, 1)], axis = 1) # 2개의 종속 변수

In [None]:
print(X.shape)
print(y.shape)

### 1.3.2 데이터 시각화

In [None]:
fig, ax = plt.subplots(2, 3, figsize = (15, 10))
fig.suptitle('X and Y')

# 행 기준
for i in range(2):
    # 열 기준
    for t in range(3):
        ax[i, t].scatter(X[:, t], y[:, i], s = 3)
        ax[i, t].set_title('X%d, y%s'%(t+1, i+1))
plt.show()

### 1.3.3 데이터 분할

In [None]:
train_ratio = 0.8

train_X = X[:int((len(X) * train_ratio))]
train_y = y[:int((len(X) * train_ratio))]
test_X = X[int((len(X) * train_ratio)):]
test_y = y[int((len(X) * train_ratio)):]

In [None]:
print(train_X.shape, train_y.shape)
print(test_X.shape, test_y.shape)

### 1.3.4 최소 제곱 선형 회귀 모델 학습

In [None]:
fitter = LinearRegression()
fitter

In [None]:
fitter.fit(train_X, train_y)

### 1.3.5 최소 제곱 선형 회귀 모델 예측

In [None]:
pred = fitter.predict(test_X)

In [None]:
fig, ax = plt.subplots(2, 3, figsize = (15, 10))
fig.suptitle('X and Y')

for i in range(2):
    for t in range(3):
        ax[i, t].scatter(test_X[:, t], test_y[:, i], s = 3, c = 'red', label = 'GT')
        ax[i, t].scatter(test_X[:, t], pred[:, i], s = 3, c = 'blue', label = 'GT')
        ax[i, t].set_title('X%d, y%s'%(t+1, i+1))
        ax[i, t].legend()
plt.show()

### 1.3.6 최소 제곱 선형 회귀 모델 평가

In [None]:
def RSS(gt, pred):
    return ((gt - pred) ** 2).sum()

rss = RSS(test_y, pred)
print("RSS: %f"%rss)

In [None]:
def MSE(gt, pred):
    return np.mean(np.mean((gt-pred)**2, axis=0))

mse = MSE(test_y, pred)
print("MSE: %f"%mse)
print(mean_squared_error(test_y, pred))

In [None]:
def MAE(gt, pred):
    return np.mean(np.mean(np.abs(gt-pred), axis=0))

mae = MAE(test_y, pred)
print("MAE: %f"%mae)
print(mean_absolute_error(test_y, pred))

In [None]:
def R2_Score(gt, pred):
    rss = np.sum( (gt - pred) ** 2, axis=0 )
    tss = np.sum((gt - np.mean(gt, axis=0)) ** 2, axis=0)

    return np.mean(1-(rss/tss))

r2 = sklearn.metrics.r2_score(test_y, pred)
print("R2 score: %f"%r2)
print(R2_Score(test_y, pred))

### 1.4 피쳐 선택의 중요성

### 1.4.1 데이터 생성

In [None]:
np.random.seed(0) # 랜덤 시드 고정

In [None]:
X = np.random.normal(loc = 0, scale = 1, size = (1000, 100)) # 100 개 변수
y = 1 + 2 * X[:, 0:1] + 3 * X[:, 1:2] + np.random.normal(size = (1000, 1)) # 그 중 2개 변수만 y에 영향을 미침

X_pp = X[:, :2] # 상관 분석을 통해 2개 변수만 피쳐로 사용

### 1.4.2 데이터 시각화

In [None]:
fig, ax = plt.subplots(1, 6, figsize = (18, 3))
fig.suptitle('Correlations')

ax[0].scatter(X[:, 0], y[:, 0], s = 3)
ax[0].set_title('X1: %.2f'%np.corrcoef(X[:, 0], y[:, 0])[0, 1])

ax[1].scatter(X[:, 1], y[:, 0], s = 3)
ax[1].set_title('X2: %.2f'%np.corrcoef(X[:, 1], y[:, 0])[0, 1])

ax[2].scatter(X[:, 2], y[:, 0], s = 3)
ax[2].set_title('X3: %.2f'%np.corrcoef(X[:, 2], y[:, 0])[0, 1])

ax[3].scatter(X[:, 3], y[:, 0], s = 3)
ax[3].set_title('X4: %.2f'%np.corrcoef(X[:, 3], y[:, 0])[0, 1])

ax[4].scatter(X[:, 4], y[:, 0], s = 3)
ax[4].set_title('X5: %.2f'%np.corrcoef(X[:, 4], y[:, 0])[0, 1])

ax[5].scatter(X[:, 5], y[:, 0], s = 3)
ax[5].set_title('X6: %.2f'%np.corrcoef(X[:, 5], y[:, 0])[0, 1])
plt.show()

### 1.4.3 데이터 분할

In [None]:
train_ratio = 0.8
train_X_pp = X_pp[:int(len(X) * train_ratio)]
train_X = X[:int(len(X) * train_ratio)]
train_y = y[:int(len(X) * train_ratio)]
test_X_pp = X_pp[int(len(X) * train_ratio):]
test_X = X[int(len(X) * train_ratio):]
test_y = y[int(len(X) * train_ratio):]

### 1.4.4 선형회귀 모델 적용

In [None]:
# 모든 X 변수를 사용해서 모델을 훈련시켰을 때 결과
fitter = sklearn.linear_model.LinearRegression()
fitter.fit(train_X, train_y)
pred = fitter.predict(test_X)
r2 = sklearn.metrics.r2_score(test_y, pred)
print("R2 score: %f"%r2)

In [None]:
fitter.coef_

In [None]:
# 상관관계가 높았던 X1, X2만 가지고 훈련시켰을 떄 결과. 즉, 피쳐 선택한 후 모델을 돌렸을 때의 결과
fitter = sklearn.linear_model.LinearRegression()
fitter.fit(train_X_pp, train_y)
pred = fitter.predict(test_X_pp)
r2 = sklearn.metrics.r2_score(test_y, pred)
print("R2 score: %f"%r2)

In [None]:
fitter.coef_

적절한 피쳐를 선택하여 모델을 학습하였을 때, 모델의 계수도 더 적으면서 (효율적) 더 좋은 설명력을 가지는 것을 확인할 수 있습니다.

### 1.5 피쳐 선택 자동화

### 1.5.1 라이브러리 불러오기

In [None]:
from sklearn.feature_selection import SelectFromModel

### 1.5.2 피쳐 선택

In [None]:
fitter = sklearn.linear_model.LinearRegression()

In [None]:
X_new = train_X
# 보통은 이렇게 피쳐선택을 하지 않는다.
# threshold를 부여해서 특성을 줄인다.
for i in range(2):
    fitter.fit(X_new, train_y)
    model = SelectFromModel(fitter, prefit=True)
    X_new = model.transform(X_new)

### 1.5.3 결과 확인

In [None]:
X_new.shape

In [None]:
(X_new == train_X_pp).all()

## 2. 데이터 읽기
---
금속분말 데이터를 불러오고 정제한 후 전처리합니다.


### 2.1 라이브러리 불러오기

In [None]:
import numpy as np
import json

### 2.2 학습용, 검증용, 테스트용 데이터 읽어오기

In [None]:
stage1 = {
    'train_X': np.load('./Data/train_data_stage1_X.npy'),
    'train_y': np.load('./Data/train_data_stage1_y.npy'),
    'valid_X': np.load('./Data/valid_data_stage1_X.npy'),
    'valid_y': np.load('./Data/valid_data_stage1_y.npy'),
    'test_X': np.load('./Data/test_data_stage1_X.npy'),
    'test_y': np.load('./Data/test_data_stage1_y.npy'),
}

stage2 = {
    'train_X': np.load('./Data/train_data_stage2_X.npy'),
    'train_y': np.load('./Data/train_data_stage2_y.npy'),
    'valid_X': np.load('./Data/valid_data_stage2_X.npy'),
    'valid_y': np.load('./Data/valid_data_stage2_y.npy'),
    'test_X': np.load('./Data/test_data_stage2_X.npy'),
    'test_y': np.load('./Data/test_data_stage2_y.npy'),
}

columns = json.load(open('./Data/valid_columns.json', 'r'))

In [None]:
columns['stage2_output']

In [None]:
columns['stage2_output'] = [i.replace('Stage1','Stage2') for i in columns['stage2_output']]
columns['stage2_output']

### 2.3 stage1 데이터 시각화하기

In [None]:
print('학습데이터 입력값 차원:', stage1['train_X'].shape)
print('학습데이터 출력값 차원:', stage1['train_y'].shape)

입력 변수 5개와 출력 변수 5개를 시각화해보겠습니다.

In [None]:
fig, ax = plt.subplots(5, 5, figsize = (20, 20))
fig.suptitle('Stage1', y= 0.9, size = 20)

# 5x5로 시각화를 해주는 것을 의미
# ::10 -> x축을 10개 단위로 건너뛰면서 보여준다. (e.g., 10, 20, 30, 40)

# 행
for i in range(5):
    # 열
    for t in range(5):
        # 첫번째 열에 해당하는 그래프에만 y축 이름을 부여하겠다.
        if t == 0:
            ax[i, t].set(ylabel = columns['stage1_input'][i])
        
        # 마지막 행에 해당하는 그래프에만 x축 이름을 부여하겠다.
        if i == len(ax[0]) - 1:
            ax[i, t].set(xlabel = columns['stage1_output'][t])
        ax[i, t].scatter(stage1['train_y'][::10, i], stage1['train_X'][::10, t], s = 10)
plt.show()

### 2.4 stage1 데이터 표준화하기

학습용 데이터의 평균과 표준편차를 이용하여 데이터를 표준화해줍니다. 

In [None]:
stage1_X_mean = stage1['train_X'].mean(axis = 0)
stage1_y_mean = stage1['train_y'].mean(axis = 0)
print('입력값 평균:', stage1_X_mean)
print('출력값 평균:', stage1_y_mean)

In [None]:
stage1_X_std = stage1['train_X'].std(axis = 0)
stage1_y_std = stage1['train_y'].std(axis = 0)
print('입력값 표준편차:', stage1_X_std)
print('출력값 표준편차:', stage1_y_std)

In [None]:
# 학습 데이터 표준화
stage1['train_X'] = (stage1['train_X'] - stage1_X_mean) / stage1_X_std
stage1['train_y'] = (stage1['train_y'] - stage1_y_mean) / stage1_y_std

In [None]:
# 여기서부터 문제가 발생할 수 있음

In [None]:
# 검증용 데이터 표준화
stage1['valid_X'] = (stage1['valid_X'] - stage1_X_mean) / stage1_X_std
stage1['valid_y'] = (stage1['valid_y'] - stage1_y_mean) / stage1_y_std

In [None]:
# 테스트 데이터 표준화
stage1['test_X'] = (stage1['test_X'] - stage1_X_mean) / stage1_X_std
stage1['test_y'] = (stage1['test_y'] - stage1_y_mean) / stage1_y_std

In [None]:
stage1_X_mean = stage1['train_X'].mean(axis = 0)
stage1_y_mean = stage1['train_y'].mean(axis = 0)
print('입력값 평균:', stage1_X_mean)
print('출력값 평균:', stage1_y_mean)
stage1_X_std = stage1['train_X'].std(axis = 0)
stage1_y_std = stage1['train_y'].std(axis = 0)
print('입력값 표준편차:', stage1_X_std)
print('출력값 표준편차:', stage1_y_std)

In [None]:
stage1_X_mean = stage1['valid_X'].mean(axis = 0)
stage1_y_mean = stage1['valid_y'].mean(axis = 0)
print('입력값 평균:', stage1_X_mean)
print('출력값 평균:', stage1_y_mean)
stage1_X_std = stage1['valid_X'].std(axis = 0)
stage1_y_std = stage1['valid_y'].std(axis = 0)
print('입력값 표준편차:', stage1_X_std)
print('출력값 표준편차:', stage1_y_std)

### 2.4 stage2 데이터 시각화하기

In [None]:
print('학습데이터 입력값 차원:', stage2['train_X'].shape)
print('학습데이터 출력값 차원:', stage2['train_y'].shape)

마찬가지로, 입력변수 5개, 출력변수 5개에 대하여 시각화해봅니다.

In [None]:
fig, ax = plt.subplots(5, 5, figsize = (20, 20))
fig.suptitle('Stage2', y= 0.9, size = 20)

for i in range(5):
    for t in range(5):
        if t == 0:
            ax[i, t].set(ylabel = columns['stage2_input'][i])
        if i == len(ax[0]) - 1:
            ax[i, t].set(xlabel = columns['stage2_output'][t])
        ax[i, t].scatter(stage2['train_y'][::10, i], stage2['train_X'][::10, t], s = 10)
plt.show()

### 2.5 stage2 데이터 표준화하기

In [None]:
stage2_X_mean = stage2['train_X'].mean(axis = 0)
stage2_y_mean = stage2['train_y'].mean(axis = 0)
print('입력값 평균:', stage2_X_mean)
print('출력값 평균:', stage2_y_mean)

In [None]:
stage2_X_std = stage2['train_X'].std(axis = 0)
stage2_y_std = stage2['train_y'].std(axis = 0)
print('입력값 표준편차:', stage2_X_std)
print('출력값 표준편차:', stage2_y_std)

In [None]:
# 학습 데이터 표준화
stage2['train_X'] = (stage2['train_X'] - stage2_X_mean) / stage2_X_std
stage2['train_y'] = (stage2['train_y'] - stage2_y_mean) / stage2_y_std

# 검증용 데이터 표준화
stage2['valid_X'] = (stage2['valid_X'] - stage2_X_mean) / stage2_X_std
stage2['valid_y'] = (stage2['valid_y'] - stage2_y_mean) / stage2_y_std

# 테스트 데이터 표준화
stage2['test_X'] = (stage2['test_X'] - stage2_X_mean) / stage2_X_std
stage2['test_y'] = (stage2['test_y'] - stage2_y_mean) / stage2_y_std

## 3. 선형 회귀 모델 수행
---
읽어온 금속분말 데이터셋을 이용하여 선형 회귀 모델에 적용해보겠습니다.

### 3.1 Stage 1

### 3.1.1 선형 회귀 모델 학습, 예측, 평가

In [None]:
fitter = sklearn.linear_model.LinearRegression()

In [None]:
fitter.fit(stage1['train_X'], stage1['train_y'])

In [None]:
pred_train = fitter.predict(stage1['train_X'])

In [None]:
r2 = sklearn.metrics.r2_score(stage1['train_y'], pred_train)
print("R2 score (학습 데이터): %f"%r2)

In [None]:
pred = fitter.predict(stage1['test_X'])

In [None]:
r2 = sklearn.metrics.r2_score(stage1['test_y'], pred)
print("R2 score (테스트 데이터): %f"%r2)

### 3.1.2 피쳐 선택

In [None]:
model = SelectFromModel(fitter, prefit=True, threshold = 1e-1)
X_new = model.transform(stage1['train_X'])

In [None]:
print('피쳐 선택 전의 변수 수:', stage1['train_X'].shape[1])
print('피쳐 선택 전의 변수 수:', X_new.shape[1])

In [None]:
fitter = sklearn.linear_model.LinearRegression()
fitter.fit(X_new, stage1['train_y'])

In [None]:
pred_train = fitter.predict(X_new)

In [None]:
r2 = sklearn.metrics.r2_score(stage1['train_y'], pred_train)
print("R2 score (학습 데이터): %f"%r2)

In [None]:
pred = fitter.predict(model.transform(stage1['test_X']))

In [None]:
r2 = sklearn.metrics.r2_score(stage1['test_y'], pred)
print("R2 score (테스트 데이터): %f"%r2)

In [None]:
stage1['test_y']

변수를 2개 제거해주니 R2 지표가 살짝 떨어졌습니다. 메모리 효율성이 중요하다면, 정확도가 조금 떨어지더라도, 변수를 제거해주는 것이 좋겠지만, 지금은 모든 변수를 활용해보도록 하겠습니다.

### 3.1.3 다양한 선형회귀 모델 비교

최소 제곱 선형 회귀 모델과 Ridge, Lasso 모델의 성능을 비교해보겠습니다.

In [None]:
from sklearn.linear_model import Ridge, Lasso

In [None]:
leastSquare = LinearRegression()
ridge = Ridge()
lasso = Lasso()

In [None]:
leastSquare.fit(stage1['train_X'], stage1['train_y'])
ridge.fit(stage1['train_X'], stage1['train_y'])
lasso.fit(stage1['train_X'], stage1['train_y'])

In [None]:
pred_leastSquare = leastSquare.predict(stage1['test_X'])
pred_ridge = ridge.predict(stage1['test_X'])
pred_lasso = lasso.predict(stage1['test_X'])

In [None]:
r2_leastSquare = sklearn.metrics.r2_score(stage1['test_y'], pred_leastSquare)
r2_ridge = sklearn.metrics.r2_score(stage1['test_y'], pred_ridge)
r2_lasso = sklearn.metrics.r2_score(stage1['test_y'], pred_lasso)
print("R2 score (최소제곱선형회귀): %f"%r2_leastSquare)
print("R2 score (Ridge): %f"%r2_ridge)
print("R2 score (Lasso): %f"%r2_lasso)

### 3.2 Stage2

### 3.2.1 선형 회귀 모델 학습, 예측, 평가

In [None]:
fitter = sklearn.linear_model.LinearRegression()

In [None]:
fitter.fit(stage2['train_X'], stage2['train_y'])

In [None]:
pred_train = fitter.predict(stage2['train_X'])

In [None]:
r2 = sklearn.metrics.r2_score(stage2['train_y'], pred_train)
print("R2 score (학습 데이터): %f"%r2)

In [None]:
pred = fitter.predict(stage2['test_X'])

In [None]:
r2 = sklearn.metrics.r2_score(stage2['test_y'], pred)
print("R2 score (테스트 데이터): %f"%r2)

### 3.2.2 피쳐 선택

In [None]:
model = SelectFromModel(fitter, prefit=True, threshold = 5e-1)
X_new = model.transform(stage2['train_X'])

In [None]:
print('피쳐 선택 전의 변수 수:', stage2['train_X'].shape[1])
print('피쳐 선택 전의 변수 수:', X_new.shape[1])

In [None]:
fitter = sklearn.linear_model.LinearRegression()
fitter.fit(X_new, stage2['train_y'])

In [None]:
pred_train = fitter.predict(X_new)

In [None]:
r2 = sklearn.metrics.r2_score(stage2['train_y'], pred_train)
print("R2 score (학습 데이터): %f"%r2)

In [None]:
pred = fitter.predict(model.transform(stage2['test_X']))

In [None]:
r2 = sklearn.metrics.r2_score(stage2['test_y'], pred)
print("R2 score (테스트 데이터): %f"%r2)

6개의 피쳐를 제거하니, 모델의 설명력이 조금 줄었습니다. 어떤 피쳐들이 제거되었는지 확인해보겠습니다.

In [None]:
important_features = [column for column, is_good_feature in zip(columns['stage2_input'], model.get_support()) if is_good_feature]
not_important_features = [column for column, is_good_feature in zip(columns['stage2_input'], model.get_support()) if not is_good_feature]

In [None]:
print('중요한 피쳐들:')
for feature in important_features:
    print('    - %s'%feature)
print('덜 중요한 피쳐들:')
for feature in not_important_features:
    print('    - %s'%feature)

종속변수에 따른 모델에 설명력을 확인해봅니다.

In [None]:
for i in range(13):
    r2 = sklearn.metrics.r2_score(stage2['test_y'][:, i], pred[:, i])
    print("R2 score: %f"%r2)

### 3.3.3 다양한 선형 회귀 모델 적용하기

최소 제곱 선형 회귀 모델과 Ridge, Lasso 모델의 성능을 비교해보겠습니다.

In [None]:
leastSquare = LinearRegression()
ridge = Ridge()
lasso = Lasso()

In [None]:
leastSquare.fit(stage2['train_X'], stage2['train_y'])
ridge.fit(stage2['train_X'], stage2['train_y'])
lasso.fit(stage2['train_X'], stage2['train_y'])

In [None]:
pred_leastSquare = leastSquare.predict(stage2['test_X'])
pred_ridge = ridge.predict(stage2['test_X'])
pred_lasso = lasso.predict(stage2['test_X'])

In [None]:
r2_leastSquare = sklearn.metrics.r2_score(stage2['test_y'], pred_leastSquare)
r2_ridge = sklearn.metrics.r2_score(stage2['test_y'], pred_ridge)
r2_lasso = sklearn.metrics.r2_score(stage2['test_y'], pred_lasso)
print("R2 score (최소제곱선형회귀): %f"%r2_leastSquare)
print("R2 score (Ridge): %f"%r2_ridge)
print("R2 score (Lasso): %f"%r2_lasso)

<span style="color:rgb(120, 120, 120)">본 학습 자료를 포함한 사이트 내 모든 자료의 저작권은 엘리스에 있으며 외부로의 무단 복제, 배포 및 전송을 불허합니다.

Copyright @ elice all rights reserved</span>