# 7장 선형회귀 모델
## 7.9 프로그램 구현

In [None]:
# 필요 라이브러리 선언
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt

In [None]:
# PDF 출력
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('png', 'pdf')

In [None]:
from sklearn.datasets import load_boston
# 학습용 데이터 준비
boston = load_boston()
x_org, yt = boston.data, boston.target
feature_names = boston.feature_names
print('원본 데이터', x_org.shape, yt.shape)
print('항목 이름: ', feature_names)

# RM 데이터
x_data = x_org[:,feature_names == 'RM']
print('RM 데이터', x_data.shape)

# 더미 변수 추가
x = np.insert(x_data, 0, 1.0, axis=1)
print('더미 변수 추가 후의 RM 데이터', x.shape)

In [None]:
# 입력 데이터 x를 표시 (더미 변수 포함)
print(x.shape)
print(x[:5,:])

In [None]:
# 정답값 yt를 표시
print(yt[:5])

In [None]:
# 산점도를 표시
plt.scatter(x[:,1], yt, s=10, c='b')
plt.xlabel('ROOM', fontsize=14)
plt.ylabel('PRICE', fontsize=14)
plt.show()

In [None]:
# 예측함수 (1, x)의 값에서 예측값 yp를 계산
def pred(x, w):
    return(x @ w)

In [None]:
# 초기화 처리

# 데이터 전체 건수
M = x.shape[0]

# 입력 데이터의 차수 (더미 변수 포함)
D = x.shape[1]

# 반복 횟수
iters = 50000

# 학습률
alpha = 0.01

# 가중치 벡터의 초깃값 (모든 값을 1로 한다)
w = np.ones(D)

# 평가 결과 기록 (손실함수의 값만 기록)
history = np.zeros((0,2))

In [None]:
# 반복 루프
for k in range(iters):
    
    # 예측값 계산 (7.8.1)
    yp = pred(x, w)
    
    # 오차 계산 (7.8.2)
    yd = yp - yt
    
    # 경사하강법 적용 (7.8.4)
    w = w - alpha * (x.T @ yd) / M
    
    # 학습 곡선을 그리기 위한 데이터 계산 및 저장
    if (k % 100 == 0):
        # 손실함숫값의 계산 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 계산 결과의 기록
        history = np.vstack((history, np.array([k, loss])))
        # 화면 표시
        print( "iter = %d loss = %f" % (k, loss))

In [None]:
# 최종 손실함수 초깃값, 최종값
print('손실함수 초깃값: %f' % history[0,1])
print('손실함수 최종값: %f' % history[-1,1])

In [None]:
# 다음 직선을 그리기 위한 좌푯값 계산
xall = x[:,1].ravel()
xl = np.array([[1, xall.min()],[1, xall.max()]])
yl = pred(xl, w)

In [None]:
# 산점도와 회귀 직선 그리기
plt.figure(figsize=(6,6))
plt.scatter(x[:,1], yt, s=10, c='b')
plt.xlabel('ROOM', fontsize=14)
plt.ylabel('PRICE', fontsize=14)
plt.plot(xl[:,1], yl, c='k')
plt.show()

In [None]:
# 학습 곡선을 표시 (첫 1개분 제외)
plt.plot(history[1:,0], history[1:,1])
plt.show()

## 7.10 다중회귀 모델로 확장

In [None]:
# 열(LSTAT: 저소득층 비율) 추가
x_add = x_org[:,feature_names == 'LSTAT']
x2 = np.hstack((x, x_add))
print(x2.shape)

In [None]:
# 입력 데이터 x를 표시 (더미 데이터 포함)
print(x2[:5,:])

In [None]:
# 초기화 처리

# 데이터 전체 건수
M = x2.shape[0]

# 입력 데이터의 차원 수 (더미 변수 포함)
D = x2.shape[1]

# 반복 횟수
iters = 50000

# 학습률
alpha = 0.01

# 가중치 벡터의 초깃값 (모든 값을 1로 한다)
w = np.ones(D)

# 평가 결과 기록 (손실함수의 값만 기록)
history = np.zeros((0,2))

In [None]:
# 반복 루프
for k in range(iters):
    
    # 예측값 계산 (7.8.1)
    yp = pred(x2, w)
    
    # 오차 계산 (7.8.2)
    yd = yp - yt
    
    # 경사하강법 적용 (7.8.4)
    w = w - alpha * (x2.T @ yd) / M
    
    # 학습 곡선 그리기용 데이터의 계산과 저장
    if (k % 100 == 0):
        # 손실함숫값의 계산 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 계산 결과의 기록
        history = np.vstack((history, np.array([k, loss])))
        # 화면 표시
        print( "iter = %d loss = %f" % (k, loss))

In [None]:
# 초기화 처리 (매개변수를 적절한 값으로 변경)

# 데이터 전체 건수
M = x2.shape[0]

# 입력 데이터의 차원 수 (더미 변수를 포함)
D = x2.shape[1]

# 반복 횟수
#iters = 50000
iters = 2000

# 학습률
#alpha = 0.01
alpha = 0.001

# 가중치 벡터의 초깃값 (모든 값을 1로 한다)
w = np.ones(D)

# 평가 결과 기록 (손실함수의 값만 기록)
history = np.zeros((0,2))

In [None]:
# 반복 루프
for k in range(iters):
    
    # 예측값 계산 (7.8.1)
    yp = pred(x2, w)
    
    # 오차 계산 (7.8.2)
    yd = yp - yt
    
    # 경사하강법 적용 (7.8.4)
    w = w - alpha * (x2.T @ yd) / M
    
    # 학습 곡선 그리기용 데이터의 계산과 저장
    if (k % 100 == 0):
        # 손실함숫값의 계산 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 계산 결과의 기록
        history = np.vstack((history, np.array([k, loss])))
        # 화면 표시
        print( "iter = %d loss = %f" % (k, loss))

In [None]:
# 최종 손실함수 초깃값과 최종값
print('손실함수 초깃값: %f' % history[0,1])
print('손실함수 최종값: %f' % history[-1,1])

In [None]:
# 학습 곡선을 표시(처음 10개분 제외)
plt.plot(history[:,0], history[:,1])
plt.show()