In [None]:
import pandas as pd
df = pd.read_csv("../Dataset/BostonHousing.csv")

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
import matplotlib.pyplot as plt

boston = df
x_org = df.drop("medv", axis=1).values
yt = df["medv"].values

In [None]:
# feature_names 속성을 생성하고 데이터프레임의 열 이름을 할당
feature_names = boston.columns[:-1] # 마지막 열(medv 또는 price)를 제외한 모든 열 이름
print("원본 데이터", x_org.shape, yt.shape)
print("항목 이름: ", feature_names)

In [None]:
# RM 데이터
x_data = x_org[:, feature_names=="rm"]
print("rm 데이터", x_data.shape)

In [None]:
# 더미 변수 추가
import numpy as np
x = np.insert(x_data, 0, 1.0, axis=1)
print("더미 변수 추가 후의 rm 데이터", x.shape)

In [None]:
# 입력 데이터 x를 표시(더미 변수 포함)
print(x.shape)
print(x[:5, :])

In [None]:
# 정답값 yt 표시
print(yt[:5])

In [None]:
# 예측함수 (1, x)의 값에서 예측값 yp를 계산 => 경사하강법에서 사용할 예측함수 정의
def pred(x, w):
    x = np.nan_to_num(x) # nan이 있다면 0으로
    w = np.nan_to_num(w) # nan이 있다면 0으로

    result = x @ w
    return np.nan_to_num(result) # @ = 행렬 곱셈 연산자 즉, 내적을 의미한다.

In [None]:
# 초기화 처리

# 데이터 전체 건수
M = x.shape[0]

# 입력 데이터의 차수 (더미 변수 포함)
D = x.shape[1]

# 반복 횟수
iters = 50000

# 학습률
alpha = 0.01

# 가중치 벡터의 초깃값 (모든 값을 1로 한다)
w = np.ones(D)
print(w)

# 평가 결과 기록 (손실함수의 값만 기록)
history = np.zeros((0,2))

In [None]:
# 반복 루프
for k in range(iters):
    
    # 예측값 계산 (7.8.1)
    yp = pred(x, w)
    
    # 오차 계산 (7.8.2)
    yd = yp - yt
    
    # 경사하강법 적용 (7.8.4)
    w = w - alpha * (x.T @ yd) / M
    
    # 학습 곡선을 그리기 위한 데이터 계산 및 저장
    if (k % 100 == 0):
        # 손실함숫값의 계산 (7.6.1)
        loss = np.mean(yd ** 2) / 2
        # 계산 결과의 기록
        history = np.vstack((history, np.array([k, loss])))
        # 화면 표시
        print( "iter = %d loss = %f" % (k, loss))

In [None]:
# 최종 손실함수 초기값, 최종값
print(f"손실함수 초기값 : {history[0, 1]}")
print(f"손실함수 최종값 : {history[-1, 1]}")

In [None]:
# 다음 직선을 그리기 위한 좌표값 계산
xall = x[:, 1].ravel()
xl = np.array([[1, xall.min()], [1, xall.max()]])
yl = pred(xl, w)

In [None]:
# 산점도와 회귀 직선 그리기
plt.figure(figsize=(6, 6))
plt.scatter(x[:, 1], yt, s=10, c="b")
plt.xlabel("rm", fontsize=14)
plt.ylabel("medv", fontsize=14)
plt.plot(xl[:,1], yl, c='k')
plt.show()

In [None]:
# 학습 곡선의 표시(처음 1개분 제외)
plt.plot(history[1:, 0], history[1:, 1])
plt.show()

In [None]:
# 다중 회귀 알고리즘

# 입력ㄷ ㅔ이터 항목 추가

# 열(LSTAT: 저소득층 비율) 추가
x_add = x_org[:, feature_names == "lstat"]
x2 = np.hstack((x, x_add))
print(x2.shape)

In [None]:
# 입력 데이터 x 표시(더미 데이터 포함)
print(x2[:5, :])

In [None]:
# 초기화 처리
# 원래의 반복 계산 로직과 동일하지만 x를 x2로 변경한다.
# 학습률을 0.01로 설정하면, 학습률이 너무 커서 오버플로우 에러 발생 0.001로 변경

# 데이터 전체 건수
M = x2.shape[0]
D = x2.shape[1]

# 반복 횟수
iters = 50000

# 학습률
alpha = 0.001

# 가중치 벡터의 초기값(모든 값을 1로 한다.)
w = np.ones(D)

# 평가 결과 기록(손실함수값만 기록)
history = np.zeros((0, 2))

# 반복 루프
for k in range(iters):

    # 예측값 계산(7.8.1)
    yp = pred(x2, w)

    # 오차 계산(7.8.2)
    yd = yp - yt

    # 경사하강법 적용(7.8.4)
    w = w - alpha*(x2.T @ yd) / M

    # 학습 곡선 그리기용 데이터의 계산과 저장
    if(k % 100 == 0):

        # 손실함수값의 계산(7.6.1)
        loss = np.mean(yd ** 2) / 2

        # 계산 결과의 기록
        history = np.vstack((history, np.array([k, loss])))

        # 화면 표시
        print("iter = %d loss = %f" %(k, loss))


In [None]:
# 최종 손실함수 초기값과 최종값
print("손실함수 초기값 : %f" %history[0, 1])
print("손실함수 최종값 : %f" % history[-1, 1])

In [None]:
# 학습 곡선의 표시(처음 10개분 제외)
plt.plot(history[:, 0], history[:, 1])
plt.show()