# Linear Regression (Ordinary Least Squares)

## 1. Linear Regression on Boston Housing Price Data

- 본 노트북 코드에서는 scikit-learn 오픈소스 라이브러리에서 제공하는 "보스턴 주택 가격" 데이터를 이용하여 선형 회귀 모델을 만들어보고자 합니다.
- 데이터를 불러오는데에는 sklearn.datasets 모듈, 데이터를 살펴보는 것은 pandas, 회귀(regression) 모델을 훈련하고 평가 및 예측에는 scikit-learn 패키지를 사용하겠습니다.

### (1) Prepare the dataset
- "보스턴 주택 가격" 데이터는 회귀분석 예제로 흔히 사용되는 데이터로 UCI 데이터베이스에서 제공하고 있습니다.  
- 해당 데이터는 딕셔너리(dictionary) 형태로 제공되고 있으며, pandas를 이용하여 데이터를 아래와 같이 데이터프레임(DataFrame) 형태로 저장할 수 있습니다.

In [2]:
import pandas as pd
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/housing/housing.data"
col_names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
housing_df = pd.read_csv(url, delim_whitespace=True, names=col_names)

In [3]:
housing_df

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296.0,15.3,396.90,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.90,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.90,5.33,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273.0,21.0,396.90,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.90,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,22.0


In [4]:
# X와 y 나누기
X = housing_df.drop(columns=['MEDV'])  # 독립 변수들
y = housing_df['MEDV']  # 종속 변수 (목표 값)

In [5]:
# 데이터의 크기 확인
print(X.shape, y.shape)

(506, 13) (506,)


### (2) Split the data into training and test sets
- 선형 회귀 모델 훈련을 위해, 훈련에 사용하는 training data 와 모델 평가 및 예측에 사용하는 test data 로 나누겠습니다.
- scikit-learn 의 train_test_split 함수를 이용하여 일정한 비율로 데이터를 나눌 수 있습니다.

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

### (3) Define and Train a linear regression model
- 위를 통해 데이터 준비가 끝났으니, 선형 회귀 모델을 가져와 훈련하도록 합니다.
- 우선, scikit-learn 에서 LinearRegression 이란 이름의 선형 회귀 모델을 가져와 reg 라는 이름으로 정의하겠습니다.
- 훈련용 데이터를 이용하여 선형 회귀 모델을 훈련(fit)합니다.

In [7]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)

- 위를 통해 훈련이 완료되었습니다!
- 이제, 아래와 같이 훈련을 통해 계산된 계수(coefficient)들과 상수항(intercept)를 확인할 수 있습니다.

In [8]:
print("the resulting coeffients of the linear regression (w1): \n", reg.coef_)
print("the resulting intercept of the linear regression (w0):", reg.intercept_)

the resulting coeffients of the linear regression (w1): 
 [-1.28322638e-01  2.95517751e-02  4.88590934e-02  2.77350326e+00
 -1.62388292e+01  4.36875476e+00 -9.24808158e-03 -1.40086668e+00
  2.57761243e-01 -9.95694820e-03 -9.23122944e-01  1.31854199e-02
 -5.17639519e-01]
the resulting intercept of the linear regression (w0): 29.836420163839335


### (4) Test and Evaluate the model
- 훈련된 모델을 이용하여 새로운 보스턴 주택 데이터가 주어졌을 때, 해당 데이터에 대한 주택 가격을 예측할 수 있습니다.
- 테스트 데이터에 대한 실제 y 값이 존재하므로, 실제값 y 와 predict 함수를 통해 예측된 값 y_hat 을 비교하여 모델을 평가할 수 있습니다.
- 이제, 훈련된 모델을 평가하기 위해 mean squared error ($=\sum_i (y_i-\hat{y}_i)^2/n$) 와 그것의 제곱근값, mean absolute error ($=\sum_i |y_i-\hat{y}_i|/n$), 그리고 $R^2$ 값을 구해봅시다.

In [10]:
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

y_train_hat = reg.predict(X_train)
y_test_hat = reg.predict(X_test)

print('train RMSE : %.4f' % mean_squared_error(y_train, y_train_hat)**0.5)
print('train MAE : %.4f' % mean_absolute_error(y_train, y_train_hat))
print('train R-square : %.4f' % r2_score(y_train, y_train_hat))

print('test RMSE : %.4f' % mean_squared_error(y_test, y_test_hat)**0.5)
print('test MAE : %.4f' % mean_absolute_error(y_test, y_test_hat))
print('test R-square : %.4f' % r2_score(y_test, y_test_hat))

train RMSE : 4.7265
train MAE : 3.3663
train R-square : 0.7481
test RMSE : 4.7009
test MAE : 3.0609
test R-square : 0.6844


- MAE 가 3.1, RMSE 가 4.7 라는 것은, 평균적으로 약 3.1 정도의 오차를 가지고 예측을 수행하며, 예측 값과 실제 값 사이에는 약 4.7 정도의 평균적인 차이가 있다는 것을 의미합니다.
- $R^2$ 는 1에 가까울 수록 좋으며, 0.7 이상이면 예측이 어느 정도 된다고 해석합니다.
- 결과를 통해 훈련된 모델이 아주 정확하지는 않지만 적당히 예측력이 있다는 것을 알 수 있습니다.

## 2. Check the coefficients 
- 모델의 coef_ 와 intercept_ 값이 실제로 $(X^TX)^{-1}X^Ty$ 식에 의해 도출된 값과 일치하는 지 확인해보도록 하겠습니다.

In [11]:
import numpy as np

In [12]:
# intercept 를 포함한 coefficient matrix 를 구성한다.
X_new = np.ones((X_train.shape[0],X_train.shape[1]+1))
X_new[:,1:] = X_train
print(X_new.shape)

(379, 14)


In [13]:
inv = np.linalg.inv(np.dot(X_new.transpose(), X_new))
coeff = inv.dot(X_new.transpose()).dot(y_train)
print("coefficients (w1,w2,...) are : \n", coeff[1:])
print("intercept (w0) is : ", coeff[0])

coefficients (w1,w2,...) are : 
 [-1.28322638e-01  2.95517751e-02  4.88590934e-02  2.77350326e+00
 -1.62388292e+01  4.36875476e+00 -9.24808158e-03 -1.40086668e+00
  2.57761243e-01 -9.95694820e-03 -9.23122944e-01  1.31854199e-02
 -5.17639519e-01]
intercept (w0) is :  29.836420163835808


- 위의 reg.coef_ 와 reg.intercept_ 에 의해 도출된 값과 동일하다는 것을 확인할 수 있습니다.