# 12. 선형 회귀모델

## 12.1 핵심 개념

**선형회귀모델(Linear regression model)은 연속형 독립변수가 연속형 종속변수에 끼치는 영향을 분석하는 목적으로 활용** 됩니다. 회귀모델은 실제값과 예측값 간에 얼마나 일치하는가, 또는 얼마나 차이가 나는가를 계산하여 모델의 성능지표로 삼습니다. 만약 모든 데이터가 하나의 직선상에 위치한다면 실제값과 예측값이 100%로 일치하는 것입니다. 이때 설명력이라고 하는 R Square 는 100%(1) 이며, 대표적인 오차값인 RMSE 는 0이 됩니다.

# 12.2 scikit-learn

선형회귀모델은 sklearn.linear_model 패키지에 속해 있습니다.

|Linear Regressor||
|:--|:--|
|linear_model.LinearRegression() |Ordinary least squares Linear Regression. |
|linear_model.Ridge() |Linear least squares with I2 regularization. |
|linear_model.RidgeCV() |Ridge regression with build-in cross-validation. |
|linear_model.SGDRegressor() |Linear model fitted by minimizing a regularized empiricalloss with SGD|

**선형회귀모델에는 특별한 하이퍼 파라미터가 존재하지 않는다.** normalize 는 특성치(독립변수)의 정규화 정도 인데. 보통 정규화한 데이터를 모델을 투입 하기 때문에 기본값인 False 를 대입합니다. 또 intercept 는 X가 0일때 Y의 기본값인 상수를 모델에 반영할지에 대한 여부입니다. 그러나 모델에서 상수는 대부분 필수 입니다.때문에 이 값 역시 기본값을 그대로 적용해도 됩니다.

## 12.3 분석코드

**statsmodel 적용**

바로 머신러닝의 LinearRegression() 을 사용해도 되지만 좀더 회귀분석의 각종 통계지표에 대해 알아보기 위해 파이썬의 통계분석 모듈인 statsmodel 을 사용하여 보겠습니다.

In [10]:
# 데이터 로드
data2 = pd.read_csv('./extrafiles/house_price.csv', encoding='utf-8')

print(data2.columns)

X = data2[data2.columns[1:5]]
y = data2[['house_value']]

print(X.columns)

# train-test data 분리
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# stratify 효과 - 범주형 변수를 유사한 비율로 train / test 데이터로 분리시켜 준다.
print(y_train.mean())
print(y_test.mean())

# 표준화 작업 - MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(X_train)

X_scaled_train = scaler.transform(X_train)
X_scaled_test = scaler.transform(X_test)

Index(['housing_age', 'income', 'bedrooms', 'households', 'rooms',
       'house_value'],
      dtype='object')
Index(['income', 'bedrooms', 'households', 'rooms'], dtype='object')
house_value    189260.967812
dtype: float64
house_value    188391.001357
dtype: float64


In [11]:
# statsmodel 사용
import statsmodels.api as sm
x_train_new = sm.add_constant(X_train)
x_test_new = sm.add_constant(X_test)
x_train_new.head()

Unnamed: 0,const,income,bedrooms,households,rooms
17235,1.0,2.0577,0.185449,3.945455,6.372727
14220,1.0,4.0,0.171566,2.741497,6.363946
3280,1.0,5.8904,0.154485,2.969325,6.65184
15279,1.0,0.9393,0.24146,3.257256,4.51847
14727,1.0,2.7143,0.194977,2.679287,6.385301


In [12]:
# 훈련데이터의 집계 OLS (Ordinary Least Sqaures Regression) : 일반적인 선형 회귀분석의 추정계수를 산출하는 기술
multi_model = sm.OLS(y_train, x_train_new).fit()
print(multi_model.summary())

                            OLS Regression Results                            
Dep. Variable:            house_value   R-squared:                       0.546
Model:                            OLS   Adj. R-squared:                  0.545
Method:                 Least Squares   F-statistic:                     3980.
Date:                Mon, 15 Nov 2021   Prob (F-statistic):               0.00
Time:                        09:22:58   Log-Likelihood:            -1.6570e+05
No. Observations:               13266   AIC:                         3.314e+05
Df Residuals:                   13261   BIC:                         3.315e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -2.849e+04   8884.093     -3.206      0.0

In [13]:
# 테스트 데이터의 OLS 결과 산출
multi_model2 = sm.OLS(y_test, x_test_new).fit()
print(multi_model2.summary())

                            OLS Regression Results                            
Dep. Variable:            house_value   R-squared:                       0.563
Model:                            OLS   Adj. R-squared:                  0.562
Method:                 Least Squares   F-statistic:                     1421.
Date:                Mon, 15 Nov 2021   Prob (F-statistic):               0.00
Time:                        09:22:58   Log-Likelihood:                -55169.
No. Observations:                4423   AIC:                         1.103e+05
Df Residuals:                    4418   BIC:                         1.104e+05
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const      -2.196e+04   1.48e+04     -1.483      0.1

**scikit-learn 적용**

In [14]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_scaled_train, y_train)
pred_train=model.predict(X_scaled_train)
model.score(X_scaled_train, y_train)

0.5455724996358273

In [15]:
# 테스트 데이터 모델 적용
pred_test = model.predict(X_scaled_test)
model.score(X_scaled_test, y_test)

0.5626843883587158

**RMSE(Root Mean Squared Error)**

In [16]:
# 회귀분석의 지표 R Square n RMSE
# RMSE (Root Mean Squared Error)
from sklearn.metrics import mean_squared_error
import numpy as np
MSE_train = mean_squared_error(y_train, pred_train)
MSE_test = mean_squared_error(y_test, pred_test)
print("훈  련데이터 RMSE:", np.sqrt(MSE_train))
print("테스트데이터 RMSE:", np.sqrt(MSE_test))

훈  련데이터 RMSE: 64340.33927728243
테스트데이터 RMSE: 63220.79672157403


**MAE(Mean Absolute Error)** : 절대평균오차, 실제값과 예측값의 차이에 절대값을 씌워 평균을 낸 값.

In [17]:
# 기타 선형 모델평가지표 : MAE(Mean Absolute Error)
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, pred_test)

47230.87470163737

**MSE(Mean Squared Error)** : 평균제곱오차, 실제값과 예측값의 차이. 즉 오차에 제곱을 적용한 평균 값. 기본적으로 제곱 값이기 때문에 값 자체가 지나치게 크게 나온다. 때문에 이 값에 루트를 씌운 RMSE 를 사용하게 됩니다.

In [18]:
# 기타 선형 모델평가지표 : MSE(Mean Squared Error)
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, pred_test)

3996869138.1105857

**MAPE(Mean Absolute Percentage Error)** : 평균절대오차비율, 실제값 대비 오차값의 정도를 백분률로 나타낸 지표. 일반적으로 시계열 데이터에서 주로 사용.

In [22]:
# MAPE 함수 작성
def MAPE(y_test, y_pred):
    return np.mean(np.abs((y_test - y_pred) / y_test)) * 100
MAPE(y_test, pred_test)

house_value    30.571439
dtype: float64

**MAE(Mean Absolute Error)** : 평균오차비율, 0을 기준으로 실제값보다 예측값이 큰지 작은지를 알수 있는 지표.

In [23]:
# MAE 함수 작성
def MAE(y_test, y_pred):
    return np.mean((y_test - y_pred) / y_test) * 100
MAE(y_test, pred_test)

house_value   -12.37266
dtype: float64