# 선형회귀모델들

선형회귀모델은 연속형 원인 변수가 연속형 결과변수에 영향을 미치는 영향을 분석하여 예측하는 모형이다.   
회귀모델은 실제값과 예측값 간에 얼마나 일차하고 얼마나 차이나는지를 계산 하여 모델의 성능 지표로 삼는다.  
가령 예측 모델의 예측값이 실제값과 모두 일치한다면 이때 설명력 R-Square 는 1이 되고 오차율 RMSE 는 0이 된다.  
RMSE 는 선형 회귀모델에 대표적인 오차 지표이다. 이는 실제 레이블(y)의 단위값과 동일한 스케일상에 오차값을 제공하므로 해석이 용이하다.

LinearRegression 에 특별한 하이퍼 파라미터는 존재하지 않는다.

In [54]:
# 패키지 로드
%reset
import warnings
warnings.filterwarnings("ignore")
import pandas as pd
import numpy as np

Once deleted, variables cannot be recovered. Proceed (y/[n])? ㅛ
Once deleted, variables cannot be recovered. Proceed (y/[n])? y


In [55]:
# 데이터 로드
df = pd.read_csv('./extrafiles/house_price.csv')
df

Unnamed: 0,housing_age,income,bedrooms,households,rooms,house_value
0,23,6.7770,0.141112,2.442244,8.103960,500000
1,49,6.0199,0.160984,2.726688,5.752412,500000
2,35,5.1155,0.249061,1.902676,3.888078,500000
3,32,4.7109,0.231383,1.913669,4.508393,500000
4,21,4.5625,0.255583,3.092664,4.667954,500000
...,...,...,...,...,...,...
17684,34,2.3013,0.214583,2.748299,4.897959,26600
17685,33,2.6750,0.246622,3.428571,4.698413,22500
17686,39,2.3667,0.340771,1.876812,3.572464,17500
17687,19,2.1000,0.386107,2.987805,3.774390,14999


In [56]:
# train_test_split
X = df[['housing_age', 'income', 'bedrooms', 'households', 'rooms']]
y = df[['house_value']]

# 통계적 회귀 분석에서는 일반적으로 X데이터의 정규화를 하지 않는다.
from sklearn.preprocessing import MinMaxScaler
X_scaled = MinMaxScaler().fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, index=X.index, columns=X.columns)

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, random_state=333)

In [57]:
# statsmodel 적용
import statsmodels.api as sm
X_train_new = sm.add_constant(X_train)
X_test_new = sm.add_constant(X_test)

# constant 를 왜 추가하지? - 상수를 추정하는 역할
X_train_new

Unnamed: 0,const,housing_age,income,bedrooms,households,rooms
17352,1.0,0.70,0.100111,0.320607,0.517788,0.226834
11245,1.0,0.70,0.168899,0.383344,0.568574,0.226508
12082,1.0,0.68,0.160915,0.445965,0.549196,0.212172
12610,1.0,0.06,0.399996,0.486461,0.147207,0.184659
6537,1.0,0.68,0.417315,0.232920,0.339392,0.382306
...,...,...,...,...,...,...
8477,1.0,0.64,0.293357,0.381848,0.380852,0.242464
3516,1.0,0.56,0.512928,0.126077,0.239040,0.448053
5494,1.0,0.42,0.415795,0.235097,0.356286,0.361613
973,1.0,0.62,0.648879,0.150782,0.292099,0.473356


In [58]:
# 모델 적용
multi_model = sm.OLS(y_train, X_train_new).fit()
print("SM Summary : >> ", multi_model.summary())

# R-square : 설명력. 예측값과 실제값이 일치하는 정도. 회귀직선에 근접해있는 정도를 100으로 산출한 지수.
# coef : 각 X 값이 1증가할때 마다 y가 변화하는 정도. 즉 기울기
# p<|t| :significant 통계적으로 유의미한지를 검증한 결과. 0.05 보다 작으면 유의한 영향을 미치는 변수로 본다.

SM Summary : >>                              OLS Regression Results                            
Dep. Variable:            house_value   R-squared:                       0.578
Model:                            OLS   Adj. R-squared:                  0.578
Method:                 Least Squares   F-statistic:                     3629.
Date:                Sun, 28 Nov 2021   Prob (F-statistic):               0.00
Time:                        15:25:53   Log-Likelihood:            -1.6528e+05
No. Observations:               13266   AIC:                         3.306e+05
Df Residuals:                   13260   BIC:                         3.306e+05
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const        -4.15e+04   5970.048

In [59]:
# rooms 의 상관계수가 낮다는걸 확인할 수 있다.
# t 값은 우리가 구하려고 하는 모델(주택가격과의 상관관계가 있다) 라는 가설을 얼마만큼 뒷받침 해주는가에 대한 지표이다. - income이 상당히 높다.

# 사이킷런의 선형회귀분석 적용


In [60]:
from sklearn.linear_model import LinearRegression
model = LinearRegression().fit(X_train, y_train)
print(model.score(X_train, y_train))

0.5777415442648035


In [61]:
# 설명력이 매우 비슷하다.
# coef 가 떨어지던 rooms 를 제거하고 모델 돌려 보기 - 변화가 없다.
X_drop = X_train.drop('rooms', axis=1)
X_drop
model = LinearRegression().fit(X_drop, y_train)
print(model.score(X_drop, y_train))

0.5777372919087704


In [62]:
# income 를 제거하고 모델 돌려 보기
X_drop = X_train.drop('income', axis=1)
X_drop
model = LinearRegression().fit(X_drop, y_train)
print(model.score(X_drop, y_train))

0.13065349775352375


In [63]:
# housing_age 를 제거하고 모델 돌려 보기
X_drop = X_train.drop('housing_age', axis=1)
X_drop
model = LinearRegression().fit(X_drop, y_train)
print(model.score(X_drop, y_train))

0.5542610306253103


In [64]:
# bedrooms 를 제거하고 모델 돌려 보기
X_drop = X_train.drop('bedrooms', axis=1)
X_drop
model = LinearRegression().fit(X_drop, y_train)
print(model.score(X_drop, y_train))

0.543497882641496


In [65]:
# bedrooms 를 제거하고 모델 돌려 보기
X_drop = X_train.drop('households', axis=1)
X_drop
model = LinearRegression().fit(X_drop, y_train)
print(model.score(X_drop, y_train))

0.535206118221379


In [None]:
# 각 특성 팩터가 증가하는 정도가 y 종속 변수에 끼치는 영향도를 가중치로 계산하여 예측하는 모델 (회귀분석)
# 연속형 변수의 정규화를 진행하였지만, 결과값에는 차이가 없다. 할 필요가 없어서 안한다고 봐야 할듯.