<br><br>
## Linear Regression Model의 경우, scikit-learn 을 사용하면 여러가지 제약(통계치 산출, subset 선택 등)이 따른다.

<br>
# Statsmodels의 Linear Regression Model 사용하기

<br>

1 단계 **train, test 분리**  
2 단계 **모델 import** : import statsmodels.formula.api as smf  
3 단계 **모델 instantiate** : 클래스 생성자를 이용해 모델을 만듬. 이 때 argument로 regression formula 포함  
4 단계 **학습 시킴** : instantiate된 모델 객체에게 fit() 명령을 내려 학습/훈련시키고, 학습된 모델을 반환 받음  
5 단계 **학습된 모델 활용** : 학습된 모델을 이용해 새로운 입력에 대해 예측을 하던가 등, 적절한 일거리를 줌  
<br><br>

In [None]:
# inserted cell
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split

import statsmodels.formula.api as smf     # R의 formula 식 유사하게 쓰임
from statsmodels.tools.eval_measures import rmse

%matplotlib inline

In [None]:
# 1 단계: 필요한 features 들만으로 데이터프레임을 만들어 train, test 분리

data = pd.read_csv('data/Boston.csv')
data2=data[['rm','age','lstat','medv']]
train, test = train_test_split(data2, train_size=0.75, random_state=1)

In [None]:
train.head()

In [None]:
print(train.shape)

In [None]:
test.head()

In [None]:
print(test.shape)

In [None]:
# 2 단계: 모델 import 

# 이미 첫번째 코드 셀에서 실행했음
#import statsmodels.formula.api as smf     # R의 formula 식 유사하게 쓰임


In [None]:
# 3 단계: Model Instantiation: Ordinary Least Squares (ols) 방식 linear regression 모델 만들기
#    - 입력 데이터는 DataFrame 타입 

lm = smf.ols(formula='medv ~ rm + age + lstat', data=data2)   

# 'data2' DataFrame에서 'medv' column을 response로, 'rm' , 'age', 'lstat' columns을 feature로 하는
#  multiple linear regression 모델을 정의함 


In [None]:
# 4 단계: 모델에게 학습 시키고, 그 결과인 (학습된) 모델을 'lm_fit'으로 받음 
lm_fit = lm.fit()

# 학습된 모델의 통계량
print(lm_fit.summary())

# lm_learned.pvalues            # p values
# lm_learned.rsquared           # R-squared statistic 

In [None]:
# p_value
print(lm_fit.pvalues)

# R-squared statistic 
print(lm_fit.rsquared)           

In [None]:
# prediction for test data
X_test=test[['rm','age','lstat']]
y_test=test['medv']
y_pred=lm_fit.predict(X_test)

In [None]:
rmse( y_test, y_pred )

##  Interaction Terms

In [None]:
# 3 단계: Model Instantiation: Ordinary Least Squares (ols) 방식 linear regression 모델 만들기
#    - 입력 데이터는 DataFrame 타입 

lm = smf.ols(formula='medv ~ rm + age * lstat', data=data2)   

# 'data2' DataFrame에서 'medv' column을 response로, 'rm' , 'age', 'lstat' columns을 feature로 하는
#  multiple linear regression 모델을 정의함 


In [None]:
# 4 단계: 모델에게 학습 시키고, 그 결과인 (학습된) 모델을 'lm_fit'으로 받음 
lm_fit = lm.fit()

# 학습된 모델의 통계량
print(lm_fit.summary())

# lm_learned.pvalues            # p values
# lm_learned.rsquared           # R-squared statistic 

In [None]:
# p_value
print(lm_fit.pvalues)

# R-squared statistic 
print(lm_fit.rsquared)           

In [None]:
# prediction for test data
X_test=test[['rm','age','lstat']]
y_test=test['medv']
y_pred=lm_fit.predict(X_test)

In [None]:
rmse( y_test, y_pred )