In [1]:
%load_ext tikzmagic
%matplotlib inline

# 예측과 교차검증

회귀분석의 첫번째 목적은 종속변수와 독립변수간의 관계, 즉 가중치를 알아내는 것이다. 회귀분석의 두번째 목적은 이 가중치를 사용하여 새로운 독립변수 값에 대한 종속변수를 예측하는 것이다. 이 절에서는 새로운 종속변수를 예측하는 방법에 대해 알아본다.

## 예측

예제 회귀분석모형으로 보스턴 집값 데이터를 lstat 독립변수로 예측하는 간단한 모형을 사용하여 설명한다.

In [2]:
import statsmodels.api as sm

boston = sm.datasets.get_rdataset("Boston", "MASS").data

formula = "medv ~ scale(lstat)"
model = sm.OLS.from_formula(formula, boston)
result = model.fit()

선형회귀분석 결과 객체는 종속변수를 예측하는 `get_prediction` 메서드를 제공한다. `get_prediction` 메서드의 입력값으로는 독립변수 값이 있는 pands 데이터프레임을 넣어야 한다. lstat의 값이 각각 5, 6, 7인 경우의 집값을 예측해보자.

In [3]:
import pandas as pd

X_new = pd.DataFrame({"lstat": [5, 6, 7]})
X_new

Unnamed: 0,lstat
0,5
1,6
2,7


이 독립변수 데이터를 넣어서 `get_prediction` 메서드를 호출하면 예측 객체가 나온다. 예측 객체는 `PredictionResults` 클래스 객체다.

In [4]:
pred_result = result.get_prediction(X_new)
pred_result

<statsmodels.regression._prediction.PredictionResults at 0x203ee22d970>

이 예측 객체의 `summary_frame` 메서드를 호출하면 예측 결과를 데이터프레임으로 출력한다.

In [5]:
df_pred = pred_result.summary_frame()
df_pred

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,29.803594,0.405247,29.007412,30.599776,17.565675,42.041513
1,28.853545,0.377839,28.111211,29.595878,16.619011,41.088079
2,27.903495,0.352562,27.210824,28.596167,15.671874,40.135117


예측 결과에서 `mean` 열이 예측된 종속변수 값이다. 

이와 같이 선형회귀분석에 사용되지 않은 새로운 독립변수 값을 넣어서 종속변수를 예측하는 것을 <b>표본 외 예측(out-of-sample prediction)</b>이라고 한다. 이와 다르게 이미 선형회귀분석에 사용되었던 데이터를 다시 모형에 넣어서 종속변수를 예측하는 것은 <b>표본 내 예측(in-sample prediction)</b>이라고 한다. 

다음은 표본 내 예측을 하는 코드다.

In [6]:
pred_result_insample = result.get_prediction(boston)
df_pred_insample = pred_result_insample.summary_frame()
df_pred_insample

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper
0,29.822595,0.405814,29.025299,30.619891,17.584603,42.060587
1,25.870390,0.308011,25.265246,26.475534,13.643413,38.097367
2,30.725142,0.433488,29.873477,31.576807,18.483488,42.966796
3,31.760696,0.466794,30.843594,32.677798,19.514315,44.007076
4,29.490078,0.395994,28.712077,30.268079,17.253328,41.726828
...,...,...,...,...,...,...
501,25.366864,0.299509,24.778424,25.955303,13.140702,37.593025
502,25.927393,0.309045,25.320218,26.534568,13.700315,38.154470
503,29.195563,0.387483,28.434281,29.956844,16.959864,41.431261
504,28.397521,0.365412,27.679603,29.115439,16.164444,40.630598


사실 표본 내 예측값은 분석결과 객체 내부에 `fittedvalues` 속성으로 이미 계산되어 있으므로 이렇게 계산할 필요는 없다.

In [7]:
result.fittedvalues

0      29.822595
1      25.870390
2      30.725142
3      31.760696
4      29.490078
         ...    
501    25.366864
502    25.927393
503    29.195563
504    28.397521
505    27.067452
Length: 506, dtype: float64