R-style formula 연산자¶
모형정의 연산자 formula에 복수의 데이터를 지정하는 경우에는 다음과 같은 연산자를 포함해야 한다.

기호	설명
+	설명 변수 추가
-	설명 변수 제거
1, 0	intercept. (제거시 사용)
:	interaction (곱)
*	a*b = a + b + a:b
/	a/b = a + a:b
~	종속 - 독립 관계

In [16]:
import statsmodels.api as sm
import pandas as pd
from patsy import *
import numpy as np

# 1. patsy 패키지

회귀분석을 하기 위한 전처리 패키지

In [6]:
df = pd.DataFrame(demo_data("x1", "x2", "y"))
df

Unnamed: 0,x1,x2,y
0,1.764052,-0.977278,0.144044
1,0.400157,0.950088,1.454274
2,0.978738,-0.151357,0.761038
3,2.240893,-0.103219,0.121675
4,1.867558,0.410599,0.443863


patsy 패키지의 dmatrix라는 명령을 사용하면 실험 설계 행렬(experiment design matrix)을 간단히 만들수 있다. dmatrix에 다음과 같이 모형 정의 문자열 formula와 원데이터 data을 입력하면 formula에서 지정한 대로 변환된 데이터 data_transformed를 출력한다.

In [7]:
dmatrix("x1", df)

DesignMatrix with shape (5, 2)
  Intercept       x1
          1  1.76405
          1  0.40016
          1  0.97874
          1  2.24089
          1  1.86756
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)

모형정의 연산자 formula에 복수의 데이터를 지정하는 경우에는 다음과 같은 연산자를 포함해야 한다.

~~~
기호	설명
+	설명 변수 추가
-	설명 변수 제거
1, 0	intercept. (제거시 사용)
:	interaction (곱)
*	a*b = a + b + a:b
/	a/b = a + a:b
~	종속 - 독립 관계
~~~

상수항을 제외하고자 하는 경우에는 - 1 또는 + 0을 써주어야 한다.

In [9]:
dmatrix("x1 - 1", df)

DesignMatrix with shape (5, 1)
       x1
  1.76405
  0.40016
  0.97874
  2.24089
  1.86756
  Terms:
    'x1' (column 0)

In [10]:
dmatrix("x1 + 0", df)

DesignMatrix with shape (5, 1)
       x1
  1.76405
  0.40016
  0.97874
  2.24089
  1.86756
  Terms:
    'x1' (column 0)

두 개 이상의 데이터를 포함하는 경우에는 + 연산자를 사용한다.

In [11]:
dmatrix("x1 + x2", df)

DesignMatrix with shape (5, 3)
  Intercept       x1        x2
          1  1.76405  -0.97728
          1  0.40016   0.95009
          1  0.97874  -0.15136
          1  2.24089  -0.10322
          1  1.86756   0.41060
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'x2' (column 2)

In [12]:
dmatrix("x1 + x2 - 1", df)

DesignMatrix with shape (5, 2)
       x1        x2
  1.76405  -0.97728
  0.40016   0.95009
  0.97874  -0.15136
  2.24089  -0.10322
  1.86756   0.41060
  Terms:
    'x1' (column 0)
    'x2' (column 1)

두 변수의 곱을 새로운 변수로 추가하려면 : 연산자를 사용한다.

In [13]:
dmatrix("x1 + x2 + x1:x2 - 1", df)

DesignMatrix with shape (5, 3)
       x1        x2     x1:x2
  1.76405  -0.97728  -1.72397
  0.40016   0.95009   0.38018
  0.97874  -0.15136  -0.14814
  2.24089  -0.10322  -0.23130
  1.86756   0.41060   0.76682
  Terms:
    'x1' (column 0)
    'x2' (column 1)
    'x1:x2' (column 2)

\* 연산자


In [14]:
dmatrix("x1 * x2 - 1", df)

DesignMatrix with shape (5, 3)
       x1        x2     x1:x2
  1.76405  -0.97728  -1.72397
  0.40016   0.95009   0.38018
  0.97874  -0.15136  -0.14814
  2.24089  -0.10322  -0.23130
  1.86756   0.41060   0.76682
  Terms:
    'x1' (column 0)
    'x2' (column 1)
    'x1:x2' (column 2)

log 사용

In [17]:
dmatrix("x1 + np.log(np.abs(x2))", df)

DesignMatrix with shape (5, 3)
  Intercept       x1  np.log(np.abs(x2))
          1  1.76405            -0.02298
          1  0.40016            -0.05120
          1  0.97874            -1.88811
          1  2.24089            -2.27090
          1  1.86756            -0.89014
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'np.log(np.abs(x2))' (column 2)

사용자 정의 함수 사용

In [18]:
def doubleit(x):
    return 2 * x

dmatrix("doubleit(x1)", df)

DesignMatrix with shape (5, 2)
  Intercept  doubleit(x1)
          1       3.52810
          1       0.80031
          1       1.95748
          1       4.48179
          1       3.73512
  Terms:
    'Intercept' (column 0)
    'doubleit(x1)' (column 1)

patsy의 가장 강력한 기능 중의 하나는 상태 보존 변환(stateful trasform)이 가능하다는 점이다. 예를 들어 다음 변환 함수는 평균을 계산하여 빼주거나 및 표준편차를 계산하여 나누어주는데 이 때 계산한 평균과 표준편차를 내부에 상태변수로 저장한다.

- center(x): 평균 제거
- standardize(x): 평균 제거 및 표준편차로 스케일링
- scale(x): standardize(x) 과 같음

In [19]:
dm = dmatrix("center(x1) + 0", df)
dm

DesignMatrix with shape (5, 1)
  center(x1)
     0.31377
    -1.05012
    -0.47154
     0.79061
     0.41728
  Terms:
    'center(x1)' (column 0)

In [20]:
# 위와 같다
df.x1 - np.mean(df.x1)

0    0.313773
1   -1.050123
2   -0.471542
3    0.790613
4    0.417278
Name: x1, dtype: float64

변수 보호

함수를 사용한 변수 변환 이외에도 모형 정의 문자열 자체내에 연산기호를 넣어 연산한 값을 만드는 것도 가능하다. 이 때에는 모형정의 연산자와 혼동되지 않도록 I() 연산자를 추가해야 한다.

In [21]:
dmatrix("I(x1 + x2)", df)

DesignMatrix with shape (5, 2)
  Intercept  I(x1 + x2)
          1     0.78677
          1     1.35025
          1     0.82738
          1     2.13767
          1     2.27816
  Terms:
    'Intercept' (column 0)
    'I(x1 + x2)' (column 1)

In [22]:
# I() 를 쓰지 않은 결과
dmatrix("x1 + x2", df)

DesignMatrix with shape (5, 3)
  Intercept       x1        x2
          1  1.76405  -0.97728
          1  0.40016   0.95009
          1  0.97874  -0.15136
          1  2.24089  -0.10322
          1  1.86756   0.41060
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'x2' (column 2)

다항 선형회귀

I() 연산자를 활용하면 다항 선형회귀(polynomial regression)도 할 수 있다.

In [25]:
dmatrix("x1 + I(x1**2) + I(x1**3) + I(x1**4)", df)

DesignMatrix with shape (5, 5)
  Intercept       x1  I(x1 ** 2)  I(x1 ** 3)  I(x1 ** 4)
          1  1.76405     3.11188     5.48952     9.68380
          1  0.40016     0.16013     0.06408     0.02564
          1  0.97874     0.95793     0.93756     0.91763
          1  2.24089     5.02160    11.25287    25.21649
          1  1.86756     3.48777     6.51362    12.16456
  Terms:
    'Intercept' (column 0)
    'x1' (column 1)
    'I(x1 ** 2)' (column 2)
    'I(x1 ** 3)' (column 3)
    'I(x1 ** 4)' (column 4)

좀더 고차원의 다항 선형 회귀를 하려면 Poly 명령과 balanced 명령을 사용하여 다항회귀 차수를 지정할 수 있다. dmatrix 명령의 return_type="dataframe" 인수는 결과를 NumPy 배열이 아닌 판다스 데이터프레임으로 출력하라는 뜻이다.

In [26]:
dmatrix("C(x1, Poly)", balanced(x1=10), return_type="dataframe")

Unnamed: 0,Intercept,"C(x1, Poly).Linear","C(x1, Poly).Quadratic","C(x1, Poly).Cubic","C(x1, Poly)^4","C(x1, Poly)^5","C(x1, Poly)^6","C(x1, Poly)^7","C(x1, Poly)^8","C(x1, Poly)^9"
0,1.0,-0.495434,0.522233,-0.453425,0.336581,-0.214834,0.116775,-0.052694,0.018699,-0.004535
1,1.0,-0.275241,-0.087039,0.377854,-0.317882,-0.035806,0.389249,-0.503518,0.373979,-0.163266
2,1.0,-0.165145,-0.261116,0.334671,0.056097,-0.393863,0.23355,0.245904,-0.52357,0.380953
3,1.0,-0.055048,-0.348155,0.12955,0.336581,-0.214834,-0.3114,0.327872,0.261785,-0.57143
4,1.0,0.055048,-0.348155,-0.12955,0.336581,0.214834,-0.3114,-0.327872,0.261785,0.57143
5,1.0,0.165145,-0.261116,-0.334671,0.056097,0.393863,0.23355,-0.245904,-0.52357,-0.380953
6,1.0,0.275241,-0.087039,-0.377854,-0.317882,0.035806,0.389249,0.503518,0.373979,0.163266
7,1.0,0.385337,0.174078,-0.151142,-0.411377,-0.50128,-0.428174,-0.275179,-0.130893,-0.040816
8,1.0,0.495434,0.522233,0.453425,0.336581,0.214834,0.116775,0.052694,0.018699,0.004535
9,1.0,-0.385337,0.174078,0.151142,-0.411377,0.50128,-0.428174,0.275179,-0.130893,0.040816


# 2. OLS.from_formula 메서드

In [27]:
# 데이터 생성
np.random.seed(0)
x1 = np.random.rand(20) + 10
x2 = np.random.rand(20) * 10
y = x1 + 2 * x2 + np.random.randn(20)
df4 = pd.DataFrame(np.array([x1, x2, y]).T, columns=["x1", "x2", "y"])

In [28]:
# 모형 정의 문자열을 사용하는 경우
model2 = sm.OLS.from_formula("y ~ x1 + x2", data=df4)

In [29]:
print(model2.fit().summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.967
Model:                            OLS   Adj. R-squared:                  0.963
Method:                 Least Squares   F-statistic:                     246.8
Date:                Sat, 25 May 2019   Prob (F-statistic):           2.75e-13
Time:                        17:07:27   Log-Likelihood:                -29.000
No. Observations:                  20   AIC:                             64.00
Df Residuals:                      17   BIC:                             66.99
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      1.4226     10.140      0.140      0.8