In [1]:
import statsmodels
import statsmodels.api as sm # statsmodels 모델 전체의 Class와 method를 모아둔 package
import statsmodels.formula.api as smf # patsy formula 기반으로 모델 구성을 위한 function 제공 

print(statsmodels.__version__)

0.11.1


**statsmodels에서 용어**

|endog|exog|
|-----|----|
|y|x|
|y variable|x variable|
|left hand side (LHS)|right hand side (RHS)|
|dependent variable|independent variable|
|regressand|regressors|
|outcome|design|
|response|variable|
|explanatory|variable|

* endogenous(endog): caused by factors within the system, 내인(內因)변수

* exogenous(exog): caused by factors outside the system, 외인(外因)변수 

In [2]:
import pandas as pd
import numpy as np

# 선형 회귀 분석 - 연속 변수 

statsmodels을 통해 선형 회귀 분석

## OLS(Ordinary Least Square)


### OLS class

In [3]:
# 데이터셋을 불러 옵니다.
df_bb = pd.read_csv('data/WildBlueberryPollinationSimulationData.csv', index_col='Row#')
df_bb.head()

Unnamed: 0_level_0,clonesize,honeybee,bumbles,andrena,osmia,MaxOfUpperTRange,MinOfUpperTRange,AverageOfUpperTRange,MaxOfLowerTRange,MinOfLowerTRange,AverageOfLowerTRange,RainingDays,AverageRainingDays,fruitset,fruitmass,seeds,yield
Row#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1
0,37.5,0.75,0.25,0.25,0.25,86.0,52.0,71.9,62.0,30.0,50.8,16.0,0.26,0.410652,0.408159,31.678898,3813.165795
1,37.5,0.75,0.25,0.25,0.25,86.0,52.0,71.9,62.0,30.0,50.8,1.0,0.1,0.444254,0.425458,33.449385,4947.605663
2,37.5,0.75,0.25,0.25,0.25,94.6,57.2,79.0,68.2,33.0,55.9,16.0,0.26,0.383787,0.399172,30.546306,3866.798965
3,37.5,0.75,0.25,0.25,0.25,94.6,57.2,79.0,68.2,33.0,55.9,1.0,0.1,0.407564,0.408789,31.562586,4303.94303
4,37.5,0.75,0.25,0.25,0.25,86.0,52.0,71.9,62.0,30.0,50.8,24.0,0.39,0.354413,0.382703,28.873714,3436.493543


 #### sm.OLS를 통한  선형회귀모델 만들기
 
 종속 변수: yield (수확량)
 
 독립 변수: fruitset(개체당 결실량), fruitmass(과일 무게), seeds(씨앗 산출량)
 
 로 하여 최소제곱법으로 선형 회귀 모델을 만듭니다.
 
 다음과 같이 두 가지 경우에 대한 모델에 대하여 만들어 봅니다.
 
 1) 절편(Intercept) 미포함
 
 2) 절편(Intercept) 포함
  
statsmodels.api에서 제공하는 class 또는 함수를 사용한다.

**절편을 포함하지 않을경우**

In [4]:
# sm.OLS는 OLS통해 선현회귀모델을 만들어 준다.
# statsmodels의 OLS는 매개변수를 통하여 절편을 추가하지 않습니다.
# 종속변수만을 전달한다면 절편이 없는 선형모델이 만들어 집니다.
X_cols = ['fruitset', 'fruitmass', 'seeds']

lm = sm.OLS(df_bb['yield'], df_bb[X_cols]).fit()
lm.summary()

0,1,2,3
Dep. Variable:,yield,R-squared (uncentered):,0.999
Model:,OLS,Adj. R-squared (uncentered):,0.999
Method:,Least Squares,F-statistic:,301400.0
Date:,"Tue, 01 Aug 2023",Prob (F-statistic):,0.0
Time:,14:50:15,Log-Likelihood:,-5138.5
No. Observations:,777,AIC:,10280.0
Df Residuals:,774,BIC:,10300.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
fruitset,1.197e+04,334.040,35.843,0.000,1.13e+04,1.26e+04
fruitmass,-2.766e+04,575.872,-48.039,0.000,-2.88e+04,-2.65e+04
seeds,341.5658,10.741,31.801,0.000,320.482,362.650

0,1,2,3
Omnibus:,47.476,Durbin-Watson:,1.343
Prob(Omnibus):,0.0,Jarque-Bera (JB):,91.535
Skew:,0.402,Prob(JB):,1.33e-20
Kurtosis:,4.477,Cond. No.,3510.0


※ 유의 사항: R-squared(uncentered)  - uncentered: SST를 계산할 때 평균을 빼지 않고 제곱만 하여 계산한 값입니다.

In [5]:
# R-square(uncentered)
1 - np.sum(np.square(lm.resid)) / np.sum(np.square(df_bb['yield']))

0.9991448647539289

In [6]:
# R-square
1 - np.sum(np.square(lm.resid)) / np.sum(np.square(df_bb['yield'] - df_bb['yield'].mean()))

0.9823327003340928

In [7]:
from sklearn.metrics import r2_score
r2_score(df_bb['yield'], lm.fittedvalues)

0.9823327003340928

※ statsmodels OLS로 대상 변수의 평균이 0이 아닌 경우를 사용한다면,

r2_score는 일반적으로 알고 있는 경우와 다르게 동작합니다.

**절편을 포함할 경우**

In [8]:
# 모든 값이 1인 입력 변수에 추가면 됩니다. 해당 변수의 계수가 바로 절편이 됩니다.
# 또한 OLS 결과에서도 이를 절편으로 인식하게 됩니다.
lm = sm.OLS(df_bb['yield'], df_bb[X_cols].assign(const=1)).fit()
lm.summary()

0,1,2,3
Dep. Variable:,yield,R-squared:,0.982
Model:,OLS,Adj. R-squared:,0.982
Method:,Least Squares,F-statistic:,14400.0
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,0.0
Time:,18:33:51,Log-Likelihood:,-5136.6
No. Observations:,777,AIC:,10280.0
Df Residuals:,773,BIC:,10300.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
fruitset,1.197e+04,333.439,35.904,0.000,1.13e+04,1.26e+04
fruitmass,-2.988e+04,1274.912,-23.438,0.000,-3.24e+04,-2.74e+04
seeds,360.8137,14.580,24.747,0.000,332.193,389.434
const,294.5002,151.176,1.948,0.052,-2.265,591.265

0,1,2,3
Omnibus:,44.838,Durbin-Watson:,1.342
Prob(Omnibus):,0.0,Jarque-Bera (JB):,92.333
Skew:,0.358,Prob(JB):,8.92e-21
Kurtosis:,4.529,Cond. No.,7240.0


In [9]:
# R-square
1 - np.sum(np.square(lm.resid)) / np.sum(np.square(df_bb['yield'] - df_bb['yield'].mean()))

0.9824190115403735

In [10]:
r2_score(df_bb['yield'], lm.fittedvalues)

0.9824190115403735

In [11]:
# VS sklearn의 LinearRegression
from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(df_bb[X_cols], df_bb['yield'])

r2_score(df_bb['yield'], lr.predict(df_bb[X_cols]))

0.9824190115403735

참고로, 정규방정식을 이용하여 선형모델의 계수를 구해봅니다.

$\hat{\beta}=(X^TX)^{-1}X^Ty$

In [12]:
df_bb[X_cols].assign(const=1).pipe(
    lambda x: np.linalg.inv(x.T.dot(x)).dot(x.T.dot(df_bb['yield']))
)

array([ 11971.89855442, -29881.0579835 ,    360.8136541 ,    294.50019292])

### Formula API: ols

In [8]:
import patsy # Design Matrix: 회귀분석에 사용할 관측값에서 모든 독립변수들을 포함하는 행렬을 손쉽게(?) 만들기 위해 사용하는 모듈
# Design Matrix: 분석 대상이 되는 변수를 모두 포함하는 행렬을 뜻합니다.

statsmodels.formula.ols는 patsy Formula 기반으로 Design Matrix를 만들어 내부에 있는 OLS를 통해 모델을 만듭니다.

따라서 ols를 파악하기 위해 patsy Formula 부터 알아 봅시다.

**patsy Formula**


모델에서 사용할 변수들을 정의해주는 식입니다.

※ 정확히 말하자면, 모델을 정의해주는 식이 아닙니다.

**연산자**

|연산자|설명|
|------|:----:|
|~|좌항(LHS) / 우항(RHS)을 구분|
|+변수명|변수 추가<br/>범주형일 경우 가변수 추가<br/>+0: 상수항 0을 추가<br/>+1: 상수항 1을 추가 |
|-변수명|변수 제외<br/>-1:상수항 제외(절편을 제외하여 선형모델을 만들고자 할 때 사용)|
|C()|범주형 변수로 명시|
|A:B|A,B:가 범주형이면, A:B 범주값들의 조합으로 가변수화, 수치형이면, np.multiply(A, B)의 축약|
|A\*B|A,B:가 범주형이면, A + B + A:B의 축약, 수치형이면, A + B + np.multiply(A, B)

※ 우항 또는 독립변수항에는 **기본적으로 절편을 위한 상수항(1)이 포함합니다.**

------------------------------------------------------------

주요 함수: Design Matrix를 정의하는 Formula와 Dictionary 구조를 지닌 데이터(Ex.  DataFrame, dict)로 Design Matrix를 만들어 주는 함수 

patsy.dmatrix: 독립변수만 대상 

patsy.dmatrices: 종속변수, 독립변수 

In [14]:
# 단일항으로 Design  Matrix를 반들 때는 dmatrix를 사용
# 기본적으로 상수항을 포함해서 만듭니다.
patsy.dmatrix('fruitset + fruitmass + seeds', data=df_bb)

DesignMatrix with shape (777, 4)
  Intercept  fruitset  fruitmass     seeds
          1   0.41065    0.40816  31.67890
          1   0.44425    0.42546  33.44938
          1   0.38379    0.39917  30.54631
          1   0.40756    0.40879  31.56259
          1   0.35441    0.38270  28.87371
          1   0.30967    0.36628  27.34545
          1   0.28444    0.35219  26.10118
          1   0.24657    0.34283  25.04236
          1   0.42798    0.41471  32.33415
          1   0.46437    0.43635  34.84995
          1   0.37991    0.37562  29.07836
          1   0.39898    0.40927  31.59742
          1   0.43737    0.42677  33.53267
          1   0.36488    0.39564  30.12463
          1   0.38131    0.40248  30.79374
          1   0.35014    0.38938  29.55021
          1   0.28816    0.35946  26.48732
          1   0.27954    0.35441  26.28236
          1   0.23355    0.33534  24.32063
          1   0.42623    0.42399  33.29902
          1   0.45474    0.43562  34.70788
          1   0.39254

In [9]:
# 상수항을 빼려면 -1를 식에 넣어줍니다.
patsy.dmatrix('fruitset + fruitmass + seeds -1', data=df_bb)

DesignMatrix with shape (777, 3)
  fruitset  fruitmass     seeds
   0.41065    0.40816  31.67890
   0.44425    0.42546  33.44938
   0.38379    0.39917  30.54631
   0.40756    0.40879  31.56259
   0.35441    0.38270  28.87371
   0.30967    0.36628  27.34545
   0.28444    0.35219  26.10118
   0.24657    0.34283  25.04236
   0.42798    0.41471  32.33415
   0.46437    0.43635  34.84995
   0.37991    0.37562  29.07836
   0.39898    0.40927  31.59742
   0.43737    0.42677  33.53267
   0.36488    0.39564  30.12463
   0.38131    0.40248  30.79374
   0.35014    0.38938  29.55021
   0.28816    0.35946  26.48732
   0.27954    0.35441  26.28236
   0.23355    0.33534  24.32063
   0.42623    0.42399  33.29902
   0.45474    0.43562  34.70788
   0.39254    0.39158  30.88505
   0.38945    0.38338  29.84229
   0.38463    0.40384  31.10924
   0.34641    0.38758  29.24868
   0.43301    0.42285  33.11609
   0.46201    0.43520  34.46757
   0.40331    0.41009  31.66560
   0.42501    0.41755  32.46089
   0.37

In [15]:
# 좌항과 우항으로 Design Matrix 산출
# 주의: formula는 Python 명령어와 전역 변수와 연계하여 동작하므로 yield는 python 내장 명령어이기도 하여, 
#       그대로 사용한다면, 충돌이 일어나므로, 충돌을 피하기 위해 변수명을 yield_로 변경했습니다.
# 다항이므로 patsy의 dmatrices를 사용합니다.
y, X = patsy.dmatrices('yield_ ~ fruitset + fruitmass + seeds', 
                       data=df_bb.rename(columns={'yield': 'yield_'}))
y, X

(DesignMatrix with shape (777, 1)
       yield_
   3813.16580
   4947.60566
   3866.79896
   4303.94303
   3436.49354
   2825.00374
   2625.26916
   2379.90521
   4234.86859
   5356.87186
   4057.55520
   3941.25512
   4768.59437
   3720.71159
   3900.34404
   3387.78516
   2688.02883
   2508.37567
   1945.53061
   4310.62540
   4830.95981
   3911.42225
   4051.55129
   3837.51296
   3269.27176
   4503.16186
   5126.99318
   4248.35505
   4476.81146
   3662.18313
   [747 rows omitted]
   Terms:
     'yield_' (column 0)
   (to view full data, use np.asarray(this_obj)),
 DesignMatrix with shape (777, 4)
   Intercept  fruitset  fruitmass     seeds
           1   0.41065    0.40816  31.67890
           1   0.44425    0.42546  33.44938
           1   0.38379    0.39917  30.54631
           1   0.40756    0.40879  31.56259
           1   0.35441    0.38270  28.87371
           1   0.30967    0.36628  27.34545
           1   0.28444    0.35219  26.10118
           1   0.24657    0.34283  25.0

In [16]:
sm.OLS(y, X).fit().summary()

0,1,2,3
Dep. Variable:,yield_,R-squared:,0.982
Model:,OLS,Adj. R-squared:,0.982
Method:,Least Squares,F-statistic:,14400.0
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,0.0
Time:,18:34:13,Log-Likelihood:,-5136.6
No. Observations:,777,AIC:,10280.0
Df Residuals:,773,BIC:,10300.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,294.5002,151.176,1.948,0.052,-2.265,591.265
fruitset,1.197e+04,333.439,35.904,0.000,1.13e+04,1.26e+04
fruitmass,-2.988e+04,1274.912,-23.438,0.000,-3.24e+04,-2.74e+04
seeds,360.8137,14.580,24.747,0.000,332.193,389.434

0,1,2,3
Omnibus:,44.838,Durbin-Watson:,1.342
Prob(Omnibus):,0.0,Jarque-Bera (JB):,92.333
Skew:,0.358,Prob(JB):,8.92e-21
Kurtosis:,4.529,Cond. No.,7240.0


statsmodels.formula.ols는 dmatrices -> OLS 과정을 한 번에 하게 해주는 함수입니다.

실제 소스 코드에서도 이렇게 구현이 되어 있습니다.

In [17]:
# 위 과정을 smf.ols를 사용하여 처리합니다.
smf.ols('yield_ ~ fruitset + fruitmass + seeds', 
        data=df_bb.rename(columns={'yield': 'yield_'})
).fit().summary() 

0,1,2,3
Dep. Variable:,yield_,R-squared:,0.982
Model:,OLS,Adj. R-squared:,0.982
Method:,Least Squares,F-statistic:,14400.0
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,0.0
Time:,18:34:15,Log-Likelihood:,-5136.6
No. Observations:,777,AIC:,10280.0
Df Residuals:,773,BIC:,10300.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,294.5002,151.176,1.948,0.052,-2.265,591.265
fruitset,1.197e+04,333.439,35.904,0.000,1.13e+04,1.26e+04
fruitmass,-2.988e+04,1274.912,-23.438,0.000,-3.24e+04,-2.74e+04
seeds,360.8137,14.580,24.747,0.000,332.193,389.434

0,1,2,3
Omnibus:,44.838,Durbin-Watson:,1.342
Prob(Omnibus):,0.0,Jarque-Bera (JB):,92.333
Skew:,0.358,Prob(JB):,8.92e-21
Kurtosis:,4.529,Cond. No.,7240.0


 ## smf.ols를 통한  선형회귀모델 만들기
 
 종속 변수: yield (수확량)
 
 독립 변수: fruitset(개체당 결실량), fruitmass(과일 무게), seeds(씨앗 산출량)
 
 로 하여 최소제곱법으로 선형 회귀 모델을 만든다. 
 
 다음과 같이 두 가지 경우에 대한 모델에 대하여 만든다.
 
 1) 절편(Intercept) 미포함
 
 2) 절편(Intercept) 포함
  
statsmodels.api에서 제공하는 class 또는 함수를 사용한다.

In [18]:
# 1) 절편 미포함
smf.ols('yield_ ~ fruitset + fruitmass + seeds -1', 
        data=df_bb.rename(columns={'yield': 'yield_'})
).fit().summary()

0,1,2,3
Dep. Variable:,yield_,R-squared (uncentered):,0.999
Model:,OLS,Adj. R-squared (uncentered):,0.999
Method:,Least Squares,F-statistic:,301400.0
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,0.0
Time:,18:34:15,Log-Likelihood:,-5138.5
No. Observations:,777,AIC:,10280.0
Df Residuals:,774,BIC:,10300.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
fruitset,1.197e+04,334.040,35.843,0.000,1.13e+04,1.26e+04
fruitmass,-2.766e+04,575.872,-48.039,0.000,-2.88e+04,-2.65e+04
seeds,341.5658,10.741,31.801,0.000,320.482,362.650

0,1,2,3
Omnibus:,47.476,Durbin-Watson:,1.343
Prob(Omnibus):,0.0,Jarque-Bera (JB):,91.535
Skew:,0.402,Prob(JB):,1.33e-20
Kurtosis:,4.477,Cond. No.,3510.0


In [19]:
# 2) 절편 포함
smf.ols('yield_ ~ fruitset + fruitmass + seeds', 
        data=df_bb.rename(columns={'yield': 'yield_'})
).fit().summary()

0,1,2,3
Dep. Variable:,yield_,R-squared:,0.982
Model:,OLS,Adj. R-squared:,0.982
Method:,Least Squares,F-statistic:,14400.0
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,0.0
Time:,18:34:16,Log-Likelihood:,-5136.6
No. Observations:,777,AIC:,10280.0
Df Residuals:,773,BIC:,10300.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,294.5002,151.176,1.948,0.052,-2.265,591.265
fruitset,1.197e+04,333.439,35.904,0.000,1.13e+04,1.26e+04
fruitmass,-2.988e+04,1274.912,-23.438,0.000,-3.24e+04,-2.74e+04
seeds,360.8137,14.580,24.747,0.000,332.193,389.434

0,1,2,3
Omnibus:,44.838,Durbin-Watson:,1.342
Prob(Omnibus):,0.0,Jarque-Bera (JB):,92.333
Skew:,0.358,Prob(JB):,8.92e-21
Kurtosis:,4.529,Cond. No.,7240.0


# 선형 회귀 분석 - 범주형 변수 

In [20]:
df_bb['clonesize'].value_counts() # 숫자 타입이지만, 불연속 변수에 해당

12.5    406
25.0    328
37.5     25
20.0     16
40.0      1
10.0      1
Name: clonesize, dtype: int64

In [21]:
df_bb['honeybee'].value_counts() # 마찬가지로 숫자 타입이지만, 불연속 변수에 해당

0.250     446
0.500     302
0.750      11
0.000       8
0.537       6
6.640       2
18.430      2
Name: honeybee, dtype: int64

[전처리]
 * clonesize, honeybee 모두 25개 이상 관측된 범주값인 데이터만을 선택하여 bb2 데이터셋이라 정의

In [22]:
df_bb2 = df_bb.loc[
    df_bb[['clonesize', 'honeybee']].apply(
        lambda x: x.isin(
            x.value_counts().pipe(lambda x: x.loc[x >= 25].index) 
            # apply에 넘어온 Series에서 출현 빈도를 세고, 25개 이상 관측된 범주값만을 구한다
        ) # 25개 이상 관측된 범주값에 해당 여부를 가져옴
    ).all(axis=1) # 모두 25개 넘게 관측된 항목인 여부를 구한다
].copy()

df_bb2[['clonesize', 'honeybee']].apply(
    lambda x: x.value_counts()
).unstack().rename('cnt').dropna().to_frame()
# 처리결과 확인하기 위해 clonesize와 honeybee의 출현한 범주수를 구해본다.

Unnamed: 0,Unnamed: 1,cnt
clonesize,12.5,406.0
clonesize,25.0,328.0
clonesize,37.5,14.0
honeybee,0.25,446.0
honeybee,0.5,302.0


종속 변수: yield (수확량)

독립 변수: clonesize, honeybee를 가변수화 (각각, 첫번째 범주값을 가변수에서 제외한다)
 
로 하여 최소제곱법으로 선형 회귀 모델을 만든다. 
 
다음과 같이 두 가지 경우에 대한 모델에 대하여 만든다.

  
statsmodels.api에서 제공하는 class 또는 함수를 사용한다.

In [23]:
df_dm = pd.get_dummies(df_bb2, columns=['clonesize', 'honeybee'], drop_first=True)\
    .assign(const=1).iloc[:, -4:] # 절편을 구하기 위한 상수항 추가
sm.OLS(df_bb2['yield'], df_dm).fit().summary()

0,1,2,3
Dep. Variable:,yield,R-squared:,0.28
Model:,OLS,Adj. R-squared:,0.277
Method:,Least Squares,F-statistic:,96.42
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,1.01e-52
Time:,18:34:27,Log-Likelihood:,-6310.2
No. Observations:,748,AIC:,12630.0
Df Residuals:,744,BIC:,12650.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
clonesize_25.0,-2324.4259,226.279,-10.272,0.000,-2768.648,-1880.204
clonesize_37.5,-2989.7612,304.054,-9.833,0.000,-3586.667,-2392.856
honeybee_0.5,1279.6293,228.612,5.597,0.000,830.827,1728.431
const,6637.7590,55.512,119.573,0.000,6528.779,6746.739

0,1,2,3
Omnibus:,31.784,Durbin-Watson:,1.088
Prob(Omnibus):,0.0,Jarque-Bera (JB):,34.456
Skew:,-0.511,Prob(JB):,3.3e-08
Kurtosis:,2.756,Cond. No.,9.54


In [24]:
pd.get_dummies(df_bb2, columns=['clonesize', 'honeybee'])\
    .iloc[:, -4:].copy().assign(const=1)

Unnamed: 0_level_0,clonesize_25.0,clonesize_37.5,honeybee_0.25,honeybee_0.5,const
Row#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
11,0,1,1,0,1
12,0,1,1,0,1
13,0,1,1,0,1
14,0,1,1,0,1
15,0,1,1,0,1
...,...,...,...,...,...
754,1,0,0,1,1
755,1,0,0,1,1
756,1,0,0,1,1
757,1,0,0,1,1


In [25]:
df_dm = pd.get_dummies(df_bb2, columns=['clonesize', 'honeybee'], drop_first=True)\
    .assign(const=1).iloc[:, -4:] # 절편을 구하기 위한 상수항 추가
sm.OLS(df_bb2['yield'], df_dm).fit().summary()

0,1,2,3
Dep. Variable:,yield,R-squared:,0.28
Model:,OLS,Adj. R-squared:,0.277
Method:,Least Squares,F-statistic:,96.42
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,1.01e-52
Time:,18:34:28,Log-Likelihood:,-6310.2
No. Observations:,748,AIC:,12630.0
Df Residuals:,744,BIC:,12650.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
clonesize_25.0,-2324.4259,226.279,-10.272,0.000,-2768.648,-1880.204
clonesize_37.5,-2989.7612,304.054,-9.833,0.000,-3586.667,-2392.856
honeybee_0.5,1279.6293,228.612,5.597,0.000,830.827,1728.431
const,6637.7590,55.512,119.573,0.000,6528.779,6746.739

0,1,2,3
Omnibus:,31.784,Durbin-Watson:,1.088
Prob(Omnibus):,0.0,Jarque-Bera (JB):,34.456
Skew:,-0.511,Prob(JB):,3.3e-08
Kurtosis:,2.756,Cond. No.,9.54


In [26]:
patsy.dmatrix('C(clonesize) + C(honeybee)', data=df_bb2) # 절편이 추가되고 첫번째 범주값은 제거 된다.

DesignMatrix with shape (748, 4)
  Intercept  C(clonesize)[T.25.0]  C(clonesize)[T.37.5]  C(honeybee)[T.0.5]
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1                   0
          1                     0                     1

In [27]:
# 절편을 제거하면 첫 번째 제외 됐던 첫 번째 범주의 첫번째 범주값에 대한 가변수가 추가되게 된다.
patsy.dmatrix('C(clonesize) + C(honeybee)-1', data=df_bb2)

DesignMatrix with shape (748, 4)
  Columns:
    ['C(clonesize)[12.5]',
     'C(clonesize)[25.0]',
     'C(clonesize)[37.5]',
     'C(honeybee)[T.0.5]']
  Terms:
    'C(clonesize)' (columns 0:3), 'C(honeybee)' (column 3)
  (to view full data, use np.asarray(this_obj))

In [28]:
smf.ols('yield_ ~ C(clonesize) + C(honeybee)', 
        data=df_bb2.rename(columns={'yield': 'yield_'})
).fit().summary()

0,1,2,3
Dep. Variable:,yield_,R-squared:,0.28
Model:,OLS,Adj. R-squared:,0.277
Method:,Least Squares,F-statistic:,96.42
Date:,"Wed, 14 Jun 2023",Prob (F-statistic):,1.01e-52
Time:,18:34:31,Log-Likelihood:,-6310.2
No. Observations:,748,AIC:,12630.0
Df Residuals:,744,BIC:,12650.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,6637.7590,55.512,119.573,0.000,6528.779,6746.739
C(clonesize)[T.25.0],-2324.4259,226.279,-10.272,0.000,-2768.648,-1880.204
C(clonesize)[T.37.5],-2989.7612,304.054,-9.833,0.000,-3586.667,-2392.856
C(honeybee)[T.0.5],1279.6293,228.612,5.597,0.000,830.827,1728.431

0,1,2,3
Omnibus:,31.784,Durbin-Watson:,1.088
Prob(Omnibus):,0.0,Jarque-Bera (JB):,34.456
Skew:,-0.511,Prob(JB):,3.3e-08
Kurtosis:,2.756,Cond. No.,9.54


## Variance Inflation Factor


$VIF = \frac{1}{1 - R^2}$

statsmodels로 구하려면 주의해야할 사항이 있습니다.

statsmodels.stats.outliers_influence 에 variance_inflation_factor를 사용하라고 가이드를 받았다면, 

주의해야할 사항이 있습니다.

VIF를 측정할 때 선형회귀모델의 절편 포함 여부를 반드시 확인해야 합니다.

문제에서 가이드를 주었는지 확인하고, 만일 주어지지 않는다면 반드시 시험 담당자에게 확인합니다.

variance_inflation_factor에서 함수 내부에서는 선형회귀모델을 만들 때, sm.OLS을 사용합니다.

sm.OLS는 기본적으로 절편을 포함하지 않으므로,

절편을 포함하려면, 값이 1 인 상수항을 추가해야합니다.

따라서 절편을 포함하라는 가이드를 받는다면, Design Matrix에 절편을 받드시 포함시킵니다.

----------------------------------------------------

### VIF 구하기

**bb 데이터셋을 사용**] VIF를 구할 때 절편을 포함한 선형회귀 모델을 사용하여, 

fruitset, fruitmass, seeds를 독립변수합니다.

각각의 VIF를 구한다. VIF를 구할 때 사용할 때

statsmodels.stats.outliers_influence의 variance_inflation_factor를 이용합니다.

In [10]:
from statsmodels.stats.outliers_influence import variance_inflation_factor

X_cols = ['fruitset', 'fruitmass', 'seeds']
# Design Matrix에 상수항을 넣어줍니다.
df_bb_c = df_bb[X_cols].assign(const=1)
df_bb_c

Unnamed: 0_level_0,fruitset,fruitmass,seeds,const
Row#,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,0.410652,0.408159,31.678898,1
1,0.444254,0.425458,33.449385,1
2,0.383787,0.399172,30.546306,1
3,0.407564,0.408789,31.562586,1
4,0.354413,0.382703,28.873714,1
...,...,...,...,...
772,0.486815,0.428012,33.447471,1
773,0.342841,0.377915,28.462005,1
774,0.404617,0.401670,30.748240,1
775,0.401538,0.399935,30.582161,1


In [30]:
# enumerate를 iterator 또는 container에 사용하면, sequence를 함께 받아서 사용할 수 있습니다.
for i, j in enumerate(X_cols):
    print(i, j, variance_inflation_factor(df_bb_c.values, i))

0 fruitset 16.756098250678427
1 fruitmass 63.13637886591672
2 seeds 97.28331205830024


In [31]:
# sklearn을 사용하여 구합니다.
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

lr = LinearRegression()
for i, j in enumerate(X_cols):
    X_ = [k for k in X_cols if k != j]
    lr.fit(df_bb_c[X_], df_bb_c[j])
    print(i, j, 1 / (1 - r2_score(df_bb_c[j], lr.predict(df_bb_c[X_]))))
# 결과는 같습니다 

0 fruitset 16.756098250678427
1 fruitmass 63.13637886591672
2 seeds 97.28331205830024


In [32]:
# 상수항을 추가하지 않을 경우를 봅니다.
X_cols = ['fruitset', 'fruitmass', 'seeds']
df_bb_nc = df_bb[X_cols].copy()
for i, j in enumerate(X_cols):
    print(i, j, variance_inflation_factor(df_bb_nc.values, i))

0 fruitset 686.9689823676716
1 fruitmass 1584.2403825677718
2 seeds 3638.6168410428413


상수항을 전달하지 않으면, variance_inflation_factor 내에서 OLS에 전달될 때 상수항이 없게 되어 절편이 없는,

선형모델로 VIF를 구하게 됩니다. 위에서 살펴 봤듯이 절편 없는 모델에서는 r2 score를 uncentered r2를 구하게 됩니다.

In [33]:
# sklearn을 사용하여 구합니다.
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score

lr = LinearRegression(fit_intercept=False)
for i, j in enumerate(X_cols):
    X_ = [k for k in X_cols if k != j]
    lr.fit(df_bb_nc[X_], df_bb_nc[j])
    uncented_r2 = 1 - np.sum(np.square(df_bb_c[j] - lr.predict(df_bb_nc[X_])) / np.sum(np.square(df_bb_c[j])))
    print(i, j, 1 / (1 - r2_score(df_bb_c[j], lr.predict(df_bb_nc[X_]))), 1 / (1 -uncented_r2))

0 fruitset 16.756046256161504 686.9689823676716
1 fruitmass 12.835284082313917 1584.2403825677718
2 seeds 52.60510956251923 3638.6168410428413


위의 현상을 그대로 sklearn을 통해 재현해봤을 때, r2_score를 사용한 것과 uncenterd r2를 사용한 것의 차이를 확인할 수 있습니다. 

variance_inflation_factor를 구할 때는 VIF를 구하는 선형모델의 절편 유무를 확인하시고, 

혹시라도 절편 없는 모델을 사용하라면, r2 score를 구할 때 uncenterd r2인지 일반 r2인지를 확인하세요

## Two-way ANOVA

Two-way ANOVA를 하려면 상호(교호)작용항에 대한 가변수화가 필요하다.

pandas를 통해서 한다면, 복잡하지만 patsy의 연산을 사용한다면 간단하게 가변수화 할 수 있다.

patsy formula의 **:** 연산자를 사용하면 상호(교호)작용항에 대한 처리를 할 수 있다.

알고리즘은 patsy의 가이드를 참조 [patsy formula](https://patsy.readthedocs.io/en/latest/formulas.html)

### Two-way ANOVA를 수행

bb2 데이터셋 사용]

종속 변수 yield를 대상으로 honeybee에, bumbles 대한 Two-way ANOVA를 수행하라.

In [34]:
df_bb2.groupby(['honeybee', 'bumbles'])['yield'].count()

honeybee  bumbles
0.25      0.25       344
          0.38       102
0.50      0.25       192
          0.38       110
Name: yield, dtype: int64

In [35]:
lm = smf.ols('yield_ ~ C(honeybee) + C(bumbles) + C(honeybee):C(bumbles)', 
        data=df_bb2[['honeybee', 'bumbles', 'yield']].rename(columns={'yield': 'yield_'})).fit()
sm.stats.anova_lm(lm)

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
C(honeybee),1.0,119736700.0,119736700.0,85.309767,2.614685e-19
C(bumbles),1.0,117905700.0,117905700.0,84.005204,4.7281449999999995e-19
C(honeybee):C(bumbles),1.0,10855970.0,10855970.0,7.734639,0.00555416
Residual,744.0,1044243000.0,1403552.0,,


In [36]:
y, X = patsy.dmatrices('yield_ ~ C(honeybee) + C(bumbles) + C(honeybee):C(bumbles)', 
        data=df_bb2[['honeybee', 'bumbles', 'yield']].rename(columns={'yield': 'yield_'}))
lm = sm.OLS(y, X).fit()
sm.stats.anova_lm(lm) # ANOVA는 OLS로 학습한 모델은 에러가 발생합니다.
# 이는 ols를 사용할 때는 design_info라는 어트리뷰트를 생성을 해주지만, 
# 이와 같은 구성에서는 별도로 anova design_info를 만들어 주지 않아서 입니다.

AttributeError: 'PatsyData' object has no attribute 'design_info'