# 회귀분석의 결과 보고

회귀분석을 통해 연구를 진행하는 논문은 아래의 표와 같은 형태로 결과 보고를 제시한다.

![img](res/table.png)

## #01. 준비작업

### [1] 패키지 참조

In [2]:
import warnings
warnings.filterwarnings(action='ignore')

from pandas import read_excel, DataFrame, MultiIndex

# 회귀분석을 수행하는 통계패키지
from statsmodels.formula.api import ols
from statsmodels.stats.outliers_influence import variance_inflation_factor

### [2] 데이터 가져오기

자동차의 속도(speed)에 따른 제동거리(dist) 조사 데이터

In [3]:
origin = read_excel("C:/Users/Jihwan/Desktop/01Class/E.추론통계/E.InferentialStatistics/수업자료/fish.xlsx")
origin.head()

Unnamed: 0,길이,높이,두께,무게
0,8.4,2.11,1.41,5.9
1,13.7,3.53,2.0,32.0
2,15.0,3.82,2.43,40.0
3,16.2,4.59,2.63,51.5
4,17.4,4.59,2.94,70.0


## #02. 회귀분석

### [1] 분석을 위한 학습모델 구성

$y = ax + b$ 에 따라 `종속 ~ 독립` 형태로 표현식을 구성한다.

In [3]:
model = ols('dist ~ speed', data = origin)
model

<statsmodels.regression.linear_model.OLS at 0x1cb9a85cb50>

### [2] 분석 수행

In [4]:
fit = model.fit()
fit

<statsmodels.regression.linear_model.RegressionResultsWrapper at 0x1cb9abadf10>

### [3] 분석결과 확인

In [5]:
tbl = fit.summary()
tbl

0,1,2,3
Dep. Variable:,dist,R-squared:,0.651
Model:,OLS,Adj. R-squared:,0.644
Method:,Least Squares,F-statistic:,89.57
Date:,"Wed, 07 Feb 2024",Prob (F-statistic):,1.49e-12
Time:,13:29:39,Log-Likelihood:,-206.58
No. Observations:,50,AIC:,417.2
Df Residuals:,48,BIC:,421.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-17.5791,6.758,-2.601,0.012,-31.168,-3.990
speed,3.9324,0.416,9.464,0.000,3.097,4.768

0,1,2,3
Omnibus:,8.975,Durbin-Watson:,1.676
Prob(Omnibus):,0.011,Jarque-Bera (JB):,8.189
Skew:,0.885,Prob(JB):,0.0167
Kurtosis:,3.893,Cond. No.,50.7


In [6]:
print(tbl)

                            OLS Regression Results                            
Dep. Variable:                   dist   R-squared:                       0.651
Model:                            OLS   Adj. R-squared:                  0.644
Method:                 Least Squares   F-statistic:                     89.57
Date:                Wed, 07 Feb 2024   Prob (F-statistic):           1.49e-12
Time:                        13:29:39   Log-Likelihood:                -206.58
No. Observations:                  50   AIC:                             417.2
Df Residuals:                      48   BIC:                             421.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    -17.5791      6.758     -2.601      0.0

## #03. 결과 해석

출력되는 분석 결과표를 통해 모형적합도, 회귀계수, 각 요인에 대한 p값을 해석해야 한다.

![img](res/result-all.png)

### [1] 모형적합도 해석

모형이 데이터에 잘 맞는 정도를 보여주는 지표

| 번호 | 이름 | 설명 |
|:---:|---|---|
| ① | R-squared | R제곱, 결정계수<br/>모형의 설명력을 의미<br/>dist 제동거리를 speed가 약 65% 설명한다. (각 사례마다 dist에 차이가 있다.) |
| ② | Adj. R-squared | 독립변수의 개수와 표본의 크기를 고려하여 R-squared를 보정한 값.<br/>서로 다른 모형을 비교할 때는 이 지표가 높은 쪽은 선택한다.<br/>독립변수가 여러 개인 다중회귀분석에서 사용 |
| ③ | F-statistic | 회귀모형에 대한 (통계적) 유의미성 검증 결과 |
| ④ | Prob(F-statistic) | F-statistic에 대한 p-value. <br/>유의미함 (p < 0.05) |
| ⑤ | Log-Likelihood | 로그 우도: 종속변수가 정규분포라고 가정했을 때의 우도 |
| ⑥ | AIC, BIC | 로그우도를 독립변수의 수로 보정한 값 (작을 수록 좋다) |

### [2] 회귀계수(coef) 해석

| 번호 | 이름 | 설명 |
|:---:|---|---|
| ⑦ | 절편(Intercept) | speed가 0일 때 dist의 값 |
| ⑧ | 기울기 | 독립변수인 speed가 1 증가할 때마다 dist가 3.9324 증가한다는 것을 의미 |

#### 회귀계수를 수식으로 정리

$dist = ⑧ \times speed + ⑦$

> dist = ⑧ \times speed + ⑦

즉, 

$dist = 3.9324 \times speed - 17.5791$

> dist = 3.9324 \times speed - 17.5791

### [3] p값

| 번호 | 이름 | 설명 |
|:---:|---|---|
| ⑨ | p값 | 모집단에서 계수가 0일 때, 현재와 같은 크기의 표본에서 이러한 계수가 추정될 확률 |

이 확률이 매우 작다는 것은, 모집단에서 speed의 계수가 정확히 3.9324는 아니더라도 현재의 표본과 비슷하게 0보다 큰 어떤 범위에 있을 가능성이 높다는 것을 의미

보통 5%와 같은 유의수준을 정하여 p값이 그보다 작으면(p < 0.05), "통계적으로 유의미하다"라고 정리

> speed가 증가할 때 기대되는 dist의 변화는 유의수준 5%에서 통계적으로 유의하다.

## #04. 결과 보고

### [1] 모형적합도 보고

F분포의 파라미터 2개와 그 때의 F값, p-value의 유의수준 비교를 명시

$F(⑩, ⑪) = ③, p \lt 0.05%$

#### 모형적합도 보고 예시

> dist에 대하여 speed로 예측하는 회귀분석을 실시한 결과, 이 회귀모형은 통계적으로 유의미하였다.
> 
> $(F(1,48) = 89.57, p < 0.05)$


### [2] 독립변수에 대해 보고

$t(⑪) = ⑫, p < 0.05$


#### 독립변수 보고 예시

> speed의 회귀계수는 3.9324로, dist에 대하여 유의미한 예측변인인 것으로 나타났다.
> 
> $(t(48) = 9.464, p < 0.05)$

## #05. 회귀분석 결과 다루기

### [1] 결과표 유형 확인

#### 데이터 타입

In [7]:
type(tbl)

statsmodels.iolib.summary.Summary

#### 속성 확인

In [8]:
dir(tbl)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_repr_html_',
 '_repr_latex_',
 'add_extra_txt',
 'add_table_2cols',
 'add_table_params',
 'as_csv',
 'as_html',
 'as_latex',
 'as_text',
 'extra_txt',
 'tables']

#### 예상되는 프로퍼티 확인

In [9]:
tbl.tables

[<class 'statsmodels.iolib.table.SimpleTable'>,
 <class 'statsmodels.iolib.table.SimpleTable'>,
 <class 'statsmodels.iolib.table.SimpleTable'>]

In [10]:
for i in tbl.tables:
    print(i)

                            OLS Regression Results                            
Dep. Variable:                   dist   R-squared:                       0.651
Model:                            OLS   Adj. R-squared:                  0.644
Method:                 Least Squares   F-statistic:                     89.57
Date:                Wed, 07 Feb 2024   Prob (F-statistic):           1.49e-12
Time:                        13:29:39   Log-Likelihood:                -206.58
No. Observations:                  50   AIC:                             417.2
Df Residuals:                      48   BIC:                             421.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept    -17.5791      6.758     -2.601      0.0

In [14]:
tbl.tables[0]

0,1,2,3
Dep. Variable:,dist,R-squared:,0.651
Model:,OLS,Adj. R-squared:,0.644
Method:,Least Squares,F-statistic:,89.57
Date:,"Wed, 07 Feb 2024",Prob (F-statistic):,1.49e-12
Time:,13:29:39,Log-Likelihood:,-206.58
No. Observations:,50,AIC:,417.2
Df Residuals:,48,BIC:,421.0
Df Model:,1,,
Covariance Type:,nonrobust,,


In [22]:
tbl.tables[1]

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-17.5791,6.758,-2.601,0.012,-31.168,-3.990
speed,3.9324,0.416,9.464,0.000,3.097,4.768


In [23]:
tbl.tables[2]

0,1,2,3
Omnibus:,8.975,Durbin-Watson:,1.676
Prob(Omnibus):,0.011,Jarque-Bera (JB):,8.189
Skew:,0.885,Prob(JB):,0.0167
Kurtosis:,3.893,Cond. No.,50.7


### [2] 첫 번째, 세번째 표의 내용

In [18]:
my = {}

for k in [0,2]:
    items = tbl.tables[k].data
    #print(items)
    
    for item in items:
        # print(item)
        n = len(item)

        for i in range(0,n,2):
            key = item[i].strip()[:-1]
            value = item[i+1].strip()

            if key and value:
                my[key] = value

my

{'Dep. Variable': 'dist',
 'R-squared': '0.651',
 'Model': 'OLS',
 'Adj. R-squared': '0.644',
 'Method': 'Least Squares',
 'F-statistic': '89.57',
 'Date': 'Wed, 07 Feb 2024',
 'Prob (F-statistic)': '1.49e-12',
 'Time': '13:29:39',
 'Log-Likelihood': '-206.58',
 'No. Observations': '50',
 'AIC': '417.2',
 'Df Residuals': '48',
 'BIC': '421.0',
 'Df Model': '1',
 'Covariance Type': 'nonrobust',
 'Omnibus': '8.975',
 'Durbin-Watson': '1.676',
 'Prob(Omnibus)': '0.011',
 'Jarque-Bera (JB)': '8.189',
 'Skew': '0.885',
 'Prob(JB)': '0.0167',
 'Kurtosis': '3.893',
 'Cond. No': '50.7'}

### [3] VIF값 생성

#### (1) 단일 결과값을 확인하기 위한 실험

In [19]:
vif = variance_inflation_factor(origin , 1)

if vif < 10:
    print('%s의 VIF: %f (good)' % (origin.columns[1],vif))
else:
    print('%s의 VIF: %f (bad)' % (origin.columns[1],vif))

dist의 VIF: 9.642207 (good)


#### (2) 모든 변수에 대한 처리

In [28]:
my['variables'] = []
name_list = list(origin.columns)

for i,v in enumerate(tbl.tables[1].data):
    #print(v)

    # 변수의 이름
    name = v[0].strip()
    #print(name)

    if name not in name_list:
        continue

    j = name_list.index(name)

    vif = variance_inflation_factor(origin, j)

    my['variables'].append({
        'name': name,
        'coef': v[1].strip(),
        'std err': v[2].strip(),
        't': v[3].strip(),
        'p-value': v[4].strip(),
        'Beta': 0,
        'VIF': vif,
    })

my['variables']

[{'name': 'speed',
  'coef': '3.9324',
  'std err': '0.416',
  't': '9.464',
  'p-value': '0.000',
  'Beta': 0,
  'VIF': 9.642207177996063}]

### [4] 결과보고표 만들기

In [32]:
mylist = []
yname_list = []
xname_list = []

for i in my['variables']:
    #print(i)
    yname_list.append('dist')
    xname_list.append(i['name'])

    item = {
        'B': i['coef'],
        '표준오차': i['std err'],
        'β': i['Beta'],
        't': i['t'],
        '유의확률': '%s*' % i['p-value'],
        'VIF': i['VIF']
    }
    
    mylist.append(item)

rdf = DataFrame(mylist,
                index = MultiIndex.from_arrays([yname_list, xname_list], names = ['종속변수','독립변수']))
rdf

Unnamed: 0_level_0,Unnamed: 1_level_0,B,표준오차,β,t,유의확률,VIF
종속변수,독립변수,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
dist,speed,3.9324,0.416,0,9.464,0.000*,9.642207


### [5] 분석결과 문자열

In [35]:
'R(%s), R^2(%s), F(%s), 유의확률(%s), Durbin-Watson(%s)' % (my['R-squared'],my['Adj. R-squared'],my['F-statistic'], my['Prob (F-statistic)'], my['Durbin-Watson'])

'R(0.651), R^2(0.644), F(89.57), 유의확률(1.49e-12), Durbin-Watson(1.676)'

### [6] 모형 적합도 보고 문장

In [37]:
'%s에 대하여 %s로 예측하는 회귀분석을 실시한 결과, 이 회귀모형은 통게적으로 %s(F(%s,%s) = %s,p < 0.05).' % (
    'dist',
    ','.join(xname_list),
    '유의하다' if float(my['Prob (F-statistic)']) < 0.05 else '유의하지 않다',
    my['Df Model'],
    my['Df Residuals'],
    my['F-statistic']
)

'dist에 대하여 speed로 예측하는 회귀분석을 실시한 결과, 이 회귀모형은 통게적으로 유의하다(F(1,48) = 89.57,p < 0.05).'

### [7] 독립변수 보고

In [39]:
varstr = []

for i, v in enumerate(my['variables']):
    #print(v)

    s = '%s의 회귀계수는 %s(p%s0.05)로, %s에 대하여 %s.'
    k = s % (v['name'],
             v['coef'],
             '<' if float(v['p-value']) < 0.05 else '>',
             'dist',
             '유의미한 예측변인인 것으로 나타났다' if float(v['p-value']) < 0.05 else '유의하지 않은 예측변인인 것으로 나타났다.'
    )

    varstr.append(k)

varstr

['speed의 회귀계수는 3.9324(p<0.05)로, dist에 대하여 유의미한 예측변인인 것으로 나타났다.']