# 회귀분석

In [1]:
from IPython.display import Image
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats
import statsmodels.formula.api as smf
import os

os.chdir('C:/Users/0148s/OneDrive/문서/GitHub/GROUP_STUDY_DATA/통계/')
%precision 3
%matplotlib inline

In [2]:
df= pd.read_csv("누구나파이썬통계분석/data/ch12_scores_reg.csv")
n = len(df)
print(n)

20


## 중회귀모형

: 설명변수가 2개 이상인 회귀모형
### [회귀분석의 기본가정]

   - 회귀모형의 가정
      - 정규성 : 종속변수는 독립변수에 영향을 받으며, 정규분포를 따른다.
      - 등분산성 : 독립변수에 상관없이 종속변수의 분산은 일정하다.
      - 선형성 : 독립변수와 종속변수는 선형관계에 있다.
      - 독립성 : 종속변수의 값들은 통계적으로 서로 독립이다.
   - 오차항의 가정
      - 오차항은 서로 독립이다,
      - 오차항은 정규분포를 따른다.
      - 오차항은 평균이 0이며, 분산이 서로 같다.


In [21]:
import statsmodels.formula.api as smf

formula = 'final_test ~ quiz + sleep_time'
result = smf.ols(formula, df).fit()
result.summary()

0,1,2,3
Dep. Variable:,final_test,R-squared:,0.756
Model:,OLS,Adj. R-squared:,0.727
Method:,Least Squares,F-statistic:,26.35
Date:,"Tue, 17 Nov 2020",Prob (F-statistic):,6.19e-06
Time:,16:34:35,Log-Likelihood:,-73.497
No. Observations:,20,AIC:,153.0
Df Residuals:,17,BIC:,156.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.8709,11.635,-0.161,0.874,-26.420,22.678
quiz,6.4289,0.956,6.725,0.000,4.412,8.446
sleep_time,4.1917,1.778,2.357,0.031,0.440,7.943

0,1,2,3
Omnibus:,2.073,Durbin-Watson:,1.508
Prob(Omnibus):,0.355,Jarque-Bera (JB):,1.716
Skew:,0.66,Prob(JB):,0.424
Kurtosis:,2.437,Cond. No.,38.0


### 회귀계수

- x1 = 쪽찌시험 점수
- x2 = 수면시간
- y = 기말고사 점수(반응변수)
- p = 설명변수의 개수(x1, x2)

In [22]:
x1 = df['quiz']
x2 = df['sleep_time']
y = df['final_test']
p = 2

In [23]:
X = np.array([np.ones_like(x1), x1, x2]).T #np.ones_like() 행렬성분에 1을 채워줌
beta0_hat, beta1_hat, beta2_hat = np.linalg.lstsq(X, y)[0] #np.linalg.lstsq()를 이용해 회귀계수의 추정
beta0_hat, beta1_hat, beta2_hat

  


(-1.8709143470995908, 6.42887834300237, 4.191706546398685)

In [25]:
y_hat = beta0_hat + beta1_hat * x1 + beta2_hat * x2 #y의 추정값
eps_hat = y - y_hat #잔차

In [26]:
s_var = np.sum(eps_hat ** 2) / (n - p - 1) #MSE(평균제곱오차) = 잔차제곱합(SSE)/자유도 
C0, C1, C2 = np.diag(np.linalg.pinv(np.dot(X.T, X)))

In [27]:
rv = stats.t(n-p-1) #검정통계량(t)

lcl = beta2_hat - rv.isf(0.025) * np.sqrt(s_var * C2) #신뢰구간 하한
hcl = beta2_hat - rv.isf(0.975) * np.sqrt(s_var * C2) # 신뢰구간 상한
lcl, hcl

(0.440253332543481, 7.943159760253889)

### 가변수

: 0 또는 1 값을 갖는 이진 변수

In [9]:
formula = 'final_test ~ quiz + sleep_time + school_method'
result = smf.ols(formula, df).fit()
result.summary()

0,1,2,3
Dep. Variable:,final_test,R-squared:,0.782
Model:,OLS,Adj. R-squared:,0.724
Method:,Least Squares,F-statistic:,13.46
Date:,"Tue, 17 Nov 2020",Prob (F-statistic):,7.47e-05
Time:,16:32:09,Log-Likelihood:,-72.368
No. Observations:,20,AIC:,154.7
Df Residuals:,15,BIC:,159.7
Df Model:,4,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.3330,12.434,0.107,0.916,-25.169,27.835
school_method[T.bus],-1.8118,6.324,-0.286,0.778,-15.292,11.668
school_method[T.walk],-7.6555,6.420,-1.192,0.252,-21.339,6.028
quiz,6.0029,1.033,5.809,0.000,3.800,8.206
sleep_time,4.5238,1.809,2.501,0.024,0.668,8.380

0,1,2,3
Omnibus:,1.764,Durbin-Watson:,1.418
Prob(Omnibus):,0.414,Jarque-Bera (JB):,0.989
Skew:,0.545,Prob(JB):,0.61
Kurtosis:,2.985,Cond. No.,41.8


## 모형의 타당성

In [10]:
formula = 'final_test ~ quiz + sleep_time'
result = smf.ols(formula, df).fit()
result.summary()

0,1,2,3
Dep. Variable:,final_test,R-squared:,0.756
Model:,OLS,Adj. R-squared:,0.727
Method:,Least Squares,F-statistic:,26.35
Date:,"Tue, 17 Nov 2020",Prob (F-statistic):,6.19e-06
Time:,16:32:11,Log-Likelihood:,-73.497
No. Observations:,20,AIC:,153.0
Df Residuals:,17,BIC:,156.0
Df Model:,2,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-1.8709,11.635,-0.161,0.874,-26.420,22.678
quiz,6.4289,0.956,6.725,0.000,4.412,8.446
sleep_time,4.1917,1.778,2.357,0.031,0.440,7.943

0,1,2,3
Omnibus:,2.073,Durbin-Watson:,1.508
Prob(Omnibus):,0.355,Jarque-Bera (JB):,1.716
Skew:,0.66,Prob(JB):,0.424
Kurtosis:,2.437,Cond. No.,38.0


In [11]:
eps_hat = np.array(result.resid)

### 정규성의 검정

* 왜도 : 분포의 비대칭도.
  - 정규분포 = 왜도 0
  - 왼쪽으로 치우침 = 왜도 > 0
  - 오른쪽으로 치우침 = 왜도 < 0


* 첨도 : 분포의 뾰족한 정도. 정규분포이면 3, 정규분포보다 뾰족한 정점을 가지면 > 3, 정규분포보다 둥근 정점이면 < 3.

   - Fisher(True) : 첨도 기준이 Fisher (normal ==> 0.0) 이다. 정규분포의 첨도 = 0
   - Fisher(False) : 첨도 기준이 Pearson (normal ==> 3.0) 이다. 정규분포의 첨도 = 3 

In [12]:
stats.skew(eps_hat)

0.660

In [13]:
stats.kurtosis(eps_hat, fisher=False)

2.437

### 더빈-왓슨비

-  오차항은 서로 독립이다'에 대한 검정. 연관성이 없는지의 여부를 체크하는 지표. 다루는 데이터가 시계열 데이터인 경우 중요함. 여기서 alpha=0이라면 오차항들 간에 상관성이 존재하지 않는다는 것이다.

-  0~4의 값을 가지며, 0에 가까우면 양의상관 4에 가까우면 음의 상관, 2 근처의 값이면 무상관 으로 얘기할 수 있음.

In [17]:
np.sum(np.diff(eps_hat, 1) ** 2) / np.sum(eps_hat ** 2)

1.5082185264423018

### 다중공선성

:회귀분석에서 사용된 모형의 일부 설명 변수가 다른 설명 변수와 상관 정도가 높아 데이터 분석 시 부정적인 영향을 미치는 현상.

-  Condition Numnber(조건수) : XTX의 가장 큰 고유치와 가장 작은 고유치의 비율

In [29]:
df['mid_test'] = df['quiz'] * 2
df.head()

Unnamed: 0,quiz,final_test,sleep_time,school_method,mid_test
0,4.2,67,7.2,bus,8.4
1,7.2,71,7.9,bicycle,14.4
2,0.0,19,5.3,bus,0.0
3,3.0,35,6.8,walk,6.0
4,1.5,35,7.5,walk,3.0


In [30]:
formula = 'final_test ~ quiz + mid_test'
result = smf.ols(formula, df).fit()
result.summary()

0,1,2,3
Dep. Variable:,final_test,R-squared:,0.676
Model:,OLS,Adj. R-squared:,0.658
Method:,Least Squares,F-statistic:,37.61
Date:,"Tue, 17 Nov 2020",Prob (F-statistic):,8.59e-06
Time:,16:44:24,Log-Likelihood:,-76.325
No. Observations:,20,AIC:,156.7
Df Residuals:,18,BIC:,158.6
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,23.6995,4.714,5.028,0.000,13.796,33.603
quiz,1.3107,0.214,6.133,0.000,0.862,1.760
mid_test,2.6215,0.427,6.133,0.000,1.723,3.519

0,1,2,3
Omnibus:,2.139,Durbin-Watson:,1.478
Prob(Omnibus):,0.343,Jarque-Bera (JB):,1.773
Skew:,0.67,Prob(JB):,0.412
Kurtosis:,2.422,Cond. No.,1.22e+17
