## 9장. 회귀분석

### 9.1 단순회귀분석
A쇼핑 고객들의 방문빈도가 총 매출액에 영향을 미치는지 확인해 보자. 

- H0(귀무가설) = 방문빈도는 총 매출액에 영향을 미치지 않는다.
- H1(연구가설) = 방문빈도는 총 매출액에 영향을 미친다. 

#### 데이터 불러오기

실습데이터 Ashopping을 파이썬을 이용하여 불러온다. 


#### 변수명=pd.read_csv("파일경로\파일이름\.파일형식", sep="구분자", encoding='코딩방식')

    구분자: ",",  "|", "\s+"
    encoding:'CP949' 파이썬에서 한글을 열수 있도록 인코딩 설정


In [1]:
# 텍스트 파일 열기
import pandas as pd
df = pd.read_csv("C:\python\Ashopping.txt",sep=",", encoding='CP949')

In [2]:
#모듈 불러오기
import statsmodels.api as sm
import statsmodels.formula.api as smf

In [4]:
df1=df[["방문빈도","총_매출액"]]
df1.head()

Unnamed: 0,방문빈도,총_매출액
0,17,4007080
1,14,3168400
2,18,2680780
3,17,5946600
4,73,13745950


- 기본형식
#### 단순선형회귀 = smf.OLS(formula='종속변수 ~ 독립변수', data=데이터).fit()

In [5]:
result = smf.ols(formula = '총_매출액 ~ 방문빈도', data = df1).fit()
result.summary()#회귀분석 결과 출력

0,1,2,3
Dep. Variable:,총_매출액,R-squared:,0.398
Model:,OLS,Adj. R-squared:,0.398
Method:,Least Squares,F-statistic:,660.8
Date:,"Mon, 10 Jun 2019",Prob (F-statistic):,3.05e-112
Time:,17:10:22,Log-Likelihood:,-16921.0
No. Observations:,1000,AIC:,33850.0
Df Residuals:,998,BIC:,33860.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,1.572e+06,2.74e+05,5.743,0.000,1.03e+06,2.11e+06
방문빈도,2.066e+05,8037.616,25.707,0.000,1.91e+05,2.22e+05

0,1,2,3
Omnibus:,684.213,Durbin-Watson:,1.972
Prob(Omnibus):,0.0,Jarque-Bera (JB):,17231.472
Skew:,2.76,Prob(JB):,0.0
Kurtosis:,22.573,Cond. No.,54.6


### 9.2. 다중회귀분석

#### 서비스 만족도, 방문빈도, 구매카테고리 수는 총 매출액에 영향을 미치는지 알아보자. 

- H0(귀무가설) = 방문빈도, 구매카테고리 수, 서비스 만족도는 모두 총 매출액에 영향을 미치지 않는다.
- H1(연구가설) = 방문빈도, 구매카테고리 수, 서비스 만족도는 모두 총 매출액에 영향을 미친다. 

In [6]:
import statsmodels.api as sm
import statsmodels.formula.api as smf
model2 = smf.ols(formula = '총_매출액 ~ 서비스_만족도 + 방문빈도 + 구매_카테고리_수', data = df).fit()
model2.summary()

0,1,2,3
Dep. Variable:,총_매출액,R-squared:,0.41
Model:,OLS,Adj. R-squared:,0.408
Method:,Least Squares,F-statistic:,230.8
Date:,"Mon, 10 Jun 2019",Prob (F-statistic):,1.19e-113
Time:,17:31:23,Log-Likelihood:,-16911.0
No. Observations:,1000,AIC:,33830.0
Df Residuals:,996,BIC:,33850.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.033e+06,1.01e+06,2.009,0.045,4.76e+04,4.02e+06
서비스_만족도,-5.432e+05,1.52e+05,-3.585,0.000,-8.41e+05,-2.46e+05
방문빈도,2.053e+05,8938.286,22.973,0.000,1.88e+05,2.23e+05
구매_카테고리_수,5.022e+05,1.6e+05,3.142,0.002,1.89e+05,8.16e+05

0,1,2,3
Omnibus:,673.428,Durbin-Watson:,1.967
Prob(Omnibus):,0.0,Jarque-Bera (JB):,16237.956
Skew:,2.711,Prob(JB):,0.0
Kurtosis:,21.982,Cond. No.,209.0


In [8]:
from patsy import dmatrices
from statsmodels.stats.outliers_influence import variance_inflation_factor

- design matrix 생성: dmatrices(종속변수 ~ 독립변수, data= 데이터, return_type= 반환될 데이터타입)

In [9]:
y, X = dmatrices("총_매출액 ~ 서비스_만족도 + 방문빈도 + 구매_카테고리_수", data=df, return_type = "dataframe")

In [6]:
X

Unnamed: 0,Intercept,서비스_만족도,방문빈도,구매_카테고리_수
0,1.0,6.0,17.0,6.0
1,1.0,4.0,14.0,4.0
2,1.0,7.0,18.0,6.0
3,1.0,5.0,17.0,5.0
4,1.0,6.0,73.0,6.0
5,1.0,7.0,26.0,5.0
6,1.0,3.0,6.0,6.0
7,1.0,7.0,109.0,6.0
8,1.0,6.0,17.0,6.0
9,1.0,7.0,19.0,5.0


- variance_inflation_factor(계산할 변수값, 계산할 변수값의 인덱스) = VIF 값 출력

In [10]:
variance_inflation_factor(X.values, 1)#서비스만족도 VIF 값

1.1385445349069252

In [11]:
variance_inflation_factor(X.values, 2)#방문빈도 VIF 값

1.258604139815512

In [12]:
variance_inflation_factor(X.values, 3)#구매 카테고리수 VIF 값

1.2150677270649686

### 9.3.  가변수를 이용한 회귀분석

#### 구매유형(가변수)과 방문빈도를 예측해보자.

In [19]:
#더미변수 생성
df['구매유형']=df.구매유형.astype('str')#데이터 타입 '문자형'으로 변경
df2=pd.get_dummies(df)#더미변수 생성
df2=df2[['방문빈도','구매유형_2','구매유형_3','구매유형_4']]

In [91]:
model = smf.ols(formula = '방문빈도 ~ 구매유형_2 + 구매유형_3  + 구매유형_4', data = df2).fit()

In [92]:
model.summary()

0,1,2,3
Dep. Variable:,방문빈도,R-squared:,0.432
Model:,OLS,Adj. R-squared:,0.43
Method:,Least Squares,F-statistic:,252.4
Date:,"Tue, 07 May 2019",Prob (F-statistic):,8.42e-122
Time:,08:40:56,Log-Likelihood:,-4193.5
No. Observations:,1000,AIC:,8395.0
Df Residuals:,996,BIC:,8415.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,10.0233,2.450,4.092,0.000,5.216,14.830
구매유형_2,36.9736,2.611,14.163,0.000,31.851,42.096
구매유형_3,7.3517,2.792,2.634,0.009,1.874,12.830
구매유형_4,7.6602,2.554,3.000,0.003,2.649,12.671

0,1,2,3
Omnibus:,754.728,Durbin-Watson:,2.039
Prob(Omnibus):,0.0,Jarque-Bera (JB):,18540.829
Skew:,3.215,Prob(JB):,0.0
Kurtosis:,23.091,Cond. No.,11.5
