# 사전준비

In [1]:
import pandas as pd
from statsmodels.formula.api import ols

### 중고차 데이터

In [2]:
car = pd.read_excel('data/small_used_car.xlsx')
car

Unnamed: 0,mileage,model,price,year,my_car_damage,other_car_damage
0,63608,K3,970,2017,0,564596
1,69336,K3,1130,2015,1839700,1140150
2,36000,K3,1380,2016,446520,2244910
3,19029,K3,1390,2017,889000,4196110
4,97090,K3,760,2015,2339137,2029570
...,...,...,...,...,...,...
269,235000,Avante,390,2007,1473730,507260
270,140000,Avante,430,2009,14399366,4592589
271,96757,Avante,390,2006,303080,0
272,113853,Avante,390,2008,320780,1857718


# 상호작용 (interaction)
두 독립변수의 곱으로 이뤄진 항 (xm)
```python
y ∼ x + m + x:m
```
한 독립변수에 따라서 다른 독립변수의 기울기가 달라지는 것으로 해석할 수 있음

In [3]:
ols('price ~ year + mileage + year:mileage', data=car).fit().summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.792
Model:,OLS,Adj. R-squared:,0.79
Method:,Least Squares,F-statistic:,342.6
Date:,"Fri, 09 Oct 2020",Prob (F-statistic):,1.05e-91
Time:,15:52:28,Log-Likelihood:,-1764.3
No. Observations:,274,AIC:,3537.0
Df Residuals:,270,BIC:,3551.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-2.527e+05,1.42e+04,-17.803,0.000,-2.81e+05,-2.25e+05
year,126.0293,7.047,17.884,0.000,112.155,139.904
mileage,1.0518,0.141,7.484,0.000,0.775,1.328
year:mileage,-0.0005,6.98e-05,-7.500,0.000,-0.001,-0.000

0,1,2,3
Omnibus:,2.443,Durbin-Watson:,1.755
Prob(Omnibus):,0.295,Jarque-Bera (JB):,2.187
Skew:,0.139,Prob(JB):,0.335
Kurtosis:,3.339,Cond. No.,274000000000.0


### 참고
`x:m`은 `I(x*m)`과 같은 결과를 출력함.<br>
상호작용을 표현하기 위한 표기법일 뿐!

In [4]:
ols('price ~ year + mileage + I(year*mileage)', data=car).fit().summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.792
Model:,OLS,Adj. R-squared:,0.79
Method:,Least Squares,F-statistic:,342.6
Date:,"Fri, 09 Oct 2020",Prob (F-statistic):,1.05e-91
Time:,15:52:28,Log-Likelihood:,-1764.3
No. Observations:,274,AIC:,3537.0
Df Residuals:,270,BIC:,3551.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-2.527e+05,1.42e+04,-17.803,0.000,-2.81e+05,-2.25e+05
year,126.0293,7.047,17.884,0.000,112.155,139.904
mileage,1.0518,0.141,7.484,0.000,0.775,1.328
I(year * mileage),-0.0005,6.98e-05,-7.500,0.000,-0.001,-0.000

0,1,2,3
Omnibus:,2.443,Durbin-Watson:,1.755
Prob(Omnibus):,0.295,Jarque-Bera (JB):,2.187
Skew:,0.139,Prob(JB):,0.335
Kurtosis:,3.339,Cond. No.,274000000000.0


## 상호작용의 간단한 예
x는 연속형, m은 0 또는 1만 갖는 범주형 변수라고 가정 (반드시 이래야 하는 것은 아니며, 이해를 돕기 위한 단순화)

### 상호작용이 없는 경우
```python
y ∼ x + m
```
m에 따라 x의 절편이 바뀌는 것으로 해석
```python
y = ax + bm + c
```
m에 따라 x의 절편이 달라짐 (기울기 변화 X)
- m = 0일 때: y = ax + c
- m = 1일 때: y = ax + (b + c)

예: 두 직군이 초봉이 다르고 연봉의 상승률은 같을 때

### 기울기가 달라지는 경우
```python
y ∼ x + x:m
```
m에 따라 x의 절편이 바뀌는 것으로 해석
```python
y = ax + bxm + c
```
m에 따라 x의 기울기가 달라짐
- m = 0일 때: y = ax + c
- m = 1일 때: y = (a + b)x + c

예: 두 직군이 초봉은 같고 연봉의 상승률이 다를 때

### 기울기와 절편이 모두 달라지는 경우
```python
y ∼ x + x:m + m
```
m에 따라 x의 절편이 바뀌는 것으로 해석
```python
y = ax + bxm + cm + d
```
m에 따라 x의 기울기와 절편이 달라짐
- m = 0일 때: y = ax + d
- m = 1일 때: y = (a + b)x + (c + d)

예: 두 직군이 초봉도 다르고 연봉의 상승률도 다를 때

## 상호작용 실습
중고차 데이터에서 price를 종속변수로, model과 year를 독립변수로 한 회귀분석 (model과 year의 상호작용을 모형에 포함)

In [5]:
car_reg = ols('price ~ model + year + model:year', data=car).fit()
car_reg.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.692
Model:,OLS,Adj. R-squared:,0.688
Method:,Least Squares,F-statistic:,201.8
Date:,"Fri, 09 Oct 2020",Prob (F-statistic):,1.19e-68
Time:,15:52:28,Log-Likelihood:,-1818.3
No. Observations:,274,AIC:,3645.0
Df Residuals:,270,BIC:,3659.0
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-2.196e+05,9315.612,-23.574,0.000,-2.38e+05,-2.01e+05
model[T.K3],4.151e+04,3.13e+04,1.325,0.186,-2.02e+04,1.03e+05
year,109.5077,4.628,23.663,0.000,100.397,118.619
model[T.K3]:year,-20.6324,15.562,-1.326,0.186,-51.270,10.005

0,1,2,3
Omnibus:,8.265,Durbin-Watson:,1.538
Prob(Omnibus):,0.016,Jarque-Bera (JB):,8.171
Skew:,0.412,Prob(JB):,0.0168
Kurtosis:,3.189,Cond. No.,5860000.0


```python
price = 109*year -20*year*K3 + 41510*K3 -2.196e+05
```

### 상호작용을 고려했을 때 Avante의 year에 따른 기울기

In [6]:
car_reg.params['year']

109.50772738556677

### 상호작용을 고려했을 때 K3의 year에 따른 기울기

In [7]:
car_reg.params['year'] + car_reg.params['model[T.K3]:year']

88.87537091986644

### 상호작용의 신뢰구간(또는 p-value)를 참고할 때, 어느 모델이 year에 따른 가격 변화가 더 심한지 알 수 없다.
- `model[T.K3]:year`의 신뢰구간이 -51.270 ~ 10.005으로 -에서 +까지 포함
 - 즉, 모집단에서는 K3가 더 빨리 떨어질 수도 있고, 아반떼가 더 빨리 떨어질 수도 있음.
- p = 0.186으로 0.05보다 크므로, 결론적으로 어느 쪽이 더 빨리 떨어진다고 결론 내리기에는 증거 데이터가 부족하다.