## 잔차이탈도

- 통계 모델에서 관측값과 모델이 예측한 값 사이의 차이르르 측정하는 지표
- 특히 로지스틱 회귀와 같은 일반화 선형 모델(GLM)에서 자주 사용됨
- 값이 작은 경우 모델이 데이터를 잘 설명하는 것

### 잔차이탈도 예제

In [17]:
from statsmodels.formula.api import logit
import pandas as pd

# 데이터 준비
data = pd.DataFrame({
    'x1': [1, 2, 3, 4, 5],
    'x2': [5, 4, 3, 2, 1],
    'y': [0, 1, 0, 1, 1]
})

# 로지스틱 회귀 모델 적합
model = logit('y ~ x1 +x2', data=data).fit()


Optimization terminated successfully.
         Current function value: 0.484393
         Iterations 8


In [14]:
model.summary()

0,1,2,3
Dep. Variable:,y,No. Observations:,5.0
Model:,Logit,Df Residuals:,2.0
Method:,MLE,Df Model:,2.0
Date:,"Mon, 18 Nov 2024",Pseudo R-squ.:,0.2803
Time:,10:22:21,Log-Likelihood:,-2.422
converged:,True,LL-Null:,-3.3651
Covariance Type:,nonrobust,LLR p-value:,0.3894

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,0.0328,7.35e+07,4.46e-10,1.000,-1.44e+08,1.44e+08
x1,0.6435,1.23e+07,5.25e-08,1.000,-2.4e+07,2.4e+07
x2,-0.4469,1.23e+07,-3.65e-08,1.000,-2.4e+07,2.4e+07


In [18]:
# 잔차이탈도 확인
print(f'잔차이탈도 : {model.deviance}')
print(f'자유도: {model.df_resid}')

AttributeError: 'LogitResults' object has no attribute 'deviance'

### 문제1

고객 정보를 나타낸 데이터이다. 주어진 데이터에서 500개 중 앞에서부터 300개는 train으로, 200개는 test 데이터로 나눈다. 모델을 학습(적합)할 때는 train 데이터를 사용하고, 예측할 때는 test 데이터를 사용한다. 모델은 로지스틱 회귀를 써서 고객이 특정 제품을 구매할지 여부를 예측하되, 페널티는 부과하지 않는다.

종속변수: purchase (0: 구매 안 함, 1: 구매 함)

Q. age, income, marital_status 변수를 독립변수로 purchase를 종속변수로 사용하여 로지스틱 회귀 모형을 만들고, 잔차이탈도를 구하시오. (반올림하여 소수 넷째자리까지 계산)

In [None]:
# 방법1
import pandas as pd
from statsmodels.formula.api import logit
df = pd.read_csv("/kaggle/input/bigdatacertificationkr/Customer_Data.csv")

# 데이터셋 분할
train = df.iloc[:300]
test = df.iloc[300:]

model = logit('purchase ~ age + income + marital_status', data=train).fit()
print(model.summary())

In [None]:
print(round(-2 * model.llf,2))

In [None]:
# summary 만 보고 계산하면 소수점이 모두 나오지 않기 때문에 차이가 있음
-2 * -206.22

In [None]:
# 방법2 glm 활용
from statsmodels.formula.api import glm
import statsmodels.api as sm



# 2) 잔차이탈도 계산# 1) glm 모델 적합 (로지스틱 회귀를 위해 이항 분포 사용)
formula = "purchase ~ age + income + marital_status"
model = glm(formula, data=train, family=sm.families.Binomial()).fit()
print(model.summary())
print(round(model.deviance,2))