#### 로지스틱 회귀분석
- 범주형 종속변수를 대상으로 하는 통계적 분석 방법, 보통 분류 문제 해결
- 사건의 발생 여부나 확률을 예측하여 범주를 분류
- 회귀라는 용어가 사용되었지만 분류 모델에 속한다

##### 로지스틱 회귀 분석

In [1]:
# 역시 statsmodels를 사용
# from statsmodels.formula.api import logit('종속변수 ~독립변수1 + 독립변수2 + ...', df).fit()
    # 종속변수: 모델에서 결과로 예측하고자 하는 이진형 변수(1사건발생, 0미발생)
    # 독립변수: 종속에 영향을 미칠 거로 예상되는 변수들

In [None]:
# 특정 질병의 유무를 나타내는 환자 데이터를 사용

import pandas as pd
df = pd.read_csv('health_survey.csv')
df.head()

# 종속 변수: disease
# 독립 변수: age, bmi, smoker, activity_level

Unnamed: 0,age,bmi,smoker,activity_level,disease
0,62,35.179089,0,0,1
1,65,18.576042,0,2,1
2,71,33.178426,0,1,1
3,18,37.063007,1,2,0
4,21,17.613266,0,0,0


In [11]:
# 문제1 | 로지스틱 회귀 모델을 이용하고 독립변수는 age, bmi를 사용해 disease 발생 여부를 예측하려 한다. bmi 변수의 계수 값은?

from statsmodels.formula.api import logit
model = logit('disease ~age + bmi', df).fit()
print(model.summary())
print(model.params['bmi'])

Optimization terminated successfully.
         Current function value: 0.643725
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                disease   No. Observations:                 1000
Model:                          Logit   Df Residuals:                      997
Method:                           MLE   Df Model:                            2
Date:                Fri, 29 Nov 2024   Pseudo R-squ.:                 0.04996
Time:                        00:00:07   Log-Likelihood:                -643.72
converged:                       True   LL-Null:                       -677.58
Covariance Type:            nonrobust   LLR p-value:                 1.984e-15
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.8700      0.289     -6.482      0.000      -2.435      -1.305
age            0.0177      0.

In [18]:
# 문제2 | 1번 문제에서 추정된 로지스틱 회귀 모델에서 bmi 변수가 한 단위 증가할 때 질병 발생의 오즈비 값은?
    # 오즈비 계산 방법
        # 1. bmi의 계수값 알아내기
        # 2. 계수값을 np.exp()로 오즈비로 변환
import numpy as np
np.exp(model.params['bmi'])

1.057950853075076

In [20]:
# 문제3 | 로그 우도(Log-Likelihood)와 잔차이탈도(Deviance) 구하기
    # 로그우도 : model.llf
    # 잔차이탈도는 로그우도에 -2 곱하기: -2*model.llf
print(model.llf)
print(-2*model.llf)

-643.7246164682088
1287.4492329364175


In [21]:
# 문제4 | 정확도와 오류율 구하기
    # 정확도는 데이터를 올바르게 분류한 비율
    # 오류율은 1-정확도