# 로지스틱 회귀 분석
- Section01 : 로지스틱 회귀 분석
- Section02 : 오즈와 오즈비


## Section01 : 로지스틱 회귀 분석


### 1. logit 모델

```python
logit('종속변수~ 독립변수 1 + 독립변수 2 + ...',data = df).fit()
```

- 종속변수와 독립변수 사이에는 물결 표시를 사용해 관계를 나타낸다.
- 종속변수 : 모델에서 결과로 예측하고자 하는 이진형 변수
- 독립변수 : 종속변수에 영향을 미칠 것으로 예상되는 변수들이다.



### 문제.
- 다음은 특정 질병의 유무를 나타내는 환자 데이터셋이다.
- 독립변수 : 나이, 체질량 지수, 흡연여부, 활동 수준
- 종속변수 : 특정 질병의 유무


In [1]:
import pandas as pd

df = pd.read_csv("./ch5_data/health_survey.csv")
df

Unnamed: 0,age,bmi,smoker,activity_level,disease
0,62,35.179089,0,0,1
1,65,18.576042,0,2,1
2,71,33.178426,0,1,1
3,18,37.063007,1,2,0
4,21,17.613266,0,0,0
...,...,...,...,...,...
995,75,23.600372,0,2,1
996,24,9.659333,0,2,0
997,37,25.959939,0,0,0
998,52,25.356929,0,1,1


In [2]:
# 1. 로지스틱 회귀 모델을 사용하여 age와 bmi를 독립변수로 활용해 질병의 발생 여부를 예측한다.

from statsmodels.formula.api import logit
import statsmodels.api as sm

model = logit('disease ~ age + bmi', data=df).fit()
print(model.summary())

Optimization terminated successfully.
         Current function value: 0.643725
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                disease   No. Observations:                 1000
Model:                          Logit   Df Residuals:                      997
Method:                           MLE   Df Model:                            2
Date:                Sat, 22 Nov 2025   Pseudo R-squ.:                 0.04996
Time:                        13:43:37   Log-Likelihood:                -643.72
converged:                       True   LL-Null:                       -677.58
Covariance Type:            nonrobust   LLR p-value:                 1.984e-15
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.8700      0.289     -6.482      0.000      -2.435      -1.305
age            0.0177      0.

In [4]:
# 2. 1번 문제에서 추정된 로지스틱 회귀 모델에서 bmi 변구사 한 단위 증가할 때 질병 발생의 오즈비 값은?

# 오즈비 계산 방법 : 로지스틱 회귀 모델 'bmi' 변수 계수 값을 지수 함수 np.exp 를 사용해 오즈비로 변환

import numpy as np
print(model.params['bmi'])
print(np.exp(model.params['bmi']))

0.05633387968708855
1.057950853075076


In [6]:
# 3. 로그 우도를 구하는 방법과 잔차이탈도 계산방법

# 로그 우도 계산 방법
print(model.llf)

# 잔차이탈도
print(-2*model.llf)

-643.7246164682088
1287.4492329364175


In [None]:
# 4. 정확도와 오류율

# 정확도 : 올바르게 분류된 데이터의 비율
# 오류율 : 잘못 분류된 데이터의 비율(1 - 정확도)


## Section 02 오즈와 오즈비

### 1. 오즈(odds)
- 정의 : 어떤 사건이 발생할 확률과 그 사건이 발생하지 않을 확률
- 수식 : 사건 A의 발생 확률을 P(A)라고 할 떄 오즈는 P(A)/ 1- P(A)이다.

### 2. 오즈비(odds ratio)
- 정의 : 두 그룹의 오즈 간의 비율
- 두 사건 A,B에 대한 오즈비는 오즈(A) /오즈(B) 이다.
