# 로지스틱 회귀분석
-------------------
    스태츠모델즈(statsmodels) 라이브러리를 사용한다. 예를 들어, 의료 데이터셋에서 환자의 여러 임상지표를 바탕으로 특정 질병의 유무를 예측하는 분류 모델을 만들수 있다.
  

- logit 모델
      로지스틱 회귀분석 모델을 구축하기 위해서는 statsmodels 라이브러리 logit() 함수를 사용한다.
      이 함수는 종속변수가 이진 형태인 경우, 즉 결과가 두 가지 범주 중 하나로 나눠지는 상황에서 독립변수들과의 관계를 모델링하는데 사용된다.
      statsmodels에서는 R 스타일의 공식을 사용해 logit 모델을 손쉽게 정의할 수 있다.
```python
logit('종속변수~ 독립변수1+독립변수2+...',data=df).fit()
```

- 종속변수와 독립변수 사이에는 물결(~)을 사용해 관계를 나타낸다.

- 종속변수 : 모델에서 결과로 예측하고자 하는 이진형 변수이다.
- 독립변수 : 종속변수에 영향을 미칠 것으로 예상되는 변수들이다.
- data : 모델이 변수를 찾아 사용할 데이터프레임 df를 명시한다.
- .fit() : 이 함수(메소드)에서는 로지스틱 회귀 모델이 주어진 데이터에 학습(적합)시키는 과정을 수행한다.

##### Q. 다음은 특정 질병(Disease)의 유무를 나타낸 환자 데이터셋이다.
이 데이터를 바탕으로 각 소문제의 값을 구하시오.

-----------------
[데이터]
- 독립변수 : 나이, 체질량 지수, 흡연 여부, 활동수준ㄴ
- 종속변수 : 특정 질병의 유무

In [42]:
from google.colab import files
uploaded = files.upload()

Saving health_survey.csv to health_survey.csv


In [44]:
import pandas as pd
df=pd.read_csv('health_survey.csv')
df.head()

Unnamed: 0,age,bmi,smoker,activity_level,disease
0,62,35.179089,0,0,1
1,65,18.576042,0,2,1
2,71,33.178426,0,1,1
3,18,37.063007,1,2,0
4,21,17.613266,0,0,0


1. 로지스틱 회귀 모델을 사용하여 age, bmi를 독립변수로 활용해 질병(disease)의 발생여부를 예측한다.
-----------
    bmi 변수 계수의 값은 => bmi coef:  0.0563

In [46]:
from statsmodels.formula.api import logit
import statsmodels.api as sm

model = logit('disease ~age+bmi',data=df).fit()
print(model.summary())

Optimization terminated successfully.
         Current function value: 0.643725
         Iterations 5
                           Logit Regression Results                           
Dep. Variable:                disease   No. Observations:                 1000
Model:                          Logit   Df Residuals:                      997
Method:                           MLE   Df Model:                            2
Date:                Tue, 12 Nov 2024   Pseudo R-squ.:                 0.04996
Time:                        04:57:18   Log-Likelihood:                -643.72
converged:                       True   LL-Null:                       -677.58
Covariance Type:            nonrobust   LLR p-value:                 1.984e-15
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept     -1.8700      0.289     -6.482      0.000      -2.435      -1.305
age            0.0177      0.

##### 오즈비(Odds Ratio)로 변환하는 이유
-------------------
**오즈비(Odds Ratio, OR)**는 오즈가 얼마나 변화하는지를 비율로 나타냅니다. 이 값은 해석하기 더 직관적이기 때문에 많이 사용됩니다. 오즈비는 회귀 계수의 지수 함수(exp)를 취함으로써 구할 수 있습니다.

오즈비(OR)는 각 독립 변수에 대해 해당 변수의 변화가 종속 변수의 오즈에 미치는 영향을 비율로 표현한 값입니다.
따라서, np.exp()를 사용하여 로그 오즈에서 오즈비로 변환하는 이유는, 오즈비가 해석하기 직관적이고 실제로 영향을 미치는 비율로 나타내기 위해서입니다.

In [48]:
import numpy as np
print(model.params['bmi'])
print(np.exp(model.params['bmi']))

0.056333879687088535
1.057950853075076


### 로그우도(Log - Likelihood)를 구하는 방법과 잔차이탈도(Deviance)를 계산하는 방법

In [50]:
print("로그우도:",model.llf)
print("잔차이탈도:",model.llf*-2)

로그우도: -643.7246164682088
잔차이탈도: 1287.4492329364175


## 정확도 & 오류율
- 정확도(Accuracy) : 올바르게 분류된 데이터의 비율
    만약 100개의 데이터가 존재하고 그 중 90개를 올바르게 예측하였다면 정확도는 0.9
- 오류율(Error Rate) : 잘못 분류된 데이터의 비율(1-정확도)
    만약 100개의 데이터가 존재하고 그 중 10개를 잘못 예측하였다면 오류율은 0.1

## 오즈와 오즈비
- 오즈(Odds)
  - 정의 : 어떤 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비율이다.
  - 수식 : 사건 A의 발생 확률을 P(A)라고 할때 오즈는 P(A) / 1- P(A)
  - 예시 : 어떤 사건이 발생 확률이 0.75라면 이 사건의 오즈는 3(0.75/0.25)이다.
  이는 사건이 발생할 확률이 발생하지 않을 확률보다 3배 높다는 의미다.
- 오즈비(Odds Ratio)
  - 정의 : 두 그룹의 오즈 간의 비율이다. 이는 한 그룹에서 어떤 사건이 발생할 오즈가 다른 그룹에 비해 얼마나 더 큰지를 나타낸다.
  - 수식 : 두 사건 A와 B에 대한 오즈비는 오즈(A) / 오즈(B)
  - 예시 : 한 그룹에서 어떤 사건의 오즈가 2고, 다른 그룹에서 같은 사건의 오즈가 1이라면 오즈비는 2이다.
  이는 첫번쨰 그룹에서 사건이 발생할 확률이 두 번째 그룹에 비해 두배 높다는 의미다.
    - 오즈비 >1 : 특정 조건 또는 노출이 사건 발생 가능성을 증가시킴
    - 오즈비 = 1: 특정 조건 또는 노출이 사건 발생 가능성에 영향을 미치지 않음
    - 오즈비 <1 : 특정 조건 또는 노출이 사건 발생 가능성을 감소시킴.