# 03-1. 로지스틱 회귀분석 (Logistic Regression Analysis)

<hr>

## ✅로지스틱 회귀모형
- 로지스틱 회귀분석은 결과인 종속변수에 미치는 요인들을 독립변수로 두고 각 독립변수의 영향을 설명
- 로지스틱 회귀분석의 종속변수는 범위에 제한이 있음 **(0에서 1 사이의 값)**

<br>

- 선형 회귀분석은 표본 데이터를 직선으로 그룹화
- 로지스틱 회귀분석은 표본 데이터가 0에서 1 사이의 값으로 그룹화되어 있음
    ![logistic](img/logistic1.png)

<br>

- 로지스틱 회귀분석 결과 **오즈비(Odds Ratio; OR; 승산비)** 를 얻음 
- 사건이 발생할 확률을 p라고 할 때, 오즈비를 수식으로 나타내면 다음과 같음
    ![logistic](img/logistic2.png)

<br>

- e.g.대학 합격이라는 사건에서 합격을 1, 불합격을 0으로 정했을 때, 합격할 확률이 0.8이라면 오즈비는 4. 이는 대학에 합격할 확률이 불합격할 확률보다 4배 높다는 뜻  
$$OR = \frac{p}{1-p} = \frac{0.8}{1-0.8}$$

<br><hr>

## ✅로지스틱 회귀분석의 해석
- 로지스틱 회귀분석의 해석 과정
    1. 선형 회귀분석과 마찬가지로 각 독립변수 p-value를 확인. p-value가 유의수준보다 작은 독립변수를 통해 통계적으로 유익한 변수라고 판단
    2. 오즈비를 구해 각 독립변수가 종속변수를 1로 만들 확률을 비교

<br><hr>

## ✅로지스틱 회귀분석의 활용

#### *사과 가격이 사과 판매 여부에 미치는 영향 분석*

In [1]:
import statsmodels.api as sm
import pandas as pd
import numpy as np

In [2]:
sales = [1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0]
price = [1500, 2000, 5000, 3000, 3500, 2500, 4000, 4500, 3000,
        4500, 4000, 4500, 5500, 6500, 5000, 3500, 7000]
data = {'sales':sales, 'price':price}

In [3]:
# 데이터프레임 생성
df = pd.DataFrame(data)
df

Unnamed: 0,sales,price
0,1,1500
1,1,2000
2,1,5000
3,1,3000
4,1,3500
5,1,2500
6,1,4000
7,1,4500
8,1,3000
9,0,4500


In [4]:
# 데이터셋을 전달받아 fit() 메서드를 호출하면 ML을 실행하며 최적의 weight/bias 값을 찾아 객체를 반환
# '종속변수 ~ 독립변수'
logis = sm.Logit.from_formula('sales ~ price', data=df).fit()
print(logis.summary())

Optimization terminated successfully.
         Current function value: 0.430873
         Iterations 7
                           Logit Regression Results                           
Dep. Variable:                  sales   No. Observations:                   17
Model:                          Logit   Df Residuals:                       15
Method:                           MLE   Df Model:                            1
Date:                Wed, 20 Nov 2024   Pseudo R-squ.:                  0.3768
Time:                        11:49:14   Log-Likelihood:                -7.3248
converged:                       True   LL-Null:                       -11.754
Covariance Type:            nonrobust   LLR p-value:                  0.002917
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      6.5752      3.300      1.993      0.046       0.108      13.042
price         -0.0016      0.

**오즈비를 구해 각 독립변수(price)가 종속변수(sales)를 1로 만들 확률 비교**


In [5]:
# 1) 독립변수가 유의한지 확인
logis.pvalues     # price 0.044652 >> 0.05보다 작음 >> 유의한 독립변수

Intercept    0.046288
price        0.044652
dtype: float64

In [6]:
# 2) 오즈비 (Odds ratio; OR) = (사건 발생 확률) / (사건 발생하지 않을 확률)
print(logis.params)
print("-----------------------")
print(np.exp(logis.params))   # np.exp(coef) >> 오즈비

Intercept    6.575158
price       -0.001569
dtype: float64
-----------------------
Intercept    717.058841
price          0.998433
dtype: float64


**결론: 변수 `price`의 오즈비가 0.998433이므로 가격을 올렸을 때 판매될 가능성이 판매되지 않을 가능성의 0.998433배**