# 로지스틱 회귀분석(Logistic Regression)

- 선형회귀분석과 유사하지만 종속변수가 양적 척도가 아닌 질적 척도임
  
- 특성 수치를 예측하는 것이 아니라 어떠 카테고리에 들어갈지 분류하는 모델

- 기본 모형은 종속변수가 0과 1이라는 이항으로 이루어져 구매/미구매 등을 예측

- 만약 종속변수의 범주가 3개 이상일 경우에는 다항 로지스틱 회귀분석을 통해 분류 예측 할 수 있다.!!!

- 로지스틱 회귀는 기존의 선형회귀식의 사상은 그대로 유지하되 종속변수를 1이 될 확률롤 변환 0과 1의 여부를 예측
- 선형 회귀선은 이항으로 이루어진 종속변수를 직선으로 표현하여 확률이 양과 음의 무한대로 뻗어나가게 됨
- 이러한 방식은 확률을 표현하기에 적합하지 않기 때문에 0과 1사이의 S곡선의 형태로 변환

- 선형 회귀선을 로직 회귀선으로 변환하기 위해서는 오즈 값을 구해야함
- 오즈(Odds) : 사건이 발생할 가능성이 발생하지 않을 가능성보다 어느 정도 큰지를 나타내는 값
- 분모는 사건이 발생하지 않을 확률, 분자는 사건이 발생할 확률로 하여 사건이 발생하지 않을 확률 대비 사건이 발생할 확률
- 하지만 직선 형태의 회귀 값을 사건이 일어날 오즈 갑승로 변환하게 되면 발생확률이 1에 가까워질수로 오즈 값 기하급수적으로 커지고 최솟값은 0이되는 균형 xxx상태됨

<img src="./image/odds.png">

- 따라서 오즈값에 로그를 취하면 양의 무한대에서 음의 무한대를 갖는 형태가 됨

- 하지만 여전히 0에서 1사이의 범위를 나타내지 못하는 문제가 있어서
    - 이 변환식을 시그모이드 함수라고 함
 
- 이렇게 로지스틱 회귀분석은 사건 발생 확률을 0에서 1사이로 변환해서 표현
    - 이러한 분류모델은 카테고리를 분류하는 임계치를 어떻게 설정하는 지가 중요
        - 기본적으로 분류 기준값은 0.5
        - 주제에 따라 달라짐
    - 최적의 효율을 따져가며 분류 기준을 잡아야하기 때문에 로지스틱 회귀모델과 같은 분류모델은 모델 성능 평가가 매우 중요

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

import seaborn as sns
from sklearn.preprocessing import RobustScaler # 스케일러다! (x-중앙값)/IQR => 이상치에 영향을 덜 받게 하려고 씀 
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from imblearn.under_sampling import RandomUnderSampler # 아까 sample 이랑 같음~~ 샘플뽑아주는거
import statsmodels.api as sm

In [3]:
# 데이터 불러오기
df = pd.read_csv("./data/heart_2020_cleaned.csv")

In [4]:
df.head()

Unnamed: 0,HeartDisease,BMI,Smoking,AlcoholDrinking,Stroke,PhysicalHealth,MentalHealth,DiffWalking,Sex,AgeCategory,Race,Diabetic,PhysicalActivity,GenHealth,SleepTime,Asthma,KidneyDisease,SkinCancer
0,No,16.6,Yes,No,No,3.0,30.0,No,Female,55-59,White,Yes,Yes,Very good,5.0,Yes,No,Yes
1,No,20.34,No,No,Yes,0.0,0.0,No,Female,80 or older,White,No,Yes,Very good,7.0,No,No,No
2,No,26.58,Yes,No,No,20.0,30.0,No,Male,65-69,White,Yes,Yes,Fair,8.0,Yes,No,No
3,No,24.21,No,No,No,0.0,0.0,No,Female,75-79,White,No,No,Good,6.0,No,No,Yes
4,No,23.71,No,No,No,28.0,0.0,Yes,Female,40-44,White,No,Yes,Very good,8.0,No,No,No


In [5]:
df.shape

(319795, 18)

In [6]:
df.dtypes

HeartDisease         object
BMI                 float64
Smoking              object
AlcoholDrinking      object
Stroke               object
PhysicalHealth      float64
MentalHealth        float64
DiffWalking          object
Sex                  object
AgeCategory          object
Race                 object
Diabetic             object
PhysicalActivity     object
GenHealth            object
SleepTime           float64
Asthma               object
KidneyDisease        object
SkinCancer           object
dtype: object

In [7]:
# 독립변수로 심장병 예측하기~~~~~~~~~~~~

In [8]:
df.isna().sum()

HeartDisease        0
BMI                 0
Smoking             0
AlcoholDrinking     0
Stroke              0
PhysicalHealth      0
MentalHealth        0
DiffWalking         0
Sex                 0
AgeCategory         0
Race                0
Diabetic            0
PhysicalActivity    0
GenHealth           0
SleepTime           0
Asthma              0
KidneyDisease       0
SkinCancer          0
dtype: int64

In [11]:
df.columns

Index(['HeartDisease', 'BMI', 'Smoking', 'AlcoholDrinking', 'Stroke',
       'PhysicalHealth', 'MentalHealth', 'DiffWalking', 'Sex', 'AgeCategory',
       'Race', 'Diabetic', 'PhysicalActivity', 'GenHealth', 'SleepTime',
       'Asthma', 'KidneyDisease', 'SkinCancer'],
      dtype='object')

In [13]:
# 명목형 변수 원핫인코딩 ( 사실은 필요없었다.... )
df2 = pd.get_dummies(df, drop_first = True)

In [14]:
df2.head()

Unnamed: 0,BMI,PhysicalHealth,MentalHealth,SleepTime,HeartDisease_Yes,Smoking_Yes,AlcoholDrinking_Yes,Stroke_Yes,DiffWalking_Yes,Sex_Male,...,Diabetic_Yes,Diabetic_Yes (during pregnancy),PhysicalActivity_Yes,GenHealth_Fair,GenHealth_Good,GenHealth_Poor,GenHealth_Very good,Asthma_Yes,KidneyDisease_Yes,SkinCancer_Yes
0,16.6,3.0,30.0,5.0,False,True,False,False,False,False,...,True,False,True,False,False,False,True,True,False,True
1,20.34,0.0,0.0,7.0,False,False,False,True,False,False,...,False,False,True,False,False,False,True,False,False,False
2,26.58,20.0,30.0,8.0,False,True,False,False,False,True,...,True,False,True,True,False,False,False,True,False,False
3,24.21,0.0,0.0,6.0,False,False,False,False,False,False,...,False,False,False,False,True,False,False,False,False,True
4,23.71,28.0,0.0,8.0,False,False,False,False,True,False,...,False,False,True,False,False,False,True,False,False,False


In [15]:
# RobustScaler 적용 => 이상치 없애 버리겠다!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
# 숫자형 변수 분리
df_num = df[["BMI","PhysicalHealth","MentalHealth","SleepTime"]]
df_nom = df2.drop(["BMI","PhysicalHealth","MentalHealth","SleepTime"], axis = 1)

In [16]:
# 숫자형 변수에 스케일링
rs = RobustScaler()
df_robust = rs.fit_transform(df_num)

In [17]:
df_num2 = pd.DataFrame(data = df_robust, columns = df_num.columns)

In [18]:
# 숫자형 테이블과 더미화 문자형 테이블 결합
df3 = pd.concat([df_num2, df_nom], axis = 1)

In [19]:
x = df3.drop("HeartDisease_Yes", axis = 1)
y = df3["HeartDisease_Yes"]

In [20]:
x_train, x_test, y_train, y_test = train_test_split(
    x,
    y,
    test_size = 0.25,
    stratify = y,
    random_state = 31
)

In [21]:
len(x_train),len(x_test)

(239846, 79949)

In [24]:
df3["HeartDisease_Yes"].value_counts()

HeartDisease_Yes
False    292422
True      27373
Name: count, dtype: int64

In [None]:
# 종속변수 클래스 분포 시각화
sns.countplot(x = "HeartDisease_Yes", data = y_train)
plt.show()

- 클래스 불균형이 심한 상황!!!!!
- 언더 샘플링이나 오버 샘플링 적용 균형 맞춰!!!!

In [27]:
# 임시 변수명 적용
x_train_re = x_train.copy()
y_train_re = y_train.copy()

x_temp_name = [f"X{i}" for i in range(1, 38)] # IBMlearn 의 이상한 철학 # 춤춰~~~ 출석체크하려면!~!~~!~!~!~!
y_temp_name = ["y1"]

In [28]:
x_train_re.columns = x_temp_name
y_train_re.columns = y_temp_name

In [29]:
x_train_re.head()

Unnamed: 0,X1,X2,X3,X4,X5,X6,X7,X8,X9,X10,...,X28,X29,X30,X31,X32,X33,X34,X35,X36,X37
182573,1.132612,0.5,0.0,-1.0,False,False,False,False,False,False,...,True,False,True,False,False,False,True,False,False,False
311983,-0.330176,0.0,0.0,0.0,True,False,False,False,True,False,...,False,False,True,False,True,False,False,False,False,False
178010,0.520974,0.0,0.0,0.5,False,False,False,False,True,False,...,False,False,True,False,False,False,False,False,False,False
159468,-0.583221,0.0,0.0,-0.5,True,False,False,False,False,False,...,False,False,True,False,False,False,True,False,False,False
35457,0.013532,4.0,0.666667,-0.5,True,False,False,False,True,True,...,True,False,True,False,True,False,False,False,False,False


- 기존 변수명은 언더샘플링이나 오버 샘플링 적용 시 오류가 발생하기 때분에 임시변수명을 부여

In [32]:
# 언더 샘플링 적용
x_train_under, y_train_under = RandomUnderSampler(random_state = 31).fit_resample(x_train_re, y_train_re)

In [33]:
print("RandomUnderSampler 적용전 :", x_train_re.shape, y_train_re.shape)
print("RandomUnderSampler 적용후 :", x_train_under.shape, x_test_under.shape)

RandomUnderSampler 적용전 : (239846, 37) (239846,)
RandomUnderSampler 적용후 : (41060, 37) (41060,)


In [42]:
# print("RandomUnderSampler 적용전 :", y_train_re["y1"].value_counts())
# print("RandomUnderSampler 적용후 :", y_train_under["y1"].value_counts())

In [46]:
x_train_under.columns = x_train.columns
y_train_under.columns = y_train

In [47]:
logi = LogisticRegression()
logi.fit(x_train_under, y_train_under)

STOP: TOTAL NO. OF ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [48]:
logi.score(x_train_under, y_train_under)

0.7633950316609839

In [49]:
logi.score(x_test, y_test)

0.7530175486872881

In [50]:
# 오즈비 확인
np.exp(logi.coef_)

array([[ 1.0749722 ,  1.01247961,  1.01550135,  0.95986864,  1.46507876,
         0.79964366,  3.60120724,  1.23941091,  2.08885527,  0.92102379,
         1.25044719,  1.43934979,  2.10055482,  2.70347941,  4.36033819,
         5.33041156,  7.44441971,  9.34763156, 12.85109981, 17.34897025,
        21.18166692,  0.56829291,  0.73548872,  0.80111747,  1.03171816,
         0.9170074 ,  1.11133692,  1.69728785,  1.34785748,  1.04780606,
         4.71414244,  2.84422067,  6.81815964,  1.60309571,  1.40548247,
         1.8366083 ,  1.13999475]])

# stats 모델을 써서 오즈비 분석하는게 좋음(편안함)

In [52]:
x_train_under = x_train_under.astype(float)

# statsmodels 로 학습

In [53]:
model = sm.Logit(y_train_under, x_train_under)
results = model.fit()

Optimization terminated successfully.
         Current function value: 0.504794
         Iterations 7


In [54]:
results.summary()

0,1,2,3
Dep. Variable:,HeartDisease_Yes,No. Observations:,41060.0
Model:,Logit,Df Residuals:,41023.0
Method:,MLE,Df Model:,36.0
Date:,"Thu, 20 Nov 2025",Pseudo R-squ.:,0.2717
Time:,16:35:03,Log-Likelihood:,-20727.0
converged:,True,LL-Null:,-28461.0
Covariance Type:,nonrobust,LLR p-value:,0.0

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
BMI,0.0822,0.015,5.421,0.000,0.052,0.112
PhysicalHealth,0.0117,0.003,3.427,0.001,0.005,0.018
MentalHealth,0.0050,0.005,1.035,0.300,-0.004,0.015
SleepTime,-0.0505,0.016,-3.173,0.002,-0.082,-0.019
Smoking_Yes,0.3561,0.025,14.256,0.000,0.307,0.405
AlcoholDrinking_Yes,-0.2584,0.054,-4.751,0.000,-0.365,-0.152
Stroke_Yes,1.2673,0.053,23.798,0.000,1.163,1.372
DiffWalking_Yes,0.1799,0.035,5.209,0.000,0.112,0.248
Sex_Male,0.6516,0.025,25.994,0.000,0.603,0.701


In [57]:
# 오즈비 확인
np.exp(results.params) # 와따마ㅏㅏㅏㅏㅏㅏㅏㅏ

BMI                                 1.085663
PhysicalHealth                      1.011756
MentalHealth                        1.005042
SleepTime                           0.950723
Smoking_Yes                         1.427720
AlcoholDrinking_Yes                 0.772322
Stroke_Yes                          3.551146
DiffWalking_Yes                     1.197080
Sex_Male                            1.918691
AgeCategory_25-29                   0.256681
AgeCategory_30-34                   0.347456
AgeCategory_35-39                   0.401946
AgeCategory_40-44                   0.572490
AgeCategory_45-49                   0.729666
AgeCategory_50-54                   1.214417
AgeCategory_55-59                   1.489165
AgeCategory_60-64                   2.102116
AgeCategory_65-69                   2.644498
AgeCategory_70-74                   3.622178
AgeCategory_75-79                   4.902345
AgeCategory_80 or older             5.882578
Race_Asian                          0.066072
Race_Black

- 독립변수가 종속변수인 심장병 여부 확률에 어떤 영향을 미치는지 확인하기 위해 오즈비를 산출
    - 해당 독립변수가 1일때 심장병 발생확률이 몇 배 더 큰지 나타냄
    - 예) Smoking_Yes 변수는 오즈비 1.4 라서 걸릴확률1.4배 높음