## 로지스틱 회귀모형
### statsmodels를 활용한 로지스틱 회귀분석

Q. 제공된 survived 데이터를 불러와 객실등급(pclass)을 독립변수로 하고, 생존여부(survived)를 종속변수로 하는 로지스틱 회귀분석을 수행해보자. (객실등급은 A등급인경우 1, B등급인 경우는 0으로 인코딩 되어 있다.)

In [3]:
import pandas as pd
import statsmodels.api as sm 
survived=pd.read_csv('../예제/survived.csv')
survived

Unnamed: 0,survived,pclass,sex,age
0,0,0,1,22.0
1,1,1,0,38.0
2,1,0,0,26.0
3,1,1,0,35.0
4,0,0,1,35.0
...,...,...,...,...
536,0,0,1,25.0
537,0,0,0,39.0
538,1,1,0,19.0
539,1,1,1,26.0


In [4]:
# 독립변수와 종속변수 지정
X=survived['pclass']    # 독립변수
y=survived['survived']  # 종속변수

# 상수항 추가
X=sm.add_constant(X)

In [5]:
# GLM객체 생성 후 적합
model=sm.GLM(y,X,family=sm.families.Binomial()).fit()
print(model.summary())

                 Generalized Linear Model Regression Results                  
Dep. Variable:               survived   No. Observations:                  541
Model:                            GLM   Df Residuals:                      539
Model Family:                Binomial   Df Model:                            1
Link Function:                  Logit   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:                -315.13
Date:                Mon, 25 Nov 2024   Deviance:                       630.26
Time:                        17:51:48   Pearson chi2:                     541.
No. Iterations:                     4   Pseudo R-squ. (CS):             0.1527
Covariance Type:            nonrobust                                         
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
const         -1.1558      0.124     -9.293      0.0

p 값이 모두 0에 가깝기 때문에 통게적으로 유의미하다

In [7]:
import numpy as np

# A등급의 추정 생존 확률
Prob_A=np.exp(-1.1588+0*1.8009)/(1+np.exp(-1.1558+0*1.8009))

# B등급의 추정 생존 확률
Prob_B=np.exp(-1.1588+1*1.8009)/(1+np.exp(-1.1558+1*1.8009))

print(Prob_A,Prob_B)

0.2387140669994154 0.6539406433022109


In [8]:
#### 모형의 적합도 검정

# 적합모형의 이탈도
dev=model.deviance
print(dev)

630.2646521014273


In [9]:
# 영모형의 이탈도
dev0=model.null_deviance
print(dev0)

719.8918959915944


In [10]:
# 카이제곱통계량과 자유도 
stat=dev0-dev
df=2-1  # 적합모형의 회귀계수의 수-영모형의 회귀계수의 수
print(stat,df)


89.62724389016716 1


In [11]:
from scipy.stats import chi2
pval=1-chi2.cdf(stat,df)    # 유의확률
print(pval) # 모형이 잘 적합하고 있음

0.0
