### Pclass, Gender, sibsp, parch를 독립변수로 사용하여 로지스틱 회귀모형을 실시하였을 때, parch변수의 계수값은?
(반올림하여 소수 셋째 자리까지 계산)

### 로지스틱 회귀 방정식

## $logit(P) = ln(\frac{P}{1-P}) = \beta_0 + \beta_1X_1 + \beta_2X_2 + ... + \beta_nX_n$

- 로지스틱 회귀란, 독립 변수들의 선형 결합을 사용하여 로그 오즈를 계산하고, 이를 시그모이드 함수를 통해 확률로 변환하여 이진 종속 변수를 예측하는 모델
- **이진 종속 변수**를 **여러 개의 독립 변수**를 사용하여 예측 시 사용
- 적용 분야 : 스팸 메일 분류, 환자의 질병 여부
- $logit(P)$ 는 성공 확률 P의 로그 오즈($log-odds$). 즉, $logit(P) = ln(\frac{P}{1-P})$
    - 오즈 : 성공확률 P와 실패 확률 1-P의 비율로 정의. $odds = \frac{P}{1-P}$
    - 로그 오즈 : 오즈에 자연로그를 취한 값. 이를 통해 선형 회귀와 유사한 형태의 모델 만듬
- $\beta_0$는 절편(intercept)
- $\beta_1, \beta_2, ..., \beta_n$은 각 독립 변수 $X_1, X_2, ..., X_n$의 계수

- 왜 로그 오즈를 사용하는가?
    - 선형 관계 유지: 로그 오즈를 사용하면 독립 변수와 종속 변수 간의 선형 관계를 유지할 수 있습니다. 이는 선형 회귀 분석의 기본 개념을 로지스틱 회귀에 적용할 수 있게 합니다.
    - 확률 변환: 로그 오즈는 모든 실수 값을 가질 수 있으며, 이는 독립 변수들의 선형 조합으로 표현될 수 있습니다. 이후 이 값을 확률로 변환하여 예측할 수 있습니다.

In [51]:
import pandas as pd
from statsmodels.formula.api import logit

In [52]:
df = pd.read_csv("dataset/Titanic.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Gender       891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [53]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Gender,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [54]:
formula = 'Survived ~ C(Pclass) + C(Gender) + SibSp + Parch'
from statsmodels.formula.api import logit
model = logit(formula, data=df).fit()

Optimization terminated successfully.
         Current function value: 0.459565
         Iterations 6


In [61]:
model.summary()

0,1,2,3
Dep. Variable:,Survived,No. Observations:,891.0
Model:,Logit,Df Residuals:,885.0
Method:,MLE,Df Model:,5.0
Date:,"Fri, 21 Jun 2024",Pseudo R-squ.:,0.3099
Time:,19:52:42,Log-Likelihood:,-409.47
converged:,True,LL-Null:,-593.33
Covariance Type:,nonrobust,LLR p-value:,2.687e-77

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,2.4917,0.239,10.432,0.000,2.024,2.960
C(Pclass)[T.2],-0.8482,0.247,-3.439,0.001,-1.331,-0.365
C(Pclass)[T.3],-1.8669,0.215,-8.682,0.000,-2.288,-1.445
C(Gender)[T.male],-2.7603,0.196,-14.116,0.000,-3.144,-2.377
SibSp,-0.2326,0.099,-2.341,0.019,-0.427,-0.038
Parch,-0.0498,0.110,-0.451,0.652,-0.266,0.167


In [55]:
print(round(model.params, 3))

Intercept            2.492
C(Pclass)[T.2]      -0.848
C(Pclass)[T.3]      -1.867
C(Gender)[T.male]   -2.760
SibSp               -0.233
Parch               -0.050
dtype: float64


In [56]:
ans = round(model.params['Parch'], 3)
print(ans)

-0.05


In [57]:
model.llf

-409.47222632753983

In [58]:
model.llf * (-2)

818.9444526550797

In [76]:
model.pvalues

Intercept            1.771727e-25
C(Pclass)[T.2]       5.832502e-04
C(Pclass)[T.3]       3.899724e-18
C(Gender)[T.male]    3.020052e-45
SibSp                1.924205e-02
Parch                6.517780e-01
dtype: float64

### 로지스틱 모델 피팅 결과 해석
- intercept : 모든 독립 변수가 0일 때 종속 변수가 발생할 로그 오즈의 추정치
- C(Pclass)[T.2], C(Pclass)[T.3] : 이들은 Pclass(승객의 좌석 등급)에 대한 더미 변수입니다. 각 등급에 대해 비교되는 기준 등급은 1등급입니다. 즉, Pclass가 2인 경우에는 Pclass가 1인 경우보다 로그 오즈가 -0.848만큼 낮고, Pclass가 3인 경우에는 -1.867만큼 낮다는 것을 의미합니다.
- C(Gender)[T.male]: 이것은 Gender(성별)에 대한 더미 변수입니다. 여성을 기준으로 비교되며, 남성일 경우 로그 오즈가 -2.760만큼 낮다는 것을 의미합니다. 즉, 여성이 남성보다 생존할 확률이 높습니다.
- SibSp, Parch: 이들은 각각 형제자매/배우자의 수와 부모/자녀의 수에 대한 수치형-이산형 변수입니다. 이들의 계수는 해당 변수가 한 단위 증가할 때 로그 오즈의 변화를 나타냅니다. 예를 들어, SibSp가 1 증가할 때마다 로그 오즈가 -0.233만큼 감소하고, Parch가 1 증가할 때마다 -0.050만큼 감소한다는 것을 의미합니다.