# 🥝 카이제곱 검정 with 로지스틱 회귀분석
- 카이제곱 검정은 범주형 데이터의 분포를 비교하거나 두 변수 간의 연관성 유무를 확인하기 위해 사용합니다. 
- 적합성 검정과 독립성 검정이 있습니다.
- 적합성 검정은 실험에서 관찰된 데이터와 기대 분포(이론적 분포)의 차이를 측정하여, 관찰된 데이터와 기대 분포 간의 차이를 측정하여 이론적 분포를 따르는지 검정합니다.
- 독립성 검정은 관찰된 빈도와 기대 빈도의 차이를 측정하여 두 변수 사이의 연관성이나 분포의 일치성을 검정합니다.
- 로지스틱 회귀분석은 종속 변수를 예측하는 데 사용합니다.
- 문제에서 어떠한 독립 변수를 사용해서 종속 변수를 예측하고자 하는지 잘 확인해서 모델을 만들어야 합니다.

### 🥝 문제
- 제공된 데이터는 타이타닉 데이터셋이다. 아래 데이터를 이용하여 생존 여부(Survived)를 예측하고자 한다. 
1. 성별(Sex)과 생존 여부(Survived) 변수 간에 독립성 검정을 실시하였을 때 카이제곱 통계량은 얼마인가?
2. Sex, SibSp, Parch, Fare를 독립 변수로 사용하여 로지스틱 회귀모형을 만들었을 때, Parch 변수의 계수값은?(반올림하여 소수 셋째자리까지 계산)
3. 2번 문제에서 추정된 로지스틱 회귀모형에서 SibSp 변수가 한 단위 증가할 때 생존할 오즈비 값은? (반올림하여 소수 셋째자리까지 계산)

### 🥝 힌트
- 문제에서 독립성 검정이라는 지시문이 나왔으므로 독립성 검정을 실시합니다.
- 독립성 검정은 scipy.stats에서 chisquare 함수를 임포트하여 수행할 수 있습니다.
- 로지스틱 회귀모형의 계수값은 logit().fit().summary()의 coef(coefficient)에서 확인 가능합니다.

### 🥝 1번 문제 
- 성별(Sex)과 생존 여부(Survived) 변수 간에 독립성 검정을 실시하였을 때 카이제곱 통계량은 얼마인가?

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../../datasets/Part3/titanic.csv')

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        773 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- 카이제곱 검정 중에서도 독립성 검정을 수행하기 위해서는 먼저 분할표를 만든 뒤 chi2_contingency 함수에 분할표를 입력하여 사용합니다.

In [3]:
table = pd.crosstab(df['Sex'], df['Survived'])
print(table)

Survived    0    1
Sex               
female     81  233
male      468  109


In [4]:
from scipy.stats import chi2_contingency

chi2, p_value, dof, exp = chi2_contingency(table)
print('카이제곱 통계량은? :', chi2)
print('p_value는? :', p_value)

카이제곱 통계량은? : 260.71702016732104
p_value는? : 1.1973570627755645e-58


In [5]:
print('카이제곱 통계량(소수점 셋째자리) :', round(chi2, 3))

카이제곱 통계량(소수점 셋째자리) : 260.717


In [6]:
if p_value > 0.05 :
    print('귀무가설 채택')
else :
    print('귀무가설 기각')

귀무가설 기각


### 🥝 2번 문제 
- Sex, SibSp, Parch, Fare를 독립 변수로 사용하여 로지스틱 회귀모형을 만들었을 때, Parch 변수의 계수값은?

In [7]:
from statsmodels.formula.api import logit

result = logit('Survived ~ Sex + SibSp + Parch + Fare', data = df).fit().summary()
print(result)

Optimization terminated successfully.
         Current function value: 0.482065
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               Survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      886
Method:                           MLE   Df Model:                            4
Date:                Mon, 17 Jun 2024   Pseudo R-squ.:                  0.2761
Time:                        15:41:47   Log-Likelihood:                -429.52
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 1.192e-69
                  coef    std err          z      P>|z|      [0.025      0.975]
-------------------------------------------------------------------------------
Intercept       0.9466      0.169      5.590      0.000       0.615       1.279
Sex[T.male]    -2.6422    

- 계수값은 coef를 확인하면 됩니다.

In [8]:
print('Parch의 계수값은?', round(-0.2007, 3))

Parch의 계수값은? -0.201


### 🥝 3번 문제
- 2번 문제에서 추정된 로지스틱 회귀모형에서 SibSp 변수가 한 단위 증가할 때 생존할 오즈비 값은? 

In [9]:
result2 = logit('Survived ~ Sex + SibSp + Parch + Fare', data=df).fit().params
print(result2)

Optimization terminated successfully.
         Current function value: 0.482065
         Iterations 6
Intercept      0.946635
Sex[T.male]   -2.642219
SibSp         -0.353892
Parch         -0.200724
Fare           0.014685
dtype: float64


- 로지스틱 회귀 모델에서 계수는 독립 변수의 값이 한 단위 증가할 때 종속 변수의 자연로그 오즈비가 얼마나 변하는지를 나타냅니다. 이 값을 오즈비(odds ratio)로 변환하려면 지수 함수(exponential function)를 사용해야 합니다.
- 지수 함수로 바꾸기 위해 np.exp()를 사용합니다.

In [10]:
print('\n오즈비 : ', np.exp(result2['SibSp']))


오즈비 :  0.7019508186162718


In [11]:
round(np.exp(result2['SibSp']), 3)

0.702