# 🍁 ANOVA(일원분산분석) with 로지스틱 회귀분석
- ANOVA는 하나의 범주형 독립 변수와 하나의 연속형 종속 변수 간의 관계를 파악하는 데 사용되는 통계적 방법입니다.
- 주로 범주형 독립 변수가 세 개 이상의 수준을 가지는 경우에 사용됩니다. 
- 여러 수준(그룹) 간의 평균 차이를 비교하여 그 차이가 우연적인 것인지를 판단합니다.
- 귀무가설은 각 그룹의 평균이 같다는 것입니다.

### 🍁 문제
- 제공된 데이터는 타이타닉 데이터셋이다. 아래 데이터를 이용하여 생존 여부(Survived)를 예측하고자 한다.
1. 승선 티켓 등급(Pclass) 변수에 따라 요금(Fare) 변수가 달라지는지 일원분산분석을 실시할 때 F-통계량은 얼마인가?
2. Pclass, SibSp, Parch, Fare를 독립 변수로 사용하여 로지스틱 회귀모형을 만들었을 때, 요금 (Fare) 변수의 계수값은?(반올림하여 소수 둘째자리까지 계산)
3. 2번 문제에서 추정된 로지스틱 회귀모형에서 Parch 변수가 한 단위 증가할 때 생존할 오즈비 값은?(반올림하여 소수 둘째자리까지 계산)  
(* 주어진 데이터는 정규성과 등분산성을 만족한다고 가정한다.)

### 🍁 힌트
- 승선 티켓 등급(Pclass)은 범주형 독립 변수이고, 요금(Fare)은 연속형 종속 변수입니다.
- 승선 티켓 등급(Pclass)은 세 개의 범주를 가지고 있습니다.
- ANOVA는 stats.f_oneway에서 f_oneway를 임포트하여 사용할 수 있습니다.

### 🍁 1번 문제
- 승선 티켓 등급(Pclass) 변수에 따라 요금(Fare) 변수가 달라지는지 일원분산분석을 실시할 때 F-통계량은 얼마인가?

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('../../datasets/Part3/titanic.csv')

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        773 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


- 💦 f_oneway 함수는 각 그룹의 데이터를 배열(array) 형태로 입력으로 받습니다. 따라서 각 승선 클래스마다 요금 컬럼을 가져와야 합니다.

In [3]:
from scipy.stats import f_oneway

pclass_1 = df[df['Pclass'] == 1]['Fare']
pclass_2 = df[df['Pclass'] == 2]['Fare']
pclass_3 = df[df['Pclass'] == 3]['Fare']

pclass_1

1      71.2833
3      53.1000
6      51.8625
11     26.5500
23     35.5000
        ...   
871    52.5542
872     5.0000
879    83.1583
887    30.0000
889    30.0000
Name: Fare, Length: 216, dtype: float64

In [4]:
f_statistics, p_value = f_oneway(pclass_1, pclass_2, pclass_3)
print('f-통계량 :', f_statistics)
print('p-value :', p_value)

f-통계량 : 242.34415651744814
p-value : 1.0313763209141171e-84


In [5]:
print('f-통계량(소수점 둘째자리 까지) :', round(f_statistics, 2))
if p_value > 0.05 : 
    print('귀무가설 채택')
else : 
    print('귀무가설 기각')

f-통계량(소수점 둘째자리 까지) : 242.34
귀무가설 기각


### 🍁 2번 문제
- Pclass, SibSp, Parch, Fare를 독립 변수로 사용하여 로지스틱 회귀모형을 만들었을 때, 요금 (Fare) 변수의 계수값은?(반올림하여 소수 둘째자리까지 계산)

In [6]:
from statsmodels.formula.api import logit

result = logit('Survived ~ Pclass + SibSp + Parch + Fare', data=df).fit().summary()
print(result)

Optimization terminated successfully.
         Current function value: 0.599982
         Iterations 6
                           Logit Regression Results                           
Dep. Variable:               Survived   No. Observations:                  891
Model:                          Logit   Df Residuals:                      886
Method:                           MLE   Df Model:                            4
Date:                Mon, 17 Jun 2024   Pseudo R-squ.:                 0.09901
Time:                        17:28:37   Log-Likelihood:                -534.58
converged:                       True   LL-Null:                       -593.33
Covariance Type:            nonrobust   LLR p-value:                 1.838e-24
                 coef    std err          z      P>|z|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      0.9117      0.300      3.035      0.002       0.323       1.501
Pclass        -0.6953      0.

In [7]:
print('Fare의 계수 : ', round(0.0051, 2))

Fare의 계수 :  0.01


### 🍁 3번 문제
- 2번 문제에서 추정된 로지스틱 회귀모형에서 Parch 변수가 한 단위 증가할 때 생존할 오즈비 값은?

In [8]:
result2 = logit('Survived ~ Pclass + SibSp + Parch + Fare', data=df).fit().params
print(result2)

Optimization terminated successfully.
         Current function value: 0.599982
         Iterations 6
Intercept    0.911733
Pclass      -0.695311
SibSp       -0.146508
Parch        0.255708
Fare         0.005073
dtype: float64


- 로지스틱 회귀 모델에서 계수는 독립 변수의 값이 한 단위 증가할 때 종속 변수의 자연로그 오즈비가 얼마나 변하는지를 나타냅니다. 이 값을 오즈비(odds ratio)로 변환하려면 지수 함수(exponential function)를 사용해야 합니다.
- 지수 함수로 바꾸기 위해 np.exp()를 사용합니다.

In [9]:
print('오즈비 : ', np.exp(result2['Parch']))

오즈비 :  1.2913757420871537


In [10]:
print(round(np.exp(result2['Parch']), 2)) # 오즈비가 클수록 해당 독립 변수가 종속 변수에 영향 많이 끼침

1.29
