### 적합성 검정

In [19]:
# 타이타닉 데이터로 적합성 검정해보기
    # 귀무가설(H0) : 타이타닉호의 생존자 중 남자의 비율이 50%, 여자의 비율이 50%이다.
    # 대립가설(H1) : 타이타닉호의 생존자 중 남자의 비율이 50%, 여자의 비율이 50%이라고 할 수 없다.

import pandas as pd
df = pd.read_csv('./data/titanic.csv')
print(df.info())
print('\n=====\n')

# 생존자 중 남녀 비율 확인
df_t = df[df.Survived == 1]
print(df_t['Sex'].value_counts())
print('\n=====\n')
# 확인 결과 남자 109, 여자 233이므로 총 342명이다.
    # 즉, 비율이 50:50이라면 각 171명이어야 한다.

# 유의수준 0.05로 적합성 검정하기
from scipy.stats import chisquare
chi = chisquare(df_t['Sex'].value_counts(), f_exp = [171, 171])
print('적합성 검정\n', chi)

# p-value가 유의수준보다 작으므로 귀무가설을 기각하고 대립가설을 채택한다.
    # 즉, 타이타닉호의 생존자 중 남자의 비율이 50%, 여자의 비율이 50%이라고 할 수 없다.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB
None

=====

female    233
male      109
Name: Sex, dtype: int64

=====

적합성 검정
 Power_divergenceResult(statistic=44.95906432748538, pvalue=2.0119672574477235e-11)


---

### 독립성 검정

In [20]:
# 귀무가설(H0) : class 변수와 survived 변수는 서로 독립이다.
# 대립가설(H1) : class 변수와 survived 변수는 서로 독립이 아니다.

# 교차표 만들기 (pd.crosstab(index, column)
df_1 = pd.crosstab(df['Pclass'], df['Survived'])
print(df_1)

# 독립성 검정하기
from scipy.stats import chi2_contingency # contingency : 우연
chi, p, df, expect = chi2_contingency(df_1)
print('Statistic : ', chi)
print('p-value : ', p)
print('df : ', df)
print('expect : \n', expect)

# p-value가 유의수준보다 작으므로 귀무가설을 기각하고 대립가설을 채택한다.
    # 즉, class 변수와 survived 변수는 서로 독립이 아니다.

Survived    0    1
Pclass            
1          80  136
2          97   87
3         372  119
Statistic :  102.88898875696056
p-value :  4.549251711298793e-23
df :  2
expect : 
 [[133.09090909  82.90909091]
 [113.37373737  70.62626263]
 [302.53535354 188.46464646]]
