# 단일 표본 모분산 검정(카이제곱 검정)


In [None]:
import numpy as np
from scipy.stats import chi2

data = np.array([14.2,15.1,14.8,15.4,14.9,15.2,14.6,15.0])

# 가설설정
# 귀무가설 : 모분산은 1.0과 같다.
# 대립가설 : 모분산은 1.0과 다르다.

population_variance = 1.0

# 검정통계량 = (n-1) * 표본분산 / 모분산
sample_variance = np.var(data)
n = len(data)
chi2_stat  = (n-1) * sample_variance / population_variance

# 카이제곱 분포의 자유도
degrees_of_freedom = n-1

# p-값 계산
p_value = 1 - chi2.cdf(chi2_stat, degrees_of_freedom)

# 결과 출력
print("Chi-Squre Statistic:",chi2_stat)
print('p_value:',p_value)

# 유의수준 0.05로 가설 설정
alpha = 0.05
if p_value < 0.05:
  print("귀무가설을 기각합니다. 모분산은 1.0과 다릅니다")
else:
  print('귀무가설을 기각하지 못합니다. 모분산은 1.0과 같습니다')

Chi-Squre Statistic: 0.8575000000000008
p_value: 0.9968119115718612
귀무가설을 기각하지 못합니다. 모분산은 1.0과 같습니다


# 두 모분산 비에 대한 가설 설정(F-검정:일원분산분석)

- 모분산 비에 대한 가설 검정은 두 모집단의 분산이 동일한지 여부를 확인하는 통계적 검정

- t검정을 반복하면 비교횟수 증가, 제 1종오류의 확률 증가로 인해서 3개 이상의 집단에서는 헌번에 검정

- 기본원리: 각 집단의 **평균차이(집단 간 분산)**와 집단 내의 **개인 편차(집단 내 분산)** 를 비교하여 비율이 클수록 집단 간 평균차이가 유의미하다고 판단할 가능성이 높음

✅ 결론
일원분산분석을 하는 이유는
"세 개 이상의 집단 평균 간 차이를 통계적으로 유의미하게 검정하기 위해서"입니다.
이를 통해 평균 차이의 존재 여부는 파악할 수 있으며, 차이가 어느 집단 간에 있는지는 사후검정(post-hoc test)으로 추가 분석합니다.

In [None]:
# 2개의 표본을 생성

import numpy as np
np.random.seed(123)
sample1 = np.random.normal(loc=5,scale=2,size=50)
sample2 = np.random.normal(loc=5,scale=3,size=50)

print(sample1)
print(sample2)

[ 2.82873879  6.99469089  5.565957    1.98741057  3.8427995   8.30287307
  0.14664151  4.14217474  7.53187252  3.2665192   3.6422277   4.81058206
  7.98277925  3.72219601  4.11203608  4.13129745  9.41186017  9.37357218
  7.0081078   5.7723728   6.47473715  7.98146406  3.12833226  7.35165809
  2.49223866  3.724497    6.81421039  2.1426386   4.71986256  3.27649021
  4.48876126 -0.59717821  1.45693379  3.60024553  6.85492486  4.65272863
  5.00569183  6.37644542  3.24092731  5.56725465  3.38926696  1.54466101
  4.21820041  6.14761172  5.6771781   4.97633901  9.78473053  5.82582432
  6.95747201  9.47628668]
[ 1.11774403  1.88363537 10.23113668  2.60581179  5.08904969  8.20794791
  7.67211917 10.26465855  9.48693241  8.20817801  2.68187386  7.384588
  5.94281598  1.02120362  9.25189714  7.4217096   5.13647024  4.30072382
  1.40509657  5.59857222  6.40531736  2.50653505  8.48661215  1.70839086
 -1.36930105  8.11918127  3.78990189  4.62191124  2.48744983  0.18211172
  8.76571212  2.93339305  9

In [None]:
# 분산이 동일한지 검정

from scipy import stats

# 두 표본의 분산 계산
sample1_var = np.var(sample1,ddof=1) # ddof=1은 표본분산 구하는 방법
sample2_var = np.var(sample2,ddof=1)

# F-검정 실행
f_statistic = sample1_var/sample2_var
df1 = len(sample1)-1
df2 = len(sample2)-1
p_value = 1-stats.f.cdf(f_statistic,df1,df2)

print(f'표본1의 분산  ; {sample1_var}')
print(f'표본2의 분산 : {sample2_var}')
print(f'f통계량 : {f_statistic:.4f}')  # 1보다 작으므로 표본1의 분산이 더 작음을 알 수 있다.

alpha = 0.05
if p_value < alpha:
  print('귀무가설을 기각합니다, 두 표본의 모분산은 다릅니다')
else:
  print('귀무가설을 기각하지 못합니다. 두 표본의 모분산은 같을 가능성이 있습니다.')

표본1의 분산  ; 5.776336488392834
표본2의 분산 : 10.380009661082248
f통계량 : 0.5565
귀무가설을 기각하지 못합니다. 두 표본의 모분산은 같을 가능성이 있습니다.


# 독립성 검정(카이제곱 검정)

 - 관찰된 빈도와 기대빈도가 통계적으로 유의미한 차이가 있는지 판단.

- 주로 범주형 데이터 간의 관계를 분석할 때 사용

- 또는 특정 조건 하에서 범주 간의 분초가 기대와 다른지를 검절하는데에 쓰임.

- 관찰된 빈도와 기대빈도 사이의 차이를 계산하여 이를 검정통계량으로 사용.

In [None]:
from scipy.stats import chi2_contingency

# 주어진 데이터를 메트릭스로 입력
data_matrix = np.array([[50,75,125,175],[90,30,45,10]])

# 카이제곱 검정 수행
chi2, p ,df, excpeted = chi2_contingency(data_matrix)

# 결과 출력
print("Chi-square statistic", chi2)
print('P-value',p)
print('Degree of freedom:',df)
print("Excepted Table")
print(excpeted)

Chi-square statistic 134.7511341579557
P-value 5.117490956087995e-29
Degree of freedom: 3
Excepted Table
[[ 99.16666667  74.375      120.41666667 131.04166667]
 [ 40.83333333  30.625       49.58333333  53.95833333]]


# 실습 따라하기

타이타닉 데이터셋을 이용하여 다음 아래 질문에 답하시오.

(1) 셍존여부와 성별 간의 독립성 검정을 수행하시오.

(2) 생존여부와 연령대 간의 독립성 검정을 수행하시오.

In [7]:
# 생존여부와 성별간의 독립성 검정

import pandas as pd

titanic = pd.read_csv('https://raw.githubusercontent.com/YoungjinBD/dataset/main/titanic.csv')
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [8]:
from scipy.stats import chi2_contingency

# 교차표 생성
cross_table = pd.crosstab(titanic['Sex'],titanic['Survived'])

# 카이제곱 검정수행
chi2,p,df,excpeted = chi2_contingency(cross_table)

print(p) # 귀무가설 기각, 두 변수간의 유의미한 관련성이 있다고 판단

1.1973570627755645e-58


In [None]:
# 생존여부와 나이간의 독립성 검정
# 나이를 범주형으로 변환이 가능하다는 점

def categorize_age(age):
  if age < 20: