<a href="https://colab.research.google.com/github/jason96819/Studying/blob/main/statics/chi_squared_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 적합도 검정

In [1]:
from scipy.stats import chi2

# 검정통계량과 자유도
test_statistic = 10.4
degrees_of_freedom = 3

# p-value 계산
p_value = 1 - chi2.cdf(test_statistic, degrees_of_freedom)

print("P-value:", p_value)

P-value: 0.015454827216857758


가정을 하나로, 주사위를 여러 번 던져서 나오는 눈의 분포가 균등한지를 검정하는 경우입니다. 이는 주사위의 각 면이 나올 확률이 동일하다는 가정을 테스트하는데 사용됩니다.

다음은 Python을 사용하여 이 검정을 수행하는 코드의 간단한 예시입니다. 여기서는 주사위 600번을 던진 결과를 사용하여 검정을 실시합니다.

In [3]:
import numpy as np
from scipy.stats import chisquare

# 주사위 눈의 기대 확률 (균등한 분포를 가정)
expected_probabilities = [1/6] * 6

# 주사위 600번 던진 결과
observed_values, _ = np.histogram(np.random.randint(1, 7, size=600), bins=6)

# 기대 빈도 계
expected_frequencies = np.array(expected_probabilities) * np.sum(observed_values)

# 카이제곱 적합도 검정
chi2_statistic, p_value = chisquare(observed_values, f_exp=expected_frequencies)

# 결과 출력
print("Chi-Square Statistic:", chi2_statistic)
print("P-value:", p_value)

# 가설검정
alpha = 0.05
if p_value < alpha:
    print("귀무가설 기각: 주사위의 눈의 분포가 균등하지 않다.")
else:
    print("귀무가설 채택: 주사위의 눈의 분포가 균등하다.")

Chi-Square Statistic: 6.7
P-value: 0.2439246425643036
귀무가설 채택: 주사위의 눈의 분포가 균등하다.


이 코드에서는 NumPy를 사용하여 주사위를 600번 던진 결과를 생성하고, scipy.stats 모듈의 chisquare 함수를 사용하여 카이제곱 적합도 검정을 수행합니다. 코드의 출력은 검정 통계량과 p-value를 나타내며, 주어진 유의수준(여기서는 0.05)과 비교하여 귀무가설을 기각하거나 채택합니다.

# 독립성 검정

In [4]:
from scipy.stats import chi2

# 검정통계량과 자유도
test_statistic = 6.34
degrees_of_freedom = 2

# p-value 계산
p_value = 1 - chi2.cdf(test_statistic, degrees_of_freedom)

print("P-value:", p_value)

P-value: 0.042003597903445544


독립성 검정을 수행하기 위해 scipy.stats 모듈의 chi2_contingency 함수를 사용할 수 있습니다. 이 함수는 관찰된 빈도를 입력으로 받아 카이제곱 독립성 검정을 수행하고, 검정 통계량, p-value, 자유도, 기대 빈도를 반환합니다.

In [6]:
import numpy as np
from scipy.stats import chi2_contingency

# 가상의 데이터 생성
np.random.seed(42)  # 재현성을 위해 시드 고정
male_coffee = np.random.randint(15, 25, size=100)
male_tea = np.random.randint(20, 30, size=100)
male_juice = np.random.randint(5, 15, size=100)

female_coffee = np.random.randint(20, 30, size=100)
female_tea = np.random.randint(15, 25, size=100)
female_juice = np.random.randint(10, 20, size=100)

# 데이터 배열 생성
data = np.array([male_coffee, male_tea, male_juice, female_coffee, female_tea, female_juice])

# 카이제곱 독립성 검정
chi2_stat, p_value, _, expected_freq = chi2_contingency(data)

# 결과 출력
print("Chi-Square Statistic:", chi2_stat)
print("P-value:", p_value)

# 유의수준 5%에서의 검정
alpha = 0.05
print("Significance Level (alpha):", alpha)

if p_value < alpha:
    print("결과: 귀무가설을 기각합니다. 성별과 선호하는 음료는 독립적이지 않습니다.")
else:
    print("결과: 귀무가설을 채택합니다. 성별과 선호하는 음료는 독립적입니다.")

Chi-Square Statistic: 270.1036071845948
P-value: 1.0
Significance Level (alpha): 0.05
결과: 귀무가설을 채택합니다. 성별과 선호하는 음료는 독립적입니다.


이 코드에서는 각 성별에 대해 커피, 차, 주스를 선호하는 100명의 가상의 데이터를 생성하고, 이를 하나의 배열로 합쳐 chi2_contingency 함수에 전달합니다. 결과를 통해 성별과 선호하는 음료 간의 독립성에 대한 가설을 확인할 수 있습니다.

# 동질성 검정

동질성 검정은 동일한 모집단에서 추출된 여러 표본 또는 동일한 특성을 가진 여러 모집단이 동일한 범주형 변수의 분포를 가지는지를 확인하는 검정입니다. 아래는 간단한 동질성 검정의 예시 코드입니다.

In [7]:
import numpy as np
from scipy.stats import chi2_contingency

# 가상의 데이터 생성
np.random.seed(42)  # 재현성을 위해 시드 고정
sample1 = np.random.choice(['A', 'B', 'C'], size=150)
sample2 = np.random.choice(['A', 'B', 'C'], size=150)
sample3 = np.random.choice(['A', 'B', 'C'], size=150)

# 데이터 배열 생성
data = np.array([np.unique(sample1, return_counts=True)[1],
                 np.unique(sample2, return_counts=True)[1],
                 np.unique(sample3, return_counts=True)[1]])

# 동질성 검정
chi2_stat, p_value, _, expected_freq = chi2_contingency(data)

# 결과 출력
print("Chi-Square Statistic:", chi2_stat)
print("P-value:", p_value)

# 유의수준 5%에서의 검정
alpha = 0.05
print("Significance Level (alpha):", alpha)

if p_value < alpha:
    print("결과: 귀무가설을 기각합니다. 적어도 하나의 표본은 다른 표본들과 동일한 범주형 변수의 분포를 가지지 않습니다.")
else:
    print("결과: 귀무가설을 채택합니다. 모든 표본들은 동일한 범주형 변수의 분포를 가지고 있습니다.")

Chi-Square Statistic: 1.2574649040086827
P-value: 0.8685497810603191
Significance Level (alpha): 0.05
결과: 귀무가설을 채택합니다. 모든 표본들은 동일한 범주형 변수의 분포를 가지고 있습니다.


이 코드에서는 3개의 표본이 동일한 범주형 변수에 대해 각각 A, B, C를 선택하는지를 확인하는 동질성 검정을 수행합니다. 결과를 통해 각 표본이 동일한 분포를 가지는지를 판단할 수 있습니다.