In [2]:
# 데이터셋 정의
data = [[1, 2], [2, 3], [2, 0]]

In [3]:
import pandas as pd
import scipy.stats as stats

# 자유도 설정
degrees_of_freedom = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

# 주요 유의수준 설정
significance_levels = [0.99, 0.95, 0.90, 0.75, 0.50, 0.25, 0.10, 0.05, 0.01]
significance_levels_mapping = {0.99 : 1, 0.95 : 2, 0.90 : 3, 0.75 : 4, 0.50 : 5, 0.25 : 6, 0.10 : 7, 0.05 : 8, 0.01 : 9}

# 자유도별 임계값 계산을 위한 데이터프레임 생성
chi_square_table = []
chi_square_table.append([])

# 각 자유도별로 임계값 계산
for df in degrees_of_freedom:
    row = [df]  # 각 행의 첫 번째 열은 자유도
    for alpha in significance_levels:
        critical_value = round(stats.chi2.ppf(1 - alpha, df), 3)
        row.append(critical_value)
    chi_square_table.append(row)


'''# 결과 출력을 보기 좋게 형식화
for row in chi_square_table:
    print('\t'.join(map(str, row)))'''

"# 결과 출력을 보기 좋게 형식화\nfor row in chi_square_table:\n    print('\t'.join(map(str, row)))"

In [4]:
x = len(data)
y = len(data[0])

print(data)
print(f"행 길이 : {x}, 열 길이 : {y}")

[[1, 2], [2, 3], [2, 0]]
행 길이 : 3, 열 길이 : 2


In [5]:
# 합계 열 추가

import copy
data_copy = copy.deepcopy(data) # 깊은 복사

data_copy[0].append(sum(data[0]))
data_copy[1].append(sum(data[1]))
data_copy[2].append(sum(data[2]))

data_copy

[[1, 2, 3], [2, 3, 5], [2, 0, 2]]

In [7]:
# 합계 행 추가
count = 0
li = []

for j in range(y+1):
    for i in range(x):
        count += data_copy[i][j]

    li.append(count)
    count = 0

data_copy.append(li)
data_copy

[[1, 2, 3], [2, 3, 5], [2, 0, 2], [5, 5, 10]]

In [8]:
# 기대 도수 계산
ex_frequency = [[0 for _ in range(y)] for _ in range(x)]

for i in range(x):
    for j in range(y):
        ex_frequency[i][j] = (data_copy[i][y] * data_copy[x][j]) / data_copy[x][y]

ex_frequency

[[1.5, 1.5], [2.5, 2.5], [1.0, 1.0]]

In [9]:
# 카이 제곱 통계량 계산
chi_squared = [[0 for _ in range(y)] for _ in range(x)]

for i in range(x):
    for j in range(y):
        chi_squared[i][j] = round((((data[i][j] - ex_frequency[i][j]) ** 2) / ex_frequency[i][j]), 3)

print(chi_squared)
chi_square = sum(sum(ix) for ix in chi_squared)
print(f"카이 제곱 평균은 {chi_square}입니다.")

[[0.167, 0.167], [0.1, 0.1], [1.0, 1.0]]
카이 제곱 평균은 2.534입니다.


In [10]:
# 자유도 기반 임계값 계산

df = (x - 1) * (y - 1) # 자유도 (행 - 1) * (열 - 1)
p_value = 0.05
p_value_level = significance_levels_mapping[p_value]

threshold = chi_square_table[df][p_value_level]
threshold

5.991

In [11]:
# Result & Evaluate

print(f"Chi-Square 값은 {chi_square}입니다.")
print(f"자유도 {df}, 유의 확률 {p_value} 일때의 임계값 {threshold}을 가집니다.\n")

print(f"{chi_square} < {threshold} 이므로 해당 데이터는 서로 유의미한 관계라고 보기 어려움." if (chi_square < threshold) else f"{chi_square} > {threshold} 이므로 해당 데이터는 서로 유의미한 관계라고 볼 수 있음.")

Chi-Square 값은 2.534입니다.
자유도 2, 유의 확률 0.05 일때의 임계값 5.991을 가집니다.

2.534 < 5.991 이므로 해당 데이터는 서로 유의미한 관계라고 보기 어려움.
