## 성별과 시험합격은 독립적인가를 검정하시오!
1. 검정 통계량을 구하시오.
    - 독립성 검정에서 사용 되며, 관찰된 빈도와 기대되는 빈도 간의 차이를 측정
2. p-value를 구하시오.
    - 주어진 데이터에서 관찰된 결과가 우연히 발생할 확률
    - 즉, 귀무가설이 참일 때, 관찰된 결과보다 더 극단적인 결과를 얻을 확률
    - 작은 p-value는 우연히 발생한 것이 아님을 의미하며 보통 0.05 보다 작으면 통계적으로 유의함
3. 귀무가설 기준 기각 또는 채택 여부를 결정하시오.
    - 귀무가설은 "성별과 시험 합격 여부는 독립적이다"
    - 유의수준($\alpha$)은 귀무가설을 기각할 기준을 나타내며 보통 0.05 또는 0.01
    - p-value가 유의수준보다 작으면 귀무가설 기각하고 성별과 시험 합격 여부가 독립적이지 않다고 결론
    - p-value가 유의수준보다 높으면 귀무가설 채택하고 성별과 시험 합격 여부가 독립적이라고 결론
4. 남자의 합격 기대 빈도를 구하시오.
    - 독립적이라 가정할 경우, 남자 총합 * 합격 총합 / 전체

![image.png](attachment:d6214446-b26d-4a51-8a24-8f1bbbec5c1f.png)

## 카이제곱 검정
- 주어진 데이터로부터 성별과 시험 합격 여부 간 독립성을 검정
- O는 관찰된 빈도(Observed Frequency)이며, 주어진 데이터에서는 남자 합격 100, 남자 불합격 200, 여자 합격 130, 여자 불합격 170
- E는 기대 빈도(Expected Frequency)이며, 두 변수가 독립이라고 가정할 때 각 셀의 기대값

## $X^2 = \sum\frac{(O-E)^2}{E}$

In [2]:
import pandas as pd
from scipy.stats import chi2_contingency

In [92]:
# 데이터 프레임 생성
df = pd.DataFrame({'남자': [100, 200],
                   '여자': [130, 170]},
                  index=['합격', '불합격'])

In [93]:
df

Unnamed: 0,남자,여자
합격,100,130
불합격,200,170


In [94]:
# 카이제곱 검정 수행
chi2, p_value, _, expected_frequency = chi2_contingency(df)

In [95]:
chi2_contingency(df)

(5.929494712103407,
 0.01488951060599475,
 1,
 array([[115., 115.],
        [185., 185.]]))

In [97]:
# 1. 검정 통계량을 구하시오.
chi2

5.929494712103407

In [100]:
# 2. p-value를 구하시오.
p_value

0.01488951060599475

In [117]:
# 3. 귀무가설 기준 기각 또는 채택 여부를 결정하시오.

# 유의 수준 설정
alpha = 0.05

# 결과 해석
if p_value < alpha:
    print("귀무가설 기각, 성별과 시험 합격 여부는 독립적이지 않습니다. 통계적으로 유의합니다.")
else:
    print("귀무가설 채택, 성별과 시험 합격 여부는 독립적입니다. 통계적으로 유의하지 않습니다.")

귀무가설 기각, 성별과 시험 합격 여부는 독립적이지 않습니다. 통계적으로 유의합니다.


In [116]:
# 4. 남자의 합격 기대 빈도를 구하시오.
# 두 변수가 완전히 독립적일 때 예상되는 빈도를 의미
expected_frequency[0][0]

115.0

기대 빈도(expected frequency)는 카이제곱 검정(Chi-squared test)에서 매우 중요한 개념입니다. 이는 귀무 가설 하에서 관찰될 것으로 예상되는 빈도입니다. 귀무 가설은 일반적으로 두 변수가 서로 독립적이라고 주장합니다. 이 경우, 성별과 시험 합격 여부가 독립적이라는 것이 귀무 가설입니다.


예를 들어, 남자의 합격 기대빈도를 계산하려면 다음과 같이 계산합니다:

1. 남자의 총합 (100 + 200)과 합격자의 총합 (100 + 130)을 구합니다.
2. 이를 전체 합계(600)로 나눕니다.

이렇게 계산된 기대 빈도는, 두 변수가 완전히 독립적일 때 예상되는 빈도를 나타냅니다. 이 기대 빈도와 실제 관찰된 빈도 간의 차이를 분석하여, 두 변수 간의 관련성 여부를 판단합니다. 

- **큰 차이**: 실제 빈도와 기대 빈도 사이에 큰 차이가 있다면, 이는 두 변수 사이에 어떤 관계가 있을 가능성이 높다는 것을 의미합니다. 이 경우, 귀무 가설을 기각하고 대립 가설을 받아들일 수 있습니다.
- **작은 차이**: 차이가 작거나 없다면, 두 변수 사이에 유의미한 관계가 없다고 볼 수 있으며, 귀무 가설을 기각할 충분한 근거가 없습니다.

p-value와 함께 기대 빈도는 카이제곱 검정의 핵심 결과 중 하나로, 두 변수 간의 독립성을 평가하는 데 사용됩니다.