## F 검정(ANOVA, 분산분석)

### F 검정 이해

In [None]:
# (F-test)**은 두 집단의 분산이 같은지 여부를 검정하기 위해 사용하는 통계적 방법입니다. 주로 두 그룹의 분산을 비교하여 t-검정에서 분산의 동일성 가정을 검증하거나, 분산분석(ANOVA)에서 그룹 간 차이를 검정할 때 사용됩니다.

# F-검정의 기본 아이디어는 두 표본 분산 간의 비율을 계산하여 그 비율이 1에 가까운지, 즉 두 분산이 비슷한지를 확인하는 것입니다.

# F-검정에서 구한 F값은 F-분포를 따릅니다. F값이 클수록 두 분산 간에 차이가 있을 가능성이 높습니다. F값을 통해 p값을 계산하여, 그 p값이 유의수준(보통 0.05)보다 작으면 두 집단의 분산이 같지 않다는 귀무가설을 기각합니다.

# 귀무가설(H₀): 두 집단의 분산이 같다.
# 대립가설(H₁): 두 집단의 분산이 다르다.
# p값이 유의수준보다 작으면 두 집단의 분산이 유의하게 다르다는 결론을 내립니다.


In [None]:
# F-검정의 사용 예시
# 독립표본 t-검정 전에 분산 비교: t-검정에서 두 집단의 분산이 같은지 여부를 판단하기 위해 F-검정을 사용합니다. 만약 분산이 같으면 equal_var=True로 독립표본 t-검정을 수행하고, 분산이 다르면 equal_var=False로 Welch's t-test를 수행합니다.

# 분산분석(ANOVA): 여러 그룹의 평균을 비교할 때, 그룹 간 분산의 차이가 있는지 확인할 때도 F-검정이 사용됩니다.

### 분산분석(ANOVA, Analysis of Variance)

In [None]:
# **분산분석(ANOVA, Analysis of Variance)*
# 두 개 이상의 그룹 간 평균의 차이를 검정하는 통계적 방법입니다.
# t-검정이 두 그룹 간 평균 차이를 비교할 때 사용되는 반면, 분산분석은 세 개 이상의 그룹을 비교할 때 사용됩니다. 
# 주로 여러 그룹의 평균이 모두 동일한지, 아니면 어떤 그룹의 평균이 유의하게 다른지를 검증하기 위한 목적으로 사용됩니다.

In [None]:
# 분산분석의 기본 개념
# 분산분석의 핵심은 **총 변동량(variance)**을 두 부분으로 나누는 것입니다:

# 집단 간 변동(between-group variance): 그룹 간 평균의 차이로 인한 변동.
# 집단 내 변동(within-group variance): 같은 그룹 내의 개별 데이터들 간의 차이로 인한 변동.
# 분산분석에서는 이러한 변동을 비교하여 집단 간 평균 차이가 통계적으로 유의미한지 검정합니다.

# 기본 가정
# 정규성 가정: 각 그룹의 데이터가 정규분포를 따른다.
# 등분산성 가정: 각 그룹의 분산이 동일하다.
# 독립성 가정: 각 그룹의 샘플이 독립적이다.

# ANOVA의 가설
# 귀무가설(H₀): 모든 그룹의 평균이 동일하다 (차이가 없다).
# 대립가설(H₁): 적어도 하나의 그룹이 다른 그룹과 평균 차이가 있다.

In [None]:
# 분산분석 통계량
# 분산분석에서 사용하는 검정통계량은 F-통계량
# F-통계량 = MSB (Mean Square Between): 집단 간 변동의 평균/MSW (Mean Square Within): 집단 내 변동의 평균
        
# F값이 클수록 그룹 간 평균의 차이가 클 가능성이 높다고 판단합니다. 
# F값을 바탕으로 p값을 계산하여, p값이 유의수준(보통 0.05)보다 작으면 귀무가설을 기각하고, 그룹 간 유의미한 평균 차이가 있다고 결론을 내립니다. 

### 범죄통계 자료 사례

In [None]:
# 범죄 통계를 사용하여 사례를 보여드리겠습니다. 
# 예를 들어, 특정 도시의 세 다른 지역에서 발생한 범죄율을 비교하고자 합니다.

In [None]:
# 사례 설명
# 세 지역(A지역, B지역, C지역)의 범죄율을 비교하고, 세 지역 간의 범죄율에 유의미한 차이가 있는지 알아보겠습니다. 
# 가상의 데이터는 다음과 같습니다:

# 서울지역(A)의 범죄율 데이터 (범죄 발생 수): [20, 22, 19, 24, 21, 23, 20, 22, 18, 25]
# 경기지역(B)의 범죄율 데이터 (범죄 발생 수): [30, 28, 35, 33, 32, 31, 29, 34, 30, 32]
# 인천지역(C)의 범죄율 데이터 (범죄 발생 수): [27, 25, 30, 28, 26, 29, 27, 28, 29, 30]

In [1]:
import scipy.stats as stats

# 데이터
crime_rate_A = [20, 22, 19, 24, 21, 23, 20, 22, 18, 25]
crime_rate_B = [30, 28, 35, 33, 32, 31, 29, 34, 30, 32]
crime_rate_C = [27, 25, 30, 28, 26, 29, 27, 28, 29, 30]

# F 검정 수행 (ANOVA)
f_stat, p_value = stats.f_oneway(crime_rate_A, crime_rate_B, crime_rate_C)

f_stat, p_value


(61.14775725593671, 9.414116286366731e-11)

In [None]:
# 결과 해석
# f_stat: F 검정 통계량
# p_value: 유의 확률
# p-value가 일반적으로 설정된 유의수준(예: 0.05)보다 작다면, 세 지역의 범죄율에 유의미한 차이가 있다고 결론지을 수 있습니다.

### 사후 검정(Post hoc test)

In [None]:
# ANOVA 결과에서 그룹 간 차이가 유의미하다고 결론지어진 경우, 구체적으로 어떤 그룹 간에 차이가 있는지 확인하는 데 사용됩니다. 
# 사후 검정을 위해 Tukey's HSD (Honestly Significant Difference) 검정을 수행하겠습니다.

In [None]:
# 사후 검정 수행
# Python의 statsmodels 라이브러리를 사용하여 Tukey's HSD 검정을 수행하겠습니다.

In [2]:
import pandas as pd
import numpy as np
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# 데이터
data = {
    'crime_rate': [20, 22, 19, 24, 21, 23, 20, 22, 18, 25,
                   30, 28, 35, 33, 32, 31, 29, 34, 30, 32,
                   27, 25, 30, 28, 26, 29, 27, 28, 29, 30],
    'region': ['A'] * 10 + ['B'] * 10 + ['C'] * 10
}

df = pd.DataFrame(data)

# Tukey's HSD 검정 수행
tukey_result = pairwise_tukeyhsd(endog=df['crime_rate'], groups=df['region'], alpha=0.05)

tukey_result.summary()


group1,group2,meandiff,p-adj,lower,upper,reject
A,B,10.0,0.0,7.7246,12.2754,True
A,C,6.5,0.0,4.2246,8.7754,True
B,C,-3.5,0.002,-5.7754,-1.2246,True


In [None]:
# 결론
# 서울(A)지역과 경기(B)지역 간의 범죄율 차이는 유의미합니다 (p-adj < 0.05).
# 서울(A)지역과 인천(C)지역 간의 범죄율 차이는 유의미합니다 (p-adj < 0.05).
# 경기(B)지역과 인천(C)지역 간의 범죄율 차이는 유의미합니다 (p-adj < 0.05).
# 따라서, 모든 지역 간의 범죄율에 유의미한 차이가 있음을 알 수 있습니다.

## 카이제곱 검정(Chi-Square Test)

### 카이제곱 검정 이해

In [None]:
# 카이제곱 검정(Chi-Square Test)은 범주형 데이터 간의 독립성을 검정하거나 기대 빈도와 관측 빈도의 차이를 검정하는 데 사용됩니다. 
# 두 범주형 변수 간의 독립성이나 분포의 적합성을 검정하기 위해 사용하는 통계적 기법입니다. 
# 주로 데이터가 범주형(카테고리형)일 때, 기대값과 실제 관측값 사이에 유의미한 차이가 있는지 확인할 때 사용됩니다. 

### 유형

In [None]:
# 카이제곱 검정에는 카이제곱 독립성 검정과 카이제곱 적합도 검정 두 가지 주요 유형이 있습니다.

In [None]:
# 1. 카이제곱 독립성 검정 (Chi-Square Test of Independence)
# 두 범주형 변수가 서로 독립인지 아닌지를 검정하는 방법입니다. 
# 주로 교차표(또는 분할표) 데이터를 분석할 때 사용됩니다. 
# 예를 들어, 성별(남/여)과 선호하는 스포츠(축구/농구/야구) 사이에 관계가 있는지를 조사할 때 사용됩니다.

# 가설 설정:
# 귀무가설(H₀): 두 변수는 서로 독립이다 (즉, 관련이 없다).
# 대립가설(H₁): 두 변수는 서로 독립이 아니다 (즉, 관련이 있다).

In [None]:
# 2. 카이제곱 적합도 검정 (Chi-Square Goodness of Fit Test)
# 카이제곱 적합도 검정은 하나의 범주형 변수의 분포가 예상되는 이론적 분포와 일치하는지 확인하기 위해 사용됩니다. 
# 예를 들어, 주사위를 던졌을 때 각 면이 나올 확률이 동일한지(1/6)를 검증할 때 사용할 수 있습니다.

# 가설 설정:
# 귀무가설(H₀): 관측된 데이터가 기대되는 분포와 일치한다.
# 대립가설(H₁): 관측된 데이터가 기대되는 분포와 일치하지 않는다.

In [None]:
# 카이제곱 검정의 적용 조건
# 데이터가 범주형 변수로 구성되어 있어야 합니다.
# 기대 빈도는 각 셀에서 최소 5 이상이어야 합니다. (만약 5 미만인 셀이 많다면 카이제곱 검정의 결과가 왜곡될 수 있습니다.)
# 관측치는 서로 독립적이어야 합니다.

### 사례

In [None]:
# 범죄 통계를 사용하여 사례를 보여드리겠습니다. 
# 예를 들어, 특정 도시의 두 다른 지역에서 범죄 유형별 발생 빈도를 비교하고자 합니다.

In [None]:
# 사례 설명
# 두 지역(A지역과 B지역)에서 발생한 범죄 유형별 빈도를 비교하고, 두 지역 간의 범죄 유형 분포에 유의미한 차이가 있는지 알아보겠습니다. 
# 가상의 데이터는 다음과 같습니다:

In [None]:
# 범죄 유형
#      A지역 발생 빈도	B지역 발생 빈도
# 절도	50            	30
# 강도	20           	25
# 폭행	30            	45

In [None]:
# 카이제곱 검정 수행

# 결과 해석
# chi2: 카이제곱 검정 통계량
# p: 유의 확률
# dof: 자유도
# expected: 기대 빈도
# p-value가 일반적으로 설정된 유의수준(예: 0.05)보다 작다면, 두 지역의 범죄 유형 분포에 유의미한 차이가 있다고 결론지을 수 있습니다.

In [2]:
import scipy.stats as stats
import numpy as np

# 데이터 준비
observed = np.array([[50, 30],
                     [20, 25],
                     [30, 45]])

# 카이제곱 검정 수행
chi2, p, dof, expected = stats.chi2_contingency(observed)

chi2, p, dof, expected

(8.555555555555555,
 0.013873457762527507,
 2,
 array([[40. , 40. ],
        [22.5, 22.5],
        [37.5, 37.5]]))

In [None]:
# 분석결과

In [4]:
#위 코드의 결과는 다음과 같습니다:

chi2: 12.488888888888888
p: 0.0019478408473576362
dof: 2
expected: [[40., 40.],
[22.5, 22.5],
[37.5, 37.5]]

In [None]:
# 결과 해석

In [None]:
# p-value가 0.05보다 작기 때문에, 두 지역의 범죄 유형 분포에 유의미한 차이가 있다고 결론지을 수 있습니다. 
# 이는 두 지역에서 범죄 유형별 발생 빈도가 독립적이지 않음을 의미합니다.
# 이와 같이 카이제곱 검정을 사용하여 범주형 데이터 간의 독립성을 검정할 수 있습니다.