## F 검정(ANOVA, 분산분석)

In [None]:
F 검정(ANOVA, 분산분석)은 세 개 이상의 그룹 간의 평균 차이를 비교하는 데 사용됩니다. 
범죄 통계를 사용하여 사례를 보여드리겠습니다. 
예를 들어, 특정 도시의 세 다른 지역에서 발생한 범죄율을 비교하고자 합니다.

In [None]:
# 사례 설명
# 세 지역(A지역, B지역, C지역)의 범죄율을 비교하고, 세 지역 간의 범죄율에 유의미한 차이가 있는지 알아보겠습니다. 
# 가상의 데이터는 다음과 같습니다:

# 서울지역(A)의 범죄율 데이터 (범죄 발생 수): [20, 22, 19, 24, 21, 23, 20, 22, 18, 25]
# 경기지역(B)의 범죄율 데이터 (범죄 발생 수): [30, 28, 35, 33, 32, 31, 29, 34, 30, 32]
# 인천지역(C)의 범죄율 데이터 (범죄 발생 수): [27, 25, 30, 28, 26, 29, 27, 28, 29, 30]

In [1]:
import scipy.stats as stats

# 데이터
crime_rate_A = [20, 22, 19, 24, 21, 23, 20, 22, 18, 25]
crime_rate_B = [30, 28, 35, 33, 32, 31, 29, 34, 30, 32]
crime_rate_C = [27, 25, 30, 28, 26, 29, 27, 28, 29, 30]

# F 검정 수행 (ANOVA)
f_stat, p_value = stats.f_oneway(crime_rate_A, crime_rate_B, crime_rate_C)

f_stat, p_value


(61.14775725593671, 9.414116286366731e-11)

In [None]:
# 결과 해석
# f_stat: F 검정 통계량
# p_value: 유의 확률
# p-value가 일반적으로 설정된 유의수준(예: 0.05)보다 작다면, 세 지역의 범죄율에 유의미한 차이가 있다고 결론지을 수 있습니다.

## 사후 검정(Post hoc test)

In [None]:
# ANOVA 결과에서 그룹 간 차이가 유의미하다고 결론지어진 경우, 구체적으로 어떤 그룹 간에 차이가 있는지 확인하는 데 사용됩니다. 
# 사후 검정을 위해 Tukey's HSD (Honestly Significant Difference) 검정을 수행하겠습니다.

In [None]:
# 사후 검정 수행
# Python의 statsmodels 라이브러리를 사용하여 Tukey's HSD 검정을 수행하겠습니다.

In [2]:
import pandas as pd
import numpy as np
from statsmodels.stats.multicomp import pairwise_tukeyhsd

# 데이터
data = {
    'crime_rate': [20, 22, 19, 24, 21, 23, 20, 22, 18, 25,
                   30, 28, 35, 33, 32, 31, 29, 34, 30, 32,
                   27, 25, 30, 28, 26, 29, 27, 28, 29, 30],
    'region': ['A'] * 10 + ['B'] * 10 + ['C'] * 10
}

df = pd.DataFrame(data)

# Tukey's HSD 검정 수행
tukey_result = pairwise_tukeyhsd(endog=df['crime_rate'], groups=df['region'], alpha=0.05)

tukey_result.summary()


group1,group2,meandiff,p-adj,lower,upper,reject
A,B,10.0,0.0,7.7246,12.2754,True
A,C,6.5,0.0,4.2246,8.7754,True
B,C,-3.5,0.002,-5.7754,-1.2246,True


In [None]:
# 결론
# 서울(A)지역과 경기(B)지역 간의 범죄율 차이는 유의미합니다 (p-adj < 0.05).
# 서울(A)지역과 인천(C)지역 간의 범죄율 차이는 유의미합니다 (p-adj < 0.05).
# 경기(B)지역과 인천(C)지역 간의 범죄율 차이는 유의미합니다 (p-adj < 0.05).
# 따라서, 모든 지역 간의 범죄율에 유의미한 차이가 있음을 알 수 있습니다.