# 표본의 평균 검정

### (1) 모집단의 분산(표준편차)를 알고 있는 경우 -> Z-test(양측)
- 귀무가설: 표본평균은 모집단 평균과 차이가 없다.
- 대립가설: 표본평균은 모집단 평균과 차이가 있다.

In [None]:
import numpy as np
import pandas as pd
from scipy.stats import norm

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

# 모집단의 평균과 분산(표준편차)
population_mean = 28        # 모집단의 평균
population_variance = 4     # 모집단의 분산(표준편차의 제곱)

# 유의수준 설정
alpha = 0.05

# 표본평균 계산
sample_mean = np.mean(data)

# 표본크기
n = len(data)

# 검정통계량 계산
z_test_stat = (sample_mean - population_mean) / (population_variance / np.sqrt(n))

# 임계값 계산
critical_value = norm.ppf(1 - alpha / 2)

# p_value 계산 (양측 검정)
p_value = 2* (1- norm.cdf(abs(z_test_stat)))

In [None]:
# 결과 출력
print(f"검정통계량: {z_test_stat}\n임계값: {critical_value}\np_value: {p_value}")

if p_value > alpha:
    print(f"귀무가설 기각 불가. 표본평균은 모집단의 평균과 차이가 없다.")
else:
    print(f"귀무가설 기각. 표본평균은 모집단의 평균과 차이가 있다.")

### (2) 모집단의 분산(표준편차)를 모를 경우 -> t_test(양측)
- 귀무가설: 표본평균은 모집단 평균과 차이가 없다.
- 대립가설: 표본평균은 모집단 평균과 차이가 있다.

In [None]:
# scipy.stats.ttest_1samp(a, popmean, axis=0, nan_policy='propagate', alternative='two-sided', keepdims=False)
# -> 단일표본 t-검정을 수행하는데 사용

# a: 검정하려는 데이터 배열
# popmean: 비교하려는 가설값 또는 모집단의 평균값
# nan_policy: NaN 값의 처리 방법 지정

In [None]:
# stats.t.interval(alpha, df, loc=0, scale=1)
# -> t-분포를 사용해 데이터의 평균값에 대한 신뢰구간을 계산. 주로 t-검정과 함께 사용.

# alpha: 신뢰수준을 나타내며 주로 0과 1 사이의 값을 가짐. ex) 0.95 -> 95% 신뢰수준
# df: 자유도( n - 1)
# loc: 신뢰구간의 중심이 되는 값. 일반적으로 표본 데이터의 평균을 사용
# scale: 표준오차(standard error), 표본 데이터의 표준오차를 사용
# -> low:신뢰구간의 하한 / high:신뢰구간의 상한

In [None]:
from scipy import stats

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

# 유의수준 설정
alpha = 0.05

# t-검정 수행
ttest_stat, p_value = stats.ttest_1samp(data, popmean = 0, alternative = 'two-sided')

# 95% 신뢰구간 계산
confidence_interval = stats.t.interval(1-alpha, len(data) - 1, loc=np.mean(data), scale=stats.sem(data))

print(f"ttest_stat: {ttest_stat}\np_value: {p_value}\n95% 신뢰구간: {confidence_interval}")

if p_value > alpha:
    print(f"귀무가설 기각 불가. 표본평균은 모집단의 평균과 차이가 없다.")
else:
    print(f"귀무가설 기각. 표본평균은 모집단의 평균과 차이가 있다.")

#### 예시
- mpg 데이터에 대한 표본평균을 구하시오. (반올림하여 소수 넷째자리까지 계산)
- mpg 데이터에 대한 표본분산을 구하시오. (반올림하여 소수 넷째자리까지 계산)
- mpg의 평균이 20이라는 가설에 대해 검정하시오
- mpg의 평균의 95% 신뢰구간을 구하시오

In [None]:
import pandas as pd
import numpy as np
from scipy import stats

# 데이터 로드
cars = pd.read_csv('../data/mtcars.csv')

# 표본평균 계산
sample_mean = round(np.mean(cars['mpg']), 4)
print(f"표본평균: {sample_mean}")

# 표본분산 계산
sample_var = round(np.var(cars['mpg']), 4)
print(f"표본분산: {sample_var}")

# 표본의 평균이 20이라는 가설에 대해 검정하시오
ttest_stat, p_value = stats.ttest_1samp(cars['mpg'], 20)
print(f"단일표본 t-test 통계량: {ttest_stat}\np_value: {p_value}")

# 표본평균의 95% 신뢰구간 계산
conf_interval = stats.t.interval(0.95, len(cars['mpg']) - 1, loc = np.mean(cars['mpg']), scale = stats.sem(cars['mpg']))
print(f"표본평균의 95% 신뢰구간: {conf_interval}")

# 두 독립표본의 평균, 중앙값 차이 검정

### (1) 두 그룹의 데이터가 정규분포를 따를 때
- t-검정 `stats.ttest_ind()`


In [None]:
# scipy.stats.ttest_ind(a, b, axis=0, equal_var=True, nan_policy='propagate')
# -> 두 표본의 평균이 통계적으로 유의미한지 t-검정을 활용해 검정하는 함수

# a: 첫 번째 독립표본
# b: 두 번째 독립표본
# equal_var: 두 그룹의 등분산 여부 설정. False로 설정할 경우 등분산을 가정하지 않는 검정 수행

In [None]:
from scipy import stats

# 두 독립표본 데이터
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

# t-검정 수행
ttest_stat, p_value = stats.ttest_ind(sample1, sample2)

# 각 샘플의 평균
print(f"sample1의 평균: {np.mean(sample1)}")
print(f"sample2의 평균: {np.mean(sample2)}")

# 결과 출력
print(f"ttest 통계량: {ttest_stat}\np_value: {p_value}")

if p_value > alpha:
    print(f"귀무가설 기각 불가. 두 집단의 평균에는 차이가 없다.")
else:
    print(f"귀무가설 기각. 두 집단의 평균에는 차이가 있다.")

### (2) 두 그룹의 데이터가 정규분포를 따르지 않을 때
- Mann-Whitney U 검정 `stats.mannwhitneyu()`

In [None]:
# scipy.stats.mannwhitneyu(x, y, use_continuity=True)
# -> 두 표본의 중앙값이 통계적으로 유의미한지 평가하는 함수
# -> 정규분포를 따르지 않거나 등분산성을 가정하기 어려운 경우 사용

# x: 첫 번째 독립표본
# y: 두 번째 독립표본
# use_continuity: 연속성 보정의 사용 여부 설정. 연속성 보정은 이산 데이터에서 사용

In [None]:
from scipy import stats

# 두 독립표본 데이터
sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

# Mann-Whitney U 검정 수행
stat, p_value = stats.mannwhitneyu(sample1, sample2)

# 각 샘플의 평균
print(f"sample1의 평균: {np.mean(sample1)}")
print(f"sample2의 평균: {np.mean(sample2)}")

# 결과 출력
print(f"통계량: {stat}\np_value: {p_value}")

if p_value > alpha:
    print(f"귀무가설 기각 불가. 두 집단의 평균에는 차이가 없다.")
else:
    print(f"귀무가설 기각. 두 집단의 평균에는 차이가 있다.")

### (4) 검정 방법 선택을 위한 정규성 검정(샤피로-윌크)

- 정규성을 만족할 경우 -> t-검정 (`stats.ttest_ind(a, b)`)
- 정규성을 만족하지 못할 경우 -> Mann Whitney U 검정 (`stats.mannwhitneyu(a, b)`)
- 샤피로-윌크 테스트의 귀무가설은 `"데이터는 정규분포를 따른다"`

In [None]:
# stats.shapiro(x)
# -> 데이터가 정규분포를 따르는지 확인하는 검정 방법
# -> 귀무가설: "데이터는 정규분포를 따른다"

# x: 정규성을 검정하려는 데이터

In [None]:
from scipy import stats

# 정규성 검정을 위한 샘플 데이터 생성
data = [2.4, 2.7, 3.1, 3.2, 3.5, 3.7, 3.9, 4.1, 4.2]

# Shapiro-Wilk 테스트 수행
stat, p_value = stats.shapiro(data)

# 결과 출력

# 결과 출력
print(f"shapiro 통계량: {stat}\np_value: {p_value}")

if p_value > alpha:
    print(f"귀무가설 기각 불가. 두 집단은 정규성을 만족한다")
else:
    print(f"귀무가설 기각. 두 집단은 정규성을 만족하지 않는다")

### 두 독립표본에 대한 평균 및 정규성 검정 예제
- 각각의 샘플에 대한 평균을 구하시오
- 각 샘플에 대해서 정규성 테스트를 수행하시오
- 샘플에 대한 (2)의 결과를 바탕으로 적절한 검정 방법을 선택해 평균 차이가 있는지 검정을 수행하시오(유의수준: 0.05)

In [None]:
from scipy import stats

# 데이터 샘플
dat_M = [117, 108, 105, 89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
dat_F = [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]

# 평균 계산
M_mean = np.mean(dat_M)
F_mean = np.mean(dat_F)

print(f"남자 데이터 평균: {M_mean}")
print(f"여자 데이터 평균: {F_mean}\n")

# 정규성 테스트 수행
M_stat, m_pvalue = stats.shapiro(dat_M)
print(f"M_stat: {M_stat} / m_pvalue: {m_pvalue}")

if m_pvalue < 0.05:
    print(f"귀무가설 기각. 남자 데이터는 정규성을 만족하지 못한다")
else:
    print(f"귀무가설 기각 불가. 남자 데이터는 정규성을 만족한다\n")

F_stat, f_pvalue = stats.shapiro(dat_F)
print(f"F_stat: {F_stat} / f_pvalue: {f_pvalue}")

if f_pvalue < 0.05:
    print(f"귀무가설 기각. 여자 데이터는 정규성을 만족하지 못한다")
else:
    print(f"귀무가설 기각 불가. 여자 데이터는 정규성을 만족한다")

In [None]:
# 두 독립표본에 대한 평균 차이 검정
# -> 정규성을 만족하므로 ttest_ind() 수행

ttest_stat, p_value = stats.ttest_ind(dat_M, dat_F)
print(f"t-검정 통계량: {ttest_stat}\np_value: {p_value}")

if p_value < 0.05:
    print("귀무가설 기각. 두 독립표본의 평균에는 차이가 있다.")
else:
    print("귀무가설 기각 불가. 두 독립표본의 평균에는 차이가 없다.")

# 대응표본의 평균 차이 검정 (t-검정)
- 한개의 데이터에 대한 두 시점 차이에서 발생하는 평균 비교

In [None]:
# scipy.stats.ttest_rel(a, b, axis=0, nan_policy='propagate', alternative='two-sided', keepdims=False)
# 한개의 데이터에 대한 두 시점 차이에 의해 발생하는 평균 비교

# a와 b: 비교하려는 두 관련 데이터 집단의 배열
# non_policy: propagate, omit, raise

In [None]:
from scipy import stats

data_before = [72, 75, 68, 71, 73]
data_after = [76, 79, 74, 78, 80]

ttest_stat, p_value = stats.ttest_rel(data_before, data_after)

print(f"ttest 통계량{ttest_stat}\np_value: {p_value}")

# p_value 값이 0.05 미만이므로 두 데이터에 대한 평균에는 차이가 있다.(귀무가설 기각)

### 대응표본 평균차이 검정 예제
- 두 데이터셋의 정규성 검정 테스트를 하시오 (유의수준: 0.05)
- (1)의 결과를 기반으로 적절한 검정방법을 선택해 평균 차이에 대한 검정을 수행하시오
    - 귀무가설: 전과 후의 평균 수면시간에는 차이가 없다.
    - 대립가설: 전과 후의 평균 수면시간에는 차이가 있다.

In [None]:
from scipy import stats

# 예제 데이터
before = [7, 3, 4, 5, 2, 1, 6, 6, 5, 4]
after = [8, 4, 5, 6, 2, 3, 6, 8, 6, 5]

# 정규성 검정 수행
stat, p_value = stats.shapiro(before)
print(f"b_stat: {stat}\nb_p_value: {p_value}")

if p_value < 0.05:
    print("귀무가설 기각. before 데이터는 정규성을 만족하지 못한다")
else:
    print("귀무가설 기각 불가. before 데이터는 정규성을 만족한다")

stat, p_value = stats.shapiro(after)
print(f"a_stat: {stat}\na_p_value: {p_value}")

if p_value < 0.05:
    print("귀무가설 기각. after 데이터는 정규성을 만족하지 못한다")
else:
    print("귀무가설 기각 불가. after 데이터는 정규성을 만족한다")

In [None]:
# 평균차이 검정
# -> 정규성을 만족하므로 ttest 사용(stats.ttest_rel())

stat, p_value = stats.ttest_rel(before, after)
print(f"ttest_stat: {stat}\np_value: {p_value}")

if p_value < 0.05:
    print("귀무가설 기각. 전과 후의 평균 수면시간에는 차이가 있다.")
else:
    print("귀무가설 기각 불가. 전과 후의 평균 수면시간에는 차이가 없다.")

# 단일표본 모분산 검정 (카이제곱 검정)
- 주어진 표본의 분산이나 표준편차가 특정한 가설값과 얼마나 다른지 검정하는 방법

In [None]:
# stats.chi2.cdf(x, df)
# -> 카이제곱 분포의 누적분포를 사용해 어떤 값 미만의 영역에 속하는 확률을 계산

# x: 카이제곱 분포의 누적확률을 구하려는 카이제곱 통계량 값
# df: 자유도(n-1)

In [None]:
import numpy as np
from scipy.stats import chi2

# 예제 데이터
data = np.array([14.2, 15.1, 14.8, 15.4, 14.9, 15.2, 14.6, 15.0])

# 가설 설정
# 귀무가설: 모분산은 1.0과 같다
# 대립가설: 모분산은 1.0과 다르다

# 모분산
population_variance = 1.0

# 검정통계량 계산
# (n-1) * 표본분산 / 모분산
chi2_stat = (len(data) - 1) * (np.var(data) / population_variance)

# 자유도
df = len(data) - 1

# 카이제곱 검정을 통한 p_value 계산
p_value = 1 - stats.chi2.cdf(chi2_stat, df)

# 결과 출력
print(f"카이제곱 통계량: {chi2_stat}\np_value: {p_value}")

if p_value < 0.05:
    print("귀무가설 기각. 데이터의 모분산은 1.0과 다르다")
else:
    print("귀무가설 기각 불가. 데이터의 모분산은 1.0과 같다")

# 두 모분산 비에 대한 가설 검정 (F 검정: 일원분산분석)
- 두 모집단의 분산이 동일한지 검정하는 방법

In [None]:
# stats.f.cdf(x, dfn, dfd)

# x: F분포의 누적확률분포를 구하려는 F통계량 값
# dfn: 분자 자유도. 첫 번째 그룹의 자유도
# dfd: 분모 자유도. 두 번째 그룹의 자유도

In [None]:
# 2개의 표본 생성
import numpy as np
np.random.seed(123)

sample1 = np.random.normal(loc=5, scale=2, size=50)
sample2 = np.random.normal(loc=5, scale=3, size=50)

# 두 샘플에 대한 분산의 동일성 검정
# F-검정 통계량 -> 첫 번째 표본의 분산 / 두 번째 표본의 분산
sample1_var = np.var(sample1)
sample2_var = np.var(sample2)

F_stat = sample1_var / sample2_var

# F-검정 수행
p_value = 1 - stats.f.cdf(F_stat, dfn = len(sample1) - 1, dfd = len(sample2) - 1)

# 결과 출력
print(f"sample1의 분산: {sample1_var}")
print(f"sample2의 분산: {sample2_var}")

print(f"F-통계량: {F_stat}\np_value: {p_value}")

if p_value < 0.05:
    print("귀무가설 기각. 두 모집단의 분산은 다르다.")
else:
    print("귀무가설 기각 불가. 두 모집단의 분산은 같다")

# 독립성 검정 (카이제곱 검정)
- 보통 카이제곱 검정은 범주형 데이터에 대한 통계적 가설 검정을 수행하는 데 사용
- 두개 이상의 범주형 변수 간 관계를 분석

In [None]:
# stats.chi2_contingency(observed, correction=True, lambda_=None)

# observed: 교차표의 관측된 데이터
# correction: 자유도가 1인 검정의 Yate 보정 사용 여부 설정
# lambda_: 람다값 보정 여부 설정

# 반환값
# chi2: 카이제곱 통계량. 두 범주형 변수 간의 연관성을 평가하는 데 사용
# p_value: 귀무가설을 평가하는 데 사용
# df: 자유도
# expected: 두 변수가 독립적인 경우의 예상 빈도 테이블

In [None]:
import numpy as np
from scipy.stats import chi2_contingency

# 주어진 데이터를 매트릭스로 입력
data_matrix = np.array([[50, 75, 125, 175], [90, 30, 45, 10]])

# 독립성 검정 수행
chi2_stat, p_value, df, expected = stats.chi2_contingency(data_matrix)

# 결과 출력
print(f"chi2_stat: {chi2_stat}\np_value: {p_value}\n예상빈도:\n{expected}")

if p_value < 0.05:
    print("귀무가설 기각. 두 변수는 상관관계가 있다.")
else:
    print("귀무가설 기각 불가. 두 변수는 상관관계가 없다.")

## 독립성 검정 예제
- 생존 여부와 성별 간의 독립성 검정을 수행하시오
- 생존 여부와 연령대 간의 독립성 검정을 수행하시오

In [25]:
import pandas as pd
import numpy as np

titanic = pd.read_csv('../data/titanic.csv')
titanic.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [26]:
from scipy.stats import chi2_contingency

titanic_cross = pd.crosstab(titanic['Survived'], titanic['Sex'])

chi2_stat, p_value, df, expected = chi2_contingency(titanic_cross)
print(f"카이제곱 통계량: {chi2_stat}\np_Value: {p_value}")

카이제곱 통계량: 260.71702016732104
p_Value: 1.1973570627755645e-58


In [28]:
# 독립성 검정에서 수행하는 카이제곱 검정은 범주형에만 적용이 가능하므로 연속형을 범주형으로 레이블링 해야 한다.
def age_category(age):
    if age < 20:
        return '10대'
    elif age < 30:
        return '20대'
    elif age < 40:
        return '30대'
    elif age < 50:
        return '40대'
    elif age < 60:
        return '50대'
    else:
        return '60대 이상'

# 결측치 평균값으로 대체
age_mean = titanic['Age'].mean()
titanic['Age'] = titanic['Age'].apply(lambda x: age_mean if np.isnan(x) else x)

# 연속형 -> 범주화
titanic['Age_category'] = titanic['Age'].apply(age_category)
titanic['Age_category']

0      20대
1      30대
2      20대
3      30대
4      30대
      ... 
886    20대
887    10대
888    20대
889    20대
890    30대
Name: Age_category, Length: 891, dtype: object

In [30]:
# 카이제곱 검정 수행

SA_cross = pd.crosstab(titanic['Survived'], titanic['Age_category'])
chi2_stat, p_value, df, expected = chi2_contingency(SA_cross)

print(f"카이제곱 통계량: {chi2_stat}\np_Value: {p_value}")

카이제곱 통계량: 16.134525241016338
p_Value: 0.006470311249228111
