###3.통계적 가설 검정 기법 실습
#### 3.1 표본의 평균 검정
#####3.1.1. 모집단의 분산(표준편차)을 알고 있는 경우: z-test

In [1]:
import numpy as np
import pandas as pd
from statsmodels.stats.weightstats import ztest

# 예제 데이터 생성
data = np.array([23, 25, 28, 30, 26, 27, 29, 32, 31, 28])

# 모집단의 평균과 분산(표준편차)
population_mean = 28
population_variance = 4

# 유의수준 설정
alpha = 0.05

# 단측 또는 양측 검정 선택(예: 양측 검정)
alternative = "two.sided"

# 표본평균 계산
sample_mean = np.mean(data)

# 표본 크기
n = len(data)

# 검정통계량 계산 (Z-검정)
test_statistic, pval = ztest(data, value=population_mean, alternative = "two-sided")
print("검정통계량:", test_statistic)
print("p-값:",pval)

검정통계량: -0.11429089766392052
p-값: 0.9090071978307213


##### 3.2. 두 독립표본의 평균, 중앙값, 차이 검정
- 두 독립표본의 평균 차이를 검정하기 위해, 일반적으로 t-검정 또는 Mann-Wintney U 검정을 사용
- t-검정은 두 그룹의 데이터가 정규분포를 따를 때 사용하며, Mann-Wintney U 검정은 정규분포를 가정하지 않을 때 사용

In [15]:
import scipy.stats as stats
import numpy as np

sample1= [23, 25, 28, 30, 32]
sample2= [19, 21, 24, 26, 29]

t_static, p_value = stats.ttest_ind(sample1, sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

alpha = 0.05
print("t-검정통계량:", t_static)
print("p-값:", p_value)
print("sample1 평균:", mean_sample1)
print("sample2 평균:", mean_sample2)
print("p-값 (two-tailed):", p_value)

if p_value < alpha:
  print("두 그룹의 평균은 유의미하게 다르다")
else:
  print("두 그룹의 평균은 유의미하게 다르지 않다")

t-검정통계량: 1.5778641172210597
p-값: 0.15324889402868613
sample1 평균: 27.6
sample2 평균: 23.8
p-값 (two-tailed): 0.15324889402868613
두 그룹의 평균은 유의미하게 다르지 않다


In [16]:
import scipy.stats as stats
import numpy

sample1 = [23, 25, 28, 30, 32]
sample2 = [19, 21, 24, 26, 29]

u_static, p_value = stats.mannwhitneyu(sample1, sample2)

mean_sample1 = np.mean(sample1)
mean_sample2 = np.mean(sample2)

alpha = 0.05
print("Minn-Whitney U 통계량:", u_static)
print("Sample1 평균:", mean_sample1)
print("Sample2 평균:", mean_sample2)
print("p-값 (two-tailed):", p_value)

if p_value > alpha:
  print("두 그룹의 중앙값은 유의미하게 다르지 않습니다.")
else:
  print("두 그룹의 중앙값은 유의미하게 다릅니다.")

Minn-Whitney U 통계량: 19.0
Sample1 평균: 27.6
Sample2 평균: 23.8
p-값 (two-tailed): 0.2222222222222222
두 그룹의 중앙값은 유의미하게 다르지 않습니다.


- 정규성 검정
  - 데이터가 정규분포를 따르는 지를 확인하기 위한 테스트
  - 샤피로-윌크 정규성 검정, 콜모고로프-스미르노프 검정, 다고스티노-피어슨 검정 등이 있음
    - 샤피로-윌프 검정은 정규성을 검정하여 데이터가 정규분포를 따르는 여부를 판단
    - 표본 데이터를 사용하여 샤피로-윌크 통계량(W)을 계산하고 유의수준에서의 임계값과 비교

In [17]:
from scipy import stats

data = [2.4, 2.7, 3.1, 3.2, 3.5, 3.7, 3.9, 4.1, 4.2]

static, p_value = stats.shapiro(data)

alpha = 0.05
print("Shapiro-Wilk 테스트 통계량:", static)
print("p-값:", p_value)

if p_value > alpha:
  print("귀무가설을 기각하지 못하며, 데이터는 정규분포를 따를 가능성이 높다")
else:
  print("귀무가설을 기각하며, 데이터는 정규분포를 따르지 않을 가능성이 있음")

Shapiro-Wilk 테스트 통계량: 0.9553363919258118
p-값: 0.7484778761863708
귀무가설을 기각하지 못하며, 데이터는 정규분포를 따를 가능성이 높다


- 다음 데이터는 포등학교 취학 전 남자와 여자의 키를 추출한 데이터
  - 남자 [117, 108,89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95]
  - 여자 [121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100]
  <br><br>
  1. 각 샘플의 평균을 구하시오
  2. 샘플에 대한 2의 결과를 바탕으로 적절한 검정 방법을 선택하여 평균에 대한 차이가 있는지 검정을 수행하시오(유의수준 0.05)

In [23]:
import numpy as np
from scipy import stats as stats

aplha = 0.05

# data
man =  np.array([117, 108,89, 101, 93, 96, 108, 108, 94, 93, 112, 92, 91, 100, 96, 120, 86, 96, 95])
woman = np.array([121, 101, 102, 114, 103, 105, 101, 131, 96, 109, 109, 113, 115, 94, 108, 96, 110, 112, 120, 100])

man_mean = man.mean()
woman_mean = woman.mean()
print("남자 데이터 평균:", man_mean)
print("여자 데이터 평균:", woman_mean)

# 사프로-윌크 정규성 테스트 수행
static_m, p_value_m = stats.shapiro(man)
static_w, p_value_w = stats.shapiro(woman)
print("\n")

# 남성 샤프로-윌크 정규성 테스트 결과
print("남성 샤프로 윌크 테스트 통계량:", static_m)
print("남성 샤프로 윌크 p-값:", p_value_m)
if p_value_m > alpha:
  print("남성 데이터는 정규분포를 따른다")
else:
  print("남성 데이터는 정규분포를 따르지 않는다")
print("\n")
# 여성 샤프로-윌크 정규성 테스트 결과
print("여성 샤프로 윌크 테스트 통계량:", static_w)
print("여성 샤프로 윌크 p-값:", p_value_w)
if p_value_w > alpha:
  print("여성 데이터는 정규분포를 따른다")
else:
  print("여성 데이터는 정규분포를 따르지 않는다")

남자 데이터 평균: 99.73684210526316
여자 데이터 평균: 108.0


남성 샤프로 윌크 테스트 통계량: 0.9163723587989807
남성 샤프로 윌크 p-값: 0.09698415547609329
남성 데이터는 정규분포를 따른다


여성 샤프로 윌크 테스트 통계량: 0.9615268111228943
여성 샤프로 윌크 p-값: 0.5747838020324707
여성 데이터는 정규분포를 따른다


In [24]:
from scipy import stats

# 독립표본 t-검정 수행
t_static, p_value = stats.ttest_ind(man, woman)

print("t-검정통계량:", t_static)
print("p-값:", p_value)

alpha = 0.05
if p_value > alpha:
  print("두 표본 간에는 유의한 평균 차이가 없습니다(귀무가설 채택)")
else:
  print("두 표본 간에는 유의한 평균 차이가 있습니다(귀무가설 기각)")

t-검정통계량: -2.6971897208189417
p-값: 0.010466919366054072
두 표본 간에는 유의한 평균 차이가 있습니다(귀무가설 기각)


##### 3.3. 대응표본의 평균 차이 검정(t-검정)
- stats.ttest_rel() 함수는 대응표본에 대한 t-검정을 수행하기 위해 사용함
  - 관련된 데이터 집단 간에 평균 차이를 비교하고, 이 차이가 통계적으로 유의미한 지 확인하는 데 유용
- 대응표본 t-검정 예제
  - 두 시점에서의 관측치 간 평균 차이를 검정함

In [10]:
from scipy import stats

data_before = [72,75, 68, 71, 73]
data_after = [76, 79, 74, 78, 80]

t_statistic, p_value = stats.ttest_rel(data_before, data_after)

print("대응표본 t-검정 결과")
print(f"t-통계량 : {t_statistic}")
print(f"p-값 : {p_value}")

대응표본 t-검정 결과
t-통계량 : -8.25674954467424
p-값 : 0.0011738040715128372


- 제약 회사에서 새로운 수면유도제를 개발하여 임상 실험을 해본 결과 다음과 같은 결과를 얻었다.
  - 수면유도제 사용 전 수면시간 [7, 3, 4, 5, 2, 1, 6, 6, 5, 4]
  - 수면유도제 사용 후 수면시간 [8, 4, 5, 6, 2, 3, 6, 8, 6, 5]
  <br><br>
  1. 두 데이터셋의 정규성 검정 테스트를 하시오(유의수준 0.05)
  2. 1의 결과를 기반으로 적절한 검정방법을 선택하여
    - 귀무가설(H0): 수면유도제 복용 전과 후의 평균 수명시간에는 차이가 없다
    - 대립가설(H1): 수면유도제 복용 저과 후의 평균 수명시간에는 차이는 0보다 작다

In [12]:
from scipy import stats

data_before = [7, 3, 4, 5, 2, 1, 6, 6, 5, 4]
data_after = [8, 4, 5, 6, 2, 3, 6, 8, 6, 5]

_, p_value_be = stats.shapiro(data_before)
_, p_value_af = stats.shapiro(data_after)

print("before 데이터의 정규성 검정")
if p_value_be > 0.05:
  print("p-값:", p_value_be)
  print("before 데이터는 정규분포를 따릅니다")
else:
  print("p-값:", p_value_be)
  print("before 데이터는 정규분포를 따르지 않습니다")

if p_value_af > 0.05:
  print("p-값:", p_value_af)
  print("after 데이터는 정규분포를 따릅니다")
else:
  print("p-값:", p_value_af)
  print("after 데이터는 정규분포를 따르지 않습니다")

before 데이터의 정규성 검정
p-값: 0.835266649723053
before 데이터는 정규분포를 따릅니다
p-값: 0.6177965998649597
after 데이터는 정규분포를 따릅니다


In [14]:
import numpy as np
from scipy import stats

# 데이터
data_before = np.array([7, 3, 4, 5, 2, 1, 6, 6, 5, 4])
data_after = np.array([8, 4, 5, 6, 2, 3, 6, 8, 6, 5])

p = data_before - data_after

t_statistic, p_value = stats.ttest_rel(data_before, data_after)

print("대응 표본 t 검정")
print("t-통계량:", t_statistic)
print("p-값:", p_value)

# 가설검정
alpha = 0.05
if p_value > 0.05:
  print("p-값이 유의수준보다 크므로 귀무가설을 기각하지 않습니다.")
else:
  print("p-값이 유의수준보다 작으므로 귀무가설을 기각합니다.")

대응 표본 t 검정
t-통계량: -4.743416490252569
p-값: 0.0010538712570165528
p-값이 유의수준보다 작으므로 귀무가설을 기각합니다.


##### 3.4. 단일표본 모분산 검정(카이제곱검정)
- 검정통계량을 직접 계산하고 chi2.cdf() 함수를 이용하여 단일푲본 모분산 검정을 수행할 수 있음
- chi2.cdf() 함수는 카이제곱의 분포의 누적분포를 사용하여 어떤 값 미만의 영역에 속하는 확률을 계산하는 데 유용함

In [9]:
import numpy as np
from scipy.stats import chi2

# 샘플 데이터 생성
data = np.array([14.2, 15.1, 14.8, 15.4, 14.9, 15.2, 14.6, 15.0])

# 가설검정
# H0: 모분산은 1.0과 같다
# H!: 모분산은 1.0과 다르다.

popluation_variance = 1.0 #모분산

# 검정통계량 = (n - 1) * 표본분산 / 모분산
sample_variance = np.var(data)
n = len(data)
chi2_stat = (n-1) * sample_variance/popluation_variance

# 카이제곱 분포의 자유도
degree_of_freedom = n-1

# p-값
p_value = 1 - chi2.cdf(chi2_stat, degree_of_freedom)
print("p-value:", p_value)

# 유의수준 0.05로 가설 검정
alpha = 0.05
if p_value < alpha:
  print("귀무가설을 기각합니다. 모분산은 1.0과 다릅니다")
else:
  print("귀무가설을 기각하지 못합니다. 모분산은 1.0과 같을 가능성이 있습니다.")

p-value: 0.9968119115718612
귀무가설을 기각하지 못합니다. 모분산은 1.0과 같을 가능성이 있습니다.


##### 3.5.두 모분산 비에 대한 가설 검정(F검정: 일원분산검정)
- 모분산 비에 대한 가설 검정은 두 모집단의 분산이 동일한지 여부를 확인하는 통계적 검정이다. 이를 위해 두 개의 표본에서 분산을 계산, 두 분산의 비율을 검정통계량으로 사용
- 일반적으로 F-분포를 이용해 가설검정을 수행

In [5]:
# 2개의 표본을 생성
import numpy as np

np.random.seed(123)

sample1= np.random.normal(loc=5, scale=2, size=50)
sample2= np.random.normal(loc=5, scale=3, size=50)

print(sample1)
print(sample2)

[ 2.82873879  6.99469089  5.565957    1.98741057  3.8427995   8.30287307
  0.14664151  4.14217474  7.53187252  3.2665192   3.6422277   4.81058206
  7.98277925  3.72219601  4.11203608  4.13129745  9.41186017  9.37357218
  7.0081078   5.7723728   6.47473715  7.98146406  3.12833226  7.35165809
  2.49223866  3.724497    6.81421039  2.1426386   4.71986256  3.27649021
  4.48876126 -0.59717821  1.45693379  3.60024553  6.85492486  4.65272863
  5.00569183  6.37644542  3.24092731  5.56725465  3.38926696  1.54466101
  4.21820041  6.14761172  5.6771781   4.97633901  9.78473053  5.82582432
  6.95747201  9.47628668]
[ 1.11774403  1.88363537 10.23113668  2.60581179  5.08904969  8.20794791
  7.67211917 10.26465855  9.48693241  8.20817801  2.68187386  7.384588
  5.94281598  1.02120362  9.25189714  7.4217096   5.13647024  4.30072382
  1.40509657  5.59857222  6.40531736  2.50653505  8.48661215  1.70839086
 -1.36930105  8.11918127  3.78990189  4.62191124  2.48744983  0.18211172
  8.76571212  2.93339305  9

In [8]:
from scipy import stats

# 두 표본의 분산 계산
variance_sample1 = np.var(sample1, ddof=1)
variance_sample2 = np.var(sample2, ddof=1)

# F 검정 실행
f_statistic = variance_sample1/variance_sample2
df1 = len(sample1) - 1
df2 = len(sample2) - 1
p_value = 1 - stats.f.cdf(f_statistic, df1, df2)

print(f"표본 1의 분산: {variance_sample1:.4f}")
print(f"표본 2의 분산: {variance_sample2:.4f}")
print(f"F-통계량: {f_statistic:.4f}")

alpha = 0.05
if p_value < alpha:
  print(f"p-value: {p_value:.4f} < {alpha}, 귀무가설을 기각합니다. 두 표본의 모분산을 다릅니다.")
else:
  print(f"p-value: {p_value:.4f} > {alpha}, 귀무가설을 기각하지 않습니다. 두 표본의 모분산은 같을 수 있습니다.")

표본 1의 분산: 5.7763
표본 2의 분산: 10.3800
F-통계량: 0.5565
p-value: 0.9787 > 0.05, 귀무가설을 기각하지 않습니다. 두 표본의 모분산은 같을 수 있습니다.


#####3.6. 독립성 검정(카이제곱검정)
- 카이제곱 검정은 범주형 데이터에 대한 통계적 가설 검정을 수행하는데 사용됨
- 두 개 이상의 범주형 변수 간의 관계를 분석하거나 관찰된 빈도와 기대 빈도 사이의 차이를 확인하는 데 활용
- stats.chi2_contingency(함수)
  - scipy 라이브러리에서 제공됨
  - 범주형 데이터의 교차표를 입력 받아 두 범주형 변수간의 독립성을 평가

In [2]:
import numpy as np
from scipy.stats import chi2_contingency

data_matrix = np.array([[50, 70, 123, 175], [90, 30, 45, 10]])

chi2, p ,df , expected= chi2_contingency(data_matrix)

print("카이 검정 통계량:", chi2)
print("p-값:", p)
print("자유도:", df)
print("예상 빈도 테이블:", expected)

카이 검정 통계량: 133.6750418099478
p-값: 8.729952902862884e-29
자유도: 3
예상 빈도 테이블: [[ 98.6846543   70.48903879 118.42158516 130.40472175]
 [ 41.3153457   29.51096121  49.57841484  54.59527825]]


타이타닉 데이터셋을 이용하여 다음 아래 질문에 답하시오
  1. 생존 여부와 성별 간의 독립성 검정을 수행하시오
  2. 생존 여부와 연령대 간의 독립성 검정을 수행하시오

In [3]:
import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency

df = pd.read_csv("/content/drive/MyDrive/빅데이터분석기사_실기/train.csv")

cross_table = pd.crosstab(df["Sex"], df["Survived"])
chi2, p, df, expected = chi2_contingency(cross_table)

print("카이검정통계량:", chi2)
print("p-값:", p)
print("자유도:", df)
print("기댓값:", expected)

카이검정통계량: 260.71702016732104
p-값: 1.1973570627755645e-58
자유도: 1
기댓값: [[193.47474747 120.52525253]
 [355.52525253 221.47474747]]


In [4]:
import numpy as np
import pandas as pd
from scipy.stats import chi2_contingency

df = pd.read_csv("/content/drive/MyDrive/빅데이터분석기사_실기/train.csv")

def categorical_age(age):
  if age < 20:
    return '10'
  elif age < 30:
    return '20'
  elif age < 40:
    return '30'
  elif age < 50:
    return '40'
  elif age < 60:
    return '50'
  else:
    return '60'

average_age = df["Age"].mean()
df["Age"] = df["Age"].fillna(average_age)

AgeGroup = []
for i in range(len(df["Age"])):
  x = df["Age"][i]
  if (x != None):
    AgeGroup.append(categorical_age(x))
  else:
    AgeGroup.append(x)

df["AgeGroup"] = AgeGroup

cross_table = pd.crosstab(df["AgeGroup"], df["Survived"])
chi2, p, df, expected = chi2_contingency(cross_table)

print("카이검정통계량:", chi2)
print("p-값:", p)
print("자유도:", df)
print("기댓값:", expected)

카이검정통계량: 16.134525241016338
p-값: 0.006470311249228111
자유도: 5
기댓값: [[101.05050505  62.94949495]
 [244.61616162 152.38383838]
 [102.8989899   64.1010101 ]
 [ 54.83838384  34.16161616]
 [ 29.57575758  18.42424242]
 [ 16.02020202   9.97979798]]
