In [2]:
# [1] 데이터 확인하기
import pandas as pd
import numpy as np

url = "https://raw.githubusercontent.com/Soyoung-Yoon/data_02/main/sleepage.csv"
df = pd.read_csv(url)
print(df.head(3))

   stime20s  stime40s  ID
0         4         5   1
1         4         5   2
2         5         6   3


In [3]:
# [2] 그룹을 나누어 ndarray로 변경해 저장하기
# 20대와 40대 수면시간을 gA, gB로 저장
gA = df['stime20s'].to_numpy()
gB = df['stime40s'].to_numpy()

print(gA)
print(gB)

[4 4 5 5 6 6 7 3 8 7 8 8 7 7 7 6 8 5 6 6]
[5 5 6 7 6 7 7 5 5 6 8 7 6 6 8 7 7 6 5 8]


#### 정규성 검정 Shapiro Wilks Test

In [4]:
# [4] 정규성 검정 - 1 shapiro wilks test
from scipy.stats import shapiro
A_statistic, A_pvalue = shapiro(gA)
B_statistic, B_pvalue = shapiro(gB)
print(f"A 검정통계량: {A_statistic:.3f}, p-value: {A_pvalue:.3f}")
print(f"B 검정통계량: {B_statistic:.3f}, p-value: {B_pvalue:.3f}")
print("기각" if A_pvalue <= 0.05 else "채택")
print("기각" if B_pvalue <= 0.05 else "채택")

A 검정통계량: 0.924, p-value: 0.118
B 검정통계량: 0.881, p-value: 0.018
채택
기각


In [5]:
# [5] 정규성 검정 - 2 kstest(kolmogorov-smirnov test)
from scipy.stats import kstest
A_statistic, A_pvalue = kstest(gA, "norm")
B_statistic, B_pvalue = kstest(gB, "norm")
print(f"A 검정통계량: {A_statistic:.3f}, p-value: {A_pvalue:.3f}")
print(f"B 검정통계량: {B_statistic:.3f}, p-value: {B_pvalue:.3f}")
print("기각" if A_pvalue <= 0.05 else "채택")
print("기각" if B_pvalue <= 0.05 else "채택")
print("채택" if A_pvalue > 0.05 else "기각")

A 검정통계량: 0.999, p-value: 0.000
B 검정통계량: 1.000, p-value: 0.000
기각
기각
기각


In [6]:
# [6] 정규성 검정 - 3 normaltest: 8개 이상 데이터 필요
from scipy.stats import normaltest
A_statistic, A_pvalue = normaltest(gA)
B_statistic, B_pvalue = normaltest(gB)
print(f"A 검정통계량: {A_statistic:.3f}, p-value: {A_pvalue:.3f}")
print(f"B 검정통계량: {B_statistic:.3f}, p-value: {B_pvalue:.3f}")
print("기각" if A_pvalue <= 0.05 else "채택")
print("기각" if B_pvalue <= 0.05 else "채택")

A 검정통계량: 1.173, p-value: 0.556
B 검정통계량: 2.045, p-value: 0.360
채택
채택


In [9]:
# 정규성 검정 - 4 anderson darling test
from scipy.stats import anderson
A_statistic, A_cv, A_sl = anderson(gA)
B_statistic, B_cv, B_sl = anderson(gB)
print(f"A 검정통계량: {A_statistic:.3f}, 임계값: {A_cv}, 유의수준: {A_sl}")
print(f"B 검정통계량: {B_statistic:.3f}, 임계값: {B_cv}, 유의수준: {B_sl}")

A 검정통계량: 0.560, 임계값: [0.506 0.577 0.692 0.807 0.96 ], 유의수준: [15.  10.   5.   2.5  1. ]
B 검정통계량: 0.892, 임계값: [0.506 0.577 0.692 0.807 0.96 ], 유의수준: [15.  10.   5.   2.5  1. ]


#### 모수검정: T검정 - One sample t-test

In [7]:
# [4] One Sample t-test 수행
from scipy.stats import ttest_1samp
# print(help(ttest_1samp))

ttest_1samp()

TypeError: ttest_1samp() missing 2 required positional arguments: 'a' and 'popmean'

#### 모수검정: T검정 - Paired t-test

In [12]:
# [데이터 불러오기]
import pandas as pd
url = "https://raw.githubusercontent.com/Soyoung-Yoon/data_02/main/sleep.csv"
df = pd.read_csv(url)
print(df.head(3))

   extra  group  ID
0    0.7      1   1
1   -1.6      1   2
2   -0.2      1   3


In [13]:
# [2] 그룹 나누기
print(df['group'].unique())
gA, gB = [s.to_numpy() for _, s in df.groupby('group')['extra']]
print(gA, gB, sep="\n")

[1 2]
[ 0.7 -1.6 -0.2 -1.2 -0.1  3.4  3.7  0.8  0.   2. ]
[ 1.9  0.8  1.1  0.1 -0.1  4.4  5.5  1.6  4.6  3.4]


In [15]:
# [3] 정규성 검정
from scipy.stats import shapiro
_, pvalue = shapiro(gA-gB)
print(round(pvalue, 3))
print("채택" if pvalue <= 0.05 else "기각")

0.033
채택


In [16]:
# [4] gA와 gB의 평균 구하기
print(gA.mean(), round(gB.mean(), 2))

0.75 2.33


In [18]:
# [5] Paired t-test
from scipy.stats import ttest_rel
statistic, pvalue = ttest_rel(gA, gB, alternative="two-sided")
print(round(statistic, 3), round(pvalue, 3))
print("채택" if pvalue > 0.05 else "기각")

-4.062 0.003
기각


In [19]:
# [6] Paired t-test
from scipy.stats import ttest_rel
statistic, pvalue = ttest_rel(gA, gB, alternative="less")
print(round(statistic, 3), round(pvalue, 3))
print("채택" if pvalue > 0.05 else "기각")

-4.062 0.001
기각


In [20]:
# [7] Paired t-test
from scipy.stats import ttest_rel
statistic, pvalue = ttest_rel(gA, gB, alternative="greater")
print(round(statistic, 3), round(pvalue, 3))
print("채택" if pvalue > 0.05 else "기각")

-4.062 0.999
채택


#### 모수검정: 모평균에 관한 t-test

In [24]:
# ~ 주장한다 -> 가설
# 불량화소의 개수는 정규분포를 따른다 -> 정규성 검정 패스
# 귀무가설: A회사에서 판매하는 모니터의 불량화소 평균이 5개 보다 크거나 같다.
# 대립가설: B회사에서 판매하는 모니터의 불량화소 평균이 5개 보다 적다.

import pandas as pd
from scipy.stats import ttest_1samp

url = "https://raw.githubusercontent.com/Soyoung-Yoon/data_02/main/defective.csv"
data = pd.read_csv(url)
# print(data.head(5))
sample = data.defective_pixel

# (a)
print(round(sample.mean(), 2))

# (b)
statistic, pvalue = ttest_1samp(sample, 5, alternative='less')
print(round(statistic, 4))
print(round(pvalue, 4))
print("채택" if pvalue > 0.05 else "기각")

4.84
-1.4446
0.0807
채택


##### 작업3유형 예시문제

In [29]:
# 귀무가설: (치료 후 혈압 - 치료 전 혈압 차)의 평균이 0보다 크거나 같다.
# 대립가설: (치료 후 혈압 - 치료 전 혈압 차)의 평균이 0보다 작다.

import pandas as pd
from scipy.stats import ttest_rel

url = "https://raw.githubusercontent.com/Soyoung-Yoon/data_02/main/blood_pressure.csv"
data = pd.read_csv(url)
# print(data.shape)
# print(data.head(3))
gA = data.bp_before.to_numpy()
gB = data.bp_after.to_numpy()
print(round((gA - gB).mean(), 2)) # -5.09
statistic, pvalue = ttest_rel(gA, gB, alternative='less')
print(round(statistic, 4))
print(round(pvalue, 4))
print("채택" if pvalue > 0.05 else "기각")

5.09
3.3372
0.9994
채택
