## 단일 표본 t 검정

##### 성인여성 30명의 키 데이터입니다.
##### 평균, 표준편차 계산
##### ks-정규성 검정 실행
##### 임의의 어떤 값 163은 평균 값에 근사할까?

In [21]:
import numpy as  np
from scipy.stats import *
import pandas as pd

In [2]:
with open("./datas/성인여성_키_데이터.txt", "r") as f:
    data = f.read().split('\n')
    # print(data)
    # map(data_type, list_data)
    data = list(map(float, data))
    print(data)
    print(len(data))

[163.94, 162.48, 164.29, 166.3, 162.26, 162.26, 166.43, 164.57, 161.72, 164.05, 161.73, 161.73, 163.36, 158.4, 158.83, 161.51, 160.47, 163.52, 160.71, 159.55, 166.17, 162.28, 162.96, 159.52, 161.55, 163.06, 160.15, 163.66, 161.42, 162.13]
30


In [3]:
data[:3]

[163.94, 162.48, 164.29]

In [4]:
# 데이터의 평균과 표준편차 구하기

mean_value = np.mean(data)
std_dev = np.std(data, ddof=0)

mean_value, std_dev

(np.float64(162.36700000000002), np.float64(2.0354559685731335))

### 정규성 검정 (ks-test)

In [5]:
# 정규성 검정, KS-test(Kolmogorov-Smirnov) 검정
# KS-test는 주어진 표본 데이터가 특정 이론적인 분포(예: 정규분포)를 따르는지 검정하는 방법

# 'norm': 비교 대상이 되는 이론적인 분포를 지정 ('norm'은 정규분포)
# args=(np.mean(data), np.std(data, ddof=0)): 표본 데이터의 평균과 표준편차를 사용하여 정규분포의 모수 설정
ks_statistic, p_value = kstest(data, 'norm', args=(np.mean(data), np.std(data, ddof=0)))
ks_statistic, p_value

(np.float64(0.08754216181498631), np.float64(0.9601287796358491))

### 가설 설정 (단일 표본 t 검정)

##### 귀무 가설 : 표본 데이터의 평균은 163과 같다.
##### 대립 가설 : 표본 데이터의 평균은 163과 다르다.

In [6]:
# 단일 표본 t 검정 수행
# 검중 수치 = 163, 귀무가설 평균키는 163이다.

print(ttest_1samp(data, 163))

TtestResult(statistic=np.float64(-1.6747153343266057), pvalue=np.float64(0.10474264924733795), df=np.int64(29))


In [19]:
# 기준 평균: 90

sample = [92, 88, 91, 89, 94, 90, 87, 93, 89, 90]

mean_value = np.mean(sample)
std_dev = np.std(sample, ddof=0)

print(mean_value)
print(std_dev)


ks_statistic, p_value = kstest(sample, 'norm', args=(np.mean(sample), np.std(sample, ddof=0)))

print(ks_statistic)
print(p_value)

t_stat, p_value = stats.ttest_1samp(sample, 90)

print(f"t 통계량: {t_stat:.3f}")
print(f"p 값: {p_value:.3f}")

if p_value < 0.05:
    print("귀무가설 기각: 혈당에 유의미한 영향이 있습니다.")
else:
    print("귀무가설 채택: 혈당에 유의미한 영향이 없습니다.")

90.3
2.0999999999999996
0.15679849681646763
0.9356557119856437
t 통계량: 0.429
p 값: 0.678
귀무가설 채택: 혈당에 유의미한 영향이 없습니다.


  t_stat, p_value = stats.ttest_1samp(sample, 90)


## 독립 표본 t 검정

In [23]:
df1 = pd.read_csv("./datas/반별_점수_type1.csv", encoding = "euc-kr")
df1.head()

Unnamed: 0,반,점수
0,A,73
1,A,69
2,A,71
3,A,71
4,A,73


In [24]:
group_A = df1['점수'].loc[df1['반'] == 'A'].values
group_B = df1['점수'].loc[df1['반'] == 'B'].values

print(group_A)
print(group_B)


[73 69 71 71 73 67 73 69 62 74 68 66 70 82 70 65 76 73 58 81]
[63 56 73 61 55 77 75 65 61 55]


### 정규성 검정 (ks-test)

In [25]:
print(kstest(group_A, 'norm'))
print(kstest(group_B, 'norm'))

KstestResult(statistic=np.float64(1.0), pvalue=np.float64(0.0), statistic_location=np.int64(58), statistic_sign=np.int8(-1))
KstestResult(statistic=np.float64(1.0), pvalue=np.float64(0.0), statistic_location=np.int64(55), statistic_sign=np.int8(-1))


In [27]:
# 등분산 검정

levene(group_A, group_B) 

LeveneResult(statistic=np.float64(2.033067087400979), pvalue=np.float64(0.16496408622210104))

### 독립표보내 t-검정 통계량 계산 및 의사결정

In [None]:
print(ttest_ind(group_A, group_B, equal_var = True)) 