#  단일표본 t검정

[문제]
- 성인여성 30명의 키 데이터
- 평균, 표준편차 계산
- ks-정규성 검정 실행
- 임이의 어떤 값 163은 평균 값에 근사할까?

In [1]:
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)


In [2]:
# data 로딩
with open("./datas2/성인여성_키_데이터.txt","r") as f:
    data = f.read().split("\n")
    data = map(float,data) #리스트 요소가 문자열
    data = list(data)
    print(data)
    print(list(data))#map 함수의 결과를 list로 형변환 -> 출력
    

[150.27, 142.94, 160.99, 157.48, 153.46, 137.5, 154.94, 159.51, 171.87, 143.69, 153.65, 160.25, 153.07, 154.42, 141.21, 154.17, 162.56, 164.44, 172.36, 141.51, 169.4, 167.97, 170.26, 157.8, 167.61]
[150.27, 142.94, 160.99, 157.48, 153.46, 137.5, 154.94, 159.51, 171.87, 143.69, 153.65, 160.25, 153.07, 154.42, 141.21, 154.17, 162.56, 164.44, 172.36, 141.51, 169.4, 167.97, 170.26, 157.8, 167.61]


## 가설 설정
- H0 : 표본 데이터의 평균은 163과 같다.
- H1 : 표본 데이터의 평균은 163과 다르다.

In [3]:
# 데이터의 평균과 표준편차 구하기

import numpy as np
mean_value = np.mean(data)
#표준편차
std_dev = np.std(data, ddof=0) #모집단의 표준 편차
mean_value,std_dev

(np.float64(156.9332), np.float64(9.974187774450611))

## 정규성 검사(kS-test)

In [4]:
  #stats 모듈의 모든 함수 및 클래스를 로딩
# from scipy import stats
import numpy as np


In [5]:
# 정규성 검정 함수
ks_stats, p_value = kstest(data, 'norm', args=(mean_value, std_dev))
ks_stats, p_value

(np.float64(0.10925974986314058), np.float64(0.8950958424230889))

# 단일표본 T검정 하기

In [6]:
ttest_1samp(data, 163)

TtestResult(statistic=np.float64(-2.979804412662668), pvalue=np.float64(0.006510445335847954), df=np.int64(24))

# 독립 표본 t검정
- 두 그룹 A, B의 차이를 검증 할 때 사용하는 검증 방법

In [7]:
# 문제 : A,B반의 점수 차이가 있늕 검증하기
# [가설 설정]
# H0 : A반과 B반의 평균은 같다.
# H1 : A반과 B반의 평균은 다르다.

In [8]:
import pandas as pd
from scipy.stats import kstest
import numpy as np



In [9]:
df1 = pd.read_csv("./datas2/반별_점수_type1.csv", encoding = "euc-kr")
df1.tail()

Unnamed: 0,반,점수
25,B,77
26,B,75
27,B,65
28,B,61
29,B,55


In [10]:
# 데이터프레임에서 반 컬럼의 유니크한 값의 갯수 확인
df1['반'].value_counts()

반
A    20
B    10
Name: count, dtype: int64

### A반, B반 데이터 분리하기

In [11]:
# A반의 점수만 추출
groupA = df1['점수'].loc[df1['반']=='A'].values
len(groupA)

20

In [12]:
groupB = df1['점수'].loc[df1['반']=='B'].values
len(groupB)

10

In [13]:
# A반의 평균과 표준편차
meanA = np.mean(groupA)
stdA = np.std(groupA, ddof=1)
meanA,stdA

(np.float64(70.55), np.float64(5.67983506061483))

In [14]:
#B반의 평균과 표준 편차
meanB = np.mean(groupB)
stdB = np.std(groupB, ddof=1)
meanB, stdB

(np.float64(64.1), np.float64(8.279157230325104))

In [15]:
# 결과 출력
print(f"A반 평균: {meanA:.2f}, 표준 편차: {stdA:.2f}")
print(f"B반 평균: {meanB:.2f}, 표준 편차: {stdB:.2f}")

A반 평균: 70.55, 표준 편차: 5.68
B반 평균: 64.10, 표준 편차: 8.28


### 정규성 검정

In [22]:
# group_A와 group_B의 평균과 표준편차를 사용하여 정규성 검정 수행
print(stats.kstest(groupA, 'norm', args=(np.mean(groupA), np.std(groupA, ddof=1))))
print(stats.kstest(groupB, 'norm', args=(np.mean(groupB), np.std(groupB, ddof=1))))

KstestResult(statistic=np.float64(0.13310674849448567), pvalue=np.float64(0.8254564220619713), statistic_location=np.int64(73), statistic_sign=np.int8(1))
KstestResult(statistic=np.float64(0.15881009358601705), pvalue=np.float64(0.9295432555006241), statistic_location=np.int64(73), statistic_sign=np.int8(-1))


### 등분산 검정
- 그룸A와 그룹 B가 가은 분산 인지 확인하기 위해 levene()검정 사용

In [18]:
levene(groupA, groupB)

LeveneResult(statistic=np.float64(2.033067087400979), pvalue=np.float64(0.16496408622210104))

In [19]:
# A의 분산 구하기
np.var(groupA,ddof=1)

np.float64(32.26052631578948)

In [20]:
# B의 분산
np.var(groupB,ddof=1)

np.float64(68.54444444444445)

In [21]:
print(ttest_ind(groupA, groupB, equal_var= True))

TtestResult(statistic=np.float64(2.5128526794964134), pvalue=np.float64(0.01801095352893767), df=np.float64(28.0))


# 비즈니스 상황에서 적용
- 단일표본 -t검정, 독립표본 t-검정 관심 도메인에서 사용 예시 1개씩 찾아서 공유하기