# 제 3유형 - 모평균 검정_모집단 1개(집단의 평균 vs 특정값)

## ✅ 검정방법
### 1) 정규성을 따른다 → 단일표본t검정(1sample t-test)
### 2) 정규성을 따르지 않는다. → 윌콕슨 부호순위 검정

### ✅ 가설검정 순서(중요!)
> 1. 가설 설정
> 2. 유의수준 확인
> 3. 정규성 검정
> 4. 검정실시(통계량, p-value 확인)
> 5. 귀무가설 기각여부 결정(채택/기각)

#### ✅ 데이터 불러오기

In [1]:
import numpy as np
import pandas as pd

In [2]:
# 데이터 불러오기 mtcars 
df = pd.read_csv("/Users/jinyeonglee/BigData_Certification/Data/mtcars.csv")
df.head()

Unnamed: 0,car,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


#### 예제 문제           
#### 1. mtcars 데이터셋의 mpg열 데이터의 평균이 20과 같다고 할 수 있는지 검정하시오. (유의수준 5%)

In [3]:
import scipy.stats as stats
from scipy.stats import shapiro             # 정규성 검정

##### 1. 가설 설정
H0 : mpg열 데이터의 평균이 20과 같다.           
H1 : mpg열 데이터의 평균이 20과 같지 않다.

##### 2. 유의수준 확인
문제에서 유의수준 5%로 제공

##### 3. 정규성 검정
정규성 가정이 되어야 단일표본 t-test가 가능하지만 문제에서 단일표본 t-test를 하라고 했다면 정규성 검정을 할 필요가 없다.    
H0 : 정규분포를 따른다.     
H1 : 정규분포를 따르지 않는다.

In [7]:
# shapiro 테스트로 데이터의 분포가 정규분포인지 검정
# 통계값과 pvalue 값을 줌.
result = stats.shapiro(df['mpg'])
print(result)

statistic, pvalue = stats.shapiro(df['mpg'])
print("statstic : ", round(statistic, 4), ", p-value : ", round(pvalue, 4))

ShapiroResult(statistic=0.9475648403167725, pvalue=0.1228824257850647)
statstic :  0.9476 , p-value :  0.1229


- p-value 값이 유의수준(0.05)보다 크다. → 귀무가설(H0) 채택     
- 만약 정규분포를 따르지 않는다면 비모수 검정방법 사용 (윌콕슨의 부호순위 검정)
- 정규성을 만족한다면 t-test 실시

##### 4. 검정실시(통계량, p-value 확인)
4-1) 데이터가 정규성을 만족할 때 : t-test 실시.   
      
1sample t-test : 어떤 그룹의 평균값과 특정값을 비교     
> stats.ttest_1samp(a, popmean=, alternative='two-sided(default) | greater | less')
- a : 어떤 그룹
- popmean : 비교할 값(평균)
- alternative : 대립 가설(H1)       
    - two-sided : 좌변의 값과 우변의 값이 같지 않다.

In [11]:
# 4.1 (정규성 만족) t-test 실시
result = stats.ttest_1samp(df['mpg'], popmean=20, alternative='two-sided')
statistics, pvalue = stats.ttest_1samp(df['mpg'], popmean=20, alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))
print(result)

0.9476 0.9328
TtestResult(statistic=0.08506003568133688, pvalue=0.9327606409093872, df=31)


4-2) 데이터가 정규성을 만족하지 않을 때 : wilcoxon 부호순위 검정
> stats.wilcoxon(어떤 그룹 - 비교할 평균, alternative='two-sided(default) | greater | less')

In [10]:
# 4.2 (정규성 만족 X) wilcoxon 부호순위 검정
statstic, pvalue = stats.wilcoxon(df['mpg']-20, alternative='two-sided')
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.7891


##### 5. 귀무가설 기각여부 결정
p-value = 0.9328로 0.05보다 크기 때문에 귀무가설을 채택한다.        
즉, mpg 열의 평균이 20과 같다고 할 수 있다.

In [12]:
# 실제 평균 계산
df['mpg'].mean()

20.090625000000003

#### 2. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 크다고 할 수 있는지 검정하시오. (유의수준 5%)

In [13]:
import scipy.stats as stats
from scipy.stats import shapiro

##### 1. 가설 설정
H0 : mpg열 데이터의 평균이 17보다 크지 않다(작거나 같다). (→ mpg_mean <= 17)        
H1 : mpg열 데이터의 평균이 17보다 크다. (→ mpg_mean > 17)

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정
정규성 H0 : 정규분포를 따른다.          
H1 : 정규분포를 따르지 않는다.

In [14]:
# 정규성 검정
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.1229


p-value = 0.1229로 유의수준 0.05보다 크므로 귀무가설 채택           
→ 데이터는 정규분포를 따른다.

##### 4. 검정실시(통계량, p-value 확인)

In [15]:
# 4-1) 정규성을 만족 -> t-test 진행
statistic, pvalue = stats.ttest_1samp(df['mpg'], 17, alternative='greater')     # alternative : 17보다 "크다" → greater
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.0034


In [16]:
# 만약 정규성을 만족하지 않을 때 → wilcoxon 부호검정 진행
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='greater')
print(round(statistic, 4), round(pvalue, 4))

395.5 0.0066


##### 5. 귀무가설 기각여부 결정
t-test 검정 결과 p-value = 0.0034로 유의수준 0.05보다 작으므로 귀무가설을 기각한다.         
→ mpg열 데이터의 평균이 17보다 크다.

In [17]:
# 실제 mpg열 데이터의 평균
df['mpg'].mean()

20.090625000000003

#### 3. mtcars 데이터셋의 mpg열 데이터의 평균이 17보다 작다고 할 수 있는지 검정하시오.(유의수준 5%)

In [18]:
import scipy.stats as stats
from scipy.stats import shapiro

##### 1. 가설 설정
H0 : mpg열 데이터의 평균이 17보다 작지 않다 (크거나 같다.)              
H1 : mpg열 데이터의 평균이 17보다 작다.

##### 2. 유의수준 확인
문제에서 5%로 제공

##### 3. 정규성 검정
H0 : 데이터가 정규분포를 따른다.            
H1 : 데이터가 정규분포를 따르지 않는다.

In [19]:
# 정규성 검정 : shapiro
statistic, pvalue = stats.shapiro(df['mpg'])
print(round(statistic, 4), round(pvalue, 4))

0.9476 0.1229


정규성 검정 결과 p-value = 0.1229로 유의수준 0.05보다 크므로 귀무가설을 채택한다.           
→ 데이터가 정규분포를 따른다.

##### 4. 검정실시(통계량, p-value 확인)

In [20]:
# 4-1) 정규성을 만족 → t-test 진행
statistic, pvalue = stats.ttest_1samp(df['mpg'], popmean=17, alternative='less')
print(round(statistic, 4), round(pvalue, 4))

2.9008 0.9966


In [21]:
# 4-2) 정규성을 만족 못했을 때 → wilcoxon 부호검정
statistic, pvalue = stats.wilcoxon(df['mpg']-17, alternative='less')
print(round(statistic, 4), round(pvalue, 4))

395.5 0.9938


##### 5. 귀무가설 기각여부 결정
단일표본 t-test 검정 결과 p-value=0.9966으로 유의수준 0.05보다 크므로 귀무가설을 채택한다.          
→ mpg열 데이터의 평균이 17보다 작지 않다. (크거나 같다.)

In [22]:
# 실제 mpg열 평균
df['mpg'].mean()

20.090625000000003