In [5]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as stats

In [4]:
diamonds = pd.read_excel("/SBA/diamonds.xlsx",
                        sheet_name = 0,
                        header     = 0)

- - -

## 일표본 검정(One sample test)
* 하나의 모집단의 평균이 기존보다 커졌는지, 작아졌는지, 달라졌는지를 분석하는 방법
* 양적 자료 : 1개

### 1. 일표본 t검정(One sample t-test)
 - 모집단의 양적 자료가 정규분포를 따른다고 할 때 사용

**귀무가설 : 다이아몬드 가격의 평균은 4000달러이다.  
대립가설 : 다이아몬드 가격의 평균은 4000달러보다 많다.**

In [8]:
# scipy.stats -> stats
# stats.ttest_1samp(data.variable, popmean = )

# 참고
# data.variable : 검정 변수
# popmean       : 귀무가설의 모평균(μ)

In [18]:
price_mean = diamonds.price.mean()
price_std  = diamonds.price.std()
price_n    = diamonds.price.count()
price_t    = (price_mean - 4000) / (price_std / np.sqrt(price_n))

print(price_mean)
print(price_std)
print(price_n)
print(price_t)

3932.799721913237
3989.4397381463023
53940
-3.912142197410893


In [9]:
stats.ttest_1samp(diamonds.price, popmean = 4000)

Ttest_1sampResult(statistic=-3.9121421974108177, pvalue=9.159308675707768e-05)

In [19]:
# 결론
# 유의확률(p-value)이 1.0 이므로 유의수준 0.05에서
# '다이아몬드 가격의 평균은 4000달러이다' 라는 귀무가설을 채택한다.
# 다이아몬드 가격에는 통계적으로 유의한 차이는 없는 것으로 나타났다.

- - -

In [22]:
# diamonds.carat
# 귀무가설 : 다이아몬드 무게의 평균은 1캐럿이다.
# 대립가설 : 다이아몬드 무게의 평균은 1캐럿보다 작다.

carat_mean = diamonds.carat.mean()
carat_std  = diamonds.carat.std()
carat_n    = diamonds.carat.count()
carat_t    = (carat_mean - 1) / (carat_std / np.sqrt(carat_n))

print(carat_mean)
print(carat_std)
print(carat_n)
print(carat_t)

0.7979397478679852
0.47401124440538067
53940
-99.00285472900812


In [23]:
stats.ttest_1samp(diamonds.carat, popmean = 1)

Ttest_1sampResult(statistic=-99.00285472899229, pvalue=0.0)

In [None]:
# 결론
# 유의확률(p-value)이 0.000 이므로 유의수준 0.5 에서
# 다이아몬드의 무게가 통계적으로 유의한 변화가 있는 것으로 나타났다.
# 다이아몬드의 무게가 통계적으로 유의하게 작아진 것으로 나타났다.

 - - -

In [24]:
# 귀무가설 : 다이아몬드의 x 길이의 평균은 5이다.
# 대립가설 : 다이아몬드의 x 길이의 평균은 5가 아니다.

In [25]:
x_mean = diamonds.x.mean()
x_std  = diamonds.x.std()
x_n    = diamonds.x.count()
x_t    = (x_mean - 5) / (x_std / np.sqrt(x_n))

print(carat_mean)
print(carat_std)
print(carat_n)
print(carat_t)

0.7979397478679852
0.47401124440538067
53940
-99.00285472900812


In [26]:
stats.ttest_1samp(diamonds.x, popmean = 5)

Ttest_1sampResult(statistic=151.37912832761043, pvalue=0.0)

In [27]:
# 결론
# 유의확률(p-value)이 0.000 이므로 유의수준 0.05에서
# 다이아몬드 x의 길이는 통계적으로 유의하게 변화된 것으로 나타났다.

---

---

### 2. 윌콕슨의 부호 순위 검정(Wilcoxon's signed rank test)

- 모집단의 양적 자료가 정규분포를 따르지 않을 때 (정규성 가정이 깨질 때)

In [None]:
# stats.wilcoxon(data.variable - myu, alternative = 'greater' or 'less' or 'two.sided')

# data.variable = myu : wilcox는 기본이 평균  = 0
# alternative   = 대립가설
# alternative   = "greater"  : myu  >  0
# alternative   = "less"     : myu  <  0
# alternative   = "two.side" : myu !=  0

In [28]:
# 귀무가설 : 다이아몬드 가격의 평균은 4000달러이다.  
# 대립가설 : 다이아몬드 가격의 평균은 4000달러보다 많다.

stats.wilcoxon(diamonds.price - 4000, alternative = 'greater')

WilcoxonResult(statistic=564679024.5, pvalue=1.0)

In [None]:
# 결론
# 유의확률이 1.000 이므로 유의수준 0.05에서 귀무가설을 채택