# 확률 분포와 통계적 추론

numpy를 이용하여 통계량 계산하기

In [1]:
import numpy as np

x = np.arange(10.0)
x.mean()

4.5

In [3]:
numbers = np.arange(20.0)
x = np.reshape(numbers, (4,5)) #0~19까지를 4x5행렬로 변경
print(x)
np.mean(x, 0)

[[ 0.  1.  2.  3.  4.]
 [ 5.  6.  7.  8.  9.]
 [10. 11. 12. 13. 14.]
 [15. 16. 17. 18. 19.]]


array([ 7.5,  8.5,  9.5, 10.5, 11.5])

In [5]:
np.std(x)   #행,열 고려없이 x에 대한 표준편차

5.766281297335398

In [6]:
np.var(x) 

33.25

In [9]:
x = np.random.randn(3,4)  #3X4 인 행렬
print(x)

[[-0.13267468  2.23926114  0.81058795  1.00810747]
 [ 0.14794285  0.18625896 -0.51044466  0.34948886]
 [-1.47011438  0.02662314  1.00199006  1.28026546]]


In [11]:
np.corrcoef(x) #피어슨 상관고나계 구하기

array([[ 1.        ,  0.1495637 ,  0.42220312],
       [ 0.1495637 ,  1.        , -0.22131291],
       [ 0.42220312, -0.22131291,  1.        ]])

In [12]:
np.corrcoef(x[0],x[1])

array([[1.       , 0.1495637],
       [0.1495637, 1.       ]])

In [14]:
np.cov(x, rowvar=False) #공분산 구하기

array([[ 0.74760005,  0.44024356, -0.5123166 , -0.34247744],
       [ 0.44024356,  1.52267807,  0.34119009,  0.10022884],
       [-0.5123166 ,  0.34119009,  0.67820345,  0.38831452],
       [-0.34247744,  0.10022884,  0.38831452,  0.22903225]])

In [15]:
np.cov(x, rowvar=True) #각 행 사이의 공분산 구하기

array([[ 0.95108902,  0.05533545,  0.51147094],
       [ 0.05533545,  0.14392405, -0.10429473],
       [ 0.51147094, -0.10429473,  1.54304247]])

다양한 확률 분포 사용하기

In [17]:
import numpy as np
from scipy import stats
np.random.seed(0)
stats.binom(10, 0.5).rvs(10) #n=10, p=0.5인 이항분포에서 rvs 함수로 표본 10개 추출

array([5, 6, 5, 5, 5, 6, 5, 7, 8, 5], dtype=int64)

In [18]:
stats.norm().rvs(10)  #표준정규분포에서 표본 10개 추출

array([ 0.14404357,  1.45427351,  0.76103773,  0.12167502,  0.44386323,
        0.33367433,  1.49407907, -0.20515826,  0.3130677 , -0.85409574])

In [21]:
stats.uniform().rvs(10)  #0~1 사이에 정의된 균일 분포에서 표본 10개 추출

array([0.21038256, 0.1289263 , 0.31542835, 0.36371077, 0.57019677,
       0.43860151, 0.98837384, 0.10204481, 0.20887676, 0.16130952])

In [22]:
stats.chi2(df=2).rvs(10) #자유도가 2인 카이제곱 분포에서 표본 10개 추출

array([2.11748545, 0.58416107, 1.25588316, 0.56055403, 0.34625491,
       0.23391082, 2.13614438, 0.29742454, 0.43776121, 0.92002793])

정규성 검정하기

In [23]:
x = stats.uniform().rvs(20)  #균일 분포에서 표본 20개 추출
k2, p = stats.normaltest(x)  #x에 대한 정규성 검정
print(p)  #정규성 검정의 p값을 출력

0.14773840578736494


카이제곱 검정하기

In [26]:
import scipy as sp
n = np.array([1,2,4,1,2,10]) #주사위를 20번 던졌을 때 1~6사이의 눈이 나오는 빈도
sp.stats.chisquare(n)  #귀무 가설:각 눈의 빈도는 동일한 확률로 나온다

#유의수준>>p-value 이므로 귀무 가설 기각

Power_divergenceResult(statistic=17.799999999999997, pvalue=0.003207792034605282)

t-검정

In [29]:
np.random.seed(0)
x1 = stats.norm(0, 1).rvs(10) #평균이 0인 정규 분포에서 표본 10개 추출
x2 = stats.norm(1, 1).rvs(10) #평균이 1인 정규 분포에서 표본 10개 추출
np.mean(x1)
np.mean(x2)
stats.ttest_ind(x1, x2)  #두 집단의 모평균이 같다는 귀무 가설에 대한 t-검정

Ttest_indResult(statistic=-1.6868710732328158, pvalue=0.10888146383913824)

쌍체 t 검정하기

In [30]:
before = [68, 56, 57, 54, 64, 48, 68, 56, 61, 58, 67, 49, 58, 58, 65, 54, 59, 55, 60, 62]
after  = [65, 57, 57, 54, 64, 47, 67, 54, 60, 58, 65, 48, 57, 56, 64, 53, 57, 55, 61, 63]
#귀무 가설 : 처치 전후로 통증의 차이가 없다
#대립 가설 : 처치 전후로 통증의 차이가 있다

In [31]:
stats.ttest_rel(before, after)
# 유의 수준이 5%라면 현재 p값이 유의수준보다 작으므로 귀무가설 기각

TtestResult(statistic=3.0, pvalue=0.007361724183868639, df=19)

In [32]:
before = [2, 3, 2, 3, 2]
after  = [9, 8, 9, 7, 6]
# 귀무 가설 : 광고 전후로 차이가 없다
# 대립 가설 : 광고 전후로 차이가 있다

In [34]:
stats.ttest_rel(before, after)
# 유의 수준이 5%라면 현재 p값이 유의 수준보다 작으므로 귀무가설 기각

TtestResult(statistic=-7.961865632364446, pvalue=0.001348170975769803, df=4)