에프론(B. Efron)의 붓스트랩(bootstrap) 방법은 확률모형의 구체적 전체 없이 표본에서 표본을 추출하여 신뢰구간을 구한다. 모집단 $F$의 특성인 파라미터 $\theta$에 대한 정보를 얻고자할 때, 모집단에서 추출한 관측표본 $x_1, \cdots, x_n$을 이용해 $\theta$를 추정한 통계량 $\hat{\theta}:=T(x_1, \cdots, x_n)$을 계산할 수 있다. 이제 관측표본 $x_1, \cdots, x_n$을 복원추출하여 $x_1^*, \cdots, x_n^*$을 얻고 이를 이용해 $\hat{\theta}^*:=T(x_1^*, \cdots, x_n^*)$을 계산한다. 복원 추출과 $\hat{\theta}^*$를 구하는 과정을 $B(=1000)$번 반복하고, 이렇게 구한 $B$개의 $\hat{\theta}^*$들을 이용해 $\hat{\theta}$의 편향과 표준오차 그리고 $\theta$에 대한 신뢰구간을 구할 수 있다.

In [None]:
# bootstrapping a single statistic: bivariate correlation 

library(boot)
x <- c(15,26,10,9,15,20,18,11,8,20,7,9,10,11,11,10,12,17,11,10)
y <- c(95,71,83,91,102,87,93,100,104,94,113,96,83,84,102,100,105,121,86,100)
cor.X <- function(data, indices) cor(data[indices,1],data[indices,2])

boot.log <- boot(data=cbind(x,y), statistic=cor.X, R=1000)
print(boot.log)

hist(boot.log$t, xlim=c(-1,1), nclass=20, main="bootstrap correlations", xlab="corr")
boot.ci(boot.log, type = c("perc", "bca"))

# end

In [None]:
import numpy as np
from sklearn.utils import resample

x = [15,26,10,9,15,20,18,11,8,20,7,9,10,11,11,10,12,17,11,10]
y = [95,71,83,91,102,87,93,100,104,94,113,96,83,84,102,100,105,121,86,100]

np.corrcoef(x, y)[0][1]

In [None]:
res_corr = []
for _ in range(1000):
    indices = resample(range(len(x)), replace=True)
    res_x = [x[i] for i in indices]
    res_y = [y[i] for i in indices]
    res_corr.append(np.corrcoef(res_x, res_y)[0][1])

In [None]:
import matplotlib.pyplot as plt
import matplotlib.mlab as mlab
%matplotlib inline
plt.style.use('ggplot')

n, bins, patches = plt.hist(res_corr, facecolor='green', alpha=0.35, histtype='bar')
