# 독립동일분포
- 서로 독립이고 각각 동일한 확률분포를 따르는 다차원 확률변수
- 동일한 조건 아래에서 수행되는 실험이나 관측을 여러번 반복하여 데이터를 얻는 것을 수학용어로 나타낸 것

In [3]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats, integrate
from scipy.optimize import minimize_scalar
np.random.seed(0)
import warnings
warnings.filterwarnings('ignore', category=integrate.IntegrationWarning)
%precision 3
%matplotlib inline

In [1]:
linestyles = ['-', '--', ':', '-. ']

def E(XY, g):
    x_set, y_set, f_XY = XY
    return np.sum([g(x_i, y_j) * f_XY(x_i, y_j)for x_i in x_set for y_j in y_set])

def Cov(XY):
    x_set, y_set, f_XY = XY
    mean_X = E(XY, lambda x, y:x)
    mean_Y = E(XY, lambda x, y:y)
    return np.sum([(x_i-mean_X) * (y_j-mean_Y) * f_XY(x_i, y_j)for x_i in x_set for y_j in y_set])

def f_X(x):
    return np.sum([f_XY(x, y_k) for y_k in y_set])

def f_Y(y):
    return np.sum([f_XY(x_k, y) for x_k in x_set])

## 독립성

In [5]:
# 서로 독립인 X~N(1,2), Y~N(2,3)이 있을 때 확률변수 X + Y 의 분포는 N(3,5)를 따름
rv1 = stats.norm(1,np.sqrt(2))
rv2 = stats.norm(2,np.sqrt(3))

sample_size = int(1e6)
X_sample = rv1.rvs(sample_size)
Y_sample = rv2.rvs(sample_size)
print(X_sample, '\n')
print(Y_sample, '\n')
sum_sample  = X_sample + Y_sample
print('평균:', np.mean(X_sample),np.mean(Y_sample),'\n')
print('분산:', np.var(X_sample), np.var(Y_sample),'\n')
print('합의 평균, 분산:', np.mean(sum_sample), np.var(sum_sample))

[ 0.67   2.366  1.628 ...  0.688 -0.51   1.459] 

[-2.63   2.433 -0.893 ...  0.051  3.648  0.004] 

평균: 0.9986617043495317 2.0018287793565332 

분산: 2.0004790222691637 2.9931731057340802 

합의 평균, 분산: 3.0004904837060664 4.989750326542952


## 합의 분포

## 표본평균의 분포
- 표본평균의 분포란 서로 독립이고 동일한 확률분포를 따르는 확률변수 $X_1, X_2, ...,X_n$의 표본평균이 따르는 분포
- 이 분포는 중심극한정리나 대수의 법칙 등 추측통계에서 중요한 성질을 담고 있기 때문에 유의해야 함
- 표본평균의 기댓값과 분산  
$E(\bar{X}) = \mu$  
$V(\bar{X}) = {\sigma}^2 / n$

### 중심극한정리
- 확률변수 $X_1,X_2,...Xn$이 서로 독립이고 기댓값이 $\mu, 분산이 {\sigma}^2$인 확률분포 F를 따를 때 n이 커짐에 따라 표본평균 $\bar{X}의 분포는 정규분포 N(\mu,{\sigma}^2/n)$에 가까워진다.

### 대수의 법칙
확률변수 $X_1,X_2,...,X_n$이 서로 독립이고 평균이 $\mu, 분산이 \sigma^2$일 것 같은 확률분포를 따를 때 n이 커짐에 따라 표본평균은 $\mu$에 수렴한다.