### 독립성 정의

- 서로 독립인 다차원 확률변수

- 2개 이상의 확률변수가 서로 영향을 끼치지 않으면서 관계가 없을 나타내는 개념

- 2차원 확률변수(X,Y)의 경우, 다음과 같은 관계식이 성립할 때 독립

   - fX,Y(x,y) = fX(x)fY(y)

- 독립: 확률변수가 다른 확률변수에 서로 영향을 미치지 않음

- 독립의 중요성: 통계분석에서 사용하는 데이터의 대부분이 독립이면서 다차원인 확률변수로 가정하고 분석 진행

- 독립동일분포(i.i.d:independently and identically distributed)

   - 서로 독립이고 각각 동일한 확률분포를 따르는 다차원 확률변수를 말함

   - 통계분석에서 가장 기본적이고 중요한 조건

<br>

### 독립성의 일반화

- n개의 확률변수(X1,X2,...Xn)가 다음을 만족할 때, X1,X2...,Xn은 서로 독립이다

- 식

   - fx1,x2,x3...xn(x1,x2,...,xn) = fx1(x1)fx2(x2)...fxn(xn)

   - 단 f가 이상형이면 주변확률함수이고 연속형이면 주변확률밀도함수이다.

<br>

### 독립성과 무상관성

- 공분산과 상관계수의 개념은 그 값이 0일 때, 무상관임을 표현한다.(즉 선형관계가 없다)

- 독립일 때 무상관성을 만족하지만 무상관성이라고 반드시 독립인 것은 아니다.




In [1]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

np.random.seed(0)
%precision 3
%matplotlib inline

In [8]:
linestyles = ['-','--',':','-.']

def E(XY, g):
    x_set, y_set, f_XY =XY
    return np.sum([g(x_i, y_j) * f_XY(x_i,y_j) for x_i in x_set for y_j in y_set])

In [9]:
def Cov(XY):
    x_set, y_set, f_XY =XY
    mean_X = E(XY, lambda x, y:x)
    mean_Y = E(XY, lambda x, y:y)
    return np.sum([(x_i-mean_X) * (y_j-mean_Y) * f_XY(x_i,y_j) for x_i in x_set for y_j in y_set])

In [10]:
def f_X(x):
    return np.sum([f_XY(x,y_k) for y_k in y_set])
    

In [11]:


def f_Y(y):
    return np.sum([f_XY(x_k,y) for x_k in x_set])

In [12]:
#독립성과 무상관성
x_set = np.array([1,2,3,4,5,6])
y_set = np.array([1,2,3,4,5,6])

def f_XY(x,y):
    if x in x_set and y in y_set:
        return x*y /441
    else:
        return 0
XY = [x_set, y_set, f_XY]

In [13]:
Cov(XY)

-0.000

In [14]:
#각각 확률이 동일한 경우

#fX,Y(x,y) = 1/3  {(x,y) is (0,0) ,(1,1),(1,-1)}
#fX,Y(x,y) = 0 {otherwise}


x_set = np.array([0,1])
y_set = np.array([-1,0,1])

def f_XY(x,y):
    if (x,y) in [(0,0),(1,1),(1,-1)]:
        return 1/3
    else:
        return 0
XY = [x_set, y_set, f_XY]

In [15]:
Cov(XY)

0.000

In [16]:
f_X(0) * f_Y(0), f_XY(0,0) #독립이 아니다/

(0.111, 0.333)

---

### 합의 분포

**특징**

- 합의 분포의 이산형 확률함수, 연속형 확률밀도함수를 직접 유도하는 것은 어렵다

- 따라서 합의 분포의 기대값과 분산에 대해 파악하기

<br>

**필요성**

- 표본 평균에 대한 이해도를 높이기 위한 사전 준비를 하는 차원에서 합의 분포에 대한 파악이 필요

- 그 후, n으로 나눈 표본평균에 대해서 쉽게 이해 가능

<br>

**기대값**

- 확률변수가 서로 독립이 아니어도 성립

E(X1+X2+X3+...+Xn) = E(X1)+E(X2)+E(X3) +..+E(Xn)

**분산**

- 확률변수가 서로 독립일 경우에 성립

V(X1+X2+X3+...+Xn) = V(X1)+V(X2)+V(X3) +...+V(Xn)


<br>

### 합의 분포를 따르는 실제 확률 분포의 형태

- 정규분포의 합의 분포-> 정규분포

- 푸아송 분포의 합의 분포-> 푸아송 분포

- 베르누이 분포의 합의 분포 -> 이항분포

In [18]:
## 정규분포의 합의 분포

#서로 독립인 확률변수 X,Y는 각각 X~N(1,2) 와 Y~N(2,3)로 정의되었을 때

#E(X+Y) = E(X) +E(Y) =3
#V(X+Y) = V(X)+V(Y) =5

rv1 = stats.norm(1, np.sqrt(2))
rv2 = stats.norm(2, np.sqrt(3))

sample_size = int(1e6)
X_sample = rv1.rvs(sample_size)
Y_sample = rv2.rvs(sample_size)

sum_sample = X_sample + Y_sample

np.mean(sum_sample), np.var(sum_sample)


(3.003, 4.996)

In [19]:
#푸아송 분포의 합의 분포
#서로 독립인 확률변수 X~Poi(3) 과 Y~Poi(4)로 정의

##E(X+Y) =E(X) +E(Y) = 3+4=7
##V(X+Y) =V(X)+ V(Y) = 3+4=7

rv1 = stats.norm(1, np.sqrt(3))
rv2 = stats.norm(2, np.sqrt(4))

sample_size = int(1e6)
X_sample = rv1.rvs(sample_size)
Y_sample = rv2.rvs(sample_size)
sum_sample = X_sample + Y_sample

np.mean(sum_sample), np.var(sum_sample)

(3.000, 6.986)

In [21]:
#베르누이

p =0.3
rv = stats.bernoulli(p)

sample_size = int(1e6)
Xs_sample = rv1.rvs(10, sample_size)
sum_sample = np.sum(Xs_sample, axis=0)


np.mean(sum_sample), np.var(sum_sample)

(12.797, 0.000)