#### 독립동일분포
- 확률변수가 서로 독립이라는 것은 확률변수가 다른 확률변수에 영향을 끼치지 않는다는 의미이다.
- 통계분석에서 취급하는 데이터 중 상당수가 독립이면서 다차원인 확률변수의 실현값으로 간주될 수 있다.
- 서로 독립이고 각각 동일한 확률분포를 따르는 다차원 확률변수를 독립동일분포라 한다.

#### 독립성
- 2개 이상의 확률변수가 서로 영향을 끼치지 않으며 관계가 없음을 나타내는 개념
- 2차원 확률변수 (X,Y)의 경우 다음과 같은 관계가 성립할 때 X,Y는 독립이라고 함  
$f_{X,Y}(x,y) = f_X(x)f_Y(y)$
- 확률변수가 독립일 때 결합확률은 주변확률의 곱으로 작성할 수 있다.
- 일반화 : $f_{X_1,X_2,...X_n}(x_1,x_2,...,x_n) = f_{X_1}(x_1)f_{X_2}(x_2)...f_{X_n}(x_n)$

※ 함수 f가 이산형이면 확률함수, 연속형이면 밀도함수를 나타냄


#### 독립성과 무상관성
- 공분산이나 상관계수가 0일 때 무상관이라 하고 두 확률변수 사이에는 상관성, 즉 선형관계가 없음을 나타냄
- 독립성도 무상관성도 두 확률변수가 서로 관계가 없다는 것을 나타내는 성질이다.
  * 무상관성보다 독립성이 더 강한 개념
  * 2개의 확률변수 X와 Y가 독립일 때 X와 Y는 무상관이 되지만 X와 Y가 무상관일 때 X와 Y가 반드시 독립인 것은 아님

In [5]:
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

linestyles = ['-','--',':','-.']

def E(XY,g):
    x_set, y_set, f_XY = XY
    return np.sum([g(x_i,y_j) * f_XY(x_i,y_j)
                  for x_i in x_set for y_j in y_set])

def Cov(XY):
    x_set, y_set,f_XY = XY
    mean_X = E(XY,lambda x,y:x)
    mean_Y = E(XY, lambda x,y:y)
    return np.sum([(x_i-mean_X) * (y_j-mean_Y) * f_XY(x_i,y_j)
                  for x_i in x_set for y_j in y_set])

def f_X(x):
    return np.sum([f_XY(x,y_k) for y_k in y_set])

def f_Y(y):
    return np.sum([f_XY(x_k,y) for x_k in x_set])

In [2]:
# 불공정한 주사위(교재 p130)

x_set = np.arange(1,7)
y_set = np.arange(1,7)

def f_XY(x,y):
    if x in x_set and y in y_set:
        return x*y/441
    else:
        return 0
XY = [x_set,y_set,f_XY]

In [6]:
#  2차원 확률변수 X와 Y는 독립
# 공분산이 0이므로 무상관인 것을 알 수 있음
Cov(XY)

-8.326672684688674e-17

In [7]:
# 무상관인 2개의 확률변수 생각해보자
x_set = np.array([0,1])
y_set = np.array([-1,0,1])

def f_XY(x,y):
    if (x,y) in [(0,0),(1,1),(1,-1)]:
        return 1/3
    else:
        return 0
    
XY = [x_set,y_set, f_XY]        

In [8]:
# 공분산은 0이므로 확률변수 X,Y는 무상관
Cov(XY)

0.0

In [9]:
# 독립성의 정의는 𝑓𝑋,𝑌(𝑥,𝑦)=𝑓𝑋(𝑥)𝑓𝑌(𝑦)가 성립할 때인데 이 경우 성립여부 확인
# 무상관이어도 독립성이 성립하지 않는 경우가 있다는 것을 확인
f_XY(0,0), f_X(0) * f_Y(0)

(0.3333333333333333, 0.1111111111111111)