# 누구나 파이썬 통계분석
5, 6장 이산형 확률변수 / 7, 8장 연속형 확률변수  
5, 7장 확률변수의 정의, 평균과 분산, 공분산 / 6, 8장 대표적인 확률분포

## CHAPTER 05. 이산형 확률변수

### 5. 1 1차원 이산형 확률변수

In [4]:
import numpy as np
import matplotlib.pyplot as plt

%precision 3
%matplotlib inline

##### 5.1.1 1차원 이산형 확률변수의 정의  

- **확률질량함수(확률함수) probability mass function, PMF**  

확률변수는 변수가 취할 수 있는 값과 그 값이 나오는 확률에 의해 정의  
확률변수 X가 취할 수 있는 값에 대한 집합 $\{x_1, x_2, ...\}$  
확률변수 X가 $x_k$라는 값을 취하는 확률  
$$P(X=x_k)=p_k (k=1, 2, ...) $$  
이때 **확률은 변수가 취할 수 있는 값 $x$를 인수로 하는 함수**로 볼 수 있음  
$$ f(x) = P(X=x) $$  
  
- **확률분포 probability distribution**  
확률변수가 취할 수 있는 값과 그 확률의 구체적인 대응  
확률변수의 확률분포가 결정되면 그 확률변수의 움직임이 정해짐

In [5]:
x_set = np.array([1, 2, 3, 4, 5, 6])

In [6]:
def f(x):
    if x in x_set:
        return x / 21
    else:
        return 0

In [7]:
X = [x_set, f]

In [8]:
prob = np.array([f(x_k) for x_k in x_set])
dict(zip(x_set, prob))

{1: 0.047619047619047616,
 2: 0.09523809523809523,
 3: 0.14285714285714285,
 4: 0.19047619047619047,
 5: 0.23809523809523808,
 6: 0.2857142857142857}

- **확률의 성질**  
확률은 절대적으로 0 이상, 모든 확률을 더하면 1  
$$ f(x_k) >= 0 $$
$$ \sum\limits_kf(x_k) = 1 $$

In [9]:
np.all(prob >= 0)

True

In [10]:
np.sum(prob)

0.9999999999999999

- **누적분포함수(분포함수) cumulative distribution function, CDF**  
  확률변수 X가 x이하가 될 때의 확률  
$$ F(x) = P(X <= x) = \sum\limits_{x_k <= x}{f(x_k)} $$

In [11]:
def F(x):
    return np.sum([f(x_k) for x_k in x_set if x_k <= x])

In [12]:
F(3)

0.2857142857142857

- **확률변수의 변환**  
확률변수를 표준화할 때 중요한 연산

In [14]:
y_set = np.array([2 * x_k + 3 for x_k in x_set])
prob = np.array([f(x_k) for x_k in x_set])
dict(zip(y_set, prob))

{5: 0.047619047619047616,
 7: 0.09523809523809523,
 9: 0.14285714285714285,
 11: 0.19047619047619047,
 13: 0.23809523809523808,
 15: 0.2857142857142857}

##### 5.1.2 1차원 이산형 확률변수의 지표

- **기댓값 expected value**  

 확률변수의 중심을 나타내는 지표  
 
 **확률변수의 평균**이란 확률변수를 무제한으로 시행하여 얻어진 실현값의 평균  
 확률변수가 취할 수 있는 값과 그 확률의 곱의 총합  
 $$ E(X) = \sum\limits_k{x_kf(x_k)} $$  
  
  - 기호 : $μ$, $E(X)$

- 
  - 이산형 확률변수의 기댓값  
    $$ E(g(X)) = \sum\limits_kg(x_k)f(x_k) $$

- 
  - 기댓값의 선형성  
  a, b를 실수, X를 확률변수로 했을 때
  $$ E(aX + b) = aE(X) + b $$

In [15]:
np.sum([x_k * f(x_k) for x_k in x_set])

4.333333333333333

In [16]:
sample = np.random.choice(x_set, int(1e6), p=prob)
np.mean(sample)

4.333955

In [17]:
def E(X, g=lambda x: x):
    x_set, f = X
    return np.sum([g(x_k) * f(x_k) for x_k in x_set])

In [18]:
E(X)

4.333333333333333

In [19]:
E(X, g=lambda x: 2*x + 3)

11.666666666666664

In [20]:
2 * E(X) + 3

11.666666666666666

- **분산**  
  확률변수의 산포도를 나타내는 지표
  - 정의: 편차 제곱의 기댓값
 
 $$ V(X) = Var(X) = \sum\limits_k{(x_k - μ)^2f(x_k)} $$  
  
  - 기호 : $\sigma^2 $, $ V(X),  Var(X) $
  - $\sigma$ : 확률변수 X의 표준편차  
  

- 
  - 이산형 확률변수의 분산  
    $$ V(g(X)) = \sum\limits_k(g(x_k) - E(g(X)))^2f(x_k) $$

- 
  - 분산의 공식  
  a, b를 실수, X를 확률변수로 했을 때
  $$ V(aX + b) = a^2V(X) $$

In [23]:
mean = E(X)
np.sum([(x_k-mean)**2 * f(x_k) for x_k in x_set])

2.2222222222222223

In [25]:
def V(X, g=lambda x: x):
    x_set, f = X
    mean = E(X, g)
    return np.sum([(g(x_k)-mean)**2 * f(x_k) for x_k in x_set])

In [26]:
V(X)

2.2222222222222223

In [27]:
V(X, lambda x: 2*x + 3)

8.88888888888889

In [28]:
2**2 * V(X)

8.88888888888889

### 5. 2 2차원 이산형 확률변수

##### 5.2.1 2차원 이산형 확률변수의 정의

- **결합확률분포(결합분포) joint probability distribution** 

  1차원 확률분포 2개를 동시에 다룸 (X, Y)
  확률변수의 움직임은 취할 수 있는 값의 조합으로 이루어진 집합과 그 확률에 의해 정해짐
  
  - (X, Y)가 취할 수 있는 값의 조합으로 이루어진 집합  
  $$ \{(x_i, y_j) | i = 1, 2, ... ; j = 1, 2, ...\} $$  

  - 확률변수 X가 $ x_i $, 확률변수 Y가 $ y_j $를 취하는 확률
  $$ P(X = x_i, Y = y_j) = P_{ij} (i = 1, 2, ... ; j = 1, 2, ...) $$

- **결합확률함수 joint probability function** 

  2차원 확률분포의 확률은 $x$와 $y$를 인수로 취하는 함수로 볼 수 있음  
  
  $$ P(X = x, Y = y) = f_{XY}(x, y) $$  

- **확률의 성질**  
확률은 절대적으로 0 이상, 모든 확률을 더하면 1  
$$ f_{XY}(x_i, y_j) >= 0 $$
$$ \sum\limits_i\sum\limits_jf_{XY}(x_i, y_j) = 1 $$

In [29]:
x_set = np.arange(2, 13)  # 2 ~ 12
y_set = np.arange(1, 7)  # 1 ~ 6

In [30]:
def f_XY(x, y):
    if 1 <= y <= 6 and 1 <= x - y <= 6:
        return y * (x-y) / 441
    else:
        return 0

In [31]:
XY = [x_set, y_set, f_XY]

In [32]:
prob = np.array([[f_XY(x_i, y_j) for y_j in y_set]
                for x_i in x_set])

# heat map 생략

In [33]:
np.all(prob >= 0)

True

In [34]:
np.sum(prob)

1.0

- **주변확률분포(주변분포) marginal probability distribution** 

  확률변수 $X$의 확률함수 $f_X(x)$는 결합확률함수 $ f_{XY} $에서 $Y$가 취할 수 있는 값 모두를 대입한 다음 모두 더한 것  
  X의 주변확률분포 $f_X(x)$
  
  $$ f_X(x) = \sum\limits_kf_{XY}(x, y_k) $$  

In [35]:
def f_X(x):
    return np.sum([f_XY(x, y_k) for y_k in y_set])

In [36]:
def f_Y(y):
    return np.sum([f_XY(x_k, y) for x_k in x_set])

In [38]:
X = [x_set, f_X]
Y = [y_set, f_Y]

##### 5.2.2 2차원 이산형 확률변수의 지표

- 기댓값
  $$ E(g(X, Y)) = \sum\limits_i\sum\limits_jg(x_i, y_j)f_{XY}(x_i, y_j) $$
  - 기댓값의 선형성
    $$ E(aX + bY) = aE(X) + bE(Y) $$

- 분산
  $$ \sigma^2_{XY} = V(g(X, Y)) = \sum\limits_i\sum\limits_j(g(x_i, y_j)-E(g(X, Y)))^2f_{XY}(x_i, y_j) $$
  
- 공분산
  $$ \sigma_{XY} = Cov(X, Y) = \sum\limits_i \sum\limits_j(x_i - \mu_X)(y_j - \mu_Y)f_{XY}(x_i, y_j) $$
  - 분산과 공분산의 공식
    $$ V(aX + bY) = a^2V(X) + b^2V(Y) + 2abCov(X, Y) $$