### MTH00051 -- TUTORIAL 03 
## CÁC ĐẠI LƯỢNG TRONG XÁC SUẤT

### 1. Kì vọng

Kì vọng hay trung bình (expectation, mean, average) là giá trị "trung tâm", đại diện cho các giá trị mà một biến ngẫu nhiên có thể nhận. 

Kì vọng của biến ngẫu nhiên $X$ được tính theo công thức:
$ E(X) = \begin{cases}
\sum xP(X= x) & (1) \\
\int xf(x)dx & (2)
\end{cases} $
   * (1) $X$ là b.n.n rời rạc có hàm xác suất $P(X=x)$, hoặc
   * (2) $X$ là là b.n.n liên tục có hàm mật độ xác suất $f(x)$


Để tính gần đúng kì vọng của một b.n.n $X$ liên quan đến thí nghiệm $T$, ta có thể dùng phương pháp thống kê như sau:
 * thực hiện lặp lại $N$ lần (độc lập) thí nghiệm $T$
 * ghi nhận các giá trị mà $X$ nhận $x_1,x_2,…,x_N$ (còn gọi là mẫu dữ liệu – sample)
 * tính trung bình mẫu (sample mean) $\bar{x}$ của bộ dữ liệu này
 
Khi $N$ đủ lớn, ta có $\bar{x} \sim E(X)$

In [1]:
# Biến n.n rời rạc
# Bốc ngẫu nhiên 5 viên bi trong hộp gồm 4 bi Đỏ và 6 bi Đen. 
# Gọi $X$ là số bi đỏ bốc được, tìm kì vọng của $X$ trong các trường hợp:
# (a) Bốc có hoàn lại, (b) Bốc không hoàn lại

In [20]:
# (a) Bốc có hoàn lại

p = 4/(4+6) # Xác suất bốc được bi Đỏ trong hộp gồm 4 bi Đỏ và 6 bi Đen
n = 5
E_X = n*p # n = 5 => X ~ Binomial(n,p) = Binomial(5,0.4)
print(E_X)

# Mô phỏng
import numpy as np
def expectation(N):
    box = ['R']*4 + ['B']*6
    result = []
    for i in range(N):
        samples = np.random.choice(box, size = 5, replace = True)
        result.append(sum(samples == 'R'))
    return np.mean(result)

print(expectation(10000))

2.0
1.9872


In [22]:
# Dùng thư viện scipy
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.binom.html
from scipy.stats import binom
p = 4/(4+6)
n = 5
binom.mean(n = n, p = p)

2.0

In [23]:
# (b) Bốc không hoàn lại
n, k, N = 5, 4, 4+6
E_X = (n * k) / N # X ~ Hypergeometric(N, n, k)
print(E_X)

# Mô phỏng
import numpy as np
def expectation(N):
    box = ['R']*4 + ['B']*6
    result = []
    for i in range(N):
        samples = np.random.choice(box, size = 5, replace = False)
        result.append(sum(samples == 'R'))
    return np.mean(result)

print(expectation(10000))

2.0
1.9983


In [27]:
# Dùng thư viện scipy
# https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.hypergeom.html
from scipy.stats import hypergeom
M = 4+6
n = 4
N = 5
hypergeom.mean(M = M, n = n, N = N)

2.0

In [64]:
# Biến n.n liên tục
# Chọn ngẫu nhiên một điểm trên một thanh có chiều dài 1 đơn vị, cắt tại điểm đó thành hai đoạn và giữ lại đoạn dài hơn. 
# Tính kì vọng của chiều dài đoạn giữ lại.


Gọi $X$ là vị trí ngẫu nhiên chọn trên thanh thì $X \sim Uniform(0,1)$. 

Do đó $X$ là b.n.n liên tục với hàm mật độ xác suất $ f_X(x) = \begin{cases}
1 & 0 \leq x \leq 1 \\
0 & otherwise
\end{cases} $

Gọi $Y$ là chiều dài của đoạn được giữ lại (tức là đoạn dài hơn) thì $Y = max\{X, 1-X\}$.

Ta có $Y$ là biến ngẫu nhiên phát sinh từ biến ngẫu nhiên $X$ qua hàm số $ r(x) = max\{x, 1-x\}, 0 \leq x \leq 1 $

Theo công thức tính kì vọng của biến ngẫu nhiên phái sinh liên tục
$ E(Y)=E(r(X))=\int_{-\infty }^{\infty} r(x)f_X(x)dx $

 Ta có: 
\begin{align*}
    E(Y) &= E(max\{X, 1-X\}) = \int_{-\infty}^{\infty} max\{x, 1-x\}f_X(x)dx = \int_{0}^{1} max\{x, 1-x\}dx \\
    &= \int_{0}^{1/2} (1-x)dx + \int_{1/2}^{1}xdx = 3/4
\end{align*} 

Hoặc ta cũng có thể tìm phân phối của $Y$ rồi tính kì vọng theo công thức thông thường. 

Từ Tutorial\_02 ta có $Y \sim Uniform(1/2,1)$ với hàm mật độ xác suất là: $ f_Y(y) = \begin{cases}
2 & 1/2 \leq y \leq 1 \\
0 & otherwise
\end{cases} $

Từ đó ta tính được kì vọng của $Y$:
\begin{align*}
    E(Y) =\int_{-\infty}^{\infty} yf_Y(y)dy
    = \int_{1/2}^{1}2ydy = 3/4
\end{align*}

In [19]:
# Mô phỏng
N = 10000
def expectation(N):
    samples = np.random.uniform(low = 0.0, high = 1.0, size = N)
    return np.mean([max(i, 1-i) for i in samples])
print(expectation(N))

0.7485892402947643


### 2. Các đại lượng khác

In [47]:
# Trung vị (median)
# (a) Ví dụ về Bốc có hoàn lại ở trên X ~ Binomial(n,p) = Binomial(5,0.4)

import numpy as np
import statistics as stats
def median(N):
    box = ['R']*4 + ['B']*6
    result = []
    for i in range(N):
        samples = np.random.choice(box, size = 5, replace = True)
        result.append(sum(samples == 'R'))
    return stats.median(result)

print(median(10000))

from scipy.stats import binom
p = 4/(4+6)
n = 5
binom.median(n = n, p = p)

2.0


2.0

In [60]:
# Mode
# (a) Ví dụ về Bốc có hoàn lại ở trên X ~ Binomial(n,p) = Binomial(5,0.4)

import numpy as np
import statistics as stats
def mode(N):
    box = ['R']*4 + ['B']*6
    result = []
    for i in range(N):
        samples = np.random.choice(box, size = 5, replace = True)
        result.append(sum(samples == 'R'))
    return stats.mode(result)

print(mode(10000))

2


In [61]:
# Phương sai (var), Độ lệch chuẩn (std)
# (a) Ví dụ về Bốc có hoàn lại ở trên X ~ Binomial(n,p) = Binomial(5,0.4)

from scipy.stats import binom
p = 4/(4+6)
n = 5
binom.var(n = n, p = p), binom.std(n = n, p = p)

(1.2, 1.0954451150103321)