# Khoảng Tin Cậy

Dựa trên kết quả phân phối của các đặc trưng mẫu ($\bar{x}, f, s^2$). Trong lab này chúng ta sẽ thực hành xây dựng khoảng tin cậy cho các tham số của tổng thể với độ tin cậy cho trước

## MỘT SỐ KẾT QUẢ



### Khoảng tin cậy cho trung bình

Bài toán: tìm khoảng ước lượng $(\bar{x} - \varepsilon, \bar{x} + \varepsilon)$ sao cho:

$$P(\bar{x} - \varepsilon < \mu < \bar{x} + \varepsilon) = 1 - \alpha$$

Với: 
- $1 - \alpha$: độ tin cậy của ước lượng
- $\varepsilon$: sai số ước lượng (hay biên đội lỗi)

Giá trị sai số ước lượng:

- TH1: $n \geq 30$ **biết** độ lệch chuẩn tổng thể ($\sigma$)
$$\varepsilon = z_{\alpha/2} * \frac{\sigma}{\sqrt{n}}$$

- TH2: $n \geq 30$ **không biết** độ lệch chuẩn tổng thể ($\sigma$)
$$\varepsilon = t^{n-1}_{\alpha/2} * \frac{s}{\sqrt{n}} \approx z_{\alpha/2} * \frac{s}{\sqrt{n}}$$ 

- TH3: $n \lt 30$, tổng thể có phân phối Chuẩn ($X \sim N(\mu_x, \sigma_x^2$) **biết** độ lệch chuẩn tổng thể ($\sigma$)
$$\varepsilon = z_{\alpha/2} * \frac{\sigma}{\sqrt{n}}$$

- TH4: $n \lt 30$, tổng thể có phân phối Chuẩn ($X \sim N(\mu_x, \sigma_x^2$) **không biết** độ lệch chuẩn tổng thể ($\sigma$)
$$\varepsilon = t^{n-1}_{\alpha/2} * \frac{s}{\sqrt{n}}$$ 

### Khoảng tin cậy cho tỷ lệ

Bài toán: tìm khoảng ước lượng $(f - \varepsilon, f + \varepsilon)$ sao cho:

$$P(\bar{x} - \varepsilon < \mu < \bar{x} + \varepsilon) = 1 - \alpha$$

Với mẫu lớn ($n \geq 30$), ta có sai số ước lượng:
$$\varepsilon = z_{\alpha/2} * \sqrt{\frac{f(1-f)}{n}}$$

### Khoảng tin cậy cho phương sai

Bài toán: tìm khoảng ước lượng $(lower, upper)$ sao cho:
$$P(lower < \sigma^2 < upper) = 1 - \alpha$$

Với tổng thể có phân phối Chuẩn $X \sim N(\mu_x, \sigma_x^2)$, giá trị $\mu_x$ chưa biết ta có khoảng tin cậy cho phương sai tổng thể là:
$$\Biggl(\frac{(n-1)s^2}{\chi_{1-\frac{\alpha}{2}}^{2, n-1}}; \frac{(n-1)s^2}{\chi_{\frac{\alpha}{2}}^{2, n-1}}\Biggr)$$
`


## VÍ DỤ 1

Khảo sát cân nặng (kg) của gà khi xuất chuồng, người ta cân một số con và có kết quả như sau:

> 2.1, 1.8, 2.0, 2.3, 1.7, 1.5, 2.0, 2.2, 1.8

Giả sử cân nặng của gà là biến ngẫu nhiên có phân phối chuẩn. Hãy lập khoảng tin cậy cho cân nặng trung bình của  khi xuất chuồng với độ tin cậy là 95%. Trong 2 trường hợp:

a, Biết $\sigma = 0.3$

b, Không biết $\sigma$

In [1]:
import numpy as np
import scipy.stats as st
import math

#### a. Biết $\sigma = 0.3$ 

##### Cách 1 (tính tay)

Từ mẫu đã cho ta tính được: 

$ \begin{cases} n = 9 \\ \bar{x} = 1.9333 \\ s = 0.255 \end{cases}$

a, Biết $\sigma = 0.3$

Với độ tin cậy là 95%, ta có: $z_{\alpha / 2} = 1.96$. (Với $\phi(z_{\alpha / 2}) = \frac{1}{2} - \frac{\alpha}{2} = \frac{1-\alpha}{2})$ - Tra bảng phân phối z)

Sai số ước lượng là:
$$\epsilon = z_{\alpha / 2}\frac{\sigma}{\sqrt{n}} = 1.96\frac{0.3}{\sqrt{9}} = 0.196$$

Vậy khoảng ước lượng cho $\mu$ là:

$$(1.9333 - 0.196; 1.9333 + 0.196) = (1.7373; 2.1293)$$

##### Cách 2 (dùng python)

In [2]:
data_ga = [2.1, 1.8, 2.0, 2.3, 1.7, 1.5, 2.0, 2.2, 1.8]

sigma = 0.3

n = len(data_ga)
tb = np.mean(data_ga)
dlc = np.std(data_ga, ddof=1)

print('Các thống kê mẫu: ')
print('Số lượng: ', n)
print('Trung bình mẫu: ', tb.round(4))
print('Độ lệch chuẩn mẫu: ', dlc.round(4))

Các thống kê mẫu: 
Số lượng:  9
Trung bình mẫu:  1.9333
Độ lệch chuẩn mẫu:  0.255


In [None]:
dotincay = 0.95
alpha_chia_2 = np.float64((1-dotincay)/2)
print('alpha/2: ', alpha_chia_2.round(4))

alpha/2:  0.025


In [None]:
# a. Biết sigma = 0.3 --> Phân phối chuẩn tắc (z)
saiso = (st.norm.isf(alpha_chia_2) * sigma) / math.sqrt(n)
print('Sai số ước lượng: ', saiso.round(4))
print('Khoảng ước lượng cho trung bình: [{}, {}]'.format((tb-saiso).round(4), (tb+saiso).round(4)))

Sai số ước lượng:  0.196
Khoảng ước lượng cho trung bình: [1.7373, 2.1293]


##### Cách 3 (dùng thư viện)

Dựa vào việc xác định trung bình mẫu có phân phối chuẩn (dựa vào một số dữ kiện của đề bài). Ta có thể sử dụng hàm `interval()` từ thư viện scipy.stats

In [None]:
dlc_trungbinh = np.float64(sigma/math.sqrt(n))
print('Khoảng ướng lượng: ')
st.norm.interval(0.95, loc=tb, scale=dlc_trungbinh)

Khoảng ướng lượng: 


(1.7373369348793277, 2.1293297317873385)

#### b. Không biết $\sigma = 0.3$ 

Trong trường hợp này, đại lượng trung bình mẫu không có phân phối Chuẩn nữa mà có phân phối Student với số bậc tự do là n-1 = 8.



In [None]:
# Tính lại độ lệch chuẩn cho trung bình:
dlc_trungbinh_moi = np.std(data_ga, ddof=1) / 3
dlc_trungbinh_moi

0.08498365855987976

In [None]:
# Khoảng ước lượng:
print('Khoảng ước lượng cho trung bình: ')
st.t.interval(0.95, df=n-1, loc=tb, scale=dlc_trungbinh_moi)

Khoảng ước lượng cho trung bình: 


(1.7373606652839864, 2.12930600138268)

### VÍ DỤ 2

Cân thử 100 quả cam, ta có bộ số liệu sau:

| **Khối lượng (g)** | **Số quả** |
| :----------------: | :--------: |
| 32 | 2  |
| 33 | 3  |
| 34 | 15 |
| 35 | 26 |
| 36 | 28 |
| 37 | 6  |
| 38 | 8  |
| 39 | 8  |
| 40 | 4  |


a. Hãy ước lượng khối lượng trung bình các quả cam ở độ tin cậy 95%.

b. Cam có khối lượng dưới 34 g được coi là cam loại 2. Tìm khoảng ước lượng cho tỷ lệ loại 2 với độ tin cậy 90%.

_Đáp án. (a) (35.539, 36.241) (b) (0.014, 0.086)_



| | | |
| --- | :---: | :---: |
|**Khốilượng(g)** | 32 | 33 |
|**Sốquả** | 2 | 3 |

In [6]:
freq_table = [(32, 2), (33, 3), (34, 15), (35, 26), (36, 28), (37, 6), (38, 8), (39, 8), (40, 4)]

data = []
for v, f in freq_table:
    for i in range(f):
        data.append(v)

In [11]:
# Tinh toan cac so lieu thong ke tren mau

# Kich thuoc mau
n = len(data)

# Tinh trung binh mau
tb = round(np.mean(data), 4)

# Tinh do lech chuan mau
dlc = round(np.std(data, ddof=1), 4)

print('Kich thuoc mau: ', n)
print('Trung binh mau: ', tb)
print('Do lech chuan mau: ', dlc)
print('Phuong sai mau: ', (dlc**2).round(4))

Kich thuoc mau:  100
Trung binh mau:  35.89
Do lech chuan mau:  1.7916
Phuong sai mau:  3.2098


In [12]:
# Cau b: Tim khoang uoc luong cho ky vong o do tin cay 95%
st.t.interval(0.95, df=n-1, loc=tb, scale=(dlc/math.sqrt(n)))

(35.53450769096771, 36.245492309032294)

In [13]:
# Cau b (tinh tay)
# Vì ta không biết giá trị của sigma (độ lệch chuẩn quần thể), 
# vì vậy, trung bình mẫu tuân theo phân phối Student
# Ta có: sai số ước lượng:
epsilon = st.t.isf(0.025, df=n-1) * (dlc / math.sqrt(n))

epsilon.round(4)

0.3555