# Kiểm định

Thủ tục kiểm định.



Gồm các bước như sau:
- **B1** Thiết lập giả thuyết, đối thuyết. Kiểm tra điều kiện

- **B2** Xác định mức ý nghĩa của kiểm định

- **B3** Tính giá trị kiểm định từ mẫu

- **B4** Xác định `p-value` hoặc `miền bác  bỏ` (critical region) của kiểm định

- **B5** Đưa ra quyết định về giả thuyết vô hiệu. Rút ra kết luận chung


In [None]:
import numpy as np
import scipy.stats as st
import math


## VÍ DỤ 1

Trọng lượng trung bình khi xuất chuồng ở một trại chăn nuôi trước là 3.3 kg/con. Năm nay người ta sử dụng một loại thức ăn mới, cân thử 15 con khi xuất chuồng ta được các số liệu như sau:
   
3.25, 2.50, 4.00, 3.75, 3.80,
3.90, 4.02, 3.60, 3.80, 3.20,
3.82, 3.40, 3.75, 4.00, 3.50
    
Giả thiết trọng lượng gà là đại lượng ngẫu nhiên phân phối theo quy luật chuẩn.

a. Với mức ý nghĩa α = 0.05. Hãy cho kết luận về tác dụng của loại thức ăn này?

b. Nếu trại chăn nuôi báo cáo trọng lượng trung bình khi xuất chuồng là 3.5 kg/con thì có chấp nhận được không? (α = 0.05).

_Đáp án. (a) t = 3.0534. Thức ăn mới này làm thay đổi trọng lượng gà.
(b) t = 1.1409. Trại chăn nuôi báo cáo trọng lượng trung bình khi xuất chuồng là chấp nhận được_


### Hướng dẫn


In [None]:
# Dữ liệu
data = [3.25, 2.50, 4.00, 3.75, 3.80, 3.90, 4.02, 3.60, 3.80, 3.20, 3.82, 3.40, 3.75, 4.00, 3.50]
# Tính trung bình mẫu
tb = np.mean([3.25, 2.50, 4.00, 3.75, 3.80, 3.90, 4.02, 3.60, 3.80, 3.20, 3.82, 3.40, 3.75, 4.00, 3.50]).round(4)
tb = np.mean(data).round(4)
dlc = np.std(data, ddof=1).round(4)
n = len(data)

print(f'- Trung bình mẫu: {tb}')
print(f'- Độ lệch chuẩn mẫu: {dlc}')

- Trung bình mẫu: 3.6193
- Độ lệch chuẩn mẫu: 0.405


#### Câu a

Tóm tắt:
- $\mu_0 = 3.3$
- n = 15
- $\alpha = 0.05$
- $\bar{x} = 3.6193$

**B1** Xây dựng giả thuyết kiểm định

$$H_o: \mu = 3.3$$

$$H_a: \mu \neq 3.3$$



**B2** Mức ý nghĩa của kiểm định $\alpha = 0.05$

**B3** Tính giá trị kiểm định từ mẫu
$$t_0 = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}} \approx 3.0534$$

In [None]:
mu = 3.3

trikiemdinh = ((tb - mu) / (dlc / np.sqrt(n))).round(4)
print('- Trị kiểm định: ', trikiemdinh)

- Trị kiểm định:  3.0534


**B4** Xác định `p-value` hoặc `miền bác  bỏ` (critical region) của kiểm định

- Trường hợp xác định miền bác bỏ

$$\{ t: |t| > t^{n-1}_{\alpha/2} \}$$

$$\{ t: |t| > 2.1448 \}$$

In [None]:
# Tính giá trị tới hạn để xác định miền bác bỏ
alpha = 0.05
st.t.isf(alpha/2, n-1).round(4)

2.1448

- Trường hợp xác định p_value

In [None]:
p_value = 2 * st.t.sf(trikiemdinh, df=n-1).round(4)

# OR
# p_value = st.t.cdf(-trikiemdinh, df=n-1).round(4) + st.t.sf(trikiemdinh, df=n-1).round(4)

p_value

0.0086

**B5** Đưa ra quyết định về giả thuyết vô hiệu. Rút ra kết luận chung Kết luận

- Bác bỏ giả thuyết $H_0$ (vì trị kiểm định thuộc miền bác bỏ HOẶC p-value < $\alpha$)
- Vậy thức ăn mới làm thay đổi trọng lượng của gà.

#### Câu b (Sử dụng Critical region)

Nếu trại báo cáo trọng lượng gà sau khi xuất chuồng là 3.5 kg/con
- $\mu_0 = 3.5$

Ta đặt lại giả thuyết

**B1** Thiết lập giả thuyết, đối thuyết. Kiểm tra điều kiện

$$H_o: \mu = 3.5$$

$$H_a: \mu \neq 3.5$$


**B2** Xác định mức ý nghĩa của kiểm định $\alpha=0.05$

**B3** Tính trị kiểm định

$$t_0 = \frac{\bar{x} - \mu_0}{\frac{s}{\sqrt{n}}} \approx 1.1409$$



In [None]:
mu = 3.5

trikiemdinh = ((tb - mu) / (dlc / np.sqrt(n))).round(4)
print('- Trị kiểm định: ', trikiemdinh)

- Trị kiểm định:  1.1409


**B4** Xác định `miền bác  bỏ` (critical region) của kiểm định

Mức ý nghĩa vẫn như cũ nên miền bác bỏ không thay đổi
$$\{ t: |t| > t^{n-1}_{\alpha/2} \}$$

hay

$$\{ t: |t| > 1.7613 \}$$



In [None]:
# Tính giá trị tới hạn để xác định miền bác bỏ
alpha = 0.05
n = 15
st.t.isf(alpha, n-1).round(4)

1.7613

Nhận xét: trị kiểm định không thuộc miền bác bỏ

**B5** Đưa ra quyết định về giả thuyết vô hiệu. Rút ra kết luận chung

- Chưa đủ cơ sở để bác bỏ giả thuyết $H_0$
- Vậy báo cáo trên có thể chấp nhận được.

---


## VÍ DỤ 2

Tỷ lệ phế phẩm của một nhà máy trước đây là 5%. Năm nay nhà máy áp dụng một biện pháp kỹ thuật mới. Để nghiên cứu tác dụng của biện pháp kỹ thuật mới, người ta lấy một mẫu gồm 800 sản phẩm để kiểm tra và thấy có 24 phế phẩm.
    
a. Với α = 0.01. Hãy cho kết luận về biện pháp kỹ thuật mới này?
    
b. Nếu nhà máy báo cáo tỷ lệ phế phẩm sau khi áp dụng biện pháp kỹ thuật mới là 2% thì có chấp nhận được không? (α = 0.01).
    
_Đáp án. (a) z = −2.5955. Biện pháp kĩ thuật mới làm thay đổi tỉ lệ phế phẩm (b) z = 2.0203. Nhà máy báo cáo tỷ lệ phế phẩm là chấp nhận được._

### Hướng dẫn


#### Câu a

Tóm tắt:
- $p_0 = 0.05$
- n = 800
- f = 24/800 = 0.03     (tỉ lệ mẫu)
- $\alpha = 0.01$

**B1** Xây dựng giả thuyết kiểm định

$$H_o: p = 0.05$$

$$H_a: p \neq 0.05$$

Kiểm tra điều kiện thực hiện kiểm định:
- $n p_0 \ge 5$ và
- $nq_0 \ge 5$ (thỏa)



**B2** Mức ý nghĩa của kiểm định $\alpha=0.05$

In [None]:
# Tính giá trị tới hạn để xác định miền bác bỏ
alpha = 0.01
st.norm.isf(alpha/2).round(4)

2.5758

**B3** Tính trị kiểm định

$$z_0 = \frac{f - p_0}{\sqrt{\frac{p_0*(1 - p_0)}{n}}} \approx -2.5955$$



In [None]:
p0 = 0.05
f = 0.03
n = 800

trikiemdinh = ((f - p0) / np.sqrt((p0*(1-p0))/n)).round(4)
print('- Trị kiểm định: ', trikiemdinh)

- Trị kiểm định:  -2.5955


**B4** Xác định `p-value`

$$p-value = 2 * (1 - \Phi(|z|))$$

$$p-value = 2 * (1 - \Phi(|z|))$$

In [None]:
p_value = 2 * (1 - st.norm.cdf(abs(trikiemdinh))).round(4)
p_value

0.0094

**B4** Kết luận

- Bác bỏ giả thuyết $H_0$, chấp nhận giả thuyết $H_a$ ( $p-value < \alpha$ )
- Biện pháp kỹ thuật mới làm thay đổi tỷ lệ phế phẩm

#### Câu b

Tóm tắt:
- $p_0 = 0.02$

**B1** Thiết lập giả thuyết, đối thuyết. Kiểm tra điều kiện

$$H_o: p = 0.02$$

$$H_a: p \neq 0.02$$

Kiểm tra điều kiện thực hiện kiểm định:
- $n p_0 \ge 5$ và
- $nq_0 \ge 5$ (thỏa)



**B2** Xác định mức ý nghĩa của kiểm định $\alpha = 0.05$



**B3** Tính trị kiểm định

$$z_0 = \frac{f - p_0}{\sqrt{\frac{p_0*(1 - p_0)}{n}}} \approx 2.0203$$



In [None]:
p0 = 0.02
f = 0.03
n = 800

trikiemdinh = ((f - p0) / np.sqrt((p0*(1-p0))/n)).round(4)
print('- Trị kiểm định: ', trikiemdinh)

- Trị kiểm định:  2.0203


**B4** Xác định miền bác bỏ

Mức ý nghĩa vẫn như cũ nên miền bác bỏ không thay đổi

$$\{ z: |z| > z_{\alpha/2} \}$$

hay

$$\{ z: |z| > 2.5758 \}$$

In [None]:
# Tính giá trị tới hạn để xác định miền bác bỏ
alpha = 0.01
st.norm.isf(alpha/2).round(4)

2.5758

**B5** Kết luận

- Không thể bác bỏ giả thuyết $H_0$
- Có thể chấp nhận báo cáo của nhà máy

---