KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [17]:
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [3]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [4]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.01013099 7.21747048 7.70164814 7.58802249 7.71275292 7.76322176
 7.25831692 7.57618856 7.57687106 7.66189442]


In [5]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [6]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.88107351 6.83128603 7.13762331 7.34695706 6.71195196 6.91051527
 7.07819158 6.94946336 6.82912282 7.07821848]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [7]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  43.17572993237369 ; p-value:  5.003752802746832e-11


In [9]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

Bước 1: Sinh số liệu ngẫu nhiên

In [10]:
mean3 = 10
std3 = 0.5
n3 = 50
sample_3 = np.random.normal(mean3, std3, n3)
print(sample_3[:10])

[10.95956805  9.68781992  9.90298099  9.4775268  10.29457044 10.68618711
 10.23124364 10.32918137 10.1953748  10.10589857]


In [12]:
mean4 = 9
std4 = 0.4
n4 = 40
sample_4 = np.random.normal(mean4, std4, n4)
print(sample_4[:10])

[8.82094121 8.58556161 9.24299905 8.38320974 9.54007817 8.79855994
 8.71416471 9.61988119 8.46629911 8.7352493 ]


Bước 2: Xây dựng giả thuyết

$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} > \sigma_{2}^{2}$$

In [14]:
alpha_new = 0.05

Bước 3: Kiểm định Bartlett

In [15]:
print('Variance a={0:.3f}, Variance b={1:.3f}'.format(np.var(sample_3, ddof=1), np.var(sample_4, ddof=1)))

Variance a=0.243, Variance b=0.137


In [20]:
fstatistics = max(np.var(sample_3, ddof=1), np.var(sample_4, ddof=1))/min(np.var(sample_3, ddof=1), np.var(sample_4, ddof=1))
fdistribution = stats.f(len(sample_3)-1,len(sample_4)-1)
p_value = 1-fdistribution.cdf(fstatistics)
if(p_value <  alpha_new):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


Trường hợp khác

$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} < \sigma_{2}^{2}$$

In [21]:
fstatistics = min(np.var(sample_3, ddof=1), np.var(sample_4, ddof=1))/max(np.var(sample_3, ddof=1), np.var(sample_4, ddof=1))
fdistribution = stats.f(len(sample_3)-1,len(sample_4)-1)
p_value = 1-fdistribution.cdf(fstatistics)
if(p_value <  alpha_new):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Chưa có bằng chứng để bác bỏ giả thuyết H0
