<a href="https://colab.research.google.com/github/rekuantsun/PTDL-Python/blob/main/thuc_hanh_f_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [39]:
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [40]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [41]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.68188421 7.24928752 7.61729177 7.60137257 7.09444891 7.90282713
 7.41763987 7.36598942 7.59458662 7.77116104]


In [42]:

#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [43]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.73175407 6.96844904 7.05532856 6.80520379 6.82881026 6.9410915
 7.10167425 6.93835813 6.95221149 7.18404333]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [44]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  42.88249524238839 ; p-value:  5.812846407174402e-11


In [45]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

In [46]:
#sinh ngẫu nhiên 100 phần tử có trung bình mẫu 24.6 và độ lệch chuẩn là 4.2
samples_1= np.random.normal(24.6,4.2,100)
print(samples_1[:10])

[30.63558194 21.59283304 18.77397345 24.47519446 15.90237981 26.00764614
 29.75799879 23.8087667  23.75973687 21.34973514]


In [47]:
#sinh ngẫu nhiên 100 phần tử có trung bình mẫu 25.5 và độ lệch chuẩn là 5.1
samples_2= np.random.normal(25.5,5.1,100)
print(samples_2[:10])

[23.10831516 25.90727368 25.85077849 23.51475212 31.71333766 24.75680085
 27.95472538 33.09820971 22.68755072 23.40537852]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} < \sigma_{2}^{2}$$

In [52]:
def f_test(x, y,alt="two-sided"):
    df1 = len(x) - 1
    df2 = len(y) - 1
    f = x.var() / y.var()
    if alt == "greater":
        p = 1.0 - stats.f.cdf(f, df1, df2)
    elif alt == "less":
        p = stats.f.cdf(f, df1, df2)
    else:
        p = 2.0*(1.0 - stats.f.cdf(f, df1, df2))
    return f, p

In [53]:
# Thông số
f, p = f_test (samples_1,samples_2)
alpha = 0.05
print("f: ",f,"\n","p: ",p,"\n")

f:  1.038898190516868 
 p:  0.8498085937894431 



In [54]:
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0
