<a href="https://colab.research.google.com/github/mooochiiii/exercise/blob/main/kiem_dinh_f.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [2]:
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

  import pandas.util.testing as tm


In [None]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.80435077 7.39173474 7.88538046 7.36791265 7.47550623 7.47039075
 7.42038182 7.785741   8.17327938 7.32138352]


In [None]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.97392727 6.7680331  6.9765569  7.20116716 6.70116584 7.11348431
 7.13056472 7.28356771 7.13143519 7.12268851]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [None]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  50.71159890972865 ; p-value:  1.0698543599175272e-12


In [None]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

Xây dựng giả thuyết:
$$H_0: σ_1^2 = σ_2^2$$
Giả thuyết thay thế:
$$H_1: σ_1^2 > σ_2^2$$


In [9]:
# Sinh ngẫu nhiên mẫu thứ 1:
sample_1= np.random.normal(24.6,4.2,40)
print(sample_1)

[16.97367937 31.53688695 17.98438961 25.47442003 25.26034042 25.16575451
 28.0878026  23.78008104 24.8605122  30.40062017 21.60388868 30.60038814
 25.18176753 23.56347145 25.77562437 24.11261258 22.3024116  24.88220081
 26.64197993 29.5724786  34.46234763 17.4135115  20.555842   29.14501998
 28.56188862 27.76155937 26.67181462 26.62771029 37.48387884 16.74889619
 25.22631928 26.72966316 15.71242511 28.63017591 28.2480906  25.01937287
 24.78791116 20.89481122 24.01032266 26.8234413 ]


In [4]:
# Sinh ngẫu nhiên mẫu thứ 2:
sample_2 = np.random.normal(25.5,5.1,40)
print(sample_2)

[24.82347995 33.2745604  24.98017443 21.93436306 34.71478011 17.21477288
 28.68336922 32.17577864 20.54051193 28.73831243 27.46611868 27.21857013
 24.59545981 20.3093637  26.98860011 22.25123561 23.48746683 17.68645882
 38.08224403 25.04845034 25.47062867 40.23599179 22.23179166 24.61978996
 23.02637735 27.85259132 28.19324467 32.85589007 18.05763824 22.26490923
 28.18383782 28.32409659 26.9198729  30.18252831 16.30336264 24.01697096
 22.83482277 21.19359123 15.87158474 24.87952694]


In [5]:
# Xác định thông số:
sig = 0.05

In [6]:
# Ta viết hàm f_test:
def f_test(sample_1, sample_2, type_test, sig):
    df1 = len(sample_1) - 1
    df2 = len(sample_2) - 1
    f_stat = sample_1.var() / sample_2.var()
    if type_test == "smaller":
        p_value = stats.f.cdf(f_stat, df1, df2)
    elif type_test == "larger":
        p_value = 1.0 - stats.f.cdf(f_stat, df1, df2)
    else:
        p_value = 2.0*(1.0 - stats.f.cdf(f_stat, df1, df2))
# Kiểm định giả thuyết
    if p_value < sig:
      print("Có bằng chứng để bác bỏ giả thuyết H0")
    else:
      print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

In [10]:
# Tiến hành f_test:
f_test(sample_1, sample_2, "larger", sig)

Chưa có bằng chứng để bác bỏ giả thuyết H0
