<a href="https://colab.research.google.com/github/Tranminhtuan48/pythonbasics/blob/main/BaiTap_f_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [1]:
import math
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

  import pandas.util.testing as tm


In [None]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.80435077 7.39173474 7.88538046 7.36791265 7.47550623 7.47039075
 7.42038182 7.785741   8.17327938 7.32138352]


In [None]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.97392727 6.7680331  6.9765569  7.20116716 6.70116584 7.11348431
 7.13056472 7.28356771 7.13143519 7.12268851]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [None]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  50.71159890972865 ; p-value:  1.0698543599175272e-12


In [None]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

Một công ty T nghiên cứu mức độ phát thải ôxít cacbon xảy ra từ 2 nhãn hiệu thuốc lá khác nhau và liệu mức độ độc hại của nhãn hiệu X có cao hơn nhãn hiệu Y hay không. Ta có các dữ liệu đã được thu thập như sau:
\begin{array}{|c|c|} \hline
 & X & Y  \\ \hline
Sample size & 50 & 50  \\ \hline
Mean & 16.4 & 15.6  \\ \hline
Standard deviation & 1.2 & 1.1  \\ \hline
\end{array}

Xây dựng giả thuyết:
$$H_0: σ_1^2 = σ_2^2$$
Giả thuyết thay thế:
$$H_1: σ_1^2 > σ_2^2$$


$$F = \frac{S_1^2}{S_2^2}$$
Với:
* $n_1 = n_2 = 50$
* α = 0.05

In [2]:
#simple1:
mean_1 = 16.4
std_1 = 1.1
N_1 = 50
samples_1 = np.random.normal(mean_1, (std_1*2), N_1)
print(samples_1)

[17.9997101  16.47139147 13.17500807 15.36453635 13.71533898 15.74120005
 14.15158681 14.78032718 17.63937653 19.18860172 17.20116957 17.68884349
 18.36335221 15.74278771 20.25023446 15.86407812 13.48391982 14.4408196
 15.83303279 13.95631605 16.25243594 18.95083351 16.19144687 16.28683365
 20.67153095 22.14726669 17.77570952 16.23072528 12.98856964 18.70397678
 19.44531633 12.85216884 16.22838821 17.19424658 15.9667298  17.17270952
 17.22417874 14.50843897 18.64952606 15.99777826 16.52489173 15.90255177
 16.42567316 17.34291089 18.02593261 15.49929865 16.24807577 17.95891733
 18.9614515  17.93507297]


In [3]:
#sample2:
mean_2= 15.6
std_2 = 1.2
N_2 = 50
samples_2 = np.random.normal(mean_2, (std_2*2), N_2)
print(samples_2)

[16.5477022  15.43123304 16.0583138  15.55103777 14.89016922 15.74306053
 12.49545247 11.88982328 16.61048437 13.93877697 15.99795786 15.86497126
 17.08833524 15.3668383  12.95884996 14.44147074 17.86428143 14.02750358
 15.26125464 15.72598231 17.66637023 17.33767171 14.51784134 11.29739327
 10.69987862 12.45156617 13.24683017 17.29631933 15.9057587  13.07604665
 14.20391113 12.0388405  17.7681498  16.66991847 21.21853142 17.01015204
 18.89590394 13.788714   15.00513704 12.49553793 17.99733494 15.00104581
 15.60037817 17.38204344 14.63899471 16.44619528 14.46432265 18.14198897
 16.02536181 12.55295155]


In [4]:
a = 0.05
#f-test:
def f_test(samples_1, samples_2, ToF, a):
    DoF1 = len(samples_1) - 1
    DoF2 = len(samples_2) - 1
    f = samples_1.std() / samples_2.std()
    if ToF == "smaller":
        p = stats.f.cdf(f, DoF1, DoF2)
    elif ToF == "larger":
        p = 1.0 - stats.f.cdf(f, DoF1, DoF2)
    else:
        p = 2.0*(1.0 - stats.f.cdf(f, DoF1, DoF2))
    if p < a:
      print("Có bằng chứng để bác bỏ giả thuyết H0")
    else:
      print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

In [5]:
# Tiến hành f_test:
f_test(samples_1, samples_2, "smaller", a)

Chưa có bằng chứng để bác bỏ giả thuyết H0
