<a href="https://colab.research.google.com/github/Tranminhtuan48/pythonbasics/blob/main/BaiTap_f_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [None]:
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

  import pandas.util.testing as tm


In [None]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.80435077 7.39173474 7.88538046 7.36791265 7.47550623 7.47039075
 7.42038182 7.785741   8.17327938 7.32138352]


In [None]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.97392727 6.7680331  6.9765569  7.20116716 6.70116584 7.11348431
 7.13056472 7.28356771 7.13143519 7.12268851]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [None]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  50.71159890972865 ; p-value:  1.0698543599175272e-12


In [None]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

Một công ty T nghiên cứu mức độ phát thải ôxít cacbon xảy ra từ 2 nhãn hiệu thuốc lá khác nhau và liệu mức độ độc hại của nhãn hiệu X có cao hơn nhãn hiệu Y hay không. Ta có các dữ liệu đã được thu thập như sau:
\begin{array}{|c|c|} \hline
 & X & Y  \\ \hline
Sample size & 50 & 50  \\ \hline
Mean & 16.4 & 15.6  \\ \hline
Standard deviation & 1.2 & 1.1  \\ \hline
\end{array}

Xây dựng giả thuyết:
$$H_0: σ_1^2 = σ_2^2$$
Giả thuyết thay thế:
$$H_1: σ_1^2 > σ_2^2$$


$$F = \frac{S_1^2}{S_2^2}$$
Với:
* $n_1 = n_2 = 50$
* α = 0.05

In [None]:
#simple1:
mean_1 = 16.4
std_1 = 1.1
N_1 = 50
samples_1 = np.random.normal(mean_1, std_1, N_1)
print(samples_1)

[16.75059791 16.98880529 16.41571118 14.65366706 17.09333014 16.77878348
 17.80377009 15.69505152 15.45428392 16.4887523  14.39527133 17.51453747
 17.77832266 16.97295136 16.7675681  16.50427297 14.28322533 16.82682894
 16.31516113 18.09065229 18.46102305 17.08180237 16.18174918 15.79956807
 17.40964713 15.91766517 16.06382439 17.0020082  14.31442624 15.86603716
 17.23797777 15.56407947 17.78439191 15.68711838 16.59613754 17.66875124
 17.15345707 17.51441924 16.12525873 15.41195522 16.75628327 16.75885116
 17.14811341 18.98234621 17.70181626 17.64682279 14.83442966 15.07116994
 17.36185235 17.61511962]


In [None]:
#sample2:
mean_2= 15.6
std_2 = 1.2
N_2 = 50
samples_2 = np.random.normal(mean_2, std_2, N_2)
print(samples_2)

[16.51058945 16.45231152 14.56733445 16.81642148 12.70764563 15.2237631
 16.33451244 16.47157798 14.95109096 17.7244204  15.23878595 14.86658766
 14.52861254 16.0274359  14.47824977 16.90368245 14.96200489 14.92961152
 15.68005185 13.85664221 16.1056583  15.9950884  14.96043662 14.15037255
 15.7375749  15.20821379 15.88023182 14.57743685 18.46409768 11.77889851
 14.9916796  16.57700686 18.341465   15.1196085  13.18797876 14.72361999
 15.19034229 14.95729259 15.69094302 14.58517213 16.76321436 15.5913514
 16.877879   14.63630213 11.71359308 15.41141265 17.4878942  15.05193107
 16.66887776 16.48010121]


In [None]:
a = 0.05
#f-test:
def f_test(samples_1, samples_2, ToF, a):
    DoF1 = len(samples_1) - 1
    DoF2 = len(samples_2) - 1
    f = samples_1.std() / samples_2.std()
    if ToF == "smaller":
        p = stats.f.cdf(f, DoF1, DoF2)
    elif ToF == "larger":
        p = 1.0 - stats.f.cdf(f, DoF1, DoF2)
    else:
        p = 2.0*(1.0 - stats.f.cdf(f, DoF1, DoF2))
    if p < a:
      print("Có bằng chứng để bác bỏ giả thuyết H0")
    else:
      print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

In [None]:
# Tiến hành f_test:
f_test(samples_1, samples_2, "smaller", a)

Chưa có bằng chứng để bác bỏ giả thuyết H0
