<a href="https://colab.research.google.com/github/NhuY26/BT-KIEMDINH-AB/blob/main/TL_DO_AN_PYTHON.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [None]:
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

  import pandas.util.testing as tm


In [None]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25

mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [None]:
#In ra 10 phần tử đầu tiên

print(samples_1[:10])

[7.66109559 7.77212228 7.27875177 7.53350422 7.60801382 7.58552203
 7.60955361 7.50419381 7.33159984 7.12649352]


In [None]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2

mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [None]:
#In ra 10 phần tử đầu tiên

print(samples_2[:10])

[7.20678426 7.21264516 7.23658448 6.97024158 7.32767149 6.95072954
 7.02411438 6.94091668 7.08669357 7.16752399]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [None]:
#Kiểm định Bartlett

stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  34.64028080126716 ; p-value:  3.96613825763306e-09


In [None]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

Xây dựng giả thuyết:
$$H_0: σ_1^2 = σ_2^2$$
Giả thuyết thay thế:
$$H_1: σ_1^2 > σ_2^2$$


In [None]:
# Sinh ngẫu nhiên mẫu thứ 1:

sample_1= np.random.normal(24.6,4.2,40)
print(sample_1)

[24.03400842 30.51928156 27.63500318 31.69950172 31.29888447 32.1429069
 26.81461258 31.86893769 24.26131026 28.27390237 25.3179078  22.82185926
 24.62521167 32.19698155 19.63702822 17.63056441 23.28802096 29.12566597
 23.91585279 25.83368146 25.79521974 24.92951428 16.54453849 26.88265503
 22.30870845 26.01695517 24.47232791 22.21436086 23.35509126 21.14838668
 27.99037329 26.97044863 23.50447102 29.93508837 26.19627843 25.19599904
 33.93699366 17.30919291 25.27945498 27.12087331]


In [None]:
# Sinh ngẫu nhiên mẫu thứ 2:

sample_2 = np.random.normal(25.5,5.1,40)
print(sample_2)

[24.57140394 28.2408235  23.57021233 27.2613075  25.37438459 31.59795891
 27.66032244 20.1374606  26.46826102 32.26067814 27.17701282 25.1519888
 36.4503111  23.50327298 29.41257121 10.77882341 31.70424651 29.26438456
 25.76585021 32.63511812 20.87801622 21.32362665 21.04670866 35.54944159
 20.03753988 28.55532084 20.48428754 30.91812564 29.59496407 21.91993424
 22.22476316 29.94277236 13.97785692 32.06286167 27.42279259 23.76259563
 27.24913014 23.22760691 30.47440761 30.3124261 ]


In [None]:
# Xác định thông số:
sig = 0.05

In [None]:
# Ta viết hàm f_test:

def f_test(sample_1, sample_2, type_test, sig):
    df1 = len(sample_1) - 1
    df2 = len(sample_2) - 1
    f_stat = sample_1.var() / sample_2.var()
    if type_test == "smaller":
        p_value = stats.f.cdf(f_stat, df1, df2)
    elif type_test == "larger":
        p_value = 1.0 - stats.f.cdf(f_stat, df1, df2)
    else:
        p_value = 2.0*(1.0 - stats.f.cdf(f_stat, df1, df2))

# Kiểm định giả thuyết

    if p_value < sig:
      print("Có bằng chứng để bác bỏ giả thuyết H0")
    else:
      print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

In [None]:
# Tiến hành f_test:

f_test(sample_1, sample_2, "larger", sig)

Chưa có bằng chứng để bác bỏ giả thuyết H0
