<a href="https://colab.research.google.com/github/mooochiiii/exercise/blob/main/kiem_dinh_f.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [2]:
import numpy as np
import pandas as pd
import random
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

  import pandas.util.testing as tm


In [3]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [4]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.2165522  7.46627259 7.49137536 7.14546032 7.37760958 7.26964263
 7.77612051 7.30468079 7.94450379 7.8793092 ]


In [5]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [6]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.70128905 6.99543921 6.77189641 6.76704283 6.8474015  6.80197973
 6.86027701 6.81970857 6.87635465 7.0634015 ]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [7]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  37.43064830191288 ; p-value:  9.47218838617897e-10


In [8]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

In [10]:
#sinh ngẫu nhiên 100 phần tử có trung bình mẫu 24.6 và độ lệch chuẩn là 4.2

print("sinh ngẫu nhiên 100 phần tử có trung bình mẫu 24.6 và độ lệch chuẩn là 4.2")
samples_1= np.random.normal(24.6,4.2,100)
print(samples_1[:10])


#sinh ngẫu nhiên 100 phần tử có trung bình mẫu 25.5 và độ lệch chuẩn là 5.1

print("\n","sinh ngẫu nhiên 100 phần tử có trung bình mẫu 25.5 và độ lệch chuẩn là 5.1")
samples_2= np.random.normal(25.5,5.1,100)
print(samples_2[:10])

sinh ngẫu nhiên 100 phần tử có trung bình mẫu 24.6 và độ lệch chuẩn là 4.2
[26.08422738 18.60923416 24.55168879 21.13577336 25.86577519 23.47384963
 28.85740559 21.85561061 34.19152967 21.48932638]

 sinh ngẫu nhiên 100 phần tử có trung bình mẫu 25.5 và độ lệch chuẩn là 5.1
[24.04478325 25.63203462 32.2266109  34.37565508 20.63626162 30.49734373
 31.22857954 28.78708558 32.43704373 17.00073646]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} < \sigma_{2}^{2}$$

In [11]:

def f_test(x, y,alt="two-sided"):
    df1 = len(x) - 1
    df2 = len(y) - 1
    f = x.var() / y.var()
    if alt == "greater":
        p = 1.0 - stats.f.cdf(f, df1, df2)
    elif alt == "less":
        p = stats.f.cdf(f, df1, df2)
    else:
        p = 2.0*(1.0 - stats.f.cdf(f, df1, df2))
    return f, p

# Thông số
f, p = f_test (samples_1,samples_2)
alpha = 0.05
print("f: ",f,"\n","p: ",p,"\n")

if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

f:  0.6130913792654081 
 p:  1.9843032107663403 

Có bằng chứng để bác bỏ giả thuyết H0
