<a href="https://colab.research.google.com/github/hoangnuthuphuong/python/blob/Phuong/kiemdinh_f.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **KIỂM ĐỊNH F**

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

**Kiểm định một đuôi:**

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

**Giá trị thống kê kiểm định:**

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

**Vùng bác bỏ:**


$$\chi^{2} < \chi_{(1 - \alpha)}^{2} \ hoặc\    \chi^{2} > \chi_{(\alpha)}^{2}$$  $$khi$$ $$H_{a}: \sigma^{2} > \sigma_{0}^{2}$$


**Ghi chú:** 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



**Kiểm định 2 đuôi:**

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

**Giá trị thống kê kiểm định:**

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

**Vùng bác bỏ:**  $$\chi^{2} < \chi_{(1 - \alpha/2)}^{2}\  hoặc\ \chi^{2} > \chi_{(\alpha/2)}^{2}$$ 
**Ghi chú:** 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

# **THỰC HÀNH KIỂM ĐỊNH F**

> Bước 1: Sinh ngẫu nhiên số liệu

> Bước 2: Xây dựng giả thuyết 

> Bước 3: Kiểm định Bartlett 

In [4]:
import numpy as np
import pandas as pd
import random
from scipy import stats
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [5]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [6]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.46900012 7.24126746 7.49188178 7.25405149 7.33238971 7.24825152
 7.44784219 7.52805888 7.72061164 7.4446046 ]


In [7]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [8]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.6258724  7.1166071  7.00114188 7.03484116 7.36480202 7.0600352
 6.8443679  6.83861548 6.81733858 7.39830076]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [9]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  64.7612938490406 ; p-value:  8.454365347870422e-16


In [10]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


**BÀI TẬP**

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?

Gợi ý: Thử tìm kiếm ví dụ về kiểm dịnh F 1 đuôi trong ngôn ngữ lập trình Python & R để nhận thấy sự khác biệt.

In [22]:
#Sinh ngẫu nhiên 500 mẫu tuân theo phân phối chuẩn có trung bình mẫu 17.9 là và độ lệch chuẩn là 2.5 
mean_1 = 17.9 
std_1 = 2.5 
N_1 = 500
samples_1 = np.random.normal(mean_1, std_1, N_1)

#Sinh ngẫu nhiên 400 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 15.5  và độ lệch chuẩn là 2.2
mean_2= 15.5 
std_2 = 2.2 
N_2 = 400
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [23]:
# Xây dựng kiểm định F 
def f_test_onetail(samples_1, samples_2,z):
    x1 = len(samples_1)-1 
    x2 = len(samples_2) -1 
    f = samples_1.var()/samples_2.var()
    if z == "greater":
      p_value = 1 - stats.f.cdf(f, x1, x2)
    elif z == "less":
      p_value = stats.f.cdf(f, x1, x2) 
    return f, p_value

# Chọn alpha = 0.05
# Kiểm định giả thuyết 
ftest,p_value = f_test_onetail(samples_1, samples_2,"less")
print("p-value: ", p_value)
if(p_value < 0.05):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

p-value:  0.9999511315960319
Chưa có bằng chứng để bác bỏ giả thuyết H0
