<a href="https://colab.research.google.com/github/LBQTrung/Python-exercise/blob/main/kiem_dinh_f.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

KIỂM ĐỊNH F

Thay vì xây dựng giả thuyết với giá trị trung bình, người ta có thể xây dựng giả thuyết với phương sai (variance $\sigma^{2}$). Trong trường hợp này, chúng ta sử dụng kiểm định F. Tóm tắt về kiểm định F như sau:

Kiểm định một đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2} $$

$$H_{a}: \sigma^{2} < \sigma_{0}^{2} (H_{a}: \sigma^{2} > \sigma_{0}^{2})$$ 

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha)}^{2}$  hoặc $\chi^{2} > \chi_{(1 - \alpha)}^{2}$  khi $H_{a}: \sigma^{2} > \sigma_{0}^{2}$

Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do



Kiểm định 2 đuôi:

$$H_{0}: \sigma^{2} = \sigma_{0}^{2}$$
$$H_{a}:\sigma^{2} \neq \sigma_{0}^{2} $$

Giá trị thống kê kiểm định:

$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Vùng bác bỏ: $\chi^{2} < \chi_{(1 - \alpha/2)}^{2}$  hoặc $\chi^{2} > \chi_{(\alpha/2)}^{2}$  
Ghi chú: 

- $\chi^{2}$ - chi-square
- (n - 1) mức tự do

THỰC HÀNH KIỂM ĐỊNH F

Bước 1: Sinh ngẫu nhiên số liệu

Bước 2: Xây dựng giả thuyết 

Bước 3: Kiểm định Bartlett 

In [2]:
import numpy as np
import pandas as pd
import random
import math
from scipy import stats
from statsmodels.stats.weightstats import ztest
import warnings
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
#Sinh ngẫu nhiên 1000 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7.5 và độ lệch chuẩn là 0.25
mean_1 = 7.5
std_1 = 0.25
N_1 = 1000
samples_1 = np.random.normal(mean_1, std_1, N_1)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_1[:10])

[7.80435077 7.39173474 7.88538046 7.36791265 7.47550623 7.47039075
 7.42038182 7.785741   8.17327938 7.32138352]


In [None]:
#Sinh ngẫu nhiên 900 mẫu tuân theo phân phối chuẩn có trung bình mẫu là 7 và độ lệch chuẩn là 0.2
mean_2= 7
std_2 = 0.2
N_2 = 900
samples_2 = np.random.normal(mean_2, std_2, N_2)

In [None]:
#In ra 10 phần tử đầu tiên
print(samples_2[:10])

[6.97392727 6.7680331  6.9765569  7.20116716 6.70116584 7.11348431
 7.13056472 7.28356771 7.13143519 7.12268851]


Xây dựng giả thuyết:
$$H_{0}: \sigma_{1}^{2} = \sigma_{2}^{2}$$
$$H_{a}: \sigma_{1}^{2} \neq \sigma_{2}^{2}$$

In [None]:
#Kiểm định Bartlett
stat_value, p_value = stats.bartlett(samples_1, samples_2)
print("Stat value: ", stat_value, "; p-value: ", p_value)

Stat value:  50.71159890972865 ; p-value:  1.0698543599175272e-12


In [None]:
alpha = 0.05
if(p_value <  alpha):
  print("Có bằng chứng để bác bỏ giả thuyết H0")
else:
  print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

Có bằng chứng để bác bỏ giả thuyết H0


BÀI TẬP

Bạn hãy thử viết code tiến hành kiểm định F 1 đuôi?


1. Kiểm định phương sai 1 tham số:

Bài toán: Tại công ty xăng dầu X, quá trình nạp nhớt vào bình chỉ chấp nhận độ lệch chuẩn tối đa 10 mL. Để kiểm tra máy nạp M, người ta lấy ra 20 bình để kiểm tra. Kết quả cho thấy độ lệch chuẩn là 12 mL. Với độ tin cậy là 95%, độ biến động của máy M có đạt yêu cầu của công ty X không?

Theo các thông tin trên, tổng thể là toàn bộ các bình nhớt nạp bởi máy M, đại lượng khảo sát là phương sai $σ^2$ của dung tích nhớt trong các bình ấy và ta cần so sánh đại lượng này với $a^2$ = $10^2$ = 100. Mẫu có kích thước n = 20 và phương sai s$^2$ = $12^2$ = 144.

Xác định giả thuyết:
$$H_0: \sigma^2 = 100$$
$$H_a: \sigma^2 \ne 100$$

Vì đây là kiểm định phương sai **1 tham số** do đó ta dùng công thức sau:
$$ \chi^{2} = \frac{(n-1)s^{2}}{\sigma_{0}^{2}}$$

Thay các số đã được tính ở trên ta được:
$$ \chi^{2}_{qs} = \frac{19 \times 144}{100} \approx 27.36$$  

Với n = 20, α = 0.05, giá trị tới hạn:
$χ^{2(19)}_{0.05}$ = 30.144 (Tra bảng)

Vùng bác bỏ trong trường hợp này:  { $χ^2: χ^2 > \chi^{2(n-1)}_{α}$} 

Trong trường hợp $σ^2 < σ_0^2$ ta có miền bác bỏ $H_0$ là: { $χ^2: χ^2 < \chi^{2(n-1)}_{1-α}$ }

Vì $χ^2 < 30.144$ nên ta không thể bác bỏ $H_0$

Kết luận: Máy nạp M đạt yêu cầu về độ biến động của công ty X

Ta tiến hành giải bài toán trên bằng Python:

In [None]:
# Tạo mẫu:
sample = np.random.normal(loc = 100, scale = 12, size = 20)
print(sample) 

[ 99.06232625  93.19882866  92.2658878   96.7879273  118.71217368
  81.81500656  93.93459782 125.15999472 104.26740373 102.47418332
 114.85087047  87.92070267 109.98800567  87.3560981  106.67995797
 115.00143961 103.66420755 123.88470546 110.32069938  85.19200911]


In [None]:
# Xác định các thông số:
va0 = 100
sig = 0.05

In [None]:
# Xây dựng hàm kiểm định phương sai 1 tham số:
def var_test1samp(sample , va0, type_test, sig):
    n = len(sample)
    Q = (n - 1) * np.var(sample) / va0 
    if type_test == "smaller":
        q = stats.chi2.ppf(sig, df = n - 1)
        if Q <= q:  
            print("Có bằng chứng để bác bỏ giả thuyết H0")
        else:
            print("Chưa có bằng chứng để bác bỏ giả thuyết H0")
    elif type_test == "larger":
        q = stats.chi2.ppf(1 - sig, df = n - 1)
        if Q >= q:
            print("Có bằng chứng để bác bỏ giả thuyết H0")
        else:
            print("Chưa có bằng chứng để bác bỏ giả thuyết H0")
    else:
        q1 = stats.chi2.ppf(sig / 2, df = n - 1)
        q2 = stats.chi2.ppf(1 - (sig / 2), df = n - 1)
        if Q <= q1 or Q >= q2:
            print("Có bằng chứng để bác bỏ giả thuyết H0")
        else:
            print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

In [None]:
var_test1samp(sample, va0, "larger", sig)

Chưa có bằng chứng để bác bỏ giả thuyết H0


2. Kiểm định phương sai hai tham số:

Bài toán: Cho bảng sau:

\begin{array}{|c|c|} \hline
 & X & Y  \\ \hline
Mean & 15.85 & 15.275  \\ \hline
Variance & 3.977 & 3.83  \\ \hline
Observation & 40 & 40  \\ \hline
\end{array}

X, Y lần lượt là tỷ lệ thu hồi vốn khi đầu tư vào ngành A, B (đơn vị: %/năm). Các biến phân phối chuẩn, α = 0.05. Từ thông tin, ta có thể kết luận mức độ rủi ro khi đầu tư vào ngành A cao hơn ngành B hay không?

Xây dựng giả thuyết:
$$H_0: σ_1^2 = σ_2^2$$
Giả thuyết thay thế:
$$H_1: σ_1^2 > σ_2^2$$

Công thức: 
$$F = \frac{S_1^2}{S_2^2}$$

Thay số vào công thức ta có:
$$F_{qs} = \frac{3.977}{3.83} ≈ 1.038$$

Miền bác bỏ trong trường hợp này là: { $F: F >  f_{α}^{(n_1-1, n_2-1)}$}

Với:
* $n_1 = n_2 = 40$
* α = 0.05

Ta có: $f_{0.05}^{(39, 39)} = 1.704$ (Tra bảng)

Vì $F_{qs}$ < 1.704 (Hay không thuộc miền bác bỏ $H_0$). Do đó, ta chưa có bằng chứng để bác bỏ $H_0$


Ta tiến hành với Python như sau:

In [4]:
# Tạo mẫu thứ 1:
sample_1 = np.random.normal(loc = 15.85, scale = math.sqrt(3.977),
                            size = 40)
print(sample_1)

[17.61285924 18.34190048 15.56603108 17.81792956 16.6375381  16.03908897
 15.22174356 15.59563985 18.67500235 16.22225331 16.80053047 16.1164361
 16.09069708 16.52782196 15.25576449 15.77214421 12.93358684 15.96332304
 13.73196104 14.58091801 15.11423207 19.46795404 14.93584021 13.90049865
 14.94748562 16.04112752 13.95150401 14.99879169 18.31418537 15.91020024
 15.13399192 16.45267913 16.075443   16.28404142 14.74726101 13.30180516
 17.95414133 18.57694299 16.99126302 16.89578347]


In [5]:
# Tạo mẫu thứ 2:
sample_2 = np.random.normal(loc = 15.275, scale = math.sqrt(3.83),
                            size = 40)
print(sample_1)

[17.61285924 18.34190048 15.56603108 17.81792956 16.6375381  16.03908897
 15.22174356 15.59563985 18.67500235 16.22225331 16.80053047 16.1164361
 16.09069708 16.52782196 15.25576449 15.77214421 12.93358684 15.96332304
 13.73196104 14.58091801 15.11423207 19.46795404 14.93584021 13.90049865
 14.94748562 16.04112752 13.95150401 14.99879169 18.31418537 15.91020024
 15.13399192 16.45267913 16.075443   16.28404142 14.74726101 13.30180516
 17.95414133 18.57694299 16.99126302 16.89578347]


In [6]:
# Xác định thông số:
sig = 0.05

In [8]:
# Ta viết hàm f_test:
def f_test(sample_1, sample_2, type_test, sig):
    df1 = len(sample_1) - 1
    df2 = len(sample_2) - 1
    f_stat = sample_1.var() / sample_2.var()
    if type_test == "smaller":
        p_value = stats.f.cdf(f_stat, df1, df2)
    elif type_test == "larger":
        p_value = 1.0 - stats.f.cdf(f_stat, df1, df2)
    else:
        p_value = 2.0*(1.0 - stats.f.cdf(f_stat, df1, df2))
    if p_value < sig:
      print("Có bằng chứng để bác bỏ giả thuyết H0")
    else:
      print("Chưa có bằng chứng để bác bỏ giả thuyết H0")

In [9]:
# Tiến hành f_test:
f_test(sample_1, sample_2, "larger", sig)

Chưa có bằng chứng để bác bỏ giả thuyết H0
