PHÂN TÍCH ANOVA MỘT CHIỀU

Phân tích ANOVA chấp nhận các giả định sau:

(1) Tất cả các nhóm đều độc lập với nhau

(2) Dữ liệu của mỗi nhóm đều tuân theo phân phối chuẩn. Tính chất này có thể được kiểm định bằng phương pháp Shapiro-Wilks.

(3) Phương sai (variance) của các nhóm bằng nhau. Tính chất này có thể được kiểm định bằng phương pháp kiểm định Bartlett hay Levene.

Nếu dữ liệu hiện có thỏa mãn các tính chất trên thì chúng ta mới tiến hành kiểm định ANOVA. Do vậy trước khi tiến hành kiểm định ANOVA, chúng ta cần thực hiện kiểm tra tập dữ liệu cần thỏa mãn 3 tính chất trên.
    

In [2]:
#Thư viện
from scipy import stats
from scipy.stats import f_oneway

In [3]:
#Bước 1: Hãy tạo một tập dữ liệu mẫu sample_1 với kích thước 100 tuân theo phân phối chuẩn, std = 2, mean = 15
sample_1 =  stats.norm.rvs(loc = 15, scale = 2, size = 100)
print(sample_1[:10])

[14.60497956 16.58881751 12.91512723 16.43487578 12.76305629 12.88914908
 16.752832   16.78690279 18.35094241 15.99579437]


In [4]:
#Bước 2: hãy tạo tập dữ liệu mẫu sample_2 với kích thước 100 tuân theo phân phối Poisson
sample_2 = stats.poisson.rvs(loc = 17, mu = 2, size=1000)
print(sample_2[:10])

[22 17 22 19 19 17 19 20 20 19]


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 2 bằng phương pháp Shapiro-Wilks đối với sample_1 và sample_2

(1) [Tài liệu tham khảo scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html)

(2) [Hướng dẫn cụ thể của statology](https://www.statology.org/shapiro-wilk-test-python/)

In [5]:
#Kiểm định  stats.shapiro(x) của sample_1 và sample_2

print('sample_1')
st1, p1 = stats.shapiro(sample_1)
print('statistic = ',st1)
print('p_value = ',p1)


if (p1<0.05):
    print('Đây không phải dữ liệu phân phối chuẩn', p1)
else:
    print('Không đủ bằng chứng để bác bỏ: đây là dữ liệu phân phối chuẩn', p1)

print('-'*50)
print('sample_2')
st2, p2 = stats.shapiro(sample_2)
print('statistic = ',st2)
print('p_value = ',p2)


if (p2<0.05):
    print('Đây không phải dữ liệu phân phối chuẩn', p2)
else:
    print('Không đủ bằng chứng để bác bỏ: đây là dữ liệu phân phối chuẩn', p2)

sample_1
statistic =  0.9926215410232544
pvalue =  0.8642159700393677
Cant Reject H0 0.8642159700393677
--------------------------------------------------
sample_2
statistic =  0.9168055653572083
pvalue =  5.241440187701366e-23
Reject H0 5.241440187701366e-23


In [6]:
#Code kiểm định tính chất thứ 2 của sample_1 và sample_2


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 3 bằng kiểm định Bartlett hoặc kiểm định Levene

(1) [Hướng dẫn tổng quát](https://www.marsja.se/levenes-bartletts-test-of-equality-homogeneity-of-variance-in-python/)

(2) [Hướng dẫn ở stackoverflow](https://stackoverflow.com/questions/36141254/how-to-test-for-homoscedasticity-having-the-same-population-variance-in-python)

(3) Sử dụng bài giảng về kiểm định Bartlett và Levene ở buổi trước

In [7]:
#Code kiểm định tính đồng nhất về phương sai của các nhóm

st12, p12 = stats.bartlett(sample_1, sample_2)
print('statistic by Bartlett = ',st12)
print('pvalue by Bartlett = ',p12)

print('-'*50)

st3, p3 = stats.levene(sample_1, sample_2)
print('statistic by levene = ',st3)
print('pvalue by levene = ',p3)

statistic by Bartlett =  20.607472633232987
pvalue by Bartlett =  5.637563563347602e-06
--------------------------------------------------
statistic by levene =  23.895201834148118
pvalue by levene =  1.1686465292177705e-06


In [8]:
print('pvalue by Bartlett = ',p12)
if (p12<0.05):
    print('Reject H0', p12)
else:
    print('Cant Reject H0', p12)

pvalue by Bartlett =  5.637563563347602e-06
Reject H0 5.637563563347602e-06


In [9]:
print('pvalue by levene = ',p3)
if (p3<0.05):
    print('Đây không phải các dữ liệu đồng nhất', p3)
else:
    print('Không đủ bằng chứng để bác bỏ: đây là các dư liệu đồng nhất', p3)

pvalue by levene =  1.1686465292177705e-06
Reject H0 1.1686465292177705e-06


In [11]:
#code kiểm định anova
st , p = f_oneway(sample_1, sample_2)
print('P_value = ',p)
if (p<0.05):
    print('Các dữ liệu có khác biệt', p)
else:
    print('Không đủ bằng chứng để bác bỏ: Các dữ liệu khác biệt', p)

P_value =  6.779267488691139e-121
Các dữ liệu có khác biệt 6.779267488691139e-121
