PHÂN TÍCH ANOVA MỘT CHIỀU

Phân tích ANOVA chấp nhận các giả định sau:

(1) Tất cả các nhóm đều độc lập với nhau

(2) Dữ liệu của mỗi nhóm đều tuân theo phân phối chuẩn. Tính chất này có thể được kiểm định bằng phương pháp Shapiro-Wilks.

(3) Phương sai (variance) của các nhóm bằng nhau. Tính chất này có thể được kiểm định bằng phương pháp kiểm định Bartlett hay Levene.

Nếu dữ liệu hiện có thỏa mãn các tính chất trên thì chúng ta mới tiến hành kiểm định ANOVA. Do vậy trước khi tiến hành kiểm định ANOVA, chúng ta cần thực hiện kiểm tra tập dữ liệu cần thỏa mãn 3 tính chất trên.
    

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats as st

In [55]:
#Bước 1: Hãy tạo một tập dữ liệu mẫu sample_1 với kích thước 100 tuân theo phân phối chuẩn
np.random.seed(12345678)
sample_1 = st.norm.rvs(loc=5, scale=3, size=100)
print(sample_1)

[ 6.66112457  0.62110402  1.11624458  0.47097816  9.7156247   2.07291143
  6.44209636  6.87684292  7.16705905  7.73097933  5.15740241  0.79962718
  4.50698055  2.99174521  7.1359379   7.56596324  5.52939014  8.20725877
  6.51969839  7.14061325  7.01466545  8.14646883  4.8883775   5.16711003
 10.76238383  8.21544166  7.57294577  7.0347106   1.450277    2.21320323
  4.29635357  2.05605854  8.83555745  8.35705141  8.1904709   8.19477473
  8.93832515  7.08430618 10.1528604   6.1345226   3.39782353  5.62714179
  7.53624464  9.30945839  7.27855527  8.13502557 10.38316244  3.80397247
  6.97555238  3.83253193  9.78948565  5.40269326  2.30568476  4.90665949
  8.47215826  3.74800578  3.76577354  4.3219004   5.90929755 -0.87384642
  4.58531131  6.50806448  5.60776261  4.5796361   7.00237742  2.2279008
  3.53679091  1.18695449  0.50494142  7.12692746  2.6481669   2.39949394
  8.22869619  8.17451467  3.13466687  1.45881623  5.40598013  8.48854614
  9.80069622  8.88392022 10.05127376  7.70080223  3.

In [56]:
#Bước 2: hãy tạo tập dữ liệu mẫu sample_2 với kích thước 100 tuân theo phân phối Poisson
np.random.seed(1000)
sample_2 = st.poisson.rvs(loc=5, mu=20, size=100)
print(sample_2)

[27 35 31 21 21 23 28 33 23 23 30 29 21 28 31 24 28 33 26 27 25 24 21 22
 25 24 26 30 22 28 24 29 33 21 21 21 29 27 32 27 25 28 29 29 25 25 30 24
 27 19 24 30 24 30 20 28 21 27 25 23 32 23 36 24 28 27 34 19 23 24 27 24
 23 18 29 19 22 29 18 23 30 24 22 23 19 29 30 35 17 21 37 21 22 24 31 24
 28 19 21 24]


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 2 bằng phương pháp Shapiro-Wilks đối với sample_1 và sample_2

(1) [Tài liệu tham khảo scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html)

(2) [Hướng dẫn cụ thể của statology](https://www.statology.org/shapiro-wilk-test-python/)

In [58]:
#Code kiểm định tính chất thứ 2 của sample_1 và sample_2
alpha = 0.05
# Kiểm định sample_1:
shapiro_test1 = st.shapiro(sample_1)
print(shapiro_test1)
if (shapiro_test1.statistic > 0) and (shapiro_test1.pvalue > alpha):
    print('Mẫu 1 tuân theo phân phối chuẩn.')
else:
    print('Mẫu 1 không tuân theo phân phối chuẩn.')

ShapiroResult(statistic=0.9772805571556091, pvalue=0.08144091814756393)
Mẫu 1 tuân theo phân phối chuẩn.


In [59]:
# Kiểm định sample_2:
shapiro_test2 = st.shapiro(sample_2)
print(shapiro_test2)
if (shapiro_test2.statistic > 0) and (shapiro_test2.pvalue > alpha):
    print('Mẫu 2 tuân theo phân phối chuẩn.')
else:
    print('Mẫu 2 không tuân theo phân phối chuẩn.')

ShapiroResult(statistic=0.9750838875770569, pvalue=0.05477862432599068)
Mẫu 2 tuân theo phân phối chuẩn.


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 3 bằng kiểm định Bartlett hoặc kiểm định Levene

(1) [Hướng dẫn tổng quát](https://www.marsja.se/levenes-bartletts-test-of-equality-homogeneity-of-variance-in-python/)

(2) [Hướng dẫn ở stackoverflow](https://stackoverflow.com/questions/36141254/how-to-test-for-homoscedasticity-having-the-same-population-variance-in-python)

(3) Sử dụng bài giảng về kiểm định Bartlett và Levene ở buổi trước

In [None]:
#Code kiểm định tính đồng nhất về phương sai của các nhóm

In [53]:
# Kiểm định Bartlett - Kiểm định tính đồng nhất của các phương sai:
bartlett_test = st.bartlett(sample_1,sample_2)
print(bartlett_test)
bartlettvalue,pvalue=bartlett_test
if (bartlettvalue > 0) and (pvalue < alpha):
    print('Phương sai các nhóm bằng nhau.')
else:
    print('Phương sai các nhóm không bằng nhau.')

BartlettResult(statistic=19.28888503696467, pvalue=1.1235852995377072e-05)
Phương sai các nhóm bằng nhau.
