PHÂN TÍCH ANOVA MỘT CHIỀU

Phân tích ANOVA chấp nhận các giả định sau:

(1) Tất cả các nhóm đều độc lập với nhau

(2) Dữ liệu của mỗi nhóm đều tuân theo phân phối chuẩn. Tính chất này có thể được kiểm định bằng phương pháp Shapiro-Wilks.

(3) Phương sai (variance) của các nhóm bằng nhau. Tính chất này có thể được kiểm định bằng phương pháp kiểm định Bartlett hay Levene.

Nếu dữ liệu hiện có thỏa mãn các tính chất trên thì chúng ta mới tiến hành kiểm định ANOVA. Do vậy trước khi tiến hành kiểm định ANOVA, chúng ta cần thực hiện kiểm tra tập dữ liệu cần thỏa mãn 3 tính chất trên.
    

In [27]:
import numpy as np
import pandas as pd
import random
import scipy
from scipy import stats

In [28]:
sample_1 = np.random.normal(20, 0.1, 100)
sample_1[:10]

array([20.09547982, 20.04430657, 20.06217709, 20.08662852, 19.89913827,
       20.15993433, 20.14359899, 20.02587545, 20.02966394, 20.11102467])

In [29]:
sample_2 = s = np.random.poisson(20, 100)
sample_2[:10]

array([17, 24, 20, 13, 21, 24, 20, 30, 21, 21])

Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 2 bằng phương pháp Shapiro-Wilks đối với sample_1 và sample_2

(1) [Tài liệu tham khảo scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html)

(2) [Hướng dẫn cụ thể của statology](https://www.statology.org/shapiro-wilk-test-python/)

Cách 1:

In [30]:
from scipy.stats import shapiro

In [31]:
t1, p1 = shapiro(sample_1)
if p1 > 0.05:
  print("Phân phối chuẩn")
else:
  print("Phân phối không chuẩn")

Phân phối chuẩn


In [32]:
t2, p2 = shapiro(sample_2)
if p2 > 0.05:
  print("Phân phối chuẩn")
else:
  print("Phân phối không chuẩn")

Phân phối không chuẩn


Cách 2:

In [33]:
t1, p1 = scipy.stats.shapiro(sample_1)
if p1 > 0.05:
  print("Phân phối chuẩn")
else:
  print("Phân phối không chuẩn")

Phân phối chuẩn


In [34]:
t2, p2 = scipy.stats.shapiro(sample_1)
if p2 > 0.05:
  print("Phân phối chuẩn")
else:
  print("Phân phối không chuẩn")

Phân phối chuẩn


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 3 bằng kiểm định Bartlett hoặc kiểm định Levene

(1) [Hướng dẫn tổng quát](https://www.marsja.se/levenes-bartletts-test-of-equality-homogeneity-of-variance-in-python/)

(2) [Hướng dẫn ở stackoverflow](https://stackoverflow.com/questions/36141254/how-to-test-for-homoscedasticity-having-the-same-population-variance-in-python)

(3) Sử dụng bài giảng về kiểm định Bartlett và Levene ở buổi trước

Lấy dữ liệu từ bài trước, ta có:

In [35]:
f = {'Business Majors': np.random.normal(random.uniform(2, 5), 0.1, 35),
     'Englissh Majors': np.random.normal(random.uniform(2, 5), 0.2, 35),
     'Math Majors': np.random.normal(random.uniform(2, 5), 0.15, 35),
     'Psych Majors': np.random.normal(random.uniform(2, 5), 0.1, 35)}

df3 = pd.DataFrame(f)

In [36]:
df3.head()

Unnamed: 0,Business Majors,Englissh Majors,Math Majors,Psych Majors
0,2.82289,3.930998,3.602209,4.038182
1,2.76593,4.077985,3.467481,3.994283
2,3.124973,3.981263,3.709192,4.082093
3,2.858451,3.596528,3.489435,4.03561
4,2.961282,3.714237,3.43702,4.018762


In [47]:
a = df3['Business Majors']
b = df3['Englissh Majors']
c = df3['Math Majors']
d = df3['Psych Majors']

Cách 1:

In [48]:
from scipy.stats import bartlett
from scipy.stats import levene

In [49]:
stat, p = bartlett(a, b, c, d)
print('p_value = ', p)

p_value =  0.000534332138191994


In [50]:
stat, p = levene(a, b, c, d)
print('p_value = ', p)

p_value =  0.006011521516866345


Cách 2:

In [51]:
scipy.stats.bartlett(a, b, c, d)

BartlettResult(statistic=17.59002474951155, pvalue=0.000534332138191994)

In [52]:
scipy.stats.levene(a, b, c, d)

LeveneResult(statistic=4.326650702330876, pvalue=0.006011521516866345)