<a href="https://colab.research.google.com/github/lmquann/leminhquan/blob/main/huong_dan_gia_dinh_ANOVA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

PHÂN TÍCH ANOVA MỘT CHIỀU

Phân tích ANOVA chấp nhận các giả định sau:

(1) Tất cả các nhóm đều độc lập với nhau

(2) Dữ liệu của mỗi nhóm đều tuân theo phân phối chuẩn. Tính chất này có thể được kiểm định bằng phương pháp Shapiro-Wilks.

(3) Phương sai (variance) của các nhóm bằng nhau. Tính chất này có thể được kiểm định bằng phương pháp kiểm định Bartlett hay Levene.

Nếu dữ liệu hiện có thỏa mãn các tính chất trên thì chúng ta mới tiến hành kiểm định ANOVA. Do vậy trước khi tiến hành kiểm định ANOVA, chúng ta cần thực hiện kiểm tra tập dữ liệu cần thỏa mãn 3 tính chất trên.
    

In [1]:
from scipy import stats 
import numpy as np
import pandas as pd
from scipy.stats import bartlett

In [2]:
#Bước 1: Hãy tạo một tập dữ liệu mẫu sample_1 với kích thước 100 tuân theo phân phối chuẩn
sample_1 =  stats.norm.rvs(loc = 15, scale = 2, size = 100)
print(sample_1[:10])

[12.5659792  16.68082244 15.68592443 15.67237971 15.16500883 12.07113989
 13.84062486 14.93429278 14.68161086 14.62788835]


In [3]:
#Bước 2: hãy tạo tập dữ liệu mẫu sample_2 với kích thước 100 tuân theo phân phối Poisson
sample_2 = stats.poisson.rvs(loc = 17, mu = 2, size=1000)
print(sample_2[:10])

[18 20 21 17 19 19 17 21 23 18]


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 2 bằng phương pháp Shapiro-Wilks đối với sample_1 và sample_2

(1) [Tài liệu tham khảo scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html)

(2) [Hướng dẫn cụ thể của statology](https://www.statology.org/shapiro-wilk-test-python/)

In [4]:
#Code kiểm định tính chất thứ 2 của sample_1 và sample_2
# thử nghiệm Shapiro-Wilk để xác định xem một mẫu có đến từ phân phối chuẩn hay không.
""" Phát biểu giả thiết:
      H0: Mẫu tuân theo phân phối chuẩn
      H1: Mẫu không tuân theo phân phối chuẩn
"""

print("Thử nghiệm Shapiro-Wilk tuân theo phân phối chuẩn")
stats1, p1 = stats.shapiro(sample_1) 
print("Statistic =", stats1, "\n", "p value =", p1)
if p1 > 0.05:
    print(f'không có bằng chứng để bác bỏ giả thiết H0: mẫu tuân theo phân phối chuẩn')
else:
    print(f'có bằng chứng để bác bỏ giả thiết H0, điều này ngụ ý chấp nhận giả thiết H1: Mẫu không tuân theo phân phối chuẩn')

print("-----------------------------------------")

print("Thử nghiệm Shapiro-Wilk tuân theo phân phối Poisson")
stats2, p2 = stats.shapiro(sample_2)
print("Statistic =", stats2, "\n", "p value =", p2)
if p2 > 0.05:
    print(f'không có bằng chứng để bác bỏ giả thiết H0: mẫu tuân theo phân phối chuẩn')
else:
    print(f'có bằng chứng để bác bỏ giả thiết H0, điều này ngụ ý chấp nhận giả thiết H1: Mẫu không tuân theo phân phối chuẩn')

Thử nghiệm Shapiro-Wilk tuân theo phân phối chuẩn
Statistic = 0.9867191314697266 
 p value = 0.4190162420272827
không có bằng chứng để bác bỏ giả thiết H0: mẫu tuân theo phân phối chuẩn
-----------------------------------------
Thử nghiệm Shapiro-Wilk tuân theo phân phối Poisson
Statistic = 0.9179850816726685 
 p value = 7.435876729993986e-23
có bằng chứng để bác bỏ giả thiết H0, điều này ngụ ý chấp nhận giả thiết H1: Mẫu không tuân theo phân phối chuẩn


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 3 bằng kiểm định Bartlett hoặc kiểm định Levene

(1) [Hướng dẫn tổng quát](https://www.marsja.se/levenes-bartletts-test-of-equality-homogeneity-of-variance-in-python/)

(2) [Hướng dẫn ở stackoverflow](https://stackoverflow.com/questions/36141254/how-to-test-for-homoscedasticity-having-the-same-population-variance-in-python)

(3) Sử dụng bài giảng về kiểm định Bartlett và Levene ở buổi trước

In [5]:
#Code kiểm định tính đồng nhất về phương sai của các nhóm
# Ví dụ:
np.random.seed(1000)

majors =   ["Business","English","Mathematics","Psychology"]

# Generate random data
maj = np.random.choice(a= majors,
                              p = [0.25,0.25,0.25,0.25],
                              size= 35*4)

frus = stats.poisson.rvs(loc=18,
                              mu=30,
                              size=35*4)

# Group data by major
df3 = pd.DataFrame({"major":maj,"frus":frus})
df3

Unnamed: 0,major,frus
0,Mathematics,50
1,Business,48
2,Psychology,45
3,English,56
4,Psychology,45
...,...,...
135,Psychology,56
136,Mathematics,53
137,Psychology,57
138,Business,44
