<a href="https://colab.research.google.com/github/Huynhngocthanh/python/blob/main/huong_dan_gia_dinh_ANOVA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

PHÂN TÍCH ANOVA MỘT CHIỀU

Phân tích ANOVA chấp nhận các giả định sau:

(1) Tất cả các nhóm đều độc lập với nhau

(2) Dữ liệu của mỗi nhóm đều tuân theo phân phối chuẩn. Tính chất này có thể được kiểm định bằng phương pháp Shapiro-Wilks.

(3) Phương sai (variance) của các nhóm bằng nhau. Tính chất này có thể được kiểm định bằng phương pháp kiểm định Bartlett hay Levene.

Nếu dữ liệu hiện có thỏa mãn các tính chất trên thì chúng ta mới tiến hành kiểm định ANOVA. Do vậy trước khi tiến hành kiểm định ANOVA, chúng ta cần thực hiện kiểm tra tập dữ liệu cần thỏa mãn 3 tính chất trên.
    

In [1]:
from scipy import stats
import numpy as np
import pandas as pd
from scipy.stats import bartlett

In [2]:
#Bước 1: Hãy tạo một tập dữ liệu mẫu sample_1 với kích thước 100 tuân theo phân phối chuẩn, mean = 25, std = 0.5
sample_1 = stats.norm.rvs(loc=25, scale=0.25, size=100)
print(sample_1[:10])

[25.5004884  24.75264046 24.63335399 25.30832142 25.18632676 24.90960117
 24.83734279 24.71206659 25.1974011  25.19175595]


In [3]:
#Bước 2: hãy tạo tập dữ liệu mẫu sample_2 với kích thước 100 tuân theo phân phối Poisson
sample_2 = stats.poisson.rvs(25, 1, 100)
print(sample_2[:10])

[32 28 34 21 19 22 29 22 18 25]


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 2 bằng phương pháp Shapiro-Wilks đối với sample_1 và sample_2

(1) [Tài liệu tham khảo scipy](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html)

(2) [Hướng dẫn cụ thể của statology](https://www.statology.org/shapiro-wilk-test-python/)

In [4]:
#Code kiểm định tính chất thứ 2 của sample_1 và sample_2
print("Thử nghiệm Shapiro-Wilk tuân theo phân phối chuẩn")
shapiro_test1 = stats.shapiro(sample_1) 
print("Statistic =", shapiro_test1[0], "\n",
      "p value =", shapiro_test1[1])
print("-"*50)

print("Thử nghiệm Shapiro-Wilk tuân theo phân phối Poisson")
shapiro_test2 = stats.shapiro(sample_2)
print("Statistic =", shapiro_test2[0], "\n",
      "p value =", shapiro_test2[1])

Thử nghiệm Shapiro-Wilk tuân theo phân phối chuẩn
Statistic = 0.9897934198379517 
 p value = 0.6479035019874573
--------------------------------------------------
Thử nghiệm Shapiro-Wilk tuân theo phân phối Poisson
Statistic = 0.9741002321243286 
 p value = 0.045890048146247864


Hãy tham khảo các hướng dẫn sau để kiểm định tính chất thứ 3 bằng kiểm định Bartlett hoặc kiểm định Levene

(1) [Hướng dẫn tổng quát](https://www.marsja.se/levenes-bartletts-test-of-equality-homogeneity-of-variance-in-python/)

(2) [Hướng dẫn ở stackoverflow](https://stackoverflow.com/questions/36141254/how-to-test-for-homoscedasticity-having-the-same-population-variance-in-python)

(3) Sử dụng bài giảng về kiểm định Bartlett và Levene ở buổi trước

In [5]:
#Code kiểm định tính đồng nhất về phương sai của các nhóm

In [8]:
#Sinh ngẫu nhiên
kinh_doanh = np.random.choice(10, 35)
tieng_anh = np.random.choice(10, 35)
toan = np.random.choice(10, 35)
tam_ly = np.random.choice(10, 35)

lists = list(zip(kinh_doanh, tieng_anh, toan, tam_ly))
df = pd.DataFrame(lists, columns = ["kinh doanh", "tieng anh", "toan", "tam ly"])
df.head()

Unnamed: 0,kinh doanh,tieng anh,toan,tam ly
0,7,6,1,0
1,5,4,4,7
2,1,7,9,1
3,6,5,0,4
4,0,6,3,6


In [9]:
#Lấy từng nhóm
KD = df["kinh doanh"].unique()
TA = df["tieng anh"].unique()
T = df["toan"].unique()
TL = df["tam ly"].unique()


#Kiểm định bằng bartlett
alpha = 0.5
stat, pvalue = stats.bartlett(KD, TA, T, TL)
print("Statistic =", stat, "\n",
      "p value =", pvalue)
if pvalue < alpha:
  print("Chưa có bằng chứng thống kê để bác bỏ H0")
else:
  print("Có bằng chứng thống kê để bác bỏ H0")
#Xem phương sai của từng biến
b, e, m, p = [np.var(x, ddof=1) for x in [KD, TA, T, TL]]
print("PS của kinh doanh =", b, "\n",
     "PS của tiếng anh =", e, "\n",
     "PS của toán =", m, "\n",
     "PS của tâm lý =", p, "\n",)

print("-"*50)

#Kiểm định bằng Levene
stat1, pvalue1 = stats.levene(KD, TA, T, TL)
print("Statistic =", stat1, "\n",
      "p value =", pvalue1)
if pvalue1 < alpha:
  print("Chưa có bằng chứng thống kê để bác bỏ H0")
else:
  print("Có bằng chứng thống kê để bác bỏ H0")
#Xem phương sai của từng biến
b, e, m, p = [np.var(x, ddof=1) for x in [KD, TA, T, TL]]
print("PS của Bus =", b, "\n",
      "PS của Eng =", e, "\n",
      "PS của Math =", m, "\n",
      "PS của Psy =", p, "\n",)

Statistic = 0.011381300874380548 
 p value = 0.9996781716528096
Có bằng chứng thống kê để bác bỏ H0
PS của kinh doanh = 9.166666666666666 
 PS của tiếng anh = 8.61111111111111 
 PS của toán = 9.166666666666666 
 PS của tâm lý = 9.166666666666666 

--------------------------------------------------
Statistic = 0.02804487179487175 
 p value = 0.9935500917384613
Có bằng chứng thống kê để bác bỏ H0
PS của Bus = 9.166666666666666 
 PS của Eng = 8.61111111111111 
 PS của Math = 9.166666666666666 
 PS của Psy = 9.166666666666666 

