<a href="https://colab.research.google.com/github/Tranminhtuan48/pythonbasics/blob/main/Phan_tich_ANOVA_1_yeu_to2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Hãy sử dụng các tập dữ liệu sau và tiến hành phân tích ANOVA 1 chiều

- [Excavation Depth and Archaeology](https://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/owan/frames/owan01.html)
- [Apple Orchard Experiment](https://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/owan/frames/owan02.html)
- [Red Dye Number 40](https://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/owan/frames/owan03.html)
- [Business Startup Costs](https://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/owan/frames/owan04.html)
- [Weights of Football Players](https://college.cengage.com/mathematics/brase/understandable_statistics/7e/students/datasets/owan/frames/owan05.html)

QUY TRÌNH PHÂN TÍCH ANOVA MỘT CHIỀU

Kiểm tra các giả định:

- Các mẫu độc lập với nhau
- Các mẫu có cùng phương sai
- Các mẫu đều tuân theo phân phối chuẩn

Xây dựng giả thuyết

$$H_{0}: \mu_{0} = \mu_{1} = ... = \mu_{n}$$
$$H_{a}: \text{Có tối thiểu một cặp giá trị trung bình có giá trị khác nhau}$$

Giá trị thống kê F được sử dụng trong việc ra quyết định của phân tích ANOVA một chiều. Công thức tính như sau:

$$F = \frac{MS_{B}}{MS_{W}}$$

với:

- $MS_{B} = \frac{\sum_{k}n_{k}(\overline{\rm x_{k}} - \overline{\rm x})^{2}}{k - 1}$
- $MS_{W} = \frac{\sum_{k}n_{i,k}( x_{i,k} - \overline{\rm x})^{2}}{k - 1}$

Loại bỏ giả thuyết $H_{0}$ khi chỉ số F > chỉ số F-critical (hoặc giá trị p tương ứng < 0.05)

In [18]:
!pip install --upgrade xlrd



In [19]:
import pandas as pd
import xlrd
import numpy as np
from scipy import stats
from google.colab import drive
drive.mount('/content/gdrive')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


In [None]:
# Excavation Depth and Archaeology
dataset = pd.read_excel('/content/gdrive/MyDrive/EDaA.xls', engine = "xlrd")
NA  = [list(dataset["X1"].dropna()),
       list(dataset["X2"].dropna()),
       list(dataset["X3"].dropna()),
       list(dataset["X4"].dropna())]
print(dataset)

**Tiến hành kiểm định *Phân phối chuẩn*:**

Phát biểu giả thuyết *a = 0.05*:
- Null: "Nhóm thứ i được lấy từ phân phối chuẩn"(i từ 0 đến 3)
- Giả thuyết thay thế: "Nhóm thứ i không được lấy từ phân phối chuẩn"(i từ 0 đến 3)

In [None]:
for i in range(4):
  p_value = stats.shapiro(NA[i])[1]
  print(f"P_value của cột thứ {i+1}: {p_value}")
  if p_value < 0.05:
    print(f"Có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")
  else:
    print(f"Không có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")

P_value của cột thứ 1: 0.9960364103317261
Không có bằng chứng cho thấy nhóm thứ 1 không tuân theo phân phối chuẩn
P_value của cột thứ 2: 0.864689826965332
Không có bằng chứng cho thấy nhóm thứ 2 không tuân theo phân phối chuẩn
P_value của cột thứ 3: 0.601704478263855
Không có bằng chứng cho thấy nhóm thứ 3 không tuân theo phân phối chuẩn
P_value của cột thứ 4: 0.13579683005809784
Không có bằng chứng cho thấy nhóm thứ 4 không tuân theo phân phối chuẩn


**Tiến hành kiểm định *phương sai* :**

Phát biểu giả thuyết *a = 0.05*:

- Null: "Không có sự khác biệt về phương sai của các nhóm"
- Giả thuyết thay thể: "Có sự khác biệt về phương sai của các nhóm"

In [None]:
stat_value ,p_value = stats.levene(NA[0], NA[1],
                                   NA[2], NA[3])
print(f"P value: {p_value}")

P value: 0.5020818274234007


P_value >> 0.05 

Vậy có bằng chứng cho thấy sự đồng nhất phương sai giữa các nhóm.

**Tiến hành kiểm định ANOVA sau khi kiểm tra điều kiện:**

Phát biểu giả thuyết *a = 0.05* :
- Null: "Không có sự khác biệt về giá trị trung bình giữa các nhóm"
- Giả thuyết thay thế: "Tồn tại có sự khác biệt về giá trị trung bình giữa các nhóm"

In [None]:
f_stat, p_value = stats.f_oneway(NA[0], NA[1],
                                 NA[2], NA[3])
print(f"P value: {p_value}")

P value: 7.99057539367343e-07


Vì P value << 0.05 

Nên ta có bằng chứng để bác bỏ giả thuyết null.

Vậy có bằng chứng thống kê để nói rằng có sự khác biệt về giá trị trung bình của các nhóm.

In [None]:
#Apple Orchard Experiment
dataset2 = pd.read_excel('/content/gdrive/MyDrive/AOE.xls', engine = "xlrd")
NA = [list(df2["X1"].dropna()),
      list(df2["X2"].dropna()),
      list(df2["X3"].dropna()),
      list(df2["X4"].dropna()),
      list(df2["X5"].dropna())]
dataset2

Tiến hành kiểm định xem các nhóm có tuân theo phân phối chuẩn ko:

Ta phát biểu giả thuyết với mức ý nghĩa 0.05:
- Null: "Nhóm thứ i được lấy từ phân phối chuẩn"(i từ 0 đến 3)
- Giả thuyết thay thế: "Nhóm thứ i không được lấy từ phân phối chuẩn"(i từ 0 đến 3)

In [None]:
for i in range(5):
  p_value = stats.shapiro(list_non_na[i])[1]
  print(f"P_value của cột thứ {i+1}: {p_value}")
  if p_value < 0.05:
    print(f"Có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")
  else:
    print(f"Không có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")

P_value của cột thứ 1: 0.644533634185791
Không có bằng chứng cho thấy nhóm thứ 1 không tuân theo phân phối chuẩn
P_value của cột thứ 2: 0.7472830414772034
Không có bằng chứng cho thấy nhóm thứ 2 không tuân theo phân phối chuẩn
P_value của cột thứ 3: 0.3169650137424469
Không có bằng chứng cho thấy nhóm thứ 3 không tuân theo phân phối chuẩn
P_value của cột thứ 4: 0.5994704365730286
Không có bằng chứng cho thấy nhóm thứ 4 không tuân theo phân phối chuẩn
P_value của cột thứ 5: 0.803491473197937
Không có bằng chứng cho thấy nhóm thứ 5 không tuân theo phân phối chuẩn


Tiến hành kiểm định sự đồng nhất giữa phương sai các nhóm:

Phát biểu giả thuyết với mức ý nghĩa 0.05:

- Giả thuyết null: "Không có sự khác biệt về phương sai của các nhóm"
- Giả thuyết thay thể: "Có sự khác biệt về phương sai của các nhóm"

In [None]:
stat_value ,p_value = stats.levene(list_non_na[0], list_non_na[1],
                                   list_non_na[2], list_non_na[3],
                                   list_non_na[4])
print(f"P value: {p_value}")

P value: 0.7871189934362511


Vì p value >> 0.05 nên có bằng chứng cho thấy sự đồng nhất phương sai giữa các nhóm.

Vì các nhóm độc lập, tuân theo phân phối chuẩn và có sự đồng nhất về phương sai giữa các nhóm nên ta có thể tiến hành kiểm định ANOVA:

Phát biểu giả thuyết với mức ý nghĩa 0.05:
- Giả thuyết null: "Không có sự khác biệt về giá trị trung bình giữa các nhóm"
- Giả thuyết thay thế: "Tồn tại có sự khác biệt về giá trị trung bình giữa các nhóm"

In [None]:
f_stat, p_value = stats.f_oneway(list_non_na[0], list_non_na[1],
                                 list_non_na[2], list_non_na[3],
                                 list_non_na[4])
print(f"P value: {p_value}")

P value: 0.28382583646160114


Vì P value >> 0.05 nên ta không có bằng chứng để bác bỏ giả thuyết null.

Kết luận: Không có bằng chứng để nói rằng có sự khác biệt về giá trị trung bình của các nhóm.

Ta tiến hành phân tích ANOVA 1 chiều với dữ liệu **Red Dye Number 40**

In [None]:
df3 = pd.read_excel("owan03.xls", engine = "xlrd")

*** No CODEPAGE record, no encoding_override: will use 'iso-8859-1'


Vì số dòng, số cột không quá nhiều nên ta sẽ hiển thị hết bảng dữ liệu:

In [None]:
df3

Unnamed: 0,X1,X2,X3,X4
0,70,49.0,30.0,34.0
1,77,60.0,37.0,36.0
2,83,63.0,56.0,48.0
3,87,67.0,65.0,48.0
4,92,70.0,76.0,65.0
5,93,74.0,83.0,91.0
6,100,77.0,87.0,98.0
7,102,80.0,90.0,102.0
8,102,89.0,94.0,
9,103,,97.0,


Tiến hành xóa NaN từng nhóm:

In [None]:
list_non_na = [list(df3["X1"].dropna()),
               list(df3["X2"].dropna()),
               list(df3["X3"].dropna()),
               list(df3["X4"].dropna())]

Tiến hành kiểm định xem các nhóm có tuân theo phân phối chuẩn ko:

Ta phát biểu giả thuyết với mức ý nghĩa 0.05:
- Giả thuyết null: "Nhóm thứ i được lấy từ phân phối chuẩn"(i từ 0 đến 3)
- Giả thuyết thay thế: "Nhóm thứ i không được lấy từ phân phối chuẩn"(i từ 0 đến 3)

In [None]:
for i in range(4):
  p_value = stats.shapiro(list_non_na[i])[1]
  print(f"P_value của cột thứ {i+1}: {p_value}")
  if p_value < 0.05:
    print(f"Có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")
  else:
    print(f"Không có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")

P_value của cột thứ 1: 0.23906797170639038
Không có bằng chứng cho thấy nhóm thứ 1 không tuân theo phân phối chuẩn
P_value của cột thứ 2: 0.9998751282691956
Không có bằng chứng cho thấy nhóm thứ 2 không tuân theo phân phối chuẩn
P_value của cột thứ 3: 0.19140109419822693
Không có bằng chứng cho thấy nhóm thứ 3 không tuân theo phân phối chuẩn
P_value của cột thứ 4: 0.14956821501255035
Không có bằng chứng cho thấy nhóm thứ 4 không tuân theo phân phối chuẩn


Tiến hành kiểm định sự đồng nhất giữa phương sai các nhóm:

Phát biểu giả thuyết với mức ý nghĩa 0.05:

- Giả thuyết null: "Không có sự khác biệt về phương sai của các nhóm"
- Giả thuyết thay thể: "Có sự khác biệt về phương sai của các nhóm"

In [None]:
stat_value ,p_value = stats.levene(list_non_na[0], list_non_na[1],
                                   list_non_na[2], list_non_na[3])
print(f"P value: {p_value}")

P value: 0.02110640000655371


Vì p value < 0.05 nên có bằng chứng để bác bỏ giả thuyết null.

Kết luận: Có bằng chứng cho thấy không có sự tương đồng về phương sai của các nhóm.

Vì có bằng chứng cho thấy không có sự tương đồng về phương sai của các nhóm nên ta không thể tiến hành kiểm định ANOVA

Ta tiến hành phân tích ANOVA 1 chiều với dữ liệu **Business Startup Costs**

In [None]:
df4 = pd.read_excel("owan04.xls", engine = "xlrd")

*** No CODEPAGE record, no encoding_override: will use 'iso-8859-1'


Vì số dòng, số cột không quá nhiều nên ta sẽ hiển thị hết bảng dữ liệu:

In [None]:
df4

Unnamed: 0,X1,X2,X3,X4,X5
0,80.0,150.0,48.0,100.0,25
1,125.0,40.0,35.0,96.0,80
2,35.0,120.0,95.0,35.0,30
3,58.0,75.0,45.0,99.0,35
4,110.0,160.0,75.0,75.0,30
5,140.0,60.0,115.0,150.0,28
6,97.0,45.0,42.0,45.0,20
7,50.0,100.0,78.0,100.0,75
8,65.0,86.0,65.0,120.0,48
9,79.0,87.0,125.0,50.0,20


Tiến hành xóa NaN từng nhóm:

In [None]:
list_non_na = [list(df4["X1"].dropna()),
               list(df4["X2"].dropna()),
               list(df4["X3"].dropna()),
               list(df4["X4"].dropna()),
               list(df4["X5"].dropna())]

Tiến hành kiểm định xem các nhóm có tuân theo phân phối chuẩn ko:

Ta phát biểu giả thuyết với mức ý nghĩa 0.05:
- Giả thuyết null: "Nhóm thứ i được lấy từ phân phối chuẩn"(i từ 0 đến 3)
- Giả thuyết thay thế: "Nhóm thứ i không được lấy từ phân phối chuẩn"(i từ 0 đến 3)

In [None]:
for i in range(5):
  p_value = stats.shapiro(list_non_na[i])[1]
  print(f"P_value của cột thứ {i+1}: {p_value}")
  if p_value < 0.05:
    print(f"Có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")
  else:
    print(f"Không có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")

P_value của cột thứ 1: 0.7370653748512268
Không có bằng chứng cho thấy nhóm thứ 1 không tuân theo phân phối chuẩn
P_value của cột thứ 2: 0.5559222102165222
Không có bằng chứng cho thấy nhóm thứ 2 không tuân theo phân phối chuẩn
P_value của cột thứ 3: 0.3917592167854309
Không có bằng chứng cho thấy nhóm thứ 3 không tuân theo phân phối chuẩn
P_value của cột thứ 4: 0.5785742998123169
Không có bằng chứng cho thấy nhóm thứ 4 không tuân theo phân phối chuẩn
P_value của cột thứ 5: 0.17400741577148438
Không có bằng chứng cho thấy nhóm thứ 5 không tuân theo phân phối chuẩn


Tiến hành kiểm định sự đồng nhất giữa phương sai các nhóm:

Phát biểu giả thuyết với mức ý nghĩa 0.05:

- Giả thuyết null: "Không có sự khác biệt về phương sai của các nhóm"
- Giả thuyết thay thể: "Có sự khác biệt về phương sai của các nhóm"

In [None]:
stat_value ,p_value = stats.levene(list_non_na[0], list_non_na[1],
                                   list_non_na[2], list_non_na[3],
                                   list_non_na[4])
print(f"P value: {p_value}")

P value: 0.9309738160407797


Vì p value >> 0.05 nên có bằng chứng cho thấy sự đồng nhất phương sai giữa các nhóm.

Vì các nhóm độc lập, tuân theo phân phối chuẩn và có sự đồng nhất về phương sai giữa các nhóm nên ta có thể tiến hành kiểm định ANOVA:

Phát biểu giả thuyết với mức ý nghĩa 0.05:
- Giả thuyết null: "Không có sự khác biệt về giá trị trung bình giữa các nhóm"
- Giả thuyết thay thế: "Tồn tại có sự khác biệt về giá trị trung bình giữa các nhóm"

In [None]:
f_stat, p_value = stats.f_oneway(list_non_na[0], list_non_na[1],
                                 list_non_na[2], list_non_na[3],
                                 list_non_na[4])
print(f"P value: {p_value}")

P value: 0.018391232905488122


Vì P value << 0.05 nên ta có bằng chứng để bác bỏ giả thuyết null.

Kết luận: Có bằng chứng để nói rằng có sự khác biệt về giá trị trung bình của các nhóm.

Ta tiến hành phân tích ANOVA 1 chiều với dữ liệu **Weights of Football Players**

In [None]:
df5 = pd.read_excel("owan05.xls", engine = "xlrd")

*** No CODEPAGE record, no encoding_override: will use 'iso-8859-1'


Vì số dòng, số cột không quá nhiều nên ta sẽ hiển thị hết bảng dữ liệu:

In [None]:
df5

Unnamed: 0,X1,X2,X3,X4,X5
0,250,260,270,260,247
1,255,271,250,255,249
2,255,258,281,265,255
3,264,263,273,257,247
4,250,267,257,268,244
5,265,254,264,263,245
6,245,255,233,247,249
7,252,250,254,253,260
8,266,248,268,251,217
9,246,240,252,252,208


Tiến hành xóa NaN từng nhóm:

In [None]:
list_non_na = [list(df5["X1"].dropna()),
               list(df5["X2"].dropna()),
               list(df5["X3"].dropna()),
               list(df5["X4"].dropna()),
               list(df5["X5"].dropna())]

Tiến hành kiểm định xem các nhóm có tuân theo phân phối chuẩn ko:

Ta phát biểu giả thuyết với mức ý nghĩa 0.05:
- Giả thuyết null: "Nhóm thứ i được lấy từ phân phối chuẩn"(i từ 0 đến 3)
- Giả thuyết thay thế: "Nhóm thứ i không được lấy từ phân phối chuẩn"(i từ 0 đến 3)

In [None]:
for i in range(5):
  p_value = stats.shapiro(list_non_na[i])[1]
  print(f"P_value của cột thứ {i+1}: {p_value}")
  if p_value < 0.05:
    print(f"Có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")
  else:
    print(f"Không có bằng chứng cho thấy nhóm thứ {i+1} không tuân theo phân phối chuẩn")

P_value của cột thứ 1: 0.028549334034323692
Có bằng chứng cho thấy nhóm thứ 1 không tuân theo phân phối chuẩn
P_value của cột thứ 2: 0.16341625154018402
Không có bằng chứng cho thấy nhóm thứ 2 không tuân theo phân phối chuẩn
P_value của cột thứ 3: 0.6627115607261658
Không có bằng chứng cho thấy nhóm thứ 3 không tuân theo phân phối chuẩn
P_value của cột thứ 4: 0.06506332755088806
Không có bằng chứng cho thấy nhóm thứ 4 không tuân theo phân phối chuẩn
P_value của cột thứ 5: 0.3383376896381378
Không có bằng chứng cho thấy nhóm thứ 5 không tuân theo phân phối chuẩn


Vì có bằng chứng cho thấy 1 nhóm không tuân theo phân phối chuẩn nên ta không thể tiến hành kiểm định ANOVA