## Kiểm định ANOVA (Analysis of Variance) dùng cho biến liên tục với một hoặc nhiều biến phân loại (số nhóm có thể 2+)
### Phát biểu giả thuyết:
- H0: m1=m2=...
- Ha: có ít nhất mi<>mj

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import f_oneway

In [None]:
# Đọc dữ liệu từ file CSV
titanic_data = pd.read_csv('data/titanic.csv')

In [None]:
sns.barplot(data=titanic_data, x='Pclass', y='Fare', ci=None);

In [None]:
titanic_data.groupby('Pclass')['Fare'].mean()

In [None]:
# H0: Không có sự khác biệt ý nghĩa thống kê về mức trung bình giá vé giữa các lớp hành khách
# Ha: Có sự khác biệt ý nghĩa thống kê về mức trung bình giá vé giữa các lớp hành khách

In [None]:
# Tạo danh sách các nhóm dữ liệu (mức giá vé theo từng lớp hành khách)
group1 = titanic_data[titanic_data['Pclass'] == 1]['Fare']
group2 = titanic_data[titanic_data['Pclass'] == 2]['Fare']
group3 = titanic_data[titanic_data['Pclass'] == 3]['Fare']

In [None]:
# Thực hiện kiểm định ANOVA
f_statistic, p_value = f_oneway(group1, group2, group3)

In [None]:
# In kết quả
print("Giá trị F-statistic:", f_statistic)
print("Giá trị p-value:", p_value)

In [None]:
# Kiểm tra kết quả
alpha = 0.05
if p_value < alpha: # bác bỏ H0
    print("Có sự khác biệt ý nghĩa thống kê về mức giá vé giữa các lớp hành khách.")
else: # chấp nhận H0
    print("Không có sự khác biệt ý nghĩa thống kê về mức giá vé giữa các lớp hành khách.")

In [None]:
sns.barplot(data=titanic_data, x='Pclass', y='Fare', ci=None);

### Cách làm tổng quát hơn

In [None]:
titanic_data.groupby('Pclass').size()

In [None]:
# Tạo danh sách các nhóm dữ liệu (cảng đi Embarked)
lst = []
for name, g in titanic_data.groupby('Pclass'):
    lst.append(g['Fare'])

In [None]:
# Thực hiện kiểm định ANOVA
f_statistic, p_value = f_oneway(*lst)

In [None]:
# In kết quả
print("Giá trị F-statistic:", f_statistic)
print("Giá trị p:", p_value)

In [None]:
# pip install statsmodels
import statsmodels.api as sm
from statsmodels.formula.api import ols

In [None]:
# Tạo mô hình ANOVA
formula = 'Fare ~ C(Pclass)'
model = ols(formula, data=titanic_data).fit()

In [None]:
# Thực hiện phân tích ANOVA
anova_table = sm.stats.anova_lm(model, typ=2)
# typ=2: tính toán sự biến đổi của mỗi biến độc lập trong mô hình, không xem xét tương tác giữa các biến độc lập.

In [None]:
anova_table

- 
PR(>F): Giá trị p, cho biết xác suất của việc có sự khác biệt giữa các nhóm là ngẫu nhiên hay không. Nếu giá trị p nhỏ hơn một ngưỡng alpha đã chọn trước (thường là 0.05), chúng ta có thể bác bỏ giả thuyết không có sự khác biệt giữa các nhóm.

In [None]:
# Tạo mô hình ANOVA
formula = 'Fare ~ C(Pclass) + C(Sex) + C(Pclass):C(Sex)'
model = ols(formula, data=titanic_data).fit()

In [None]:
# Thực hiện phân tích ANOVA
anova_table = sm.stats.anova_lm(model, typ=2)

In [None]:
anova_table