**Chuẩn bị các thư viện**

In [1]:
import pandas as pd
import scipy.stats as stats
from statsmodels.stats.weightstats import ztest
from scipy.stats import pearsonr, chi2_contingency
import statsmodels.api as sm
from statsmodels.formula.api import ols

**Chuẩn bị dữ liệu**

In [2]:
# Import dữ liệu, drop hàng trống và hàng trùng lặp
df = pd.read_csv("data/dulieuxettuyendaihoc.csv", header=0,delimiter=',',encoding="utf-8").dropna(how="all").drop_duplicates()

# Convert các dữ liệu về đúng loại dữ liệu
df["NGAYTHI"] = pd.to_datetime(df["NGAYTHI"])
df["GT"] = df["GT"].astype("category")


# Fill những giá trị rỗng
df["DT"] = df["DT"].fillna(df["DT"].mode()[0])

# Nên Fill bằng trung vị khi đó là trường định lượng
# Nên Fill bằng mode khi đó là trường định tính

df = df.rename(columns={"NGAYTHI":"NT", "DINHHUONGNGHENGHIEP":"NGHE"})
dfKhoiC = df[df['KT'] == 'C']


# Phân tích suy diễn (Inferential Analysis)
Phân tích suy diễn là phương pháp sử dụng dữ liệu từ một mẫu nhỏ để đưa ra kết luận về tổng thể lớn hơn. Mục tiêu chính là xác định xem các mẫu dữ liệu có thể được suy ra một cách hợp lý để áp dụng cho toàn bộ tổng thể hay không. Điều này thường liên quan đến việc kiểm tra giả thuyết và ước tính khoảng tin cậy.
### Ví dụ về Phân tích suy diễn
Giả sử chúng ta muốn biết trung bình điểm thi môn 1 của thí sinh khối C. Chúng ta có thể đặt ra hai giả thuyết:
* Giả thuyết không (H0): Trung bình điểm thi môn 1 của thí sinh khối C bằng 4.0 (μ = 4.0).
* Giả thuyết đối (H1): Trung bình điểm thi môn 1 của thí sinh khối C khác 4.0 (μ ≠ 4.0).

Chúng ta sử dụng thống kê (statistic) để đo lường sự khác biệt giữa giá trị trung bình thực tế từ dữ liệu mẫu và giá trị trung bình giả định. Giá trị p-value cho biết xác suất của dữ liệu quan sát được nếu giả thuyết không đúng.
* Nếu p-value < alpha (ví dụ, 0.05), chúng ta bác bỏ giả thuyết không (H0).
* Nếu p-value > alpha, chúng ta chấp nhận giả thuyết không (H0).
### Các bước thực hiện phân tích suy diễn
* 1. Xác định phương pháp suy diễn: Chọn loại kiểm định phù hợp (t-test, chi-square test, v.v.).
* 2. Xác định điều kiện dữ liệu: Đảm bảo dữ liệu phù hợp với các giả định của phương pháp.
* 3. Đặt giả thuyết (H0 và H1): Đưa ra các giả thuyết cần kiểm định.
* 4. Xác định mức ý nghĩa (alpha): Mức độ chấp nhận sai lầm, thường là 5% (0.05).
* 5. Chạy phân tích dữ liệu: Tính toán giá trị thống kê và p-value để đưa ra kết luận.
### Kết luận
Phân tích suy diễn giúp chúng ta đưa ra các quyết định dựa trên dữ liệu mẫu và đánh giá sự khác biệt so với chuẩn mực hoặc tiêu chuẩn. Nó cho phép chúng ta xác định các xu hướng và đưa ra dự đoán với một mức độ tin cậy nhất định, giúp hỗ trợ trong việc ra quyết định kinh doanh hoặc nghiên cứu khoa học.

# Kiểm định Z và T 1 mẫu (One-Sample Z-Test và One-Sample T-Test)
Cả hai kiểm định đều được sử dụng để so sánh giá trị trung bình của một nhóm độc lập với một giá trị trung bình giả định của tổng thể (ví dụ, một giá trị chuẩn hoặc giá trị mục tiêu) để xác định xem có sự khác biệt có ý nghĩa thống kê giữa chúng hay không.

### Cú pháp:
```python
stats.ttest_1samp(a, popmean= b)
ztest(a, value = b)
```
### Tham số:
* a: Mẫu đầu tiên (một mảng hoặc series).
* b: giá trị.


### Giả thuyết kiểm định:
* **Giả thuyết không (H0):** Trung bình của mẫu a bằng với giá trị b (không có sự khác biệt giữa trung bình hai nhóm).
* **Giả thuyết đối (H1):** Trung bình của mẫu a và giá trị b là khác nhau.




In [3]:
stats.ttest_1samp(dfKhoiC['M1'], popmean= 4.00)

# H0: "Điểm trung bình M1 của khối C là 4.00"

# Do p-value là 3.63 * 10^-6 < 0.05 [REJECT H0]. 
# Kết luận: Có đủ dữ kiện để bác bỏ giả thuyết rằng điểm trung bình M1 của khối C là 4.00 với độ tin cậy là 95%

TtestResult(statistic=np.float64(7.650519779016341), pvalue=np.float64(3.6339826927369557e-06), df=np.int64(13))

In [4]:
ztest(df['M1'], value = 8.0)

# H0: "Điểm trung bình M1 là 8.0"
# H1: "Điểm trung bình M1 khác 8.0"

# Do p-value là 1.58 * 10^-196 [REJECT H0]
# Kết luận: có đủ dữ kiện để bác bỏ giả thuyết rằng điểm trung bình M1 là  4.00 với độ tin cậy là 95%

(np.float64(-29.907152266677993), np.float64(1.588509177330612e-196))

# Kiểm định Z và T 2 mẫu (Two-Sample Z-Test và Two-Sample T-Test)
Cả hai kiểm định đều nhằm mục đích so sánh trung bình của hai nhóm độc lập để xác định xem có sự khác biệt có ý nghĩa thống kê giữa chúng hay không.

### Cú pháp:
```python
stats.ttest_ind(a, b, equal_var=True)
ztest(a, b, value=0)
```
### Tham số:
* a: Mẫu đầu tiên (một mảng hoặc series).
* b: Mẫu thứ hai (một mảng hoặc series).
* equal_var: Một tham số boolean, mặc định là True. Nếu equal_var=True, giả định rằng hai mẫu có phương sai bằng nhau.
* value: Bạn đang kiểm định giả thuyết rằng sự khác biệt trung bình giữa a và b là 0 (nghĩa là không có sự khác biệt)

### Giả thuyết kiểm định:
* **Giả thuyết không (H0):** Trung bình của hai mẫu là bằng nhau (không có sự khác biệt giữa trung bình hai nhóm).
* **Giả thuyết đối (H1):** Trung bình của hai mẫu là khác nhau.

### Trường hợp sử dụng
* **ttest_ind** thường được sử dụng khi mẫu nhỏ (n < 30)
* **ztest** thường được sử dụng với mẫu lớn (n >= 30) 

In [5]:
stats.ttest_ind(dfKhoiC['M1'], dfKhoiC['M2'], equal_var=True)

# H0: "Điểm trung bình khối C M1 và điểm trung bình khối C M2 bằng nhau"

# Do p-value là 0.017 < 0.05 [REJECT H0]
# Kết luận: có đủ dữ kiện để bác bỏ giả thuyết rằng điểm điểm trung bình 
# khối C M1 và điểm trung bình khối C M2 bằng nhau với độ tin cậy 95%

TtestResult(statistic=np.float64(2.5331368604654054), pvalue=np.float64(0.017676922552296807), df=np.float64(26.0))

In [6]:
stats.ttest_ind(dfKhoiC['M1'], dfKhoiC['M3'], equal_var=True)

# H0: "Điểm trung bình khối C M1 và điểm trung bình khối C M3 bằng nhau"
# H1: Điểm trung bình khối C M1 và điểm trung bình khối C M3 khác nhau"

# Do p-value là 0.014 > 0.01 [ACCEPT H0]
# Kết luận: không đủ dữ kiện để bác bỏ giả thuyết rằng điểm điểm trung bình 
# khối C M1 và điểm trung bình khối C M3 bằng nhau với độ tin cậy 95%

TtestResult(statistic=np.float64(2.6321295849540447), pvalue=np.float64(0.014085909192033959), df=np.float64(26.0))

In [7]:
ztest(df['M1'], df['M2'], value=0)

# H0: "Điểm trung bình M1 và điểm trung bình M2 bằng nhau"
# H1: "Điểm trung bình M1 và điểm trung bình M2 khác nhau"

# Do p-value là 0.003 < 0.05 [REJECT H0]
# Kết luận: đủ dữ kiện để bác bỏ điểm trung bình M1 và điểm trung bình M2 bằng nhau
# với mức tin cậy 95%

(np.float64(-2.9004757923795), np.float64(0.0037259661678783573))

In [8]:
ztest(df['M2'], df['M3'], value=0)

# H0: "Điểm trung bình M2 và điểm trung bình M3 bằng nhau"
# H1: "Điểm trung bình M2 và điểm trung bình M3 khác nhau"

# Do p-value là 3 * 10^-5 < 0.05 [REJECT H0]
# Kết luận: đủ dữ kiện để bác bỏ điểm trung bình M2 và điểm trung bình M3 bằng nhau
# với mức tin cậy 95%

(np.float64(-4.172765180703833), np.float64(3.009250404643791e-05))

# Kiểm định hệ số tương quan Pearson (Pearson Correlation Coefficient Test)
Kiểm định hệ số tương quan Pearson được sử dụng để đo lường mức độ và hướng của mối quan hệ tuyến tính giữa hai biến liên tục (continuous variables).

### Cú pháp:
```python
pearsonr(x, y)
```

### Tham số:
* x: Mẫu đầu tiên (một mảng hoặc series).
* y: Mẫu thứ hai (một mảng hoặc series).

### Giả thuyết kiểm định:
* Giả thuyết không (H0): Không có mối tương quan tuyến tính giữa hai biến (hệ số tương quan Pearson r = 0).
* Giả thuyết đối (H1): Có mối tương quan tuyến tính giữa hai biến (hệ số tương quan Pearson r ≠ 0).

### Kết quả trả về:
* r: Hệ số tương quan Pearson (giá trị từ -1 đến 1).
* p-value: Giá trị p-value để kiểm tra giả thuyết không. 

### Trường hợp sử dụng:
* pearsonr thường được sử dụng để đo lường mức độ và hướng của mối quan hệ tuyến tính giữa hai biến liên tục (continuous variables).

In [9]:
print(pearsonr(df['M1'], df['M2']))
print(df[["M1", "M2"]].corr())

# H0: "Không có mối tương quan giữa điểm M1 và điểm M2"
# H1: "Có mối tương quan giữa điểm M1 và điểm M2"

# p-value = 0.72 > 0.05 [ACCEPT H0]
# Kết luận: không đủ dữ kiện để bác bỏ giả thuyết không có
# mối tương quan giữa điểm M1 và điểm M2 với độ tin cậy
# là 95%

PearsonRResult(statistic=np.float64(0.03515405725785023), pvalue=np.float64(0.7284198928723625))
          M1        M2
M1  1.000000  0.035154
M2  0.035154  1.000000


In [10]:
pearsonr(df['M1'], df['M3'])
# H0: "Không có mối tương quan giữa điểm M1 và điểm M3"
# H1: "Có mối tương quan giữa điểm M1 và điểm M3"

# p-value = 0.85 > 0.05 [ACCEPT H0]
# Kết luận: không đủ dữ kiện để bác bỏ giả thuyết không có
# mối tương quan giữa điểm M1 và điểm M3 với độ tin cậy
# là 95%

PearsonRResult(statistic=np.float64(0.018730760164383135), pvalue=np.float64(0.8532534347055037))

In [11]:
pearsonr(df['M2'], df['M3'])
# H0: "Không có mối tương quan giữa điểm M2 và điểm M3"
# H1: "Có mối tương quan giữa điểm M2 và điểm M3"

# p-value = 0.36 > 0.05 [ACCEPT H0]
# Kết luận: không đủ dữ kiện để bác bỏ giả thuyết không có
# mối tương quan giữa điểm M2 và điểm M3 với độ tin cậy
# là 95%

PearsonRResult(statistic=np.float64(-0.09152288755408225), pvalue=np.float64(0.3651344767496172))

# Kiểm định Fisher's Exact Test
Kiểm định Fisher được sử dụng để kiểm tra xem hai biến định tính có phải là độc lập (không phụ thuộc) hay không. Đây là một kiểm định phi tham số phù hợp cho các bảng dự phòng nhỏ, đặc biệt là khi dữ liệu là nhị phân (mỗi biến chỉ có hai giá trị).

### Cú pháp
```python
crosdata = pd.crosstab(a, b, rownames=['a'], colnames=['b'])
odd_ratio, p_value = stats.fisher_exact(crosdata)
print('odd ratio is : ' + str(odd_ratio))
print('p_value is : ' + str(p_value))
```

### Tham số:
* a: Mẫu đầu tiên (một mảng hoặc series).
* b: Mẫu thứ hai (một mảng hoặc series).


### Khi nào sử dụng Fisher's Exact Test?
Khi có hai biến định tính và mỗi biến chỉ có hai giá trị (biến nhị phân).


### Giả thuyết kiểm định:
* H0 (Giả thuyết không): Hai biến là độc lập (không phụ thuộc)
* H1 (Giả thuyết đối): Hai biến không độc lập (có phụ thuộc)

### Kết quả kiểm định:
* Odd Ratio: Tỷ số chênh lệch, đo lường mức độ liên quan giữa hai biến. Giá trị này không dùng để đưa ra quyết định bác bỏ hay không bác bỏ giả thuyết, mà chỉ để hiểu thêm về mối liên hệ giữa hai biến.
* p-value: Giá trị p-value giúp kiểm tra giả thuyết không.


In [12]:
crosdata = pd.crosstab(df['GT'], df['NGHE'], rownames=['GT'], colnames=['NGHE'])
odd_ratio, p_value = stats.fisher_exact(crosdata)

print(crosdata)
print('odd ratio is : ' + str(odd_ratio))
print('p_value is : ' + str(p_value))

# H0: "Giới tính và nghề nghiệp không phụ thuộc nhau"
# H1: "Giới tính và nghề nghiệp phụ thuộc nhau"

# p-value = 0.22 > 0.05 [ACCEPT H0]
# Kết luận: Không dữ kiện để bác bỏ giả thuyết không có
# mối tương quan giữa điểm M2 và điểm M3 với độ tin cậy
# là 95%

NGHE  No  Yes
GT           
F     23   25
M     32   20
odd ratio is : 0.575
p_value is : 0.22763927303454412


# Kiểm định Chi-Square (Chi-Square Test of Independence)
Kiểm định Chi-Square (Chi-Square Test of Independence) được sử dụng để kiểm tra xem hai biến định tính có phải là độc lập (không phụ thuộc) hay không. Đây là một kiểm định phi tham số thích hợp cho các bảng dự phòng lớn hơn, đặc biệt khi dữ liệu không nhất thiết phải là nhị phân và có thể có nhiều giá trị.

### Cú pháp:
```python
crosdata = pd.crosstab(a, b, rownames=['a'], colnames=['b'])
chi2, p_value, dof, expected = stats.chi2_contingency(crosdata)
print('Chi-square statistic is : ' + str(chi2))
print('p_value is : ' + str(p_value))
print('Degrees of freedom : ' + str(dof))
print('Expected frequencies : \n' + str(expected))
```

### Tham số:
* a: Mẫu đầu tiên (một mảng hoặc series).
* b: Mẫu thứ hai (một mảng hoặc series).

### Khi nào sử dụng Chi-Square Test?
Kiểm định Chi-Square được sử dụng khi:
* Có hai biến định tính và mỗi biến có thể có nhiều hơn hai giá trị.
* Kích thước mẫu đủ lớn để đảm bảo rằng tần suất dự kiến của tất cả các ô trong bảng dự phòng là ít nhất 5.

### Giả thuyết kiểm định:
* H0 (Giả thuyết không): Hai biến là độc lập (không phụ thuộc).
* H1 (Giả thuyết đối): Hai biến không độc lập (có phụ thuộc).

### Kết quả kiểm định:
* Chi-square statistic: Giá trị thống kê Chi-Square đo lường mức độ khác biệt giữa tần suất quan sát và tần suất dự kiến nếu hai biến là độc lập.
* p-value: Giá trị p-value giúp kiểm tra giả thuyết không.
* Degrees of freedom (dof): Số bậc tự do của kiểm định, phụ thuộc vào số lượng hàng và cột trong bảng dự phòng.
* Expected frequencies: Tần suất dự kiến của các kết hợp giữa hai biến nếu chúng là độc lập.

In [13]:
crosdata = pd.crosstab(index=df['KV'], columns=df['KT'], rownames=['KV'], colnames=['KT'])
stat, p, dof, expected = chi2_contingency(crosdata)

print(crosdata)
print("\n") # break line
print('p_value is : ' + str(p))

# H0: "Khu vực và kinh tế độc lập"
# H1: "Khu vực và kinh tế phụ thuộc nhau"

# p-value = 0.02 < 0.05 [REJECT H0]
# Kết luận: đủ kiện để bác bỏ giả thuyết khu vực 
# và kinh tế không phụ thuộc nhau độ tin cậy
# là 95%


KT    A  A1  B  C  D1
KV                   
1    29   2  8  8  13
2     9   0  0  2   8
2NT  11   4  1  4   1


p_value is : 0.02012461887796485


# One-Way ANOVA (Phân tích phương sai một chiều)
One-Way ANOVA được sử dụng để kiểm tra xem giá trị trung bình của một biến phụ thuộc có khác nhau giữa các nhóm được phân loại bởi một biến độc lập duy nhất hay không. Đây là một kiểm định thống kê thích hợp khi bạn muốn so sánh giá trị trung bình giữa ba nhóm trở lên dựa trên một yếu tố phân loại.

### Cú pháp
```python
# Tạo mô hình hồi quy tuyến tính đơn giản
model = ols('dependent_variable ~ independent_variable', data=df).fit()

# Thực hiện kiểm định One-Way ANOVA
aov_table = sm.stats.anova_lm(model, typ=1)
aov_table
```

### Tham số:
* dependent_variable: Biến phụ thuộc (liên tục) mà bạn muốn kiểm tra (ví dụ: điểm số, chiều cao, trọng lượng).
* independent_variable: Biến độc lập (phân loại) mà các nhóm được phân loại theo (ví dụ: nhóm thuốc, giới tính, khu vực).
* data: DataFrame chứa dữ liệu cần phân tích.

### Khi nào sử dụng One-Way ANOVA?
* Khi bạn có một biến phụ thuộc liên tục và một biến độc lập phân loại.
* Khi bạn muốn kiểm tra xem có sự khác biệt có ý nghĩa thống kê giữa giá trị trung bình của các nhóm phân loại bởi biến độc lập hay không.

### Giả thuyết kiểm định:
* H0 (Giả thuyết không): Giá trị trung bình của biến phụ thuộc là như nhau cho tất cả các nhóm (không có sự khác biệt có ý nghĩa thống kê giữa các nhóm).
* H1 (Giả thuyết đối): Ít nhất một nhóm có giá trị trung bình của biến phụ thuộc khác với các nhóm còn lại.

### Kết quả kiểm định:
* PR(>F): Đây là ký hiệu của p-value trong bảng ANOVA. Nó biểu thị xác suất để quan sát được một giá trị thống kê F lớn như đã quan sát (hoặc lớn hơn) nếu giả thuyết không (H0) là đúng.
* F-statistic: Giá trị thống kê F được tính toán từ dữ liệu. F đo lường mức độ mà các nhóm khác nhau có phương sai khác nhau. Nếu giá trị F lớn và p-value nhỏ hơn mức ý nghĩa (ví dụ: 0.05), điều này cho thấy có sự khác biệt có ý nghĩa thống kê giữa các nhóm.

In [14]:
model = ols('M1 ~ GT', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
aov_table

#H0: "Điểm M1 không phụ thuộc vào giới tính"
#H1: "Điểm M1 phụ thuộc vào giới tính"

# PR(>F) là 0.444 > 0.05 (ACCEPT H0)
# Kết luận không đủ dữ kiện để bác bỏ điểm
# M1 không phụ thuộc vào giới tính với độ
# tin cậy là 95%

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
GT,1.0,1.203141,1.203141,0.590538,0.444059
Residual,98.0,199.661859,2.037366,,


In [15]:
model = ols('M2 ~ KV', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
aov_table

#H0: "Điểm M2 không phụ thuộc vào khu vực"
#H1: "Điểm M2 phụ thuộc vào khu vực"

# PR(>F) là 0.066299 > 0.05 (ACCEPT H0)
# Kết luận không đủ dữ kiện để bác bỏ điểm
# M2 không phụ thuộc vào phụ thuộc với độ
# tin cậy là 95%

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
KV,2.0,6.053398,3.026699,2.790934,0.066299
Residual,97.0,105.194102,1.084475,,


In [16]:
model = ols('M3 ~ KT', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
aov_table

#H0: "Điểm M3 không phụ thuộc vào khối thi"
#H1: "Điểm M3 phụ thuộc vào khối thi"

# PR(>F) là 0.46041 > 0.05 (ACCEPT H0)
# Kết luận không đủ dữ kiện để bác bỏ điểm
# Điểm M3 không phụ thuộc vào khối thi với
# tin cậy là 95%

Unnamed: 0,df,sum_sq,mean_sq,F,PR(>F)
KT,4.0,3.967636,0.991909,0.911814,0.46041
Residual,95.0,103.344864,1.087841,,


# Two-Way ANOVA (Phân tích phương sai hai chiều)
Two-Way ANOVA (Phân tích phương sai hai chiều) là một phương pháp thống kê được sử dụng để kiểm tra tác động đồng thời của hai biến độc lập (yếu tố) lên một biến phụ thuộc liên tục. Nó cũng cho phép kiểm tra xem liệu có sự tương tác giữa hai yếu tố này không.

### Khi nào sử dụng Two-Way ANOVA?
* Khi bạn có một biến phụ thuộc liên tục (continuous dependent variable) và hai biến độc lập phân loại (categorical independent variables).
* Khi bạn muốn kiểm tra xem cả hai yếu tố này (và sự tương tác giữa chúng) có ảnh hưởng đến giá trị trung bình của biến phụ thuộc hay không.

### Cú pháp
```python
# Tạo mô hình hồi quy tuyến tính bao gồm hai yếu tố độc lập và sự tương tác giữa chúng
model = ols('dependent_variable ~ C(factor1) + C(factor2) + C(factor1):C(factor2)', data=df).fit()

# Thực hiện kiểm định Two-Way ANOVA
anova_table = sm.stats.anova_lm(model, typ=2)
print(anova_table)
```

### Tham số
* dependent_variable: Biến phụ thuộc (liên tục) mà bạn muốn kiểm tra (ví dụ: điểm số, chiều cao, trọng lượng).
* factor1, factor2: Hai biến độc lập phân loại mà bạn muốn kiểm tra ảnh hưởng của chúng lên biến phụ thuộc (ví dụ: Giới tính, Loại thuốc).
* data: DataFrame chứa dữ liệu cần phân tích.
* C(factor1), C(factor2): Biến phân loại hóa (categorical) cho ANOVA. C() được dùng để chỉ định biến phân loại.

### Giả thuyết kiểm định
Two-Way ANOVA kiểm tra ba giả thuyết chính:
* 1. H0 cho yếu tố 1 (factor1): Trung bình của biến phụ thuộc là như nhau cho tất cả các mức của yếu tố 1.
* 2. H0 cho yếu tố 2 (factor2): Trung bình của biến phụ thuộc là như nhau cho tất cả các mức của yếu tố 2.
* 3. H0 cho sự tương tác giữa hai yếu tố (interaction): Không có sự tương tác có ý nghĩa thống kê giữa yếu tố 1 và yếu tố 2. Điều này có nghĩa là ảnh hưởng của một yếu tố lên biến phụ thuộc là như nhau ở tất cả các mức của yếu tố kia.


In [17]:
model = ols('M1 ~ GT + KV + GT:KV',data=df).fit()
result = sm.stats.anova_lm(model, type=2)
print(result)


# Two Way Anoway
# H0 Factor 1: điểm TB M1 không phụ thuộc vào giới tính
# H0 Factor 2: điểm TB M1 không phụ thuộc vào khu vực
# H0: M1 không phụ thuộc vào giới tính và khu vực

# PR(>F) Factor 1 là 0.44 > 0.05 (Accept H0 Factor 1)
# Kết luận 1: Không đủ dữ kiện để bắt bỏ M1 không phụ
# thuộc vào giới tính với độ tin cậy 95%

# PR(>F) Factor 2 là 0.42 > 0.05 (Accept H0 Factor 2)
# thuộc vào khu vực với độ tin cậy 95%

# PR(>F) là 0.16 > 0.05 (Accept H0)
# Kết luận: Không đủ dữ kiện để bắt bỏ M1 không có
# sự tương tác giữa khu vực và giới tính với độ tin 
# cậy 95%

            df      sum_sq   mean_sq         F    PR(>F)
GT         1.0    1.203141  1.203141  0.598960  0.440917
KV         2.0    3.493206  1.746603  0.869512  0.422500
GT:KV      2.0    7.349290  3.674645  1.829350  0.166186
Residual  94.0  188.819363  2.008717       NaN       NaN


In [18]:
model = ols('M2 ~ KV + KT + KV:KT',data=df).fit()
result = sm.stats.anova_lm(model, type=2)
print(result)


# Two Way Anoway
# H0 Factor 1: điểm TB M2 không phụ thuộc vào khối thi
# H0 Factor 2: điểm TB M2 không phụ thuộc vào khu vực
# H0: M2 không phụ thuộc vào giới tính và khu vực

# PR(>F) Factor 1 là 0.055 > 0.05 (Accept H0 Factor 1)
# Kết luận 1: Không đủ dữ kiện để bắt bỏ M2 không phụ
# thuộc vào khu vực với độ tin cậy 95%

# PR(>F) Factor 2 là 0.049 < 0.05 (Reject H0 Factor 2)
# Kết luận 2: đủ dữ kiện để bắt bỏ M2 không phụ
# thuộc vào khối thi với độ tin cậy 95%

# PR(>F) là 0.39 > 0.05 (Accept H0)
# Kết luận: Không đủ dữ kiện để bắt bỏ M2 không có
# sự tương tác giữa khu vực và khối thi với 
# độ tin cậy 95%

            df     sum_sq   mean_sq         F    PR(>F)
KV         2.0   6.053398  3.026699  2.987203  0.055626
KT         4.0  10.061984  2.515496  2.482671  0.049539
KV:KT      8.0   8.688324  1.086040  1.071869  0.390293
Residual  87.0  88.150282  1.013222       NaN       NaN


# Kiểm định Hồi quy Tuyến tính Đơn giản (Simple Linear Regression)
Hồi quy tuyến tính đơn giản được sử dụng để mô hình hóa mối quan hệ giữa một biến phụ thuộc (biến đầu ra) và một biến độc lập (biến dự báo). Mục tiêu là tìm ra đường thẳng (hàm tuyến tính) phù hợp nhất để dự đoán giá trị của biến phụ thuộc dựa trên biến độc lập.

### Cú pháp
```python
# Hồi quy giữa M1 và M3 
X_with_constant = sm.add_constant(df[["M1", "M2"]].values)  # Thêm hằng số (constant)
y = df[['M3']].values  # Biến phụ thuộc
result = sm.OLS(y, X_with_constant).fit()  # Thực hiện hồi quy OLS
print(result.summary())  # In kết quả
```
### Tham số:
* X_with_constant: Biến độc lập (predictor) đã được thêm hằng số (constant). Việc thêm hằng số là cần thiết để ước tính hệ số chặn (intercept) trong mô hình hồi quy.
* y: Biến phụ thuộc (outcome), trong trường hợp này là M3.
* sm.OLS(y, X_with_constant): Hàm để thực hiện hồi quy tuyến tính đơn giản sử dụng Ordinary Least Squares (OLS).
* fit(): Phương thức để thực hiện việc khớp mô hình hồi quy tuyến tính.

### Khi nào sử dụng Hồi quy Tuyến tính Đơn giản?
* Khi bạn muốn tìm hiểu mối quan hệ giữa hai biến, một biến độc lập và một biến phụ thuộc.
* Khi bạn muốn dự đoán giá trị của biến phụ thuộc dựa trên biến độc lập.
* Khi dữ liệu có mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc.



### Ý nghĩa của R-squared:
* R-squared có giá trị từ 0 đến 1
  * R-squared = 0: Mô hình hồi quy không giải thích được sự biến thiên nào trong biến phụ thuộc. Nói cách khác, các biến độc lập không đóng góp vào việc dự đoán biến phụ thuộc.
  * R-squared = 1: Mô hình hồi quy giải thích được 100% sự biến thiên trong biến phụ thuộc. Tất cả sự thay đổi của biến phụ thuộc được mô tả hoàn toàn bởi các biến độc lập.
  * R-squared giữa 0 và 1: Ví dụ, R-squared = 0.6 (60%) có nghĩa là 60% sự biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình. 40% còn lại có thể được gây ra bởi các yếu tố khác không có trong mô hình.

### Ý nghĩa coef (Coefficients):
* Đây là các hệ số hồi quy cho các biến độc lập và hệ số chặn (intercept). Hệ số này cho biết mức độ thay đổi của biến phụ thuộc khi biến độc lập thay đổi một đơn vị, giả sử các biến khác không thay đổi.
* Ví dụ: Trong bảng của bạn, hệ số của M1 (x1) là 0.0137, có nghĩa là nếu M1 tăng lên 1 đơn vị, M3 sẽ tăng thêm trung bình 0.0137 đơn vị, giả định các yếu tố khác không thay đổi.

### Ý nghĩa P>|t|:
* P>|t| là giá trị p-value cho kiểm định t của mỗi hệ số hồi quy trong mô hình. Nó cho biết liệu có đủ bằng chứng thống kê để bác bỏ giả thuyết không rằng hệ số hồi quy đó bằng 0 hay không.
* H0 (Giả thuyết không) cho mỗi hệ số hồi quy (β): Hệ số hồi quy (β) = 0.
* Nếu P>|t| < 0.05: Có đủ bằng chứng thống kê để bác bỏ giả thuyết không. Điều này có nghĩa là hệ số khác 0 và biến độc lập có ảnh hưởng đáng kể đến biến phụ thuộc.
* Nếu P>|t| >= 0.05: Không có đủ bằng chứng thống kê để bác bỏ giả thuyết không. Điều này cho thấy hệ số có thể bằng 0, và biến độc lập có thể không có ảnh hưởng đáng kể đến biến phụ thuộc.

In [19]:
X_with_constant = sm.add_constant(df[["M1"]].values)
y = df[['M3']].values
result = sm.OLS(y, X_with_constant).fit()
print(result.summary())


# Công thức hồi quy: M3  = 4.8238+ 0.0137 × M1

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.000
Model:                            OLS   Adj. R-squared:                 -0.010
Method:                 Least Squares   F-statistic:                   0.03439
Date:                Sun, 20 Oct 2024   Prob (F-statistic):              0.853
Time:                        14:22:44   Log-Likelihood:                -145.41
No. Observations:                 100   AIC:                             294.8
Df Residuals:                      98   BIC:                             300.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          4.8238      0.295     16.338      0.0

In [20]:
X_with_constant = sm.add_constant(df[["M2"]].values)
y = df[['M3']].values
result = sm.OLS(y, X_with_constant).fit()
print(result.summary())


# M3 = 5.26 - 0.09 * M2 = 4.74

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.008
Model:                            OLS   Adj. R-squared:                 -0.002
Method:                 Least Squares   F-statistic:                    0.8278
Date:                Sun, 20 Oct 2024   Prob (F-statistic):              0.365
Time:                        14:22:44   Log-Likelihood:                -145.00
No. Observations:                 100   AIC:                             294.0
Df Residuals:                      98   BIC:                             299.2
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          5.2575      0.433     12.139      0.0

In [21]:
X_with_constant = sm.add_constant(df[["M1","M2"]].values)
y = df[['M3']].values
result = sm.OLS(y, X_with_constant).fit()
print(result.summary())


# M3 = 5.2575 + A1 * M1 + A2 * M2 

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       0.009
Model:                            OLS   Adj. R-squared:                 -0.012
Method:                 Least Squares   F-statistic:                    0.4335
Date:                Sun, 20 Oct 2024   Prob (F-statistic):              0.649
Time:                        14:22:44   Log-Likelihood:                -144.98
No. Observations:                 100   AIC:                             296.0
Df Residuals:                      97   BIC:                             303.8
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          5.2006      0.508     10.241      0.0

In [22]:
X = df[["M1","M2"]].values
y = df[['M3']].values
result = sm.OLS(y, X).fit()
print(result.summary())

                                 OLS Regression Results                                
Dep. Variable:                      y   R-squared (uncentered):                   0.911
Model:                            OLS   Adj. R-squared (uncentered):              0.909
Method:                 Least Squares   F-statistic:                              500.8
Date:                Sun, 20 Oct 2024   Prob (F-statistic):                    3.54e-52
Time:                        14:22:44   Log-Likelihood:                         -181.63
No. Observations:                 100   AIC:                                      367.3
Df Residuals:                      98   BIC:                                      372.5
Df Model:                           2                                                  
Covariance Type:            nonrobust                                                  
                 coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------