In [None]:
# Import thư viện pandas để xử lý dữ liệu
import pandas as pd

# Đọc file CSV vào DataFrame
df = pd.read_csv('dulieuxettuyendaihoc.csv', header=0, delimiter=',', encoding='utf-8')

# Đổi tên các cột cho dễ tham chiếu
df.rename(columns={'NGAYTHI': 'NT', 'DINHHUONGNGHENGHIEP': 'NGHE'}, inplace=True)
df

In [None]:
# Lọc dữ liệu nơi cột 'KT' có giá trị là 'C'
dfKhoiC = df.loc[df['KT'] == 'C']

# Hiển thị cột 'M1' của dữ liệu đã lọc
dfKhoiC['M1']

# Lấy thống kê mô tả cho cột 'M1'
dfKhoiC['M1'].describe()

In [None]:
# Import các hàm thống kê từ thư viện scipy
import scipy.stats as stats

# Thực hiện kiểm định t một mẫu trên cột 'M1' với trung bình dân số là 4.0
stats.ttest_1samp(dfKhoiC['M1'], popmean=4.0)

# Lọc dữ liệu nơi cột 'KT' có giá trị là 'C'
dfKhoiC = df.loc[df['KT'] == 'C']

# Thực hiện kiểm định t hai mẫu độc lập giữa các cột 'M1' và 'M2' giả sử phương sai bằng nhau
stats.ttest_ind(dfKhoiC['M1'], dfKhoiC['M2'], equal_var=True)

In [None]:
# Import hàm z-test từ thư viện statsmodels
from statsmodels.stats.weightstats import ztest as ztest

# Thực hiện kiểm định z một mẫu trên cột 'M1' với giá trị trung bình là 8.0
ztest(df['M1'], value=8.0)

# Thực hiện kiểm định z hai mẫu giữa các cột 'M1' và 'M2' với giá trị trung bình là 0
ztest(df['M1'], df['M2'], value=0)


In [None]:
# Import hàm pearsonr từ thư viện scipy.stats
from scipy.stats.stats import pearsonr

# Tính hệ số tương quan Pearson giữa các cột 'M1' và 'M2'
pearsonr(df['M1'], df['M2'])

In [None]:
# Import các hàm thống kê từ thư viện scipy
import scipy.stats as stats

# Tạo bảng tần suất chéo từ các cột 'GT' và 'NGHE'
crosdata = pd.crosstab(df['GT'], [df['NGHE']], rownames=['GT'], colnames=['NGHE'])
crosdata

In [None]:
# Tính tỷ lệ odds và p-value bằng phương pháp Fisher's Exact Test
odd_ratio, p_value = stats.fisher_exact(crosdata)
print('odd ratio is : ' + str(odd_ratio))
print('p_value is : ' + str(p_value))

In [None]:

# Import hàm chi2_contingency từ thư viện scipy.stats
from scipy.stats import chi2_contingency

# Tạo bảng tần suất chéo từ các cột 'KV' và 'KT'
crosdata = pd.crosstab(df['KV'], [df['KT']], rownames=['KV'], colnames=['KT'])
crosdata

In [None]:
# Vẽ biểu đồ heatmap cho bảng tần suất chéo
import matplotlib.pyplot as plt
plt.pcolor(crosdata, cmap='RdBu')
plt.colorbar()
plt.show()


In [None]:
# Thực hiện kiểm định chi bình phương cho bảng tần suất chéo
stat, p, dof, expected = chi2_contingency(crosdata)
 
alpha = 0.05
print("p value is " + str(p))
if p <= alpha:
    print('Phụ thuộc (bác bỏ H0)')
else:
    print('Không phụ thuộc (chấp nhận H0)')

In [None]:
# Import thư viện statsmodels và hàm ols
import statsmodels.api as sm
from statsmodels.formula.api import ols

# Xây dựng mô hình hồi quy đơn biến với biến phụ thuộc là 'M1' và biến độc lập là 'GT'
model = ols('M1 ~ GT', data=df).fit()
aov_table = sm.stats.anova_lm(model, typ=1)
aov_table

In [None]:
# Xây dựng mô hình hồi quy đa biến với biến phụ thuộc là 'M1' và các biến độc lập là 'GT', 'KV' và tương tác giữa 'GT' và 'KV'
model = ols('M1 ~ GT + KV + GT:KV', data=df).fit()
result = sm.stats.anova_lm(model, type=2)
print(result)

In [None]:
# Xây dựng mô hình hồi quy đơn biến với biến phụ thuộc là 'M3' và biến độc lập là 'M1'
X_with_constant = sm.add_constant(df[["M1"]].values)
y = df[['M3']].values
result = sm.OLS(y, X_with_constant).fit()
print(result.summary())

In [None]:
# Xây dựng mô hình hồi quy đa biến với biến phụ thuộc là 'M3' và các biến độc lập là 'M1' và 'M2'
X_with_constant = sm.add_constant(df[["M1", "M2"]].values)
y = df[['M3']].values
result = sm.OLS(y, X_with_constant).fit()
print(result.summary())

In [None]:
# Xây dựng mô hình hồi quy đa biến với biến phụ thuộc là 'M3' và các biến độc lập là 'M1' và 'M2' (không có hằng số)
X = df[["M1", "M2"]].values
y = df[['M3']].values
result = sm.OLS(y, X).fit()
print(result.summary())