## **Phần 1: Thống kê dữ liệu**

In [None]:
import pandas as pd

# Đọc dữ liệu từ tệp CSV
file_path = "processed_dulieuxettuyendaihoc.csv"
df = pd.read_csv(file_path)

# 1. Sắp xếp dữ liệu điểm DH1 theo thứ tự tăng dần
df_sorted_dh1 = df.sort_values(by="DH1")

In [None]:
# 2. Sắp xếp dữ liệu điểm DH2 tăng dần theo nhóm giới tính
df_sorted_dh2_gt = df.sort_values(by=["GT", "DH2"])

In [None]:
# 3. Tạo pivot-table thống kê DH1 theo KT
pivot_kt = df.pivot_table(values="DH1", index="KT", aggfunc=["count", "sum", "mean", "median", "min", "max", "std", 
lambda x: x.quantile(0.25), lambda x: x.quantile(0.5), lambda x: x.quantile(0.75)])
pivot_kt.columns = ["count", "sum", "mean", "median", "min", "max", "std", "Q1", "Q2", "Q3"]

In [None]:
# 4. Tạo pivot-table thống kê DH1 theo KT và KV
pivot_kt_kv = df.pivot_table(values="DH1", index=["KT", "KV"], aggfunc=["count", "sum", "mean", "median", "min", "max", "std", 
lambda x: x.quantile(0.25), lambda x: x.quantile(0.5), lambda x: x.quantile(0.75)])
pivot_kt_kv.columns = ["count", "sum", "mean", "median", "min", "max", "std", "Q1", "Q2", "Q3"]


In [None]:
# 5. Tạo pivot-table thống kê DH1 theo KT, KV và DT
pivot_kt_kv_dt = df.pivot_table(values="DH1", index=["KT", "KV", "DT"], aggfunc=["count", "sum", "mean", "median", "min", "max", "std", 
lambda x: x.quantile(0.25), lambda x: x.quantile(0.5), lambda x: x.quantile(0.75)])
pivot_kt_kv_dt.columns = ["count", "sum", "mean", "median", "min", "max", "std", "Q1", "Q2", "Q3"]

## **Phần 2: Trình bày dữ liệu**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Đọc dữ liệu từ tệp CSV
file_path = "processed_dulieuxettuyendaihoc.csv"
df = pd.read_csv(file_path)

# 1. Trình bày dữ liệu biến GT (Giới tính)
# Lập bảng tần số và tần suất
gt_counts = df["GT"].value_counts()
gt_freq = gt_counts / gt_counts.sum()

# Vẽ biểu đồ tần số (cột)
plt.figure(figsize=(6, 4))
gt_counts.plot(kind="bar", color=["blue", "pink"])
plt.title("Biểu đồ tần số của GT")
plt.xlabel("Giới tính")
plt.ylabel("Tần số")
plt.show()

# Vẽ biểu đồ tần suất (tròn)
plt.figure(figsize=(6, 6))
gt_counts.plot(kind="pie", autopct="%.1f%%", colors=["blue", "pink"])
plt.title("Biểu đồ tần suất của GT")
plt.ylabel("")
plt.show()


In [None]:
# 2. Trình bày dữ liệu lần lượt các biến US_TBM1, US_TBM2 và US_TBM3
for var in ["US_TBM1", "US_TBM2", "US_TBM3"]:
    print(f"\nBảng thống kê {var}:")
    print(df[var].describe())
    
    plt.figure(figsize=(6, 4))
    df[var].hist(bins=20, color="green", edgecolor="black")
    plt.title(f"Biểu đồ phân bố {var}")
    plt.xlabel(var)
    plt.ylabel("Tần số")
    plt.show()

In [None]:
# 3. Trình bày dữ liệu biến DT với học sinh nam
df_nam = df[df["GT"] == "Nam"]
print("\nBảng thống kê DT (Nam):")
print(df_nam["DT"].value_counts())

In [None]:
# 4. Trình bày dữ liệu biến KV với học sinh nam thuộc dân tộc Kinh và có điểm DH1 >= 5.0, DH2 >= 4.0, DH3 >= 4.0
df_filtered = df_nam[(df_nam["DT"] == "Kinh") & (df_nam["DH1"] >= 5.0) & (df_nam["DH2"] >= 4.0) & (df_nam["DH3"] >= 4.0)]
print("\nBảng thống kê KV (Nam, dân tộc Kinh, điểm đạt yêu cầu):")
print(df_filtered["KV"].value_counts())

In [None]:
# 5. Trình bày dữ liệu các biến DH1, DH2, DH3 >= 5.0 và thuộc KV 2NT
df_2nt = df[(df["KV"] == "2NT") & (df["DH1"] >= 5.0) & (df["DH2"] >= 5.0) & (df["DH3"] >= 5.0)]
print("\nBảng thống kê DH1, DH2, DH3 >= 5.0 thuộc KV 2NT:")
print(df_2nt[["DH1", "DH2", "DH3"]].describe())


## **Phần 3: Trực quan hóa dữ liệu theo nhóm phân loại**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Đọc dữ liệu từ tệp CSV
file_path = "processed_dulieuxettuyendaihoc.csv"
df = pd.read_csv(file_path)

# 1. Trực quan dữ liệu học sinh nữ trên các nhóm XL1, XL2, XL3 dạng unstacked
df_nu = df[df["GT"] == "Nữ"]
xl_counts = df_nu[["XL1", "XL2", "XL3"]].apply(pd.Series.value_counts)

xl_counts.plot(kind="bar", stacked=False, figsize=(8, 5), color=["yellow", "orange", "blue", "green", "red"])
plt.title("Phân bố xếp loại theo XL1, XL2, XL3 (Học sinh nữ)")
plt.xlabel("Xếp loại")
plt.ylabel("Số lượng")
plt.legend(["XL1", "XL2", "XL3"])
plt.show()

In [None]:
# 2. Trực quan dữ liệu KQXT trên nhóm học sinh có khối thi A, A1, B thuộc khu vực 1, 2
df_kqxt = df[(df["KhoiThi"].isin(["A", "A1", "B"])) & (df["KV"].isin(["1", "2"]))]
sns.histplot(df_kqxt["KQXT"], bins=10, kde=True, color="blue")
plt.title("Phân bố KQXT trên nhóm học sinh khối A, A1, B thuộc khu vực 1, 2")
plt.xlabel("Kết quả xét tuyển")
plt.ylabel("Số lượng")
plt.show()

In [None]:
# 3. Trực quan dữ liệu số lượng thí sinh từng khu vực dựa trên từng nhóm khối thi
df_khoi_kv = df.groupby(["KV", "KhoiThi"]).size().unstack()
df_khoi_kv.plot(kind="bar", figsize=(8, 5), stacked=True)
plt.title("Số lượng thí sinh từng khu vực theo nhóm khối thi")
plt.xlabel("Khu vực")
plt.ylabel("Số lượng")
plt.legend(title="Khối thi")
plt.show()

In [None]:
# 4. Trực quan dữ liệu số lượng thí sinh đậu, rớt trên từng nhóm khối thi
df_pass_fail_khoi = df.groupby(["KhoiThi", "KQXT"]).size().unstack()
df_pass_fail_khoi.plot(kind="bar", figsize=(8, 5), stacked=True, color=["red", "green"])
plt.title("Số lượng thí sinh đậu rớt trên từng nhóm khối thi")
plt.xlabel("Khối thi")
plt.ylabel("Số lượng")
plt.legend(["Rớt", "Đậu"])
plt.show()

In [None]:
# 5. Trực quan dữ liệu số lượng thí sinh đậu rớt trên từng nhóm khu vực
df_pass_fail_kv = df.groupby(["KV", "KQXT"]).size().unstack()
df_pass_fail_kv.plot(kind="bar", figsize=(8, 5), stacked=True, color=["red", "green"])
plt.title("Số lượng thí sinh đậu rớt theo khu vực")
plt.xlabel("Khu vực")
plt.ylabel("Số lượng")
plt.legend(["Rớt", "Đậu"])
plt.show()

In [None]:
# 6. Trực quan dữ liệu số lượng thí sinh đậu rớt dựa trên từng nhóm dân tộc
df_pass_fail_dt = df.groupby(["DT", "KQXT"]).size().unstack()
df_pass_fail_dt.plot(kind="bar", figsize=(10, 5), stacked=True, color=["red", "green"])
plt.title("Số lượng thí sinh đậu rớt theo dân tộc")
plt.xlabel("Dân tộc")
plt.ylabel("Số lượng")
plt.legend(["Rớt", "Đậu"])
plt.show()

In [None]:
# 7. Trực quan dữ liệu số lượng thí sinh đậu rớt dựa trên từng nhóm giới tính
df_pass_fail_gt = df.groupby(["GT", "KQXT"]).size().unstack()
df_pass_fail_gt.plot(kind="bar", figsize=(8, 5), stacked=True, color=["red", "green"])
plt.title("Số lượng thí sinh đậu rớt theo giới tính")
plt.xlabel("Giới tính")
plt.ylabel("Số lượng")
plt.legend(["Rớt", "Đậu"])
plt.show()

## **Phần 4: Trực quan hóa dữ liệu nâng cao**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Đọc dữ liệu từ tệp CSV
file_path = "processed_dulieuxettuyendaihoc.csv"
df = pd.read_csv(file_path)

# 1. Vẽ biểu đồ đường Simple cho biến T1
plt.figure(figsize=(10, 5))
plt.plot(df.index, df["T1"], marker="o", linestyle="-", color="blue")
plt.title("Biểu đồ đường Simple của biến T1")
plt.xlabel("Index")
plt.ylabel("T1")
plt.grid(True)
plt.show()

In [None]:
# 2. Tạo biến phân loại (phanlopt1) cho môn Toán (T1)
def classify_t1(score):
    if score < 5:
        return "k"
    elif 5 <= score < 7:
        return "tb"
    elif 7 <= score < 8:
        return "k"
    else:
        return "g"

df["phanlopt1"] = df["T1"].apply(classify_t1)


In [None]:
# 3. Lập bảng tần số cho biến phanlopt1
phanlopt1_freq = df["phanlopt1"].value_counts()
print("Bảng tần số của biến phanlopt1:")
print(phanlopt1_freq)

In [None]:
# 4. Vẽ biểu đồ đường Multiple Line cho biến T1 được phân loại bởi biến phanlopt1
plt.figure(figsize=(10, 5))
sns.lineplot(data=df, x=df.index, y="T1", hue="phanlopt1", marker="o")
plt.title("Biểu đồ đường Multiple Line của T1 theo phanlopt1")
plt.xlabel("Index")
plt.ylabel("T1")
plt.grid(True)
plt.legend(title="Phân loại T1")
plt.show()


In [None]:
# 5. Vẽ biểu đồ Drop-line cho biến T1 được phân loại bởi biến phanlopt1
plt.figure(figsize=(10, 5))
for i in range(len(df)):
    plt.plot([df.index[i], df.index[i]], [0, df["T1"].iloc[i]], linestyle="dashed", color="gray")
    plt.scatter(df.index[i], df["T1"].iloc[i], c="red" if df["phanlopt1"].iloc[i] == "g" else "blue")

plt.title("Biểu đồ Drop-line của T1 theo phanlopt1")
plt.xlabel("Index")
plt.ylabel("T1")
plt.grid(True)
plt.show()


## **Phần 5: Mô tả dữ liệu và khảo sát dạng phân phối**

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as stats
import numpy as np

# Đọc dữ liệu từ tệp CSV
file_path = "processed_dulieuxettuyendaihoc.csv"
df = pd.read_csv(file_path)

# 1. Mô tả và khảo sát phân phối cho biến T1
print(df["T1"].describe())

# Vẽ biểu đồ Box-Plot
plt.figure(figsize=(8, 5))
sns.boxplot(y=df["T1"], color="lightblue")
plt.title("Box-Plot của T1")
plt.grid()
plt.show()

# Vẽ biểu đồ Histogram
plt.figure(figsize=(8, 5))
sns.histplot(df["T1"], bins=20, kde=True, color="skyblue")
plt.title("Histogram của T1")
plt.xlabel("T1")
plt.ylabel("Tần suất")
plt.grid()
plt.show()

# Kiểm chứng phân phối chuẩn QQ-Plot
plt.figure(figsize=(8, 5))
stats.probplot(df["T1"], dist="norm", plot=plt)
plt.title("QQ-Plot của T1")
plt.grid()
plt.show()

In [None]:
# 2. Mô tả và khảo sát phân phối cho biến T1 trên từng nhóm phân lớp
plt.figure(figsize=(10, 5))
sns.boxplot(x=df["phanlopt1"], y=df["T1"], palette="pastel")
plt.title("Box-Plot của T1 theo phân lớp")
plt.xlabel("Phân loại T1")
plt.ylabel("T1")
plt.grid()
plt.show()

plt.figure(figsize=(10, 5))
sns.histplot(df, x="T1", hue="phanlopt1", bins=20, kde=True, palette="pastel")
plt.title("Histogram của T1 theo phân lớp")
plt.xlabel("T1")
plt.ylabel("Tần suất")
plt.grid()
plt.show()

plt.figure(figsize=(8, 5))
sns.lmplot(x="T1", y="T1", hue="phanlopt1", data=df, fit_reg=False)
plt.title("QQ-Plot của T1 theo phân lớp")
plt.grid()
plt.show()

In [None]:
# 3. Khảo sát tương quan giữa biến DH1 theo biến T1
correlation = df[["DH1", "T1"]].corr().iloc[0,1]
print(f"Hệ số tương quan giữa DH1 và T1: {correlation}")

plt.figure(figsize=(8, 5))
sns.scatterplot(x=df["T1"], y=df["DH1"], color="blue")
plt.title("Scatter Plot: DH1 theo T1")
plt.xlabel("T1")
plt.ylabel("DH1")
plt.grid()
plt.show()

In [None]:
# 4. Khảo sát tương quan giữa DH1 theo T1 trên từng nhóm khu vực
plt.figure(figsize=(8, 5))
sns.lmplot(x="T1", y="DH1", hue="KV", data=df, fit_reg=True)
plt.title("Tương quan DH1 và T1 theo từng khu vực")
plt.grid()
plt.show()

In [None]:
# 5. Khảo sát tương quan giữa DH1, DH2, DH3
correlation_matrix = df[["DH1", "DH2", "DH3"]].corr()
print("Ma trận tương quan giữa DH1, DH2, DH3:")
print(correlation_matrix)

sns.pairplot(df, vars=["DH1", "DH2", "DH3"], kind="scatter", diag_kind="kde", palette="coolwarm")
plt.show()