TẢI DỮ LIỆU LÊN

In [1]:
import pandas as pd
import numpy as np

# Đọc dữ liệu sạch
graduate = pd.read_csv('data_clean/graduate_info_clean.csv')
employment = pd.read_csv('data_clean/employment_survey_clean.csv')
certifications = pd.read_csv('data_clean/certifications_clean.csv')

print("Dữ liệu đã được tải thành công!")
print(f"- Graduate: {len(graduate)} sinh viên")
print(f"- Employment: {len(employment)} bản ghi")
print(f"- Certifications: {len(certifications)} chứng chỉ")

Dữ liệu đã được tải thành công!
- Graduate: 100 sinh viên
- Employment: 80 bản ghi
- Certifications: 115 chứng chỉ


THỐNG KÊ SỐ LƯỢNG SINH VIÊN TỐT NGHIỆP THEO TỪNG NĂM

In [4]:
print("1. SỐ LƯỢNG SINH VIÊN THEO NĂM TỐT NGHIỆP")
print("="*80)

# Thống kê số lượng sinh viên theo từng năm tốt nghiệp
so_sv_theo_nam = graduate["grad_year"].value_counts().sort_index()
so_sv_theo_nam
tong_sv=so_sv_theo_nam.sum()
print(so_sv_theo_nam)
print(f"Tổng số sinh viên: {tong_sv}")


1. SỐ LƯỢNG SINH VIÊN THEO NĂM TỐT NGHIỆP
grad_year
2021    22
2022    40
2023    38
Name: count, dtype: int64
Tổng số sinh viên: 100


THỐNG KÊ SỐ LƯỢNG SINH VIÊN THEO NGÀNH

In [5]:
print("2. SỐ LƯỢNG SINH VIÊN THEO NGÀNH")
print("="*80)
# Thống kê số lượng sinh viên theo ngành
so_sv_theo_nganh = graduate["major"].value_counts()

so_sv_theo_nganh
print(so_sv_theo_nganh)
print(f"Tổng số sinh viên: {so_sv_theo_nganh.sum()}")

2. SỐ LƯỢNG SINH VIÊN THEO NGÀNH
major
Quản trị kinh doanh    36
Công nghệ thông tin    35
Kinh tế                29
Name: count, dtype: int64
Tổng số sinh viên: 100


THỐNG KÊ MỨC LƯƠNG TRUNG BÌNH THEO MAJOR

In [6]:
print("3. MỨC LƯƠNG TRUNG BÌNH THEO NGÀNH")
print("="*80)


# Gộp dữ liệu việc làm với ngành học
emp_grad = employment.merge(
    graduate[['student_id', 'major']],
    on='student_id',
    how='left'
)

# Lọc lương hợp lệ và tính lương trung bình theo ngành
# Lọc lương hợp lệ và tính lương trung bình theo ngành
luong_tb_theo_nganh = (
    emp_grad[emp_grad['salary'] > 0]
    .groupby('major')['salary']
    .mean()
    .round(0).astype(int)
)


print(luong_tb_theo_nganh)


3. MỨC LƯƠNG TRUNG BÌNH THEO NGÀNH
major
Công nghệ thông tin    9133333
Kinh tế                9000000
Quản trị kinh doanh    9000000
Name: salary, dtype: int64


ĐẾM SỐ LƯỢNG CHỨNG CHỈ THEO LOẠI CHỨNG CHỈ

In [7]:
print("4. SỐ LƯỢNG CHỨNG CHỈ THEO LOẠI")
print("="*80)
so_luong_chung_chi = certifications["certificate_name"].value_counts()

so_luong_chung_chi

4. SỐ LƯỢNG CHỨNG CHỈ THEO LOẠI


certificate_name
IELTS           32
AWS CCP         30
Data Analyst    28
MOS             25
Name: count, dtype: int64

 Tìm các student_id có trong employment_survey nhưng không có trong graduate_info

In [8]:
print("5. DỮ LIỆU KHÁC NHAU GIỮA EMPLOYMENT VÀ GRADUATE")
print("="*80)
# Lấy danh sách student_id
emp_ids = set(employment["student_id"])
grad_ids = set(graduate["student_id"])

# So sánh
emp_not_grad = list(emp_ids - grad_ids)
grad_not_emp = list(grad_ids - emp_ids)

# Hàm in danh sách 5 phần tử / hàng
def print_list_5_per_row(title, data):
    print(title)
    if len(data) == 0:
        print("Không có")
    else:
        for i in range(0, len(data), 5):
            print(", ".join(data[i:i+5]))
    print("-" * 50)

# In kết quả
print(f"Số SV có trong employment nhưng không có trong graduate: {len(emp_not_grad)}")
print_list_5_per_row("Danh sách student_id:", emp_not_grad)

print(f"Số SV có trong graduate nhưng không có trong employment: {len(grad_not_emp)}")
print_list_5_per_row("Danh sách student_id:", grad_not_emp)

5. DỮ LIỆU KHÁC NHAU GIỮA EMPLOYMENT VÀ GRADUATE
Số SV có trong employment nhưng không có trong graduate: 0
Danh sách student_id:
Không có
--------------------------------------------------
Số SV có trong graduate nhưng không có trong employment: 44
Danh sách student_id:
SV4003, SV4046, SV4029, SV4033, SV4054
SV4012, SV4024, SV4094, SV4084, SV4096
SV4021, SV4002, SV4072, SV4060, SV4088
SV4065, SV4045, SV4051, SV4020, SV4018
SV4059, SV4052, SV4004, SV4049, SV4082
SV4064, SV4037, SV4083, SV4075, SV4015
SV4073, SV4044, SV4092, SV4042, SV4069
SV4005, SV4071, SV4013, SV4053, SV4019
SV4006, SV4066, SV4048, SV4089
--------------------------------------------------


THỐNG KÊ VÀ TỔNG HỢP LẠI DỮ LIỆU CƠ BẢN 

In [9]:
print("6. THỐNG KÊ TỔNG HỢP DỮ LIỆU")
print("="*80)
# Tổng số sinh viên tốt nghiệp
tong_sv = graduate["student_id"].nunique()

# Tổng số sinh viên có việc làm (xuất hiện trong employment)
sv_co_viec = employment["student_id"].nunique()

# Tổng số sinh viên có ít nhất 1 chứng chỉ
sv_co_chung_chi = certifications["student_id"].nunique()

# Lương trung bình chung (chỉ tính lương hợp lệ)
luong_tb_chung = employment[employment["salary"] > 0]["salary"].mean()

print("TỔNG HỢP DỮ LIỆU")
print("-" * 40)
print(f"Tổng số sinh viên tốt nghiệp: {tong_sv}")
print(f"Số sinh viên có dữ liệu việc làm: {sv_co_viec}")
print(f"Số sinh viên có ít nhất 1 chứng chỉ: {sv_co_chung_chi}")
print(f"Lương trung bình chung: {luong_tb_chung:.0f} VND")

6. THỐNG KÊ TỔNG HỢP DỮ LIỆU
TỔNG HỢP DỮ LIỆU
----------------------------------------
Tổng số sinh viên tốt nghiệp: 100
Số sinh viên có dữ liệu việc làm: 56
Số sinh viên có ít nhất 1 chứng chỉ: 70
Lương trung bình chung: 9057143 VND
