Phân tích dữ liệu kết quả học tập của sinh viên nhằm tìm ra các yếu tố ảnh hưởng đến thành tích, trực quan hóa dữ liệu và rút ra insight hỗ trợ ra quyết định tập trung giải quyết vấn đề.
Dự án được thực hiện bằng Python trên Jupyter Notebook.
- Khám phá và phân tích dữ liệu kết quả học tập.
- Xác định các yếu tố liên quan đến thành tích học tập của sinh viên.
- Thực hành các kỹ thuật cơ bản xử lý, phân tích và trực quan hóa dữ liệu.
- Nguồn: https://archive.ics.uci.edu/dataset/320/student+performance
- Số lượng bản ghi: 395 bản
- Các cột chính:
- G1, G2, G3: Điểm kỳ 1, kỳ 2, kỳ cuối (0-20).
- studytime: Thời gian học/tuần (1: <2 giờ, 2: 2-5 giờ, 3: 5-10 giờ, 4:>10 giờ).
- absences: Số ngày nghỉ (0-93).
- sex: Giới tính (M/F).
- age, freetime: Tuổi, thời gian rảnh (1-5). Một số thông tin cơ bản khác như: thông tin phụ huynh học sinh, lí do chọn trường, số lần trượt môn,...
- Python 3.13.6
- pandas, numpy
- matplotlib, seaborn
- scikit-learn
- Data Cleaning: Kiểm tra và oại bỏ dữ liệu thiếu, xử lý giá trị ngoại lai.
- Exploratory Data Analysis (EDA):
- Phân tích phân phối điểm số.
- So sánh kết quả theo giới tính, giờ học, tỷ lệ chuyên cần.
- Visualization:
- Biểu đồ histogram, boxplot, scatter plot.
- (Optional) Modeling: Xây dựng mô hình dự đoán điểm số.
# Clone repo
git clone https://github.com/nhienn-coderdom/student-performance-analysis.git
# Cài đặt thư viện
pip install -r requirements.txt
# Mở notebook
jupyter notebook student_performance.ipynb