# Report : Score element and this effect on Grade

This report aims to analyze the overall data from the score data columns to the final grade, assessing the influence of each score. This report will answer the question: "If students had better '... Score', would they have better Grade?". To find the answer of this question, I will analyze one by one element:

**1. The Assignment Score Influence**

Homework assignments are among the most critical practical components affecting academic performance. Assignments help students review the knowledge learned in class and apply theoretical concepts to practice. However, depending on the nature and complexity of the assignments, their impact on the final grade may vary.

**2. The Quiz Score Influence**

Quizzes are quick in-class assessments designed to evaluate students' understanding of the material. They act as short-term review tools that help reinforce learning. Similar to homework assignments, the influence of quizzes on the final grade depends on their frequency and difficulty level.

**3. The Participation Score Influence**

Class participation measures a student's engagement in discussions, attendance, and overall involvement in the learning process. While participation does not directly test knowledge, active engagement can contribute to a deeper understanding of the subject matter. The extent to which participation scores affect the final grade depends on the course's grading policy and how much weight is assigned to participation.

**4. The Midterm Score Influence**

Midterm exams are a significant evaluation tool that tests students' comprehension of the first half of the course. A high midterm score often indicates strong foundational knowledge, which can contribute to better performance in subsequent assessments, including the final exam.

**5. The Project Score Influence**

Projects require students to apply their knowledge in a practical way, and projects can carry a high weight in the final grade calculation. A well-executed project can compensate for lower scores in other areas and significantly boost the final grade.

**6. The Final Exam Score Influence**

The final exam is typically the most comprehensive assessment in a course, covering all topics learned. It has the highest impact on the final grade as it tests a student’s overall understanding and retention of the subject matter.

**Note:**
This report is not intended to address in detail how the Grade is assessed through the scores but only to answer the question **"If your scores are high, will your overall grade be good?"**.

<hr style="border: 5px solid #003262;" />
<hr style="border: 1px solid #fdb515;" />

## 0. Prepare

<!-- BEFORE THE QUESTION -->

Preparing for this question, first init some library which used in the next step.


In [2]:
import numpy as np
from datascience import *

import matplotlib
%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')
import warnings
warnings.simplefilter('ignore', FutureWarning)

For the following step, first init this table and select columns which we want find the relationship.

In [3]:
stu_grade = Table.read_table('Students_Grading_Dataset.csv')
stu_grade

Student_ID,First_Name,Last_Name,Email,Gender,Age,Department,Attendance (%),Midterm_Score,Final_Score,Assignments_Avg,Quizzes_Avg,Participation_Score,Projects_Score,Total_Score,Grade,Study_Hours_per_Week,Extracurricular_Activities,Internet_Access_at_Home,Parent_Education_Level,Family_Income_Level,Stress_Level (1-10),Sleep_Hours_per_Night
S1000,Omar,Williams,student0@university.com,Female,22,Engineering,52.29,55.03,57.82,84.22,74.06,3.99,85.9,56.09,F,6.2,No,Yes,High School,Medium,5,4.7
S1001,Maria,Brown,student1@university.com,Male,18,Engineering,97.27,97.23,45.8,,94.24,8.32,55.65,50.64,A,19.0,No,Yes,,Medium,4,9.0
S1002,Ahmed,Jones,student2@university.com,Male,24,Business,57.19,67.05,93.68,67.7,85.7,5.05,73.79,70.3,D,20.7,No,Yes,Master's,Low,6,6.2
S1003,Omar,Williams,student3@university.com,Female,24,Mathematics,95.15,47.79,80.63,66.06,93.51,6.54,92.12,61.63,A,24.8,Yes,Yes,High School,High,3,6.7
S1004,John,Smith,student4@university.com,Female,23,CS,54.18,46.59,78.89,96.85,83.7,5.97,68.42,66.13,F,15.4,Yes,Yes,High School,High,2,7.1
S1005,Liam,Brown,student5@university.com,Male,21,Engineering,,78.85,43.53,71.4,52.2,6.38,67.29,62.08,B,8.5,Yes,Yes,PhD,High,1,5.0
S1006,Ahmed,Jones,student6@university.com,Male,24,Business,57.6,66.26,89.07,84.52,98.4,2.3,93.65,83.21,F,21.3,No,Yes,,Low,5,6.4
S1007,Ahmed,Smith,student7@university.com,Male,19,Engineering,51.91,45.67,73.96,80.12,95.9,3.73,93.24,81.93,F,27.3,Yes,No,,Medium,4,4.3
S1008,Omar,Smith,student8@university.com,Female,21,CS,85.97,84.42,90.87,57.05,56.33,0.51,94.01,95.62,A,8.0,No,No,Bachelor's,Low,9,8.8
S1009,Sara,Smith,student9@university.com,Female,22,Engineering,64.01,87.96,98.47,96.98,55.63,5.88,78.6,84.99,A,9.6,No,Yes,,Medium,10,6.4


In [4]:
stu_score = stu_grade.select('Midterm_Score', 'Final_Score', 'Assignments_Avg', 'Quizzes_Avg', 'Participation_Score', 'Projects_Score', 'Total_Score', 'Grade')
stu_score

Midterm_Score,Final_Score,Assignments_Avg,Quizzes_Avg,Participation_Score,Projects_Score,Total_Score,Grade
55.03,57.82,84.22,74.06,3.99,85.9,56.09,F
97.23,45.8,,94.24,8.32,55.65,50.64,A
67.05,93.68,67.7,85.7,5.05,73.79,70.3,D
47.79,80.63,66.06,93.51,6.54,92.12,61.63,A
46.59,78.89,96.85,83.7,5.97,68.42,66.13,F
78.85,43.53,71.4,52.2,6.38,67.29,62.08,B
66.26,89.07,84.52,98.4,2.3,93.65,83.21,F
45.67,73.96,80.12,95.9,3.73,93.24,81.93,F
84.42,90.87,57.05,56.33,0.51,94.01,95.62,A
87.96,98.47,96.98,55.63,5.88,78.6,84.99,A


<!-- END QUESTION -->

<hr style="border: 5px solid #003262;" />
<hr style="border: 1px solid #fdb515;" />

## 1. Overall


First, we will check where rows has NaN, is this student have 'F' grade?

In [22]:
# Lấy các cột điểm
scores_columns = ['Midterm_Score', 'Final_Score', 'Assignments_Avg',
                  'Quizzes_Avg', 'Participation_Score', 'Projects_Score',
                  'Total_Score']

# Kiểm tra các hàng có ít nhất một điểm bị thiếu (NaN)
rows_with_nan = np.any([
    np.isnan(stu_score.column(col)) for col in scores_columns
], axis=0)

# Lấy cột Grade để kiểm tra tỷ lệ F
grades_for_nan_rows = stu_score.column('Grade')[rows_with_nan]

# Kiểm tra số lượng sinh viên có Grade F trong số đó
f_count = np.sum(grades_for_nan_rows == "F")
nan_rows_count = np.sum(rows_with_nan)

# In kết quả
print(f"Số dòng có ít nhất một điểm bị thiếu: {nan_rows_count}")
print(f"Số dòng có Grade là 'F' khi điểm bị thiếu: {f_count}")
print(f"Tỷ lệ bị F khi điểm bị thiếu: {f_count / nan_rows_count:.2%}" if nan_rows_count > 0 else "Không có điểm thiếu")


Số dòng có ít nhất một điểm bị thiếu: 517
Số dòng có Grade là 'F' khi điểm bị thiếu: 90
Tỷ lệ bị F khi điểm bị thiếu: 17.41%


In this result, we can see that the missing score don't affect to grade, or not of all score affect on it. Let check the important score that Midterm, Project and Final score.

In [23]:
# Lọc các sinh viên có Midterm_Score bị thiếu (NaN)
midterm_missing_rows = np.isnan(stu_score.column('Midterm_Score'))

# Lấy số lượng sinh viên có Midterm bị thiếu
num_midterm_missing = np.sum(midterm_missing_rows)

# Kiểm tra số lượng sinh viên có Grade F trong nhóm này
grades_for_missing_midterm = stu_score.column('Grade')[midterm_missing_rows]
num_f_when_midterm_missing = np.sum(grades_for_missing_midterm == "F")

# In kết quả
print(f"Số dòng có Midterm_Score bị thiếu: {num_midterm_missing}")
print(f"Số dòng có Grade là 'F' khi Midterm bị thiếu: {num_f_when_midterm_missing}")
print(f"Tỷ lệ bị F khi Midterm bị thiếu: {num_f_when_midterm_missing / num_midterm_missing:.2%}" if num_midterm_missing > 0 else "Không có sinh viên thiếu điểm Midterm")


Số dòng có Midterm_Score bị thiếu: 0
Số dòng có Grade là 'F' khi Midterm bị thiếu: 0
Không có sinh viên thiếu điểm Midterm


In [24]:
# Lọc các sinh viên có Final_Score bị thiếu (NaN)
final_missing_rows = np.isnan(stu_score.column('Final_Score'))

# Lấy số lượng sinh viên có Final bị thiếu
num_final_missing = np.sum(final_missing_rows)

# Kiểm tra số lượng sinh viên có Grade F trong nhóm này
grades_for_missing_final = stu_score.column('Grade')[final_missing_rows]
num_f_when_final_missing = np.sum(grades_for_missing_final == "F")

# In kết quả
print(f"Số dòng có Final_Score bị thiếu: {num_final_missing}")
print(f"Số dòng có Grade là 'F' khi Final bị thiếu: {num_f_when_final_missing}")
print(f"Tỷ lệ bị F khi Final bị thiếu: {num_f_when_final_missing / num_final_missing:.2%}" if num_final_missing > 0 else "Không có sinh viên thiếu điểm Final")

Số dòng có Final_Score bị thiếu: 0
Số dòng có Grade là 'F' khi Final bị thiếu: 0
Không có sinh viên thiếu điểm Final


In [25]:
# Lọc các sinh viên có Projects_Score bị thiếu (NaN)
projects_missing_rows = np.isnan(stu_score.column('Projects_Score'))

# Lấy số lượng sinh viên có Project bị thiếu
num_projects_missing = np.sum(projects_missing_rows)

# Kiểm tra số lượng sinh viên có Grade F trong nhóm này
grades_for_missing_projects = stu_score.column('Grade')[projects_missing_rows]
num_f_when_projects_missing = np.sum(grades_for_missing_projects == "F")

# In kết quả
print(f"Số dòng có Projects_Score bị thiếu: {num_projects_missing}")
print(f"Số dòng có Grade là 'F' khi Projects bị thiếu: {num_f_when_projects_missing}")
print(f"Tỷ lệ bị F khi Projects bị thiếu: {num_f_when_projects_missing / num_projects_missing:.2%}" if num_projects_missing > 0 else "Không có sinh viên thiếu điểm Projects")

Số dòng có Projects_Score bị thiếu: 0
Số dòng có Grade là 'F' khi Projects bị thiếu: 0
Không có sinh viên thiếu điểm Projects


We can see that the main score as midterm, final or project are not missing, so that the missing value don't affect on the total grade.

The next step, I will use the model "Linear Regression" to find the relationship of score element and grade.

<!-- END QUESTION -->

<hr style="border: 5px solid #003262;" />
<hr style="border: 1px solid #fdb515;" />

## 2. KNN Model


In [33]:
def euclidean_distance(x1, x2):
    """Tính khoảng cách Euclid giữa hai điểm."""
    return np.sqrt(np.sum((x1 - x2) ** 2))

def knn_predict(tbl, predictors, target, k=5):
    """Triển khai K-Nearest Neighbors không dùng thư viện ngoài."""

    X = np.column_stack([tbl.column(col) for col in predictors])  # Lấy dữ liệu đầu vào
    Y = np.array(tbl.column(target))  # Lấy nhãn thực tế

    predictions = []  # Lưu kết quả dự đoán

    for i in range(len(X)):
        distances = np.array([euclidean_distance(X[i], X[j]) for j in range(len(X))])  # Tính khoảng cách với tất cả các điểm
        neighbors_idx = distances.argsort()[:k]  # Lấy K điểm gần nhất
        neighbor_grades = Y[neighbors_idx]  # Lấy Grade của K điểm gần nhất

        # Dự đoán là giá trị xuất hiện nhiều nhất trong K điểm gần nhất
        unique, counts = np.unique(neighbor_grades, return_counts=True)
        predicted_grade = unique[np.argmax(counts)]
        predictions.append(predicted_grade)

    # Trả về bảng mới có cột dự đoán
    return tbl.with_column(f'Predicted_{target}', predictions)

In [34]:
predictors = ['Midterm_Score', 'Final_Score', 'Assignments_Avg', 'Quizzes_Avg',
              'Participation_Score', 'Projects_Score', 'Total_Score']

stu_score = knn_predict(stu_score, predictors, 'Grade', k=5)

# Kiểm tra kết quả
stu_score.select('Midterm_Score', 'Final_Score', 'Projects_Score', 'Grade', 'Predicted_Grade').show(5)

Midterm_Score,Final_Score,Projects_Score,Grade,Predicted_Grade
55.03,57.82,85.9,F,A
97.23,45.8,55.65,A,A
67.05,93.68,73.79,D,A
47.79,80.63,92.12,A,F
46.59,78.89,68.42,F,D


In [36]:
# Lấy cột Grade thực tế và Grade dự đoán
actual_grades = stu_score.column('Grade')
predicted_grades = stu_score.column('Predicted_Grade')

# Tính số lần dự đoán đúng
correct_predictions = np.sum(actual_grades == predicted_grades)

# Tính tỷ lệ chính xác
accuracy = correct_predictions / len(actual_grades) * 100

# In kết quả
print(f"Số lần dự đoán đúng: {correct_predictions}")
print(f"Tổng số dòng: {len(actual_grades)}")
print(f"Tỷ lệ chính xác của mô hình: {accuracy:.2f}%")

Số lần dự đoán đúng: 2269
Tổng số dòng: 5000
Tỷ lệ chính xác của mô hình: 45.38%


This prediction is so low, we must predict on "group score", I will divide it in three main type. First one is Assigment, Quizzes, Participation. This is a group of score that is evaluated by the level of theoretical learning in class.

In [37]:
theo_predictors = ['Assignments_Avg', 'Quizzes_Avg', 'Participation_Score']

stu_score = knn_predict(stu_score, theo_predictors, 'Grade', k=5)

# Kiểm tra kết quả
stu_score.select('Assignments_Avg', 'Quizzes_Avg', 'Participation_Score', 'Grade', 'Predicted_Grade').show(5)

Assignments_Avg,Quizzes_Avg,Participation_Score,Grade,Predicted_Grade
84.22,74.06,3.99,F,F
,94.24,8.32,A,A
67.7,85.7,5.05,D,D
66.06,93.51,6.54,A,A
96.85,83.7,5.97,F,A


In [38]:
# Lấy cột Grade thực tế và Grade dự đoán
actual_grades = stu_score.column('Grade')
predicted_grades = stu_score.column('Predicted_Grade')

# Tính số lần dự đoán đúng
correct_predictions = np.sum(actual_grades == predicted_grades)

# Tính tỷ lệ chính xác
accuracy = correct_predictions / len(actual_grades) * 100

# In kết quả
print(f"Số lần dự đoán đúng: {correct_predictions}")
print(f"Tổng số dòng: {len(actual_grades)}")
print(f"Tỷ lệ chính xác của mô hình: {accuracy:.2f}%")

Số lần dự đoán đúng: 2201
Tổng số dòng: 5000
Tỷ lệ chính xác của mô hình: 44.02%


Second is practice, this one has only one element is Project.

In [41]:
prac_predictors = ['Projects_Score']

stu_score = knn_predict(stu_score, prac_predictors, 'Grade', k=5)

# Kiểm tra kết quả
stu_score.select('Projects_Score', 'Grade', 'Predicted_Grade').show(5)

Projects_Score,Grade,Predicted_Grade
85.9,F,D
55.65,A,A
73.79,D,A
92.12,A,A
68.42,F,F


In [42]:
# Lấy cột Grade thực tế và Grade dự đoán
actual_grades = stu_score.column('Grade')
predicted_grades = stu_score.column('Predicted_Grade')

# Tính số lần dự đoán đúng
correct_predictions = np.sum(actual_grades == predicted_grades)

# Tính tỷ lệ chính xác
accuracy = correct_predictions / len(actual_grades) * 100

# In kết quả
print(f"Số lần dự đoán đúng: {correct_predictions}")
print(f"Tổng số dòng: {len(actual_grades)}")
print(f"Tỷ lệ chính xác của mô hình: {accuracy:.2f}%")

Số lần dự đoán đúng: 2291
Tổng số dòng: 5000
Tỷ lệ chính xác của mô hình: 45.82%


Third is Exam, include Midterm, Final score.


In [43]:
exam_predictors = ['Midterm_Score', 'Final_Score']

stu_score = knn_predict(stu_score, exam_predictors, 'Grade', k=5)

# Kiểm tra kết quả
stu_score.select('Midterm_Score', 'Final_Score', 'Grade', 'Predicted_Grade').show(5)

Midterm_Score,Final_Score,Grade,Predicted_Grade
55.03,57.82,F,A
97.23,45.8,A,A
67.05,93.68,D,A
47.79,80.63,A,C
46.59,78.89,F,A


In [44]:
# Lấy cột Grade thực tế và Grade dự đoán
actual_grades = stu_score.column('Grade')
predicted_grades = stu_score.column('Predicted_Grade')

# Tính số lần dự đoán đúng
correct_predictions = np.sum(actual_grades == predicted_grades)

# Tính tỷ lệ chính xác
accuracy = correct_predictions / len(actual_grades) * 100

# In kết quả
print(f"Số lần dự đoán đúng: {correct_predictions}")
print(f"Tổng số dòng: {len(actual_grades)}")
print(f"Tỷ lệ chính xác của mô hình: {accuracy:.2f}%")

Số lần dự đoán đúng: 2348
Tổng số dòng: 5000
Tỷ lệ chính xác của mô hình: 46.96%


<!-- END QUESTION -->

<hr style="border: 5px solid #003262;" />
<hr style="border: 1px solid #fdb515;" />

# 3. Linear Regression

In this perious step, we explore that the same score doesn't make the same grade, so that we will answer the question "Is better score make better grade?"

In [45]:
# Chuyển Grade về dạng số
grade_mapping = {"F": 0, "D": 1, "C": 2, "B": 3, "A": 4}
stu_score = stu_score.with_column('Grade_Numeric', [grade_mapping[g] for g in stu_score.column('Grade')])

# Tính hệ số tương quan giữa điểm số và Grade
predictors = ['Midterm_Score', 'Final_Score', 'Assignments_Avg', 'Quizzes_Avg',
              'Participation_Score', 'Projects_Score', 'Total_Score']

for col in predictors:
    corr_value = np.corrcoef(stu_score.column(col), stu_score.column('Grade_Numeric'))[0, 1]
    print(f"Hệ số tương quan giữa {col} và Grade: {corr_value:.2f}")

# Dự đoán Grade bằng hồi quy tuyến tính
def linear_regression(tbl, col1, col2):
    x = tbl.column(col1)
    y = tbl.column(col2)

    m = np.corrcoef(x, y)[0, 1] * (np.std(y) / np.std(x))  # Hệ số góc
    b = np.mean(y) - m * np.mean(x)  # Tung độ gốc

    return m * x + b  # Dự đoán giá trị Grade

# Áp dụng cho Final_Score
predicted_grades = linear_regression(stu_score, 'Final_Score', 'Grade_Numeric')
stu_score = stu_score.with_column('Predicted_Grade_Linear', predicted_grades)

# Xem kết quả
stu_score.select('Final_Score', 'Grade_Numeric', 'Predicted_Grade_Linear').show(5)

Hệ số tương quan giữa Midterm_Score và Grade: -0.01
Hệ số tương quan giữa Final_Score và Grade: -0.03
Hệ số tương quan giữa Assignments_Avg và Grade: nan
Hệ số tương quan giữa Quizzes_Avg và Grade: -0.03
Hệ số tương quan giữa Participation_Score và Grade: -0.02
Hệ số tương quan giữa Projects_Score và Grade: -0.01
Hệ số tương quan giữa Total_Score và Grade: -0.02


Final_Score,Grade_Numeric,Predicted_Grade_Linear
57.82,0,2.30672
45.8,4,2.33573
93.68,1,2.2202
80.63,4,2.25168
78.89,0,2.25588


<!-- END QUESTION -->

<hr style="border: 5px solid #003262;" />
<hr style="border: 1px solid #fdb515;" />

# 4. Conclusion

So that, we can't conclude that Better Score is Better Grade.