### Thành viên và phần trăm đóng góp

| STT | Họ và Tên        | MSSV        | Phần trăm đóng góp |
|-----|------------------|-------------|--------------------|
| 2   | Trần Khả Ái      | 030238220001   | 100% |
| 5   | Nguyễn Trương Hữu Duy | 030238220028 | 100% |
| 31  | Nguyễn Thị Hồng Nhung | 030238220173 | 100% |
| 36  | Nguyễn Thị Phong | 030238220189 | 100% |
| 56  | Trần Thị Kim Yến | 030238220311 | 100% |

# **Phần 1: Xây dựng Dashboard trực quan**

**Giới thiệu về thông tin tổng quan về tập dữ liệu**
- Kích thước: Số lượng bảng ghi (dòng), số lượng biến (cột)
- Phân loại biến: Các loại biến (categorical/ numerical)
- Thống kê mô tả: cho 2 nhóm biến
- Kiểm tra dữ liệu thiếu
- Phát hiện dữ liệu outlier

(Làm sạch dữ liệu nếu có phát hiện vấn đề)

### **Import các thư viện cần thiết**

In [1]:
import pandas as pd
import numpy as np

### **Tải và đọc dataset**

In [2]:
df = pd.read_csv("StudentsPerformance.csv")
df

Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
0,female,group B,bachelor's degree,standard,none,72,72,74
1,female,group C,some college,standard,completed,69,90,88
2,female,group B,master's degree,standard,none,90,95,93
3,male,group A,associate's degree,free/reduced,none,47,57,44
4,male,group C,some college,standard,none,76,78,75
...,...,...,...,...,...,...,...,...
995,female,group E,master's degree,standard,completed,88,99,95
996,male,group C,high school,free/reduced,none,62,55,55
997,female,group C,high school,free/reduced,completed,59,71,65
998,female,group D,some college,standard,completed,68,78,77


### **Thông tin tổng quan về tập dữ liệu**

In [3]:
print("Kích thước dữ liệu (số dòng, số cột):", df.shape)

Kích thước dữ liệu (số dòng, số cột): (1000, 8)


### **Phân loại biến: categorical và numerical**

In [4]:
categorical_cols = df.select_dtypes(include='object').columns.tolist()
numerical_cols = df.select_dtypes(include='number').columns.tolist()
print("Biến phân loại (categorical):", categorical_cols)
print("Biến số (numerical):", numerical_cols)

Biến phân loại (categorical): ['gender', 'race/ethnicity', 'parental level of education', 'lunch', 'test preparation course']
Biến số (numerical): ['math score', 'reading score', 'writing score']


### **Thống kê mô tả**

In [5]:
#Biến số
print("Thống kê mô tả cho biến số:")
print(df[numerical_cols].describe())

#Biến phân loại
print("\nThống kê mô tả cho biến phân loại:")
print(df[categorical_cols].describe())

Thống kê mô tả cho biến số:
       math score  reading score  writing score
count  1000.00000    1000.000000    1000.000000
mean     66.08900      69.169000      68.054000
std      15.16308      14.600192      15.195657
min       0.00000      17.000000      10.000000
25%      57.00000      59.000000      57.750000
50%      66.00000      70.000000      69.000000
75%      77.00000      79.000000      79.000000
max     100.00000     100.000000     100.000000

Thống kê mô tả cho biến phân loại:
        gender race/ethnicity parental level of education     lunch  \
count     1000           1000                        1000      1000   
unique       2              5                           6         2   
top     female        group C                some college  standard   
freq       518            319                         226       645   

       test preparation course  
count                     1000  
unique                       2  
top                       none  
freq            

### **Kiểm tra dữ liệu thiếu**

In [6]:
print("Số lượng giá trị thiếu trên mỗi cột:")
print(df.isnull().sum())

Số lượng giá trị thiếu trên mỗi cột:
gender                         0
race/ethnicity                 0
parental level of education    0
lunch                          0
test preparation course        0
math score                     0
reading score                  0
writing score                  0
dtype: int64


### **Phát hiện dữ liệu outlier bằng IQR cho các biến số**

In [7]:
# Tính IQR cho các biến số
Q1 = df[numerical_cols].quantile(0.25)
Q3 = df[numerical_cols].quantile(0.75)
IQR = Q3 - Q1
outlier = ((df[numerical_cols] < (Q1 - 1.5 * IQR)) |
           (df[numerical_cols] > (Q3 + 1.5 * IQR)))

# Đếm số lượng outlier theo từng biến
outliers = outlier.sum()
print("Số lượng outlier trên mỗi biến số:")
print(outliers)

Số lượng outlier trên mỗi biến số:
math score       8
reading score    6
writing score    5
dtype: int64


In [8]:
outlier_rows = outlier.any(axis=1)
outlier_data = df[outlier_rows]

# Hiển thị các dòng dữ liệu có outlier
print("\nCác dòng dữ liệu chứa ít nhất một outlier:")
outlier_data


Các dòng dữ liệu chứa ít nhất một outlier:


Unnamed: 0,gender,race/ethnicity,parental level of education,lunch,test preparation course,math score,reading score,writing score
17,female,group B,some high school,free/reduced,none,18,32,28
59,female,group C,some high school,free/reduced,none,0,17,10
76,male,group E,some high school,standard,none,30,26,22
145,female,group C,some college,free/reduced,none,22,39,33
211,male,group C,some college,free/reduced,none,35,28,27
327,male,group A,some college,free/reduced,none,28,23,19
338,female,group B,some high school,free/reduced,none,24,38,27
466,female,group D,associate's degree,free/reduced,none,26,31,38
596,male,group B,high school,free/reduced,none,30,24,15
787,female,group B,some college,standard,none,19,38,32
