## Import các thư viện cần thiết

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

---

## Thu thập dữ liệu

Ta dùng bộ dữ liệu được thu thập sẵn, lấy ở trang archive.ics.uci.edu qua đường link [tại đây](https://archive.ics.uci.edu/ml/datasets/Student+Performance).

Ta được phép sử dụng bộ dữ liệu này cho mục đích học tập.

Trích dẫn:
> P. Cortez and A. Silva. Using Data Mining to Predict Secondary School Student Performance. In A. Brito and J. Teixeira Eds., Proceedings of 5th FUture BUsiness TEChnology Conference (FUBUTEC 2008) pp. 5-12, Porto, Portugal, April, 2008, EUROSIS, ISBN 978-9077381-39-7.

Theo mô tả dữ liệu:
> This data approach student achievement in secondary education of two Portuguese schools. The data attributes include student grades, demographic, social and school related features) and it was collected by using school reports and questionnaires. Two datasets are provided regarding the performance in two distinct subjects: Mathematics (mat) and Portuguese language (por). In [Cortez and Silva, 2008], the two datasets were modeled under binary/five-level classification and regression tasks. Important note: the target attribute G3 has a strong correlation with attributes G2 and G1. This occurs because G3 is the final year grade (issued at the 3rd period), while G1 and G2 correspond to the 1st and 2nd period grades. It is more difficult to predict G3 without G2 and G1, but such prediction is much more useful (see paper source for more details).

Trong bài này, vì môn `Mathematics` và `Portuguese` không liên quan đến nhau nên ta chỉ sử dụng bộ dữ liệu thể hiện `Performance Student` trong môn học `Mathematics`

---

## Khám phá dữ liệu

### Đọc dữ liệu từ file csv vào dataframe

In [2]:
mat_df = pd.read_csv("student-mat.csv", delimiter=';')
mat_df.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


### Dữ liệu gồm bao nhiều dòng, bao nhiêu cột?

In [3]:
num_rows = mat_df.shape[0]
num_cols = mat_df.shape[1]
print('Số dòng: ', num_rows)
print('Số cột: ', num_cols)

Số dòng:  395
Số cột:  33


### Mỗi dòng có ý nghĩa gì? Có vấn đề các dòng có ý nghĩa khác nhau không?

Mỗi dòng tương ứng với thông tin (thông tin cá nhân, điểm) của một học sinh tham gia lớp Toán của hai trường được thu thập dữ liệu. Có vẻ như không xảy ra các dòng có ý nghĩa khác nhau

### Dữ liệu có các dòng bị lặp không?

In [4]:
duplicated_rows = mat_df.duplicated().sum()
if duplicated_rows > 0:
    print("Số dòng lặp: ", duplicated_rows)
else:
    print("Không có dòng lặp")

Không có dòng lặp


Vậy là không có dòng lặp bị lặp trong bộ dữ liệu

### Mỗi cột có ý nghĩa gì?

Dưới đây là phần mô tả dữ liệu trong file `student.txt` về các cột trong file dữ liệu "student-mat.csv"

- **school**: student's school (binary: 'GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)
- **sex**: student's sex (binary: 'F' - female or 'M' - male)
- **age**: student's age (numeric: from 15 to 22)
- **address**: student's home address type (binary: 'U' - urban or 'R' - rural)
- **famsize**: family size (binary: 'LE3' - less or equal to 3 or 'GT3' - greater than 3)
- **Pstatus**: parent's cohabitation status (binary: 'T' - living together or 'A' - apart)
- **Medu**: mother's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
- **Fedu**: father's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
- **Mjob**: mother's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')
- **Fjob**: father's job (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other')
- **reason**: reason to choose this school (nominal: close to 'home', school 'reputation', 'course' preference or 'other')
- **guardian**: student's guardian (nominal: 'mother', 'father' or 'other')
- **traveltime**: home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
- **studytime**: weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
- **failures**: number of past class failures (numeric: n if 1<=n<3, else 4)
- **schoolsup**: extra educational support (binary: yes or no)
- **famsup**: family educational support (binary: yes or no)
- **paid**: extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)
- **activities**: extra-curricular activities (binary: yes or no)
- **nursery**: attended nursery school (binary: yes or no)
- **higher**: wants to take higher education (binary: yes or no)
- **internet**: Internet access at home (binary: yes or no)
- **romantic**: with a romantic relationship (binary: yes or no)
- **famrel**: quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
- **freetime**: free time after school (numeric: from 1 - very low to 5 - very high)
- **goout**: going out with friends (numeric: from 1 - very low to 5 - very high)
- **Dalc**: workday alcohol consumption (numeric: from 1 - very low to 5 - very high)
- **Walc**: weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)
- **health**: current health status (numeric: from 1 - very bad to 5 - very good)
- **absences**: number of school absences (numeric: from 0 to 93)
- **G1**: first period grade (numeric: from 0 to 20)
- **G2**: second period grade (numeric: from 0 to 20)
- **G3**: final grade (numeric: from 0 to 20, output target)

### Mỗi cột hiện đang có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp để có thể xử lý tiếp không? 

Giờ ta xem qua kiểu dữ liệu của các cột nhằm phát hiện cột có kiểu dữ liệu chưa phù hợp

In [5]:
mat_df.dtypes

school        object
sex           object
age            int64
address       object
famsize       object
Pstatus       object
Medu           int64
Fedu           int64
Mjob          object
Fjob          object
reason        object
guardian      object
traveltime     int64
studytime      int64
failures       int64
schoolsup     object
famsup        object
paid          object
activities    object
nursery       object
higher        object
internet      object
romantic      object
famrel         int64
freetime       int64
goout          int64
Dalc           int64
Walc           int64
health         int64
absences       int64
G1             int64
G2             int64
G3             int64
dtype: object

**Liệu có vấn đề về kiểu dữ liệu ở những cột có dtype là object ?**

Các cột như "school", "sex", "address", ... đang có kiểu dữ liệu là `object`. Vì kiểu dữ liệu `object` có thể chứa một đối tượng bất kỳ trong python nên các phần tử trong mỗi cột có thể sẽ có các kiểu dữ liệu khác nhau (ta giả sử điều này và cần đi chứng minh). Ta duyệt qua các cột có kiểu dữ liệu là `object` và mong chờ mỗi cột chỉ có một kiểu dữ liệu duy nhất và kiểu đó là `string`

In [6]:
def open_object_dtype(s):
    dtypes = set()
    dtypes.update(set(s.apply(type)))
    return list(dtypes)


obj_cols = mat_df.select_dtypes(include=['object']).columns
mat_df[obj_cols].agg(open_object_dtype).T

Unnamed: 0,0
school,<class 'str'>
sex,<class 'str'>
address,<class 'str'>
famsize,<class 'str'>
Pstatus,<class 'str'>
Mjob,<class 'str'>
Fjob,<class 'str'>
reason,<class 'str'>
guardian,<class 'str'>
schoolsup,<class 'str'>


Vậy là mọi thứ đều tạm ổn.

Theo file `student.txt` các cột này chứa kiểu dữ liệu `binary` hoặc `nominal`, ta có thể chuyển các dữ liệu về dạng số (0,1,2,...) nếu cần xử lý bằng các thuật toán máy học. Ở đây, nhằm trực quan và dễ quan sát (con người có thể đọc được)thì ta có thể kiểu dữ liệu của các cột về dạng string.

In [7]:
mat_df[obj_cols] = mat_df[obj_cols].astype("string")
mat_df[obj_cols].dtypes

school        string
sex           string
address       string
famsize       string
Pstatus       string
Mjob          string
Fjob          string
reason        string
guardian      string
schoolsup     string
famsup        string
paid          string
activities    string
nursery       string
higher        string
internet      string
romantic      string
dtype: object

### Sự phân bố giá trị của mỗi cột

#### Với mỗi cột có kiểu dữ liệu dạng numeric, các giá trị được phân bố như thế nào?

Theo mô tả trong file `student.txt` và qua quan sát kiểu dữ liệu ở mỗi cột, các cột có kiểu dữ liệu dạng `numeric` là các cột có kiểu dữ liệu `int64`

In [8]:
nume_cols = mat_df.select_dtypes(include=['int64']).columns
nume_cols

Index(['age', 'Medu', 'Fedu', 'traveltime', 'studytime', 'failures', 'famrel',
       'freetime', 'goout', 'Dalc', 'Walc', 'health', 'absences', 'G1', 'G2',
       'G3'],
      dtype='object')

Với các cột có kiểu dữ liệu số, ta tính:

- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu
- Giá trị min
- Giá trị lower quartile (phân vị 25)
- Giá trị median (phân vị 50)
- Giá trị upper quartile (phân vị 75)
- Giá trị max

Các giá trị được làm tròn đến chữ số thập phân thứ 2

In [9]:
index_nume_cols =["missing_percentage", "min", "lower_quartile", "mean", "median", "upper_quartile", "max"]

data_nume_col= [
    (mat_df[nume_cols].isna().mean()*100).round(2),
    mat_df[nume_cols].min().round(2),
    mat_df[nume_cols].quantile(.25).round(2),
    mat_df[nume_cols].mean().round(2),
    mat_df[nume_cols].median().round(2),
    mat_df[nume_cols].quantile(.75).round(2),
    mat_df[nume_cols].max().round(2)
]

nume_col_info_df = pd.DataFrame(data = data_nume_col, columns = nume_cols, index= index_nume_cols)
nume_col_info_df

Unnamed: 0,age,Medu,Fedu,traveltime,studytime,failures,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
missing_percentage,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
min,15.0,0.0,0.0,1.0,1.0,0.0,1.0,1.0,1.0,1.0,1.0,1.0,0.0,3.0,0.0,0.0
lower_quartile,16.0,2.0,2.0,1.0,1.0,0.0,4.0,3.0,2.0,1.0,1.0,3.0,0.0,8.0,9.0,8.0
mean,16.7,2.75,2.52,1.45,2.04,0.33,3.94,3.24,3.11,1.48,2.29,3.55,5.71,10.91,10.71,10.42
median,17.0,3.0,2.0,1.0,2.0,0.0,4.0,3.0,3.0,1.0,2.0,4.0,4.0,11.0,11.0,11.0
upper_quartile,18.0,4.0,3.0,2.0,2.0,0.0,5.0,4.0,4.0,2.0,3.0,5.0,8.0,13.0,13.0,14.0
max,22.0,4.0,4.0,4.0,4.0,3.0,5.0,5.0,5.0,5.0,5.0,5.0,75.0,19.0,19.0,20.0


Vậy không có giá trị thiếu ở các cột !

Đa số các cột numeric được chuẩn hóa về các số dạng các choice (1,2,3,...) theo khoảng đã quy định trước, nên `mean` của các cột đó sẽ chỉ có ý nghĩa ở mức tương đối

Ví dụ:
- **Medu**: mother's education (numeric: 0 - none, 1 - primary education (4th grade), 2 - “ 5th to 9th grade, 3 - “ secondary education or 4 - “ higher education)
- `mean` của **Medu** là 2.749367


#### Với mỗi cột có kiểu dữ liệu dạng categorical, các giá trị được phân bố như thế nào?

Theo mô tả trong file `student.txt` và qua quan sát kiểu dữ liệu ở mỗi cột, các cột có kiểu dữ liệu dạng `categorical` là các cột có kiểu dữ liệu `string`

In [10]:
cate_cols = mat_df.select_dtypes(include=['string']).columns
cate_cols

Index(['school', 'sex', 'address', 'famsize', 'Pstatus', 'Mjob', 'Fjob',
       'reason', 'guardian', 'schoolsup', 'famsup', 'paid', 'activities',
       'nursery', 'higher', 'internet', 'romantic'],
      dtype='object')

Với các cột có kiểu dữ liệu dạng `categorical`, ta cần tính:

- Tỉ lệ % (từ 0 đến 100) các giá trị thiếu
- Số lượng các giá trị khác nhau (không xét giá trị thiếu):
- Tỉ lệ % (từ 0 đến 100) của mỗi giá trị được sort theo tỉ lệ % giảm dần (không xét giá trị thiếu)

In [11]:
index_cate_cols = ["missing_percentage", "num_values", "value_percentages"]


def count_value_percentages(data):
    return (data.value_counts()/data.count() *100).to_dict()


data_cate_col= np.array([
    (mat_df[cate_cols].isna().mean() *100),
    mat_df[cate_cols].nunique(),
    mat_df[cate_cols].agg(count_value_percentages)
])

cate_col_info_df2 = pd.DataFrame(data = data_cate_col, columns = cate_cols, index= index_cate_cols)

cate_col_info_df2

Unnamed: 0,school,sex,address,famsize,Pstatus,Mjob,Fjob,reason,guardian,schoolsup,famsup,paid,activities,nursery,higher,internet,romantic
missing_percentage,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
num_values,2,2,2,2,2,5,5,4,3,2,2,2,2,2,2,2,2
value_percentages,"{'GP': 88.35443037974684, 'MS': 11.64556962025...","{'F': 52.65822784810127, 'M': 47.34177215189874}","{'U': 77.72151898734178, 'R': 22.278481012658226}","{'GT3': 71.13924050632912, 'LE3': 28.860759493...","{'T': 89.62025316455696, 'A': 10.379746835443038}","{'other': 35.69620253164557, 'services': 26.07...","{'other': 54.936708860759495, 'services': 28.1...","{'course': 36.708860759493675, 'home': 27.5949...","{'mother': 69.11392405063292, 'father': 22.784...","{'no': 87.0886075949367, 'yes': 12.91139240506...","{'yes': 61.26582278481013, 'no': 38.7341772151...","{'no': 54.177215189873415, 'yes': 45.822784810...","{'yes': 50.8860759493671, 'no': 49.11392405063...","{'yes': 79.49367088607595, 'no': 20.5063291139...","{'yes': 94.9367088607595, 'no': 5.063291139240...","{'yes': 83.29113924050633, 'no': 16.7088607594...","{'no': 66.58227848101265, 'yes': 33.4177215189..."


Vậy các cột catgorical cũng không có giá trị thiếu nào