# **Điểm chuẩn - Preprocessing**

Preprocessing data điểm chuẩn đã crawl về từ web [huongnghiep.hocmai.vn](https://huongnghiep.hocmai.vn/diem-chuan/)

## **Intro:**
- Bộ dữ liệu raw là các file csv như sau:  

    ```
    CRAWLER-HOCMAI  
    └── data  
        └── full  
            ├── diemchuan2018_full.csv  
            ├── diemchuan2019_full.csv  
            ├── diemchuan2020_full.csv  
            ├── diemchuan2021_full.csv  
            ├── diemchuan2022_full.csv  
            ├── diemchuan2023_full.csv  
    ```
- Tương ứng mỗi file là dữ liệu điểm chuẩn của 1 năm.
- Cấu trúc dữ liệu mỗi file gồm 7 cột `university_code`, `university_name`, `major_code`, `major_name`, `subject_group`, `point`, `note`, `year`. 

    Một mẫu dữ liệu minh hoạ như sau: 
    
| university_code | university_name                 | major_code | major_name               | subject_group       | point | note             | year |
|-----------------|---------------------------------|------------|--------------------------|---------------------|-------|------------------|------|
| UFL-HU          | Đại Học Ngoại Ngữ – Đại Học Huế | 7140234    | Sư phạm Tiếng Trung Quốc | D01, D15, D04, D45  | 24.85 | Tốt nghiệp THPT  | 2023 |
| UFL-HU          | Đại Học Ngoại Ngữ – Đại Học Huế | 7140233    | Sư phạm Tiếng Pháp       | D01, D15, D03, D44  | 19    | Tốt nghiệp THPT  | 2023 |
| UFL-HU          | Đại Học Ngoại Ngữ – Đại Học Huế | 7220204    | Ngôn ngữ Trung Quốc      | D01, D15, D04, D45  | 23    | Tốt nghiệp THPT  | 2023 |
| UFL-HU          | Đại Học Ngoại Ngữ – Đại Học Huế | 7220210    | Ngôn ngữ Hàn Quốc        | D01, D14, D15       | 22.5  | Tốt nghiệp THPT  | 2023 |



## **Target**
- Kiểm tra tính đầy đủ của dữ liệu (về số trường đại học).

- Kiểm tra thiếu dữ liệu của từng dòng.

- Kiểm tra trùng lặp.

- **Phân tách dữ liệu cho từng loại điểm**


## **Start here**

### **import các thư viện**

In [485]:
import pandas as pd
import numpy as np
import os

### **Chỉ định đường dẫn thư mục**

In [486]:
# Directory containing the CSV files
directory = './data/full'


### **Đọc các file csv vào df**

In [487]:
# Dictionary to store DataFrames
dfs = {}
raw = []

# Loop through each file in the directory
for filename in os.listdir(directory):
    if filename.endswith('.csv'):
        # Construct full file path
        file_path = os.path.join(directory, filename)
        
        # Read the CSV file into a DataFrame
        df = pd.read_csv(file_path)
        
        # Store the DataFrame in the dictionary with the filename (without .csv) as the key
        dfs[filename.split('_')[0]] = df
        raw.append(df)

# Display the keys of the dictionary to confirm the DataFrames are loaded
dfs.keys()


dict_keys(['diemchuan2018', 'diemchuan2019', 'diemchuan2020', 'diemchuan2021', 'diemchuan2022', 'diemchuan2023'])

In [488]:
shapes = {name: df.shape for name, df in dfs.items()}
shapes

{'diemchuan2018': (4287, 8),
 'diemchuan2019': (5706, 8),
 'diemchuan2020': (4924, 8),
 'diemchuan2021': (6560, 8),
 'diemchuan2022': (7991, 8),
 'diemchuan2023': (7947, 8)}

In [489]:
full_df = pd.concat(raw, ignore_index=True)
full_df.head()

Unnamed: 0,university_code,university_name,major_code,major_name,subject_group,point,note,year
0,HMU,Đại học Thủ Đô Hà Nội,7140201,Giáo dục Mầm non,"M01, M09",37.58,TTNV ≤ 1Hệ đại học,2018
1,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210208,ĐH Piano,N00,32.0,Năng khiếu nhân 2,2018
2,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7229042,Quản lý văn hoá,R00,32.0,Liên thông (Năng khiếu nhân 2),2018
3,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7140222,Sư phạm Mỹ thuật,H00,32.0,Liên thông (Năng khiếu nhân 2),2018
4,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210403,Thiết kế đồ họa,H00,32.0,Năng khiếu nhân 2,2018


In [490]:
full_df.shape

(37415, 8)

In [491]:
uni_info = pd.read_csv("./data/university/university.csv")
uni_info.drop(columns='url',inplace=True)

In [492]:
full_df = pd.merge(full_df, uni_info, how="left", on=["university_code", "university_name"])
full_df

Unnamed: 0,university_code,university_name,major_code,major_name,subject_group,point,note,year,province,region,admission_code,institution_type
0,HMU,Đại học Thủ Đô Hà Nội,7140201,Giáo dục Mầm non,"M01, M09",37.58,TTNV ≤ 1Hệ đại học,2018,Hà Nội,Miền Bắc,HNM,Công lập
1,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210208,ĐH Piano,N00,32.00,Năng khiếu nhân 2,2018,Hà Nội,Miền Bắc,GNT,Công lập
2,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7229042,Quản lý văn hoá,R00,32.00,Liên thông (Năng khiếu nhân 2),2018,Hà Nội,Miền Bắc,GNT,Công lập
3,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7140222,Sư phạm Mỹ thuật,H00,32.00,Liên thông (Năng khiếu nhân 2),2018,Hà Nội,Miền Bắc,GNT,Công lập
4,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210403,Thiết kế đồ họa,H00,32.00,Năng khiếu nhân 2,2018,Hà Nội,Miền Bắc,GNT,Công lập
...,...,...,...,...,...,...,...,...,...,...,...,...
37410,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220209,Ngôn ngữ Nhật,DGNLHCM,761.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,Công lập
37411,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7310601,Quốc tế học,DGNLHCM,648.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,Công lập
37412,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220203,Ngôn ngữ Pháp,DGNLHCM,643.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,Công lập
37413,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220202,Ngôn ngữ Nga,DGNLHCM,613.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,Công lập


#### Đổi tên các cột lại thành tiếng Việt

In [493]:
# Dictionary to map old column names to new column names
column_mapping = {
    'province': 'Tỉnh/ Thành phố',
    'region': "Khu vực",
    'admission_code': 'Mã trường xét tuyển',
    'university_code': 'Mã Trường',
    'university_name': 'Tên Trường',
    'major_code': 'Mã xét tuyển',
    'major_name': 'Tên Ngành',
    'subject_group': 'Tổ hợp',
    'point': 'Điểm chuẩn',
    'note': 'Ghi chú',
    'year': 'Năm',
    'institution_type': 'Loại đơn vị'
}

# Rename columns for each DataFrame in the dictionary
for name, df in dfs.items():
    df.rename(columns=column_mapping, inplace=True)

full_df.rename(columns=column_mapping, inplace=True)
full_df.head()

Unnamed: 0,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Loại đơn vị
0,HMU,Đại học Thủ Đô Hà Nội,7140201,Giáo dục Mầm non,"M01, M09",37.58,TTNV ≤ 1Hệ đại học,2018,Hà Nội,Miền Bắc,HNM,Công lập
1,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210208,ĐH Piano,N00,32.0,Năng khiếu nhân 2,2018,Hà Nội,Miền Bắc,GNT,Công lập
2,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7229042,Quản lý văn hoá,R00,32.0,Liên thông (Năng khiếu nhân 2),2018,Hà Nội,Miền Bắc,GNT,Công lập
3,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7140222,Sư phạm Mỹ thuật,H00,32.0,Liên thông (Năng khiếu nhân 2),2018,Hà Nội,Miền Bắc,GNT,Công lập
4,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210403,Thiết kế đồ họa,H00,32.0,Năng khiếu nhân 2,2018,Hà Nội,Miền Bắc,GNT,Công lập


In [494]:
full_df = full_df[[ 'Tỉnh/ Thành phố', 'Khu vực', 'Mã trường xét tuyển','Mã Trường', 'Tên Trường','Mã xét tuyển', 'Tên Ngành', 'Tổ hợp', 'Điểm chuẩn', 'Ghi chú', 'Năm', 'Loại đơn vị']]

### **Khám phá dữ liệu**

#### 1. Mỗi dòng có ý nghĩa gì?

In [495]:
full_df.sample(5)

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị
2104,Đắk Lắk,Miền Trung - Tây Nguyên,TTN,TNU,Đại Học Tây Nguyên,7140206,Giáo dục Thể chất,"T00, T02, T03, T07",17.0,,2018,Công lập
24678,Hà Nội,Miền Bắc,ANH,PSA,Học Viện An Ninh Nhân Dân,7860100,Nghiệp vụ An ninh,A00,23.88,Nữ - Địa bàn 1,2022,Công lập
29101,Hồ Chí Minh,Miền Nam,QSX,VNUHCM-USSH,USSH - Đại Học Khoa Học Xã Hội và Nhân Văn – Đ...,7310608,Đông phương học,D01,24.2,Điểm TN THPT,2022,Công lập
12638,Hồ Chí Minh,Miền Nam,MBS,OU,Đại Học Mở TPHCM,7580302,Quản lý xây dựng,"A00, A01, D01, D07",20.0,Xét học bạ,2020,Công lập
20258,Hà Nội,Miền Bắc,ANH,PSA,Học Viện An Ninh Nhân Dân,7480202,An toàn thông tin,A00,24.94,NỮ - Phía Nam,2021,Công lập


Mỗi dòng là thông tin về điểm chuẩn của một ngành, tại một trường, vào một năm cụ thể.

##### Kiểm tra trùng lặp

In [496]:
if len(full_df[full_df.duplicated()]) == 0:
    print(f'Không có dòng nào trùng lặp trong dữ liệu.')
else:
    print(f'Tồn tại {len(full_df[full_df.duplicated()])} dòng bị trùng lặp trong dữ liệu.')

Tồn tại 16 dòng bị trùng lặp trong dữ liệu.


Loại bỏ các dòng trùng

In [497]:
full_df.drop_duplicates(inplace=True)
full_df.reset_index(drop=True, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  full_df.drop_duplicates(inplace=True)


Kiểm tra lại

In [498]:
if len(full_df[full_df.duplicated()]) == 0:
    print(f'Không có dòng nào trùng lặp trong dữ liệu.')
else:
    print(f'Tồn tại {len(full_df[full_df.duplicated()])} dòng bị trùng lặp trong dữ liệu.')

Không có dòng nào trùng lặp trong dữ liệu.


#### 2. Mỗi cột có ý nghĩa gì?

Các cột và thông tin tương ứng:
- `Mã Trường`: Tên viết tắt của trường (Không phải mã trên hệ thống của bộ).

- `Tên Trường`: Tên của Trường đại học.

- `	Mã xét tuyển`: Mã ngành xét tuyển (khác với mã ngành đào tạo)

- `	Tên Ngành`: Tên ngành tuyển sinh.

- `	Tổ hợp`: Các tổ hợp môn xét tuyển.

- `	Điểm chuẩn`: Điểm chuẩn tương ứng với tổ hợp.

- `	Ghi chú`: Ghi chú thêm (thường là thông tin về điều kiện bổ sung, hoặc phương thức xét tuyển).

- `	Năm`: Năm tuyển sinh.

#### 3. Mỗi cột hiện có kiểu dữ liệu gì? Có cột nào có kiểu dữ liệu chưa phù hợp cần xử lý tiếp hay không?

In [499]:
full_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 37399 entries, 0 to 37398
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Tỉnh/ Thành phố      37399 non-null  object 
 1   Khu vực              37399 non-null  object 
 2   Mã trường xét tuyển  37399 non-null  object 
 3   Mã Trường            37399 non-null  object 
 4   Tên Trường           37399 non-null  object 
 5   Mã xét tuyển         37399 non-null  object 
 6   Tên Ngành            37399 non-null  object 
 7   Tổ hợp               37376 non-null  object 
 8   Điểm chuẩn           37399 non-null  float64
 9   Ghi chú              25079 non-null  object 
 10  Năm                  37399 non-null  int64  
 11  Loại đơn vị          37399 non-null  object 
dtypes: float64(1), int64(1), object(10)
memory usage: 3.4+ MB


Các cột có kiểu dữ liệu phù hợp.

#### 4. Với mỗi cột, các giá trị (dạng số, dạng phân loại) được phân bố như thế nào?

##### 4.1. Các cột dạng số

In [500]:
numerical_columns = full_df.select_dtypes(include=['int64', 'float64']).columns
print("Numerical columns:", numerical_columns)

def calculate_missing_ratio(df):
    # Tính tỷ lệ dữ liệu thiếu cho từng cột
    missing_ratios = df.isna().mean() * 100

    # Trả về Series chứa tỷ lệ dữ liệu thiếu cho từng cột
    return missing_ratios

# Gọi hàm tính missing ratio và in kết quả
missing_ratios = calculate_missing_ratio(full_df[numerical_columns])
print('Missing ratio:')
print(missing_ratios)
full_df.describe()

Numerical columns: Index(['Điểm chuẩn', 'Năm'], dtype='object')
Missing ratio:
Điểm chuẩn    0.0
Năm           0.0
dtype: float64


Unnamed: 0,Điểm chuẩn,Năm
count,37399.0,37399.0
mean,74.279991,2020.85751
std,183.144116,1.67799
min,0.0,2018.0
25%,16.0,2019.0
50%,20.0,2021.0
75%,25.1,2022.0
max,1035.0,2023.0


In [501]:
# Tìm và in ra các dòng có dữ liệu thiếu trong cột 'Năm' hoặc cột 'Điểm chuẩn' (nếu có)
missing_rows = full_df[full_df['Năm'].isna() | full_df['Điểm chuẩn'].isna()]
missing_rows

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị


In [502]:
full_df.drop(missing_rows.index, inplace=True)
full_df.reset_index(drop=True, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  full_df.drop(missing_rows.index, inplace=True)


In [503]:
# Tìm và in ra các dòng có dữ liệu thiếu trong cột 'Năm' hoặc cột 'Điểm chuẩn' (nếu có)
missing_rows = full_df[full_df['Năm'].isna() | full_df['Điểm chuẩn'].isna()]
missing_rows

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị


Thấy min của điểm chuẩn là 0 (kỳ lạ) nên ta sẽ xử lý các dòng có điểm chuẩn = 0 một chút.


In [504]:
full_df[full_df['Điểm chuẩn']==0]

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị
4104,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7340405_J1,Hệ thống thông tin quản lý,"A00, A01, D01, D07",0.0,,2018,Công lập
4105,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7340301_J1,Kế toán,"A00, A01, D01, D07",0.0,,2018,Công lập
4106,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7380107_A,Luật,"A00, A01, D07, D08",0.0,Luật kinh tế,2018,Công lập
4107,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7340201_I,Tài chính - Ngân hàng,"A00, A01, D01, D07",0.0,"Liên kết với Đại học Sunderland, Vương quốc Anh",2018,Công lập
4108,Bắc Ninh,Miền Bắc,DBH,BHIU,Đại Học Quốc Tế Bắc Hà,7480201,Công nghệ thông tin,"A00, A01, A02, A10",0.0,,2018,Dân lập
...,...,...,...,...,...,...,...,...,...,...,...,...
37036,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7520212,Kỹ thuật y sinh,"A00, B00, A01, A02, XDHB",0.0,,2023,Dân lập
37038,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7520320,Kỹ thuật môi trường,"A00, B00, A02, C08, XDHB",0.0,,2023,Dân lập
37040,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7720802,Quản trị bệnh viện,"B00, B03, C01, C02, XDHB",0.0,,2023,Dân lập
37042,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7810202,Quản trị nhà hàng và dịch vụ ăn uống,"A00, A01, D01, C00, XDHB",0.0,,2023,Dân lập


In [505]:
# diemchuan_0 = full_df[(full_df['Điểm chuẩn']==0) & (full_df['Ghi chú'].isna())]
diemchuan_0 = full_df[(full_df['Điểm chuẩn']==0)]
diemchuan_0

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị
4104,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7340405_J1,Hệ thống thông tin quản lý,"A00, A01, D01, D07",0.0,,2018,Công lập
4105,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7340301_J1,Kế toán,"A00, A01, D01, D07",0.0,,2018,Công lập
4106,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7380107_A,Luật,"A00, A01, D07, D08",0.0,Luật kinh tế,2018,Công lập
4107,Hà Nội,Miền Bắc,NHH,BA,Học Viện Ngân Hàng,7340201_I,Tài chính - Ngân hàng,"A00, A01, D01, D07",0.0,"Liên kết với Đại học Sunderland, Vương quốc Anh",2018,Công lập
4108,Bắc Ninh,Miền Bắc,DBH,BHIU,Đại Học Quốc Tế Bắc Hà,7480201,Công nghệ thông tin,"A00, A01, A02, A10",0.0,,2018,Dân lập
...,...,...,...,...,...,...,...,...,...,...,...,...
37036,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7520212,Kỹ thuật y sinh,"A00, B00, A01, A02, XDHB",0.0,,2023,Dân lập
37038,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7520320,Kỹ thuật môi trường,"A00, B00, A02, C08, XDHB",0.0,,2023,Dân lập
37040,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7720802,Quản trị bệnh viện,"B00, B03, C01, C02, XDHB",0.0,,2023,Dân lập
37042,Cần Thơ,Miền Nam,DNC,NCTU,Đại học Nam Cần Thơ,7810202,Quản trị nhà hàng và dịch vụ ăn uống,"A00, A01, D01, C00, XDHB",0.0,,2023,Dân lập


In [506]:
shape = full_df.shape

# Drop các dòng có trong diemchuan_0
full_df.drop(diemchuan_0.index, inplace=True)

# Reset lại chỉ số sau khi drop
full_df.reset_index(drop=True, inplace=True)

print(f"Dữ liệu trước xử lý có {shape[0]} dòng và {shape[1]} cột.")
print(f"Dữ liệu   sau xử lý có {full_df.shape[0]} dòng và {full_df.shape[1]} cột.")

Dữ liệu trước xử lý có 37399 dòng và 12 cột.
Dữ liệu   sau xử lý có 36583 dòng và 12 cột.


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  full_df.drop(diemchuan_0.index, inplace=True)


##### 4.2. Các cột dạng phân loại

In [507]:
categorical_columns = full_df.select_dtypes(include=['object']).columns
categorical_columns

Index(['Tỉnh/ Thành phố', 'Khu vực', 'Mã trường xét tuyển', 'Mã Trường',
       'Tên Trường', 'Mã xét tuyển', 'Tên Ngành', 'Tổ hợp', 'Ghi chú',
       'Loại đơn vị'],
      dtype='object')

In [508]:
def calculate_column_profile(column):
    missing_ratio = len(column[column.isna()]) * 100 / len(column)
    num_diff_vals = len(column.dropna().unique())
    diff_vals = column.dropna().unique()
    return pd.Series([missing_ratio, num_diff_vals, diff_vals], index=['missing_ratio', 'num_diff_vals', 'diff_vals'])

cate_col_profiles_df = full_df[categorical_columns].agg(calculate_column_profile)
cate_col_profiles_df

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Ghi chú,Loại đơn vị
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,31.853593,0.0
num_diff_vals,52,3,277,256,289,2567,675,2486,5227,2
diff_vals,"[Hà Nội, Hồ Chí Minh, Bình Định, Vĩnh Phúc, Ng...","[Miền Bắc, Miền Nam, Miền Trung - Tây Nguyên]","[HNM, GNT, MTH, NHF, KHA, SPS, SPK, DNT, BPH, ...","[HMU, NUAE, VUFA, HANU, NEU, HCMUE, HCMUTE, HU...","[Đại học Thủ Đô Hà Nội, Đại Học Sư Phạm Nghệ T...","[7140201, 7210208, 7229042, 7140222, 7210403, ...","[Giáo dục Mầm non, ĐH Piano, Quản lý văn hoá, ...","[M01, M09, N00, R00, H00, Hình hoạ bố cục, D01...","[TTNV ≤ 1Hệ đại học, Năng khiếu nhân 2, Liên t...","[Công lập, Dân lập]"


Mục tiêu của nhóm là trực quan về dữ liệu điểm chuẩn của các trường và các ngành bậc Đại học, nên sẽ loại bỏ các dòng thông tin về bậc cao đẳng/ trung cấp,..

In [509]:
shape = full_df.shape

# Drop rows where 'Ghi chú' contains 'ao đẳng' (case-insensitive)
condition1 = (full_df['Ghi chú'].str.contains('ao đẳng', case=False, na=False))
full_df = full_df.loc[~condition1]

# Drop rows where 'Ghi chú' contains 'CAO ĐẲNG' (case-insensitive)
condition2 = (full_df['Ghi chú'].str.contains('CAO ĐẲNG', case=False, na=False))
full_df = full_df.loc[~condition2]

# Drop rows where 'Mã xét tuyển' contains any of the specified codes
condition3 = (full_df['Mã xét tuyển'].str.contains('51140', na=False) |
              full_df['Mã xét tuyển'].str.contains('52210', na=False) |
              full_df['Mã xét tuyển'].str.contains('51120', na=False) |
              full_df['Mã xét tuyển'].str.contains('52220', na=False) |
              full_df['Mã xét tuyển'].str.contains('52310', na=False) |
              full_df['Mã xét tuyển'].str.contains('52340', na=False) |
              full_df['Mã xét tuyển'].str.contains('52380', na=False) |
              full_df['Mã xét tuyển'].str.contains('52510', na=False) |
              full_df['Mã xét tuyển'].str.contains('51402', na=False) |
              full_df['Mã xét tuyển'].str.contains('521', na=False) |
              full_df['Mã xét tuyển'].str.contains('5620', na=False) |
              full_df['Mã xét tuyển'].str.contains('5340', na=False) |
              full_df['Mã xét tuyển'].str.contains('5480', na=False) |
              full_df['Mã xét tuyển'].str.contains('5510', na=False) |
              full_df['Mã xét tuyển'].str.contains('6210', na=False) |
              full_df['Mã xét tuyển'].str.contains('6220', na=False) |
              full_df['Mã xét tuyển'].str.contains('6510', na=False) |
              full_df['Mã xét tuyển'].str.contains('6340', na=False) |
              full_df['Mã xét tuyển'].str.contains('6480', na=False) |
              full_df['Mã xét tuyển'].str.contains('6540', na=False) |
              full_df['Mã xét tuyển'].str.contains('6620', na=False) |
              full_df['Mã xét tuyển'].str.contains('6640', na=False) |
              full_df['Mã xét tuyển'].str.contains('6760', na=False) |
              full_df['Mã xét tuyển'].str.contains('6810', na=False) |
              full_df['Mã xét tuyển'].str.contains('6320', na=False) |
              full_df['Mã xét tuyển'].str.contains('x', na=False))
full_df = full_df.loc[~condition3]

# Reset lại chỉ số sau khi drop
full_df.reset_index(drop=True, inplace=True)

print(f"Dữ liệu trước xử lý có {shape[0]} dòng và {shape[1]} cột.")
print(f"Dữ liệu   sau xử lý có {full_df.shape[0]} dòng và {full_df.shape[1]} cột.")

Dữ liệu trước xử lý có 36583 dòng và 12 cột.
Dữ liệu   sau xử lý có 36133 dòng và 12 cột.


In [510]:
full_df.to_csv('./data/raw.csv', encoding='utf-8-sig', index = False)

### **Tiền xử lý dữ liệu**

#### **1. Thêm các cột thông tin về ngành và nhóm ngành**

Mục tiêu: Thêm 4 cột "`Mã nhóm ngành`, `Nhóm ngành`, `Mã phân ngành`, `Phân ngành` dựa trên thông tin lưu trong file: `./data/university/major_info.csv`
> Vì mã xét tuyển do từng trường quy định riêng, không thống nhất và, không cung cấp thông tin tổng quát. Bổ sung 4 cột thông tin như trên sẽ giúp ích nhiều cho việc phân nhóm ngành và truyền tải thông tin hiệu quả hơn.

In [511]:
major_info = pd.read_csv("./data/university/major_info.csv")

full_df = pd.merge(full_df, major_info, how="left", on=["Mã xét tuyển", "Tên Ngành"])
full_df

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị,Mã nhóm ngành,Nhóm ngành,Mã phân ngành,Phân ngành
0,Hà Nội,Miền Bắc,HNM,HMU,Đại học Thủ Đô Hà Nội,7140201,Giáo dục Mầm non,"M01, M09",37.58,TTNV ≤ 1Hệ đại học,2018,Công lập,714,Khoa học giáo dục và đào tạo giáo viên,71402,Đào tạo giáo viên
1,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210208,ĐH Piano,N00,32.00,Năng khiếu nhân 2,2018,Công lập,721,Nghệ thuật,72102,Nghệ thuật trình diễn
2,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7229042,Quản lý văn hoá,R00,32.00,Liên thông (Năng khiếu nhân 2),2018,Công lập,722,Nhân văn,72290,Nhân văn - Khác
3,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7140222,Sư phạm Mỹ thuật,H00,32.00,Liên thông (Năng khiếu nhân 2),2018,Công lập,714,Khoa học giáo dục và đào tạo giáo viên,71402,Đào tạo giáo viên
4,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210403,Thiết kế đồ họa,H00,32.00,Năng khiếu nhân 2,2018,Công lập,721,Nghệ thuật,72104,Mỹ thuật ứng dụng
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36417,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220209,Ngôn ngữ Nhật,DGNLHCM,761.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,722,Nhân văn,72202,"Ngôn ngữ, văn học và văn hóa nước ngoài"
36418,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7310601,Quốc tế học,DGNLHCM,648.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,731,Khoa học xã hội và hành vi,73106,Khu vực học
36419,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220203,Ngôn ngữ Pháp,DGNLHCM,643.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,722,Nhân văn,72202,"Ngôn ngữ, văn học và văn hóa nước ngoài"
36420,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220202,Ngôn ngữ Nga,DGNLHCM,613.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,722,Nhân văn,72202,"Ngôn ngữ, văn học và văn hóa nước ngoài"


In [512]:
full_df.to_csv('./data/preprocessing/diemchuan_collapsed.csv', encoding='utf-8-sig', index = False)
full_df.to_excel("./data/preprocessing/diemchuan_collapsed.xlsx", index=False)

#### **2. Tách cột Tổ hợp**

In [513]:
# Tách cột "Tổ hợp" theo dấu phẩy và tạo các dòng mới
df_expanded = full_df.assign(subject_group=full_df['Tổ hợp'].str.split(', ')).explode('subject_group')
df_expanded.reset_index(drop=True, inplace=True)
df_expanded

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Điểm chuẩn,Ghi chú,Năm,Loại đơn vị,Mã nhóm ngành,Nhóm ngành,Mã phân ngành,Phân ngành,subject_group
0,Hà Nội,Miền Bắc,HNM,HMU,Đại học Thủ Đô Hà Nội,7140201,Giáo dục Mầm non,"M01, M09",37.58,TTNV ≤ 1Hệ đại học,2018,Công lập,714,Khoa học giáo dục và đào tạo giáo viên,71402,Đào tạo giáo viên,M01
1,Hà Nội,Miền Bắc,HNM,HMU,Đại học Thủ Đô Hà Nội,7140201,Giáo dục Mầm non,"M01, M09",37.58,TTNV ≤ 1Hệ đại học,2018,Công lập,714,Khoa học giáo dục và đào tạo giáo viên,71402,Đào tạo giáo viên,M09
2,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7210208,ĐH Piano,N00,32.00,Năng khiếu nhân 2,2018,Công lập,721,Nghệ thuật,72102,Nghệ thuật trình diễn,N00
3,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7229042,Quản lý văn hoá,R00,32.00,Liên thông (Năng khiếu nhân 2),2018,Công lập,722,Nhân văn,72290,Nhân văn - Khác,R00
4,Hà Nội,Miền Bắc,GNT,NUAE,Đại Học Sư Phạm Nghệ Thuật Trung Ương,7140222,Sư phạm Mỹ thuật,H00,32.00,Liên thông (Năng khiếu nhân 2),2018,Công lập,714,Khoa học giáo dục và đào tạo giáo viên,71402,Đào tạo giáo viên,H00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113387,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220209,Ngôn ngữ Nhật,DGNLHCM,761.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,722,Nhân văn,72202,"Ngôn ngữ, văn học và văn hóa nước ngoài",DGNLHCM
113388,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7310601,Quốc tế học,DGNLHCM,648.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,731,Khoa học xã hội và hành vi,73106,Khu vực học,DGNLHCM
113389,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220203,Ngôn ngữ Pháp,DGNLHCM,643.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,722,Nhân văn,72202,"Ngôn ngữ, văn học và văn hóa nước ngoài",DGNLHCM
113390,Đà Nẵng,Miền Trung - Tây Nguyên,DDF,UFLS,Đại Học Ngoại Ngữ – Đại Học Đà Nẵng,7220202,Ngôn ngữ Nga,DGNLHCM,613.00,Đánh giá năng lực Đại học Quốc gia TPHCM,2023,Công lập,722,Nhân văn,72202,"Ngôn ngữ, văn học và văn hóa nước ngoài",DGNLHCM


In [514]:
condition3 = (df_expanded['subject_group'] == 'XDHB') & (df_expanded['Tổ hợp'].str.contains(', XDHB', na=False))
df_expanded.drop(df_expanded[condition3].index, inplace=True)
df_expanded.reset_index(drop=True, inplace=True)

#### **3. Xem xét lại dữ liệu sau khi explode**

In [515]:
categorical_columns = df_expanded.select_dtypes(include=['object']).columns
cate_col_profiles_df = df_expanded[categorical_columns].agg(calculate_column_profile)
cate_col_profiles_df

Unnamed: 0,Tỉnh/ Thành phố,Khu vực,Mã trường xét tuyển,Mã Trường,Tên Trường,Mã xét tuyển,Tên Ngành,Tổ hợp,Ghi chú,Loại đơn vị,Nhóm ngành,Mã phân ngành,Phân ngành,subject_group
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,31.10109,0.0,0.0,0.0,0.0,0.0
num_diff_vals,52,3,276,255,288,2407,661,2451,5135,2,24,83,84,234
diff_vals,"[Hà Nội, Hồ Chí Minh, Bình Định, Vĩnh Phúc, Ng...","[Miền Bắc, Miền Nam, Miền Trung - Tây Nguyên]","[HNM, GNT, NHF, KHA, SPS, SPK, DNT, BPH, DQN, ...","[HMU, NUAE, HANU, NEU, HCMUE, HCMUTE, HUFLIT, ...","[Đại học Thủ Đô Hà Nội, Đại Học Sư Phạm Nghệ T...","[7140201, 7210208, 7229042, 7140222, 7210403, ...","[Giáo dục Mầm non, ĐH Piano, Quản lý văn hoá, ...","[M01, M09, N00, R00, H00, D01, C00, D14, D15, ...","[TTNV ≤ 1Hệ đại học, Năng khiếu nhân 2, Liên t...","[Công lập, Dân lập]","[Khoa học giáo dục và đào tạo giáo viên, Nghệ ...","[71402, 72102, 72290, 72104, 72202, 78102, 781...","[Đào tạo giáo viên, Nghệ thuật trình diễn, Nhâ...","[M01, M09, N00, R00, H00, D01, C00, D14, D15, ..."


#### **4. Phân lớp loại điểm (phương thức xét tuyển)**

In [516]:
# Tạo cột 'Loại điểm'
df_expanded['Loại điểm'] = ''

# Loại học bạ
df_expanded.loc[(df_expanded['Ghi chú']=='Xét học bạ')|(df_expanded['Ghi chú'].str.contains('Học bạ', na=False))|(df_expanded['Ghi chú'].str.contains('Phương thức điểm học bạ THPT', na=False))|(df_expanded['Tổ hợp'].str.contains('XDHB', na=False)), 'Loại điểm'] = 'Học bạ'

# Cập nhật 'Loại điểm' DGNLHN
df_expanded.loc[(df_expanded['Tổ hợp'].str.contains('DGNLQGHN', na=False)),  'Loại điểm'] = 'DGNLQGHN'
# Cập nhật 'Loại điểm' DGTD - Đánh giá tư duy
df_expanded.loc[(df_expanded['Tổ hợp'].str.contains('DGTD', na=False))| df_expanded['Ghi chú'].str.contains('DGTD', na=False), 'Loại điểm'] = 'DGTD'
# Cập nhật 'Loại điểm' DGNLHCM
df_expanded.loc[(df_expanded['Tổ hợp'] == 'DGNLHCM') | ((df_expanded['Tổ hợp'] == 'DGNL') & (df_expanded['Điểm chuẩn'] >= 400)), 'Loại điểm'] = 'DGNLHCM'
# Cập nhật 'Loại điểm' BKHCM
df_expanded.loc[(df_expanded['Ghi chú'].str.contains('Xét kết hợp điểm hợp ĐGNL, TN THPT, và học bạ', na=False))|
                (df_expanded['Ghi chú'].str.contains('Tốt nghiệp THPT; Điểm thi TN THPT theo tổ hợp xét tuyển x 3', na=False)),  'Loại điểm'] = 'BKHCM'

df_expanded.loc[df_expanded['Loại điểm'] == '', 'Loại điểm'] = 'THPTQG'
# df_expanded

In [517]:
# Tạo DataFrame để xem xét range "Điểm chuẩn" của từng loại điểm
info_diemchuan_df = df_expanded.groupby('Loại điểm')['Điểm chuẩn'].agg(['min', 'max', 'mean']).reset_index()
info_diemchuan_df

Unnamed: 0,Loại điểm,min,max,mean
0,BKHCM,54.0,79.84,61.569163
1,DGNLHCM,16.83,1035.0,642.91208
2,DGNLQGHN,5.08,150.0,47.804674
3,DGTD,14.0,83.97,25.391635
4,Học bạ,5.0,106.0,20.734222
5,THPTQG,2.0,39.92,19.155662


In [520]:
# Điều kiện 1: Nếu Loại điểm = "DGNLHN" và Điểm chuẩn < 50 thì sửa loại điểm là "DGNLHN - Quy đổi"
df_expanded.loc[(df_expanded['Loại điểm'] == 'DGNLQGHN') & (df_expanded['Điểm chuẩn'] < 50), 'Loại điểm'] = 'DGNLQGHN - Quy đổi'

# Điều kiện 2: Nếu Loại điểm = "DGNLHCM" và Điểm chuẩn < 400 thì sửa loại điểm là "DGNLHCM - Quy đổi"
df_expanded.loc[(df_expanded['Loại điểm'] == 'DGNLHCM') & (df_expanded['Điểm chuẩn'] < 400), 'Loại điểm'] = 'DGNLHCM - Quy đổi'

# Điều kiện 3: Nếu Loại điểm = "THPTQG" và (Ghi chú có "Thang điểm 40" hoặc các điều kiện khác) thì sửa loại điểm là "THPTQG - Thang 40"
df_expanded.loc[
    (df_expanded['Loại điểm'] == 'THPTQG') & (
        df_expanded['Ghi chú'].str.contains('Thang điểm 40', na=False) |
        df_expanded['Ghi chú'].str.contains('thang điểm 40', na=False) |
        df_expanded['Ghi chú'].str.contains('Thang 40', na=False) |
        df_expanded['Ghi chú'].str.contains('thang 40', na=False) |
        df_expanded['Ghi chú'].str.contains('hệ số 2', na=False) |
        df_expanded['Ghi chú'].str.contains('x2', na=False) |
        df_expanded['Ghi chú'].str.contains('×2', na=False) |
        df_expanded['Ghi chú'].str.contains('X2', na=False) |
        df_expanded['Ghi chú'].str.contains('nhân đôi', na=False) |
        df_expanded['Ghi chú'].str.contains('nhân 2', na=False) |
        ((df_expanded['Tên Trường'] == 'Đại Học Tôn Đức Thắng') & (df_expanded['Năm'] != 2018)) |
        (df_expanded['Tên Trường'] == 'Đại học Thủ Đô Hà Nội') |
        (df_expanded['Tên Trường'] == 'Đại Học Sư Phạm Nghệ Thuật Trung Ương') |
        ((df_expanded['Tên Trường'] == 'Viện Đại Học Mở Hà Nội') & 
         df_expanded['Tên Ngành'].isin(['Kiến trúc', 'Quản trị dịch vụ du lịch và lữ hành', 
                                        'Quản trị khách sạn', 'Ngôn ngữ Anh', 'Ngôn ngữ Trung Quốc'])) |
        ((df_expanded['Tên Trường'] == 'Đại Học Hà Nội') & 
         ~df_expanded['Tên Ngành'].isin(['Công nghệ thông tin', 'Truyền thông Đa phương tiện'])) |
        ((df_expanded['Điểm chuẩn'] > 30) & 
         (df_expanded['Tên Trường'] != 'Đại Học Hồng Đức')) |
        ((df_expanded['Tên Trường'] == 'Học Viện Báo Chí – Tuyên Truyền') &
         df_expanded['Tên Ngành'].isin(['Báo chí', 'Quan hệ quốc tế', 'Quan hệ công chúng', 'Ngôn ngữ Anh', 'Truyền thông quốc tế', 'Quảng cáo'])) |
        ((df_expanded['Tên Trường'] == 'Học Viện Tài Chính') & 
         (df_expanded['Tên Ngành'] == 'Ngôn ngữ Anh'))
    ), 'Loại điểm'] = 'THPTQG - Thang 40'


# Điều kiện 4: Nếu Loại điểm = "DGTD" và Điểm chuẩn < 30 thì sửa loại điểm là "DGTD - Quy đổi"
df_expanded.loc[(df_expanded['Loại điểm'] == 'DGTD') & (df_expanded['Điểm chuẩn'] < 30), 'Loại điểm'] = 'DGTD - Quy đổi'


#### **6. Sắp xếp lại thứ tự các cột**

In [521]:
df_expanded.drop(columns = ['Tổ hợp'], inplace=True)
df_expanded.rename(columns={'subject_group': 'Tổ hợp'}, inplace=True)
df_expanded = df_expanded[['Khu vực', 'Tỉnh/ Thành phố', 
                           'Mã trường xét tuyển', 'Mã Trường', 'Tên Trường', 'Loại đơn vị', 
                           'Mã nhóm ngành', 'Nhóm ngành', 'Mã phân ngành', 'Phân ngành', 
                           'Mã xét tuyển', 'Tên Ngành', 'Loại điểm', 'Tổ hợp', 'Điểm chuẩn', 'Ghi chú', 'Năm']]

In [522]:
df_expanded.to_excel("./data/diemchuan_full.xlsx", index=False)