# **Chuẩn Hóa Dữ Liệu Graduate Info**


---

##  **Các Hàm Chuẩn Hóa**

### 1. `clean_student_id(value)`
### 2. `clean_full_name(value)`
### 3. `clean_major(value)` + `major_mapping`
### 4. `clean_grad_year(value)`
## **Quy Trình Chuẩn Hóa**

```
1. Load file → grad_raw (DataFrame)
   ↓
2. Copy dữ liệu → grad_clean = grad_raw.copy()
   ↓
3. Áp dụng hàm chuẩn hóa cho từng cột:
   - grad_clean['student_id'].apply(clean_student_id)
   - grad_clean['full_name'].apply(clean_full_name)
   - grad_clean['major'].apply(clean_major)
   - grad_clean['grad_year'].apply(clean_grad_year)
   ↓
4. Chuyển kiểu dữ liệu → .astype('Int64') cho grad_year
   ↓
5. Output: grad_clean (Dữ liệu chuẩn hóa)
```

---

##  **Các Phương Thức Pandas Sử Dụng**

| Phương Thức | Mục Đích |
|-----------|---------|
| `.apply(function)` | Áp dụng hàm cho từng phần tử trong Series |
| `.astype('Int64')` | Chuyển kiểu dữ liệu thành Int64 (hỗ trợ NULL) |
| `.copy()` | Tạo bản sao độc lập của DataFrame |
| `.head(10)` | Hiển thị 10 dòng đầu tiên |
| `.dtypes` | Kiểm tra kiểu dữ liệu của từng cột |
| `.read_csv()` | Load dữ liệu từ file CSV |

In [13]:
#   NHẬP THƯ VIỆN  
import pandas as pd
import numpy as np

#   ĐỊNH NGHĨA CÁC HÀM CHUẨN HÓA  

# 1. Chuẩn hóa student_id
def clean_student_id(value):
    """
    Chuẩn hóa mã sinh viên bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Chuyển thành chữ HOA
    """
    if pd.isna(value):
        return value
    return str(value).strip().upper()

# 2. Chuẩn hóa full_name
def clean_full_name(value):
    """
    Chuẩn hóa tên tiếng Việt bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Chuẩn hóa khoảng cách giữa các từ (chỉ còn 1 khoảng trắng)
    - Định dạng chữ hoa đầu mỗi từ
    """
    if pd.isna(value):
        return value
    # Xóa khoảng trắng đầu/cuối
    text = str(value).strip()
    # Chuẩn hóa khoảng trắng giữa các từ
    text = ' '.join(text.split())
    # Chuyển sang định dạng chữ hoa đầu từ
    return text.title()

# 3. Từ điển ánh xạ cho trường major
major_mapping = {
    'qtkd': 'Quản trị kinh doanh',
    'quan tri kinh doanh': 'Quản trị kinh doanh',
    'kinh te': 'Kinh tế',
    'kinh tế': 'Kinh tế',
    'cntt': 'Công nghệ thông tin',
    'cong nghe thong tin': 'Công nghệ thông tin',
    'công nghệ thông tin': 'Công nghệ thông tin'
}

# 4. Chuẩn hóa major
def clean_major(value):
    """
    Chuẩn hóa tên ngành học bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Chuẩn hóa khoảng cách giữa các từ
    - Ánh xạ các biến thể về giá trị chuẩn qua từ điển
    """
    if pd.isna(value):
        return value
    # Chuẩn hóa khoảng trắng: strip + chuẩn hóa khoảng trắng giữa các từ
    text = ' '.join(str(value).strip().split()).lower()
    # Ánh xạ giá trị, nếu không có trong từ điển thì giữ nguyên (đã làm sạch)
    return major_mapping.get(text, ' '.join(str(value).strip().split()))

# 5. Chuẩn hóa grad_year
def clean_grad_year(value):
    """
    Chuẩn hóa năm tốt nghiệp bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Trích xuất 4 chữ số đầu tiên (năm)
    - Chuyển sang kiểu Int64 (cho phép giá trị null)
    """
    if pd.isna(value):
        return pd.NA
    text = str(value).strip()
    # Trích xuất 4 chữ số đầu tiên
    year_str = ''.join(c for c in text if c.isdigit())[:4]
    try:
        return pd.NA if year_str == '' else int(year_str)
    except:
        return pd.NA

print("✓ Đã định nghĩa xong 4 hàm chuẩn hóa dữ liệu")

#   ĐỌC DỮ LIỆU THÔ  
grad_raw = pd.read_csv('data_raw/graduate_info.csv')

print("\n Dữ liệu TRƯỚC khi chuẩn hóa (10 dòng đầu):")
print(grad_raw.head(10))
print("\n" + "="*80 + "\n")

#   ÁP DỤNG CHUẨN HÓA  
grad_clean = grad_raw.copy()

grad_clean['student_id'] = grad_clean['student_id'].apply(clean_student_id)
grad_clean['full_name'] = grad_clean['full_name'].apply(clean_full_name)
grad_clean['major'] = grad_clean['major'].apply(clean_major)
grad_clean['grad_year'] = grad_clean['grad_year'].apply(clean_grad_year).astype('Int64')

print(" Dữ liệu SAU khi chuẩn hóa (10 dòng đầu):")
print(grad_clean.head(10))

#   KIỂM TRA KIỂU DỮ LIỆU  
print("\n Kiểu dữ liệu của từng cột sau chuẩn hóa:")
print(grad_clean.dtypes)

print("\n" + "="*80)
print(" QUY TRÌNH CHUẨN HÓA HOÀN TẤT!")
print(f"Số dòng dữ liệu: {len(grad_clean)}")
print(f"Số cột dữ liệu: {len(grad_clean.columns)}")

✓ Đã định nghĩa xong 4 hàm chuẩn hóa dữ liệu

 Dữ liệu TRƯỚC khi chuẩn hóa (10 dòng đầu):
  student_id     full_name                major grad_year
0     SV4000  Nguyen van A              Kinh te      2022
1     SV4001  pham   thi d                qtkd       2023
2     SV4002   LE   VAN  C              Kinh tế      2021
3    SV4003   Nguyen van A                cntt       2022
4    SV4004   Nguyen van A                 QTKD      2021
5    SV4005   pham   thi d                qtkd       2023
6    SV4006   pham   thi d                 QTKD      2022
7     SV4007   LE   VAN  C  Quan tri kinh doanh     2022a
8     sv4008  pham   thi d             kinh  te      2023
9     SV4009  Nguyen van A                 QTKD      2023


 Dữ liệu SAU khi chuẩn hóa (10 dòng đầu):
  student_id     full_name                major  grad_year
0     SV4000  Nguyen Van A              Kinh tế       2022
1     SV4001    Pham Thi D  Quản trị kinh doanh       2023
2     SV4002      Le Van C              Kinh tế    