# **Chuẩn Hóa Dữ Liệu Graduate Info**


---

##  **Các Hàm Chuẩn Hóa**

### 1. `clean_student_id(value)`
### 2. `clean_full_name(value)`
### 3. `clean_major(value)` + `major_mapping`
### 4. `clean_grad_year(value)`
## **Quy Trình Chuẩn Hóa**

```
1. Load file → grad_raw (DataFrame)
   ↓
2. Copy dữ liệu → grad_clean = grad_raw.copy()
   ↓
3. Áp dụng hàm chuẩn hóa cho từng cột:
   - grad_clean['student_id'].apply(clean_student_id)
   - grad_clean['full_name'].apply(clean_full_name)
   - grad_clean['major'].apply(clean_major)
   - grad_clean['grad_year'].apply(clean_grad_year)
   ↓
4. Chuyển kiểu dữ liệu → .astype('Int64') cho grad_year
   ↓
5. Output: grad_clean (Dữ liệu chuẩn hóa)
```

---

##  **Các Phương Thức Pandas Sử Dụng**

| Phương Thức | Mục Đích |
|-----------|---------|
| `.apply(function)` | Áp dụng hàm cho từng phần tử trong Series |
| `.astype('Int64')` | Chuyển kiểu dữ liệu thành Int64 (hỗ trợ NULL) |
| `.copy()` | Tạo bản sao độc lập của DataFrame |
| `.head(10)` | Hiển thị 10 dòng đầu tiên |
| `.dtypes` | Kiểm tra kiểu dữ liệu của từng cột |
| `.read_csv()` | Load dữ liệu từ file CSV |

In [14]:
#   NHẬP THƯ VIỆN  
import pandas as pd
import numpy as np

#   ĐỊNH NGHĨA CÁC HÀM CHUẨN HÓA  

# 1. Chuẩn hóa student_id
def clean_student_id(value):
    """
    Chuẩn hóa mã sinh viên bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Chuyển thành chữ HOA
    """
    if pd.isna(value):
        return value
    return str(value).strip().upper()

# 2. Chuẩn hóa full_name
def clean_full_name(value):
    """
    Chuẩn hóa tên tiếng Việt bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Chuẩn hóa khoảng cách giữa các từ (chỉ còn 1 khoảng trắng)
    - Định dạng chữ hoa đầu mỗi từ
    """
    if pd.isna(value):
        return value
    # Xóa khoảng trắng đầu/cuối
    text = str(value).strip()
    # Chuẩn hóa khoảng trắng giữa các từ
    text = ' '.join(text.split())
    # Chuyển sang định dạng chữ hoa đầu từ
    return text.title()

# 3. Từ điển ánh xạ cho trường major
major_mapping = {
    'qtkd': 'Quản trị kinh doanh',
    'quan tri kinh doanh': 'Quản trị kinh doanh',
    'kinh te': 'Kinh tế',
    'kinh tế': 'Kinh tế',
    'cntt': 'Công nghệ thông tin',
    'cong nghe thong tin': 'Công nghệ thông tin',
    'công nghệ thông tin': 'Công nghệ thông tin'
}

# 4. Chuẩn hóa major
def clean_major(value):
    """
    Chuẩn hóa tên ngành học bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Chuẩn hóa khoảng cách giữa các từ
    - Ánh xạ các biến thể về giá trị chuẩn qua từ điển
    """
    if pd.isna(value):
        return value
    # Chuẩn hóa khoảng trắng: strip + chuẩn hóa khoảng trắng giữa các từ
    text = ' '.join(str(value).strip().split()).lower()
    # Ánh xạ giá trị, nếu không có trong từ điển thì giữ nguyên (đã làm sạch)
    return major_mapping.get(text, ' '.join(str(value).strip().split()))

# 5. Chuẩn hóa grad_year
def clean_grad_year(value):
    """
    Chuẩn hóa năm tốt nghiệp bằng cách:
    - Xóa khoảng trắng thừa ở đầu/cuối
    - Trích xuất 4 chữ số đầu tiên (năm)
    - Chuyển sang kiểu Int64 (cho phép giá trị null)
    """
    if pd.isna(value):
        return pd.NA
    text = str(value).strip()
    # Trích xuất 4 chữ số đầu tiên
    year_str = ''.join(c for c in text if c.isdigit())[:4]
    try:
        return pd.NA if year_str == '' else int(year_str)
    except:
        return pd.NA

print("✓ Đã định nghĩa xong 4 hàm chuẩn hóa dữ liệu")

#   ĐỌC DỮ LIỆU THÔ  
grad_raw = pd.read_csv('data_raw/graduate_info.csv')

print("\n Dữ liệu TRƯỚC khi chuẩn hóa (10 dòng đầu):")
print(grad_raw.head(10))
print("\n" + "="*80 + "\n")

#   ÁP DỤNG CHUẨN HÓA  
grad_clean = grad_raw.copy()

grad_clean['student_id'] = grad_clean['student_id'].apply(clean_student_id)
grad_clean['full_name'] = grad_clean['full_name'].apply(clean_full_name)
grad_clean['major'] = grad_clean['major'].apply(clean_major)
grad_clean['grad_year'] = grad_clean['grad_year'].apply(clean_grad_year).astype('Int64')

print(" Dữ liệu SAU khi chuẩn hóa (10 dòng đầu):")
print(grad_clean.head(10))

#   KIỂM TRA KIỂU DỮ LIỆU  
print("\n Kiểu dữ liệu của từng cột sau chuẩn hóa:")
print(grad_clean.dtypes)

print("\n" + "="*80)
print(" QUY TRÌNH CHUẨN HÓA HOÀN TẤT!")
print(f"Số dòng dữ liệu: {len(grad_clean)}")
print(f"Số cột dữ liệu: {len(grad_clean.columns)}")

✓ Đã định nghĩa xong 4 hàm chuẩn hóa dữ liệu

 Dữ liệu TRƯỚC khi chuẩn hóa (10 dòng đầu):
  student_id     full_name                major grad_year
0     SV4000  Nguyen van A              Kinh te      2022
1     SV4001  pham   thi d                qtkd       2023
2     SV4002   LE   VAN  C              Kinh tế      2021
3    SV4003   Nguyen van A                cntt       2022
4    SV4004   Nguyen van A                 QTKD      2021
5    SV4005   pham   thi d                qtkd       2023
6    SV4006   pham   thi d                 QTKD      2022
7     SV4007   LE   VAN  C  Quan tri kinh doanh     2022a
8     sv4008  pham   thi d             kinh  te      2023
9     SV4009  Nguyen van A                 QTKD      2023


 Dữ liệu SAU khi chuẩn hóa (10 dòng đầu):
  student_id     full_name                major  grad_year
0     SV4000  Nguyen Van A              Kinh tế       2022
1     SV4001    Pham Thi D  Quản trị kinh doanh       2023
2     SV4002      Le Van C              Kinh tế    

# **Chuẩn Hóa Dữ Liệu Employment_Survey**

## **Các Hàm Chuẩn Hóa**

### 1. **`clean_survey_year(v)`**
### 2. **`clean_salary(v)`**
## **Quy Trình Chuẩn Hóa (Rút Gọn)**

```
1. Đọc dữ liệu → df = pd.read_csv('data_raw/employment_survey.csv')
   ↓
2. Áp dụng hàm chuẩn hóa:
   df_clean = df.copy()
   df_clean['salary'] = df_clean['salary'].apply(clean_salary).astype('Int64')
   df_clean['survey_year'] = df_clean['survey_year'].apply(clean_survey_year).astype('Int64')
**Kết quả:** DataFrame `df_clean` với 2 cột `salary` và `survey_year` đã được chuẩn hóa, kiểu dữ liệu `Int64` hỗ trợ giá trị null (`pd.NA`).

In [15]:
# Đọc dữ liệu
df = pd.read_csv('data_raw/employment_survey.csv')

# Hàm chuẩn hóa survey_year
def clean_survey_year(v):
    if pd.isna(v): return pd.NA
    digits = ''.join(c for c in str(v).strip() if c.isdigit())[:4]
    return int(digits) if len(digits)==4 and 1900<=int(digits)<=2100 else pd.NA

# Hàm chuẩn hóa salary
def clean_salary(v):
    if pd.isna(v): return pd.NA
    
    # Loại bỏ ký hiệu tiền tệ và dấu phẩy
    s = str(v).replace('đ', '').replace(',', '')
    
    # Xử lý dấu chấm phân cách hàng nghìn
    if s.count('.') > 1: s = s.replace('.', '')
    # Cho phép dấu âm ở đầu chuỗi
    if s.startswith('-'):
        digits = '-' + ''.join(c for c in s[1:] if c.isdigit() or c == '.')
    else:
        digits = ''.join(c for c in s if c.isdigit() or c == '.')
    
    # Loại bỏ dấu chấm thập phân nếu có
    if '.' in digits:
        digits = digits.split('.')[0]
    
    if not digits or digits == '-':
        return pd.NA
        # Chuyển sang số
    try:
        val = int(digits)
    except ValueError:
        return pd.NA
    
    # Xử lý số âm
    if val < 0: 
        return 0
    
    # Điều chỉnh đơn vị
    if 0 < val < 15000: 
        val *= 1000
    
    return val
def clean_job_title(value):
    """Chuẩn hóa chức danh"""
    if pd.isna(value):
        return '[UNKNOWN_JOB]'
    
    job_mapping = {
        'developer': 'Developer',
        'data analyst': 'Data Analyst',
        'business analyst': 'Business Analyst',
        'tester': 'Tester',
        ' developer': 'Developer',
        'data analyst ': 'Data Analyst'
    }
    
    text = str(value).strip()
    text = ' '.join(text.split())
    text_lower = text.lower()
    
    return job_mapping.get(text_lower, text.title())
def clean_company(value):
    """Chuẩn hóa tên công ty"""
    if pd.isna(value):
        return '[UNKNOWN_COMPANY]'
    
    company_mapping = {
        'fpt': 'FPT',
        'viet tel': 'Viettel',
        'viettel': 'Viettel',
        'vnpt': 'VNPT',
        'fpt ': 'FPT',
        'vnpt ': 'VNPT'
    }
    
    text = str(value).strip()
    text = ' '.join(text.split())
    text_lower = text.lower()
    
    return company_mapping.get(text_lower, text.title())
def extract_year(year_str):
    """Trích xuất năm từ chuỗi"""
    year_str = str(year_str).strip()
    digits = ''
    for char in year_str:
        if char.isdigit():
            digits += char
            if len(digits) == 4:
                break
        elif len(digits) == 0:
            continue
        else:
            break
    return digits

def validate_year(year_str):
    """Kiểm tra tính hợp lệ của năm"""
    if year_str == '' or len(year_str) != 4 or not year_str.isdigit():
        return np.nan
    
    year_int = int(year_str)
    if 1980 <= year_int <= 2025:
        return year_int
    return np.nan

# Hiển thị trước chuẩn hóa
print("TRƯỚC CHUẨN HÓA:")
print(df.head(10))
print("\n" + "="*80)

# Áp dụng chuẩn hóa
df_clean = df.copy()
df_clean['salary'] = df_clean['salary'].apply(clean_salary).astype('Int64')
df_clean['survey_year'] = df_clean['survey_year'].apply(clean_survey_year).astype('Int64')

# Hiển thị sau chuẩn hóa
print("\nSAU CHUẨN HÓA:")
print(df_clean.head(10))

TRƯỚC CHUẨN HÓA:
  student_id         job_title       salary   company survey_year
0     SV4077         Developer  10,000,000đ       FPT       2022a
1     sv4081         Developer          800  viet tel        2022
2     SV4067      Data Analyst          800      fpt         2022
3     SV4041         Developer         -500       FPT        2022
4     SV4077            Tester         -500  viet tel        2023
5     SV4039      Data Analyst         1200      vnpt        2023
6     SV4056      Data Analyst         -500      fpt         2023
7     SV4057         Developer   9.000.000       fpt         2022
8     SV4080  Business Analyst         1000   Viettel        2022
9     SV4009      Data Analyst   9.000.000       fpt         2023


SAU CHUẨN HÓA:
  student_id         job_title    salary   company  survey_year
0     SV4077         Developer  10000000       FPT         2022
1     sv4081         Developer    800000  viet tel         2022
2     SV4067      Data Analyst    800000      fp

# **Chuẩn Hóa Dữ Liệu Graduate Info, Employment Survey và Certifications**

## **Mục Đích**
Chuẩn hóa và xử lý dữ liệu từ ba nguồn khác nhau để đảm bảo tính nhất quán, xử lý giá trị thiếu, sai kiểu dữ liệu và ký tự đặc biệt cho việc phân tích sau này.
## **Các Hàm Chuẩn Hóa Chính**
### 1. **`clean_student_id(value)`**
### 2. **`clean_full_name(value)`**
### 3. **`clean_major(value)`**
### 4. **`clean_grad_year(value)`**
### 5. **`clean_survey_year(value)`**
### 6. **`clean_salary(value)`**
### 7. **`clean_company(value)`**
### 8. **`clean_job_title(value)`**
### 9. **`clean_certificate_name(value)`**
### 10. **`extract_year(year_str)` & `validate_year(year_str)`**
---
## **Quy Trình Xử Lý Từng File**

### **File graduate_info.csv**
```
1. Đọc: 'data_raw/graduate_info.csv'
2. Chuẩn hóa: student_id, full_name, major, grad_year
3. Loại bỏ student_id rỗng
4. Kiểm tra trùng lặp → Cảnh báo và giữ bản ghi đầu
5. Lưu valid_student_ids
6. Hiển thị kết quả
```

### **File employment_survey.csv**
```
1. Đọc: 'data_raw/employment_survey.csv'
2. Chuẩn hóa: student_id, job_title, company, salary, survey_year
3. Loại bỏ student_id rỗng
4. Chỉ giữ student_id có trong graduate_info
5. Hiển thị kết quả
```

### **File certifications.csv**
```
1. Đọc: 'data_raw/certifications.csv'
2. Chuẩn hóa: student_id, certificate_name, issued_year
3. Loại bỏ student_id rỗng
4. Chỉ giữ student_id có trong graduate_info
5. Hiển thị kết quả
```



In [16]:
# XỬ LÝ CÁC FILE DỮ LIỆU

print("BẮT ĐẦU XỬ LÝ DỮ LIỆU...")
print("=" * 60)

# 1. Xử lý graduate_info.csv
print("\n1. XỬ LÝ FILE graduate_info.csv")
try:
    # Đọc dữ liệu gốc
    grad_raw = pd.read_csv('data_raw/graduate_info.csv')
    print(f"   Đã đọc {len(grad_raw)} dòng dữ liệu")
    
    # Tạo bản sao để chuẩn hóa
    grad_df = grad_raw.copy()
    
    # Hiển thị 10 dòng gốc
    print("\n   10 DÒNG DỮ LIỆU GỐC:")
    print("   " + "-" * 50)
    print(grad_raw.head(10).to_string().replace('\n', '\n   '))
    
    # Chuẩn hóa dữ liệu - SỬ DỤNG CÁC HÀM ĐÃ CÓ
    grad_df['student_id'] = grad_df['student_id'].apply(clean_student_id)
    grad_df['full_name'] = grad_df['full_name'].apply(clean_full_name)
    grad_df['major'] = grad_df['major'].apply(clean_major)
    grad_df['grad_year'] = grad_df['grad_year'].apply(clean_grad_year).astype('Int64')
    
    # Xử lý giá trị thiếu - loại bỏ dòng có student_id rỗng
    initial_count = len(grad_df)
    grad_df = grad_df[~grad_df['student_id'].isna()]
    grad_df = grad_df[grad_df['student_id'] != '']
    removed_count = initial_count - len(grad_df)
    
    print(f"\n   Đã loại bỏ {removed_count} dòng có student_id rỗng")
    
    # Kiểm tra tính duy nhất - ID trùng lặp
    duplicate_rows = grad_df[grad_df.duplicated('student_id', keep=False)]
    if len(duplicate_rows) > 0:
        print(f"   CẢNH BÁO: Phát hiện {len(duplicate_rows)} dòng có student_id trùng lặp")
        print("   Các ID trùng lặp:", duplicate_rows['student_id'].unique())
        
        # Xử lý trùng lặp - giữ lại bản ghi đầu tiên
        grad_df = grad_df.drop_duplicates(subset='student_id', keep='first')
        print(f"   Đã loại bỏ {len(duplicate_rows) - grad_df.duplicated('student_id').sum()} bản ghi trùng lặp")
    else:
        print("    Không có student_id trùng lặp ")
    
    print(f"   Dữ liệu sau xử lý: {len(grad_df)} dòng")
    
    # Lưu danh sách student_id hợp lệ 
    valid_student_ids = set(grad_df['student_id'].tolist())
    
    # Hiển thị 10 dòng đã chuẩn hóa
    print("\n   10 DÒNG DỮ LIỆU ĐÃ CHUẨN HÓA:")
    print("   " + "-" * 50)
    print(grad_df.head(10).to_string().replace('\n', '\n   '))
    
    # Kiểm tra kiểu dữ liệu student_id
    print("\n   Kiểu dữ liệu sau chuẩn hóa (student_id phải là String):")
    print(f"     student_id: {grad_df['student_id'].dtype}")
    for col in ['full_name', 'major', 'grad_year']:
        print(f"     {col}: {grad_df[col].dtype}")
    
except Exception as e:
    print(f"   Lỗi khi xử lý graduate_info.csv: {e}")

# 2. Xử lý employment_survey.csv
print("\n\n2. XỬ LÝ FILE employment_survey.csv")
try:
    # Đọc dữ liệu gốc
    survey_raw = pd.read_csv('data_raw/employment_survey.csv')
    print(f"   Đã đọc {len(survey_raw)} dòng dữ liệu")
    
    # Tạo bản sao để chuẩn hóa
    survey_df = survey_raw.copy()
    
    # Hiển thị 10 dòng gốc
    print("\n   10 DÒNG DỮ LIỆU GỐC:")
    print("   " + "-" * 50)
    print(survey_raw.head(10).to_string().replace('\n', '\n   '))
    
    # Chuẩn hóa dữ liệu - SỬ DỤNG CÁC HÀM ĐÃ CÓ
    survey_df['student_id'] = survey_df['student_id'].apply(clean_student_id)
    survey_df['job_title'] = survey_df['job_title'].apply(clean_job_title)
    survey_df['company'] = survey_df['company'].apply(clean_company)
    survey_df['salary'] = survey_df['salary'].apply(clean_salary).astype('Int64')
    survey_df['survey_year'] = survey_df['survey_year'].apply(clean_survey_year).astype('Int64')
    
    # Xử lý giá trị thiếu - loại bỏ dòng có student_id rỗng
    initial_count = len(survey_df)
    survey_df = survey_df[~survey_df['student_id'].isna()]
    survey_df = survey_df[survey_df['student_id'] != '']
    removed_count = initial_count - len(survey_df)
    
    print(f"\n   Đã loại bỏ {removed_count} dòng có student_id rỗng")
    
    # Kiểm tra tính toàn vẹn liên kết (Referential Integrity)
    initial_ref_count = len(survey_df)
    survey_df = survey_df[survey_df['student_id'].isin(valid_student_ids)]
    removed_ref_count = initial_ref_count - len(survey_df)
    
    print(f"   Đã loại bỏ {removed_ref_count} dòng có student_id không tồn tại trong graduate_info")
    print(f"   Dữ liệu sau xử lý: {len(survey_df)} dòng")
    
    # Hiển thị 10 dòng đã chuẩn hóa
    print("\n   10 DÒNG DỮ LIỆU ĐÃ CHUẨN HÓA:")
    print("   " + "-" * 50)
    print(survey_df.head(10).to_string().replace('\n', '\n   '))
    
except Exception as e:
    print(f"   Lỗi khi xử lý employment_survey.csv: {e}")

# 3. Xử lý certifications.csv
print("\n\n3. XỬ LÝ FILE certifications.csv")
try:
    # Đọc dữ liệu gốc
    cert_raw = pd.read_csv('data_raw/certifications.csv')
    print(f"   Đã đọc {len(cert_raw)} dòng dữ liệu")
    
    # Tạo bản sao để chuẩn hóa
    cert_df = cert_raw.copy()
    
    # Hiển thị 10 dòng gốc
    print("\n   10 DÒNG DỮ LIỆU GỐC:")
    print("   " + "-" * 50)
    print(cert_raw.head(10).to_string().replace('\n', '\n   '))
    
    # Chuẩn hóa dữ liệu - SỬ DỤNG CÁC HÀM ĐÃ CÓ
    cert_df['student_id'] = cert_df['student_id'].apply(clean_student_id)
    cert_df['certificate_name'] = cert_df['certificate_name'].apply(clean_certificate_name)
    cert_df['issued_year'] = cert_df['issued_year'].apply(extract_year).apply(validate_year).astype('Int64')
    
    # Xử lý giá trị thiếu - loại bỏ dòng có student_id rỗng
    initial_count = len(cert_df)
    cert_df = cert_df[~cert_df['student_id'].isna()]
    cert_df = cert_df[cert_df['student_id'] != '']
    removed_count = initial_count - len(cert_df)
    
    print(f"\n   Đã loại bỏ {removed_count} dòng có student_id rỗng")
    
    # Kiểm tra tính toàn vẹn 
    initial_ref_count = len(cert_df)
    cert_df = cert_df[cert_df['student_id'].isin(valid_student_ids)]
    removed_ref_count = initial_ref_count - len(cert_df)
    
    print(f"   Đã loại bỏ {removed_ref_count} dòng có student_id không tồn tại trong graduate_info")
    print(f"   Dữ liệu sau xử lý: {len(cert_df)} dòng")
    
    # Hiển thị 10 dòng đã chuẩn hóa
    print("\n   10 DÒNG DỮ LIỆU ĐÃ CHUẨN HÓA:")
    print("   " + "-" * 50)
    print(cert_df.head(10).to_string().replace('\n', '\n   '))
    
except Exception as e:
    print(f"   Lỗi khi xử lý certifications.csv: {e}")

BẮT ĐẦU XỬ LÝ DỮ LIỆU...

1. XỬ LÝ FILE graduate_info.csv
   Đã đọc 100 dòng dữ liệu

   10 DÒNG DỮ LIỆU GỐC:
   --------------------------------------------------
  student_id     full_name                major grad_year
   0     SV4000  Nguyen van A              Kinh te      2022
   1     SV4001  pham   thi d                qtkd       2023
   2     SV4002   LE   VAN  C              Kinh tế      2021
   3    SV4003   Nguyen van A                cntt       2022
   4    SV4004   Nguyen van A                 QTKD      2021
   5    SV4005   pham   thi d                qtkd       2023
   6    SV4006   pham   thi d                 QTKD      2022
   7     SV4007   LE   VAN  C  Quan tri kinh doanh     2022a
   8     sv4008  pham   thi d             kinh  te      2023
   9     SV4009  Nguyen van A                 QTKD      2023

   Đã loại bỏ 0 dòng có student_id rỗng
    Không có student_id trùng lặp 
   Dữ liệu sau xử lý: 100 dòng

   10 DÒNG DỮ LIỆU ĐÃ CHUẨN HÓA:
   ------------------------