In [1]:
import pandas as pd
import numpy as np
from datetime import datetime

# 1. สร้าง DataFrame จากข้อมูล

In [2]:
data = {
    'student_id': [64001, 64002, 64003, 64004, 64005, 64006, 64007, 64008, 64009, 64010,
                   64011, 64012, 64013, 64014, 64015, 64016, 64017, 64018, 64019, 64020],
    'name': ['สมชาย', 'สมหญิง', None, 'สมศักดิ์', 'สมใจ', 'กานต์', 'กิตติ', 'จิรา', 'ชนาธิป', 'ดารา',
             'ธีระ', 'นภา', 'บุญมี', 'ปรีชา', 'พิมพ์', 'ภูมิ', 'มานี', 'ยุพา', 'รัตนา', 'ลัดดา'],
    'age': [20.0, 21.0, None, 22.0, 19.0, 150.0, 21.0, 20.0, 23.0, 21.0,
            None, 22.0, 20.0, 21.0, 22.0, 19.0, 20.0, 21.0, None, 22.0],
    'gender': ['ชาย', 'หญิง', 'Male', 'ช', 'ญ', 'ชาย', 'หญิง', 'F', 'M', 'หญิง',
               None, 'ชาย', 'หญิง', 'ชาย', 'Female', 'ช', 'ญ', 'หญิง', 'ชาย', None],
    'faculty': ['วิทยาศาสตร์', 'วิทย์', 'Science', 'คณะวิทยาศาสตร์', 'วิศวะ', 'Engineering', 'วิศวกรรม', 'ศิลปศาสตร์', 'Arts', 'ศิลป์',
                None, 'วิทย์', 'วิศวฯ', 'Liberal Arts', 'Sci', 'วิทยาศาสตร์', 'วิศวกรรมศาสตร์', None, 'ศิลปศาสตร์', 'Science'],
    'GPA': [3.21, 3.45, 3.67, -1.0, 3.89, 3.12, 4.5, 2.98, 3.34, 3.56,
            3.78, None, 3.23, 3.45, 3.67, 3.89, 3.01, 3.23, None, 3.45],
    'height_cm': [170, 165, 175, 168, 160, 172, 158, 180, 163, 167,
                  None, 171, 169, 164, 162, 173, 166, 161, 174, 168],
    'weight_kg': [65, 58, None, 70, 52, 75, 48, 82, 55, 60,
                  68, None, 72, 54, 56, 78, 62, 50, 76, 64],
    'study_hours': [15, 20, 25, 10, 30, 12, 35, 18, 22, 28,
                    None, 16, 24, 19, 26, 14, 21, 27, None, 23],
    'registration_date': pd.to_datetime([
        '2024-01-23', '2024-02-05', '2024-01-13', '2023-12-30', '2024-01-27', '2023-12-23', '2024-01-05',
        '2024-01-23', '2024-02-11', '2024-01-03', '2024-01-07', '2023-12-26', '2023-12-26', '2024-01-08',
        '2024-02-06', '2024-01-20', '2024-01-24', '2024-01-08', '2023-12-18', '2024-01-06'
    ])
}

df = pd.DataFrame(data)

# 2. Cleaning Gender

In [3]:
gender_map = {
    'ชาย': 'Male', 'ช': 'Male', 'M': 'Male', 'Male': 'Male',
    'หญิง': 'Female', 'ญ': 'Female', 'F': 'Female', 'Female': 'Female'
}
df['gender_clean'] = df['gender'].map(gender_map).fillna('Unknown')

# 3. Cleaning Faculty

In [4]:
faculty_map = {
    'วิทย์': 'วิทยาศาสตร์', 'คณะวิทยาศาสตร์': 'วิทยาศาสตร์', 'Science': 'วิทยาศาสตร์', 'Sci': 'วิทยาศาสตร์',
    'วิศวะ': 'วิศวกรรมศาสตร์', 'วิศวฯ': 'วิศวกรรมศาสตร์', 'วิศวกรรม': 'วิศวกรรมศาสตร์', 'Engineering': 'วิศวกรรมศาสตร์',
    'ศิลป์': 'ศิลปศาสตร์', 'ศิลปศาสตร์': 'ศิลปศาสตร์', 'Arts': 'ศิลปศาสตร์', 'Liberal Arts': 'ศิลปศาสตร์'
}
df['faculty_clean'] = df['faculty'].map(faculty_map).fillna('Unknown')

# 4. Cleaning GPA

In [5]:
df['GPA'] = df['GPA'].apply(lambda x: np.nan if x is None or x < 0 or x > 4 else x)

# 5. Cleaning Age (ผิดปกติ)

In [6]:
df['age'] = df['age'].apply(lambda x: np.nan if x is None or x < 15 or x > 30 else x)

# 6. BMI Calculation

In [7]:
df['height_m'] = df['height_cm'] / 100
df['BMI'] = df.apply(lambda row: row['weight_kg'] / (row['height_m'] ** 2) if pd.notnull(row['weight_kg']) and pd.notnull(row['height_m']) else np.nan, axis=1)

# 7. Age Group Feature

In [8]:
def age_group(age):
    if pd.isnull(age):
        return 'Unknown'
    elif age <= 20:
        return 'วัยรุ่น'
    elif age <= 23:
        return 'วัยนักศึกษา'
    else:
        return 'วัยทำงาน'

df['age_group'] = df['age'].apply(age_group)

# 8. Study Level Feature

In [9]:
def study_level(hr):
    if pd.isnull(hr):
        return 'Unknown'
    elif hr <= 15:
        return 'น้อย'
    elif hr <= 25:
        return 'ปานกลาง'
    else:
        return 'มาก'

df['study_level'] = df['study_hours'].apply(study_level)

# 9. Days since registration

In [10]:
today = pd.to_datetime("2025-08-10")
df['days_since_enroll'] = (today - df['registration_date']).dt.days

# 10. จัดเรียงคอลัมน์ใหม่

In [11]:
cols = [
    'student_id', 'name', 'age', 'age_group',
    'gender_clean', 'faculty_clean', 'GPA',
    'height_cm', 'weight_kg', 'BMI',
    'study_hours', 'study_level', 'days_since_enroll'
]
cleaned_df = df[cols]

# 11. แสดงผลทั้งหมด

In [12]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
print(cleaned_df)

    student_id      name   age    age_group gender_clean   faculty_clean  \
0        64001     สมชาย  20.0      วัยรุ่น         Male         Unknown   
1        64002    สมหญิง  21.0  วัยนักศึกษา       Female     วิทยาศาสตร์   
2        64003      None   NaN      Unknown         Male     วิทยาศาสตร์   
3        64004  สมศักดิ์  22.0  วัยนักศึกษา         Male     วิทยาศาสตร์   
4        64005      สมใจ  19.0      วัยรุ่น       Female  วิศวกรรมศาสตร์   
5        64006     กานต์   NaN      Unknown         Male  วิศวกรรมศาสตร์   
6        64007     กิตติ  21.0  วัยนักศึกษา       Female  วิศวกรรมศาสตร์   
7        64008      จิรา  20.0      วัยรุ่น       Female      ศิลปศาสตร์   
8        64009    ชนาธิป  23.0  วัยนักศึกษา         Male      ศิลปศาสตร์   
9        64010      ดารา  21.0  วัยนักศึกษา       Female      ศิลปศาสตร์   
10       64011      ธีระ   NaN      Unknown      Unknown         Unknown   
11       64012       นภา  22.0  วัยนักศึกษา         Male     วิทยาศาสตร์   
12       640