In [38]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [39]:
student_data = {
    'รหัสนักศึกษา': [f'64{str(i).zfill(3)}' for i in range(1, 21)],
    'ชื่อ': ['สมชาย', 'สมหญิง', None, 'สมศักดิ์', 'สมใจ', 'กานต์', 'กิตติ',
             'จิรา', 'ชนาธิป', 'ดารา', 'ธีระ', 'นภา', 'บุญมี', 'ปรีชา',
             'พิมพ์', 'ภูมิ', 'มานี', 'ยุพา', 'รัตนา', 'ลัดดา'],
    'อายุ': [20, 21, None, 22, 19, 150, 21, 20, 23, 21,  # 150 = outlier
            None, 22, 20, 21, 22, 19, 20, 21, None, 22],
    'เพศ': ['ชาย', 'หญิง', 'Male', 'ช', 'ญ', 'ชาย', 'หญิง', 'F', 'M', 'หญิง',
            None, 'ชาย', 'หญิง', 'ชาย', 'Female', 'ช', 'ญ', 'หญิง', 'ชาย', None],
    'คณะ': ['วิทยาศาสตร์', 'วิทย์', 'Science', 'คณะวิทยาศาสตร์', 'วิศวะ',
            'Engineering', 'วิศวกรรม', 'ศิลปศาสตร์', 'Arts', 'ศิลป์',
            None, 'วิทย์', 'วิศวฯ', 'Liberal Arts', 'Sci',
            'วิทยาศาสตร์', 'วิศวกรรมศาสตร์', None, 'ศิลปศาสตร์', 'Science'],
    'GPA': [3.21, 3.45, 3.67, -1, 3.89, 3.12, 4.5, 2.98, 3.34, 3.56,
            3.78, None, 3.23, 3.45, 3.67, 3.89, 3.01, 3.23, None, 3.45],
    'ส่วนสูง_cm': [170, 165, 175, 168, 160, 172, 158, 180, 163, 167,
                  None, 171, 169, 164, 162, 173, 166, 161, 174, 168],
    'น้ำหนัก_kg': [65, 58, None, 70, 52, 75, 48, 82, 55, 60,
                  68, None, 72, 54, 56, 78, 62, 50, 76, 64],
    'ชั่วโมงเรียน_ต่อสัปดาห์': [15, 20, 25, 10, 30, 12, 35, 18, 22, 28,
                              None, 16, 24, 19, 26, 14, 21, 27, None, 23]
}

In [40]:
# df_master = pd.read_csv('student.csv')
df_master = pd.DataFrame(student_data)
df_master

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0
2,64003,,,Male,Science,3.67,175.0,,25.0
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,-1.0,168.0,70.0,10.0
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0
5,64006,กานต์,150.0,ชาย,Engineering,3.12,172.0,75.0,12.0
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,4.5,158.0,48.0,35.0
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0


In [41]:
df_clean = df_master.copy()

In [42]:
rules = {
    "อายุ":      {"min": 0,   "max": 100},
    "GPA":       {"min": 0.0, "max": 4.0},
    "ส่วนสูง_cm": {"min": 50,  "max": 250},
    "น้ำหนัก_kg": {"min": 20,  "max": 300},
}
for col, r in rules.items():
    if col in df_clean.columns:
        df_clean.loc[df_clean[col] < r["min"], col] = np.nan
        df_clean.loc[df_clean[col] > r["max"], col] = np.nan

In [43]:
df_clean

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0
2,64003,,,Male,Science,3.67,175.0,,25.0
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,,168.0,70.0,10.0
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0
5,64006,กานต์,,ชาย,Engineering,3.12,172.0,75.0,12.0
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,,158.0,48.0,35.0
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0


In [44]:
df_clean.shape

(20, 9)

In [45]:
na_count =  df_clean.isna().sum()
na_percent = df_clean.isna().mean() * 100

na_report = pd.DataFrame({
    'NA Count': na_count,
    'NA Percent': na_percent
}).sort_values("NA Percent", ascending=False)
na_report

Unnamed: 0,NA Count,NA Percent
อายุ,4,20.0
GPA,4,20.0
ชั่วโมงเรียน_ต่อสัปดาห์,2,10.0
คณะ,2,10.0
เพศ,2,10.0
น้ำหนัก_kg,2,10.0
ชื่อ,1,5.0
ส่วนสูง_cm,1,5.0
รหัสนักศึกษา,0,0.0


In [46]:
cols_to_check = na_percent[na_percent <= 5].index
df_clean = df_clean.dropna(subset=cols_to_check)
df_clean

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,,168.0,70.0,10.0
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0
5,64006,กานต์,,ชาย,Engineering,3.12,172.0,75.0,12.0
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,,158.0,48.0,35.0
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0
11,64012,นภา,22.0,ชาย,วิทย์,,171.0,,16.0


In [47]:
def check_outlier(df, col):
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    df = df[
        (df[col].isna()) |
        (df[col] >= lower_bound) &
        (df[col] <= upper_bound)]
    print(lower_bound, upper_bound)
    return df

for col in ['อายุ', 'GPA', 'น้ำหนัก_kg', 'ชั่วโมงเรียน_ต่อสัปดาห์']:
    print(col)
    df_clean = check_outlier(df_clean, col)

อายุ
17.0 25.0
GPA
2.7387499999999996 4.008750000000001
น้ำหนัก_kg
29.5 97.5
ชั่วโมงเรียน_ต่อสัปดาห์
1.0 41.0


In [48]:
df_clean

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,,168.0,70.0,10.0
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0
5,64006,กานต์,,ชาย,Engineering,3.12,172.0,75.0,12.0
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,,158.0,48.0,35.0
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0
11,64012,นภา,22.0,ชาย,วิทย์,,171.0,,16.0


In [49]:
na_count =  df_clean.isna().sum()
na_percent = df_clean.isna().mean() * 100

na_report = pd.DataFrame({
    'NA Count': na_count,
    'NA Percent': na_percent
}).sort_values("NA Percent", ascending=False)
na_report

Unnamed: 0,NA Count,NA Percent
GPA,4,22.222222
อายุ,2,11.111111
ชั่วโมงเรียน_ต่อสัปดาห์,1,5.555556
คณะ,1,5.555556
เพศ,1,5.555556
น้ำหนัก_kg,1,5.555556
รหัสนักศึกษา,0,0.0
ชื่อ,0,0.0
ส่วนสูง_cm,0,0.0


In [50]:
mean_age = df_clean['อายุ'].mean()
df_clean['อายุ'].fillna(mean_age, inplace=True)
print(mean_age)

median_gpa = df_clean['GPA'].median()
df_clean['GPA'].fillna(median_gpa, inplace=True)
print(median_gpa)

median_weight = df_clean['น้ำหนัก_kg'].median()
df_clean['น้ำหนัก_kg'].fillna(median_weight, inplace=True)
print(median_weight)

median_hour = df_clean['ชั่วโมงเรียน_ต่อสัปดาห์'].median()
df_clean['ชั่วโมงเรียน_ต่อสัปดาห์'].fillna(median_hour, inplace=True)
print(median_hour)

mode_faculty = df_clean['คณะ'].mode()[0]
df_clean['คณะ'].fillna(mode_faculty, inplace=True)
print(mode_faculty)

mode_gender = df_clean['เพศ'].mode()[0]
df_clean['เพศ'].fillna(mode_gender, inplace=True)
print(mode_gender)


20.875
3.395
62.0
21.0
วิทยาศาสตร์
ชาย


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_clean['อายุ'].fillna(mean_age, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_clean['GPA'].fillna(median_gpa, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting val

In [51]:
df_clean

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,3.395,168.0,70.0,10.0
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0
5,64006,กานต์,20.875,ชาย,Engineering,3.12,172.0,75.0,12.0
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,3.395,158.0,48.0,35.0
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0
11,64012,นภา,22.0,ชาย,วิทย์,3.395,171.0,62.0,16.0


In [52]:
def standardize_gender(name):
    if name in ['ช', 'M', 'm', 'Male', 'male']:
        return 'ชาย'
    elif name in ['ญ', 'F', 'F', 'Female', 'female']:
        return 'หญิง'
    else:
        return name

def standardize_faculty(name):
    if name in ['วิทยาศาสตร์', 'วิทย์', 'Science', 'คณะวิทยาศาสตร์', 'Sci']:
        return 'วิทยาศาสตร์'
    elif name in ['ศิลปศาสตร์', 'ศิลป์', 'Arts', 'Liberal Arts']:
        return 'ศิลปศาสตร์'
    elif name in ['วิศวฯ', 'วิศวกรรม', 'Engineering', 'วิศวะ']:
      return 'วิศวกรรมศาสตร์'
    else:
        return name

# ใช้งาน
df_clean['เพศ'] = df_clean['เพศ'].apply(standardize_gender)
df_clean['คณะ'] = df_clean['คณะ'].apply(standardize_faculty)

In [53]:
df_clean

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทยาศาสตร์,3.45,165.0,58.0,20.0
3,64004,สมศักดิ์,22.0,ชาย,วิทยาศาสตร์,3.395,168.0,70.0,10.0
4,64005,สมใจ,19.0,หญิง,วิศวกรรมศาสตร์,3.89,160.0,52.0,30.0
5,64006,กานต์,20.875,ชาย,วิศวกรรมศาสตร์,3.12,172.0,75.0,12.0
6,64007,กิตติ,21.0,หญิง,วิศวกรรมศาสตร์,3.395,158.0,48.0,35.0
7,64008,จิรา,20.0,หญิง,ศิลปศาสตร์,2.98,180.0,82.0,18.0
8,64009,ชนาธิป,23.0,ชาย,ศิลปศาสตร์,3.34,163.0,55.0,22.0
9,64010,ดารา,21.0,หญิง,ศิลปศาสตร์,3.56,167.0,60.0,28.0
11,64012,นภา,22.0,ชาย,วิทยาศาสตร์,3.395,171.0,62.0,16.0


In [54]:
df_clean_feature = df_clean.copy()

df_clean_feature['BMI'] = df_clean_feature['น้ำหนัก_kg'] / ((df_clean_feature['ส่วนสูง_cm'] / 100) ** 2)
df_clean_feature['productivity'] = df_clean_feature['GPA'] / df_clean_feature['ชั่วโมงเรียน_ต่อสัปดาห์']

# conditions = [
#     (df_clean_feature['productivity'] >= 0.25),
#     (df_clean_feature['productivity'] >= 0.15) & (df_clean_feature['productivity'] < 0.25),
#     (df_clean_feature['productivity'] < 0.15)
# ]
# labels = ['สูง', 'ปานกลาง', 'ต่ำ']
# df_clean_feature['productivity_range'] = np.select(conditions, labels)

df_clean_feature['productivity_range'] = pd.cut(df_clean_feature['productivity'],
                                  bins=[-np.inf, 0.15, 0.25, np.inf],
                                  labels=['ต่ำ', 'ปานกลาง', 'สูง'])

df_clean_feature

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์,BMI,productivity,productivity_range
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0,22.491349,0.214,ปานกลาง
1,64002,สมหญิง,21.0,หญิง,วิทยาศาสตร์,3.45,165.0,58.0,20.0,21.303949,0.1725,ปานกลาง
3,64004,สมศักดิ์,22.0,ชาย,วิทยาศาสตร์,3.395,168.0,70.0,10.0,24.801587,0.3395,สูง
4,64005,สมใจ,19.0,หญิง,วิศวกรรมศาสตร์,3.89,160.0,52.0,30.0,20.3125,0.129667,ต่ำ
5,64006,กานต์,20.875,ชาย,วิศวกรรมศาสตร์,3.12,172.0,75.0,12.0,25.351541,0.26,สูง
6,64007,กิตติ,21.0,หญิง,วิศวกรรมศาสตร์,3.395,158.0,48.0,35.0,19.227688,0.097,ต่ำ
7,64008,จิรา,20.0,หญิง,ศิลปศาสตร์,2.98,180.0,82.0,18.0,25.308642,0.165556,ปานกลาง
8,64009,ชนาธิป,23.0,ชาย,ศิลปศาสตร์,3.34,163.0,55.0,22.0,20.700817,0.151818,ปานกลาง
9,64010,ดารา,21.0,หญิง,ศิลปศาสตร์,3.56,167.0,60.0,28.0,21.513859,0.127143,ต่ำ
11,64012,นภา,22.0,ชาย,วิทยาศาสตร์,3.395,171.0,62.0,16.0,21.203105,0.212188,ปานกลาง


In [55]:
# df_clean.to_csv("student_cleaned.csv", encoding="utf-8", index=False)