In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

In [2]:
np.random.seed(42)

In [3]:
student_data = {
    'รหัสนักศึกษา': [f'64{str(i).zfill(3)}' for i in range(1, 21)],
    'ชื่อ': ['สมชาย', 'สมหญิง', None, 'สมศักดิ์', 'สมใจ', 'กานต์', 'กิตติ',
             'จิรา', 'ชนาธิป', 'ดารา', 'ธีระ', 'นภา', 'บุญมี', 'ปรีชา',
             'พิมพ์', 'ภูมิ', 'มานี', 'ยุพา', 'รัตนา', 'ลัดดา'],
    'อายุ': [20, 21, None, 22, 19, 150, 21, 20, 23, 21,  # 150 = outlier
            None, 22, 20, 21, 22, 19, 20, 21, None, 22],
    'เพศ': ['ชาย', 'หญิง', 'Male', 'ช', 'ญ', 'ชาย', 'หญิง', 'F', 'M', 'หญิง',
            None, 'ชาย', 'หญิง', 'ชาย', 'Female', 'ช', 'ญ', 'หญิง', 'ชาย', None],
    'คณะ': ['วิทยาศาสตร์', 'วิทย์', 'Science', 'คณะวิทยาศาสตร์', 'วิศวะ',
            'Engineering', 'วิศวกรรม', 'ศิลปศาสตร์', 'Arts', 'ศิลป์',
            None, 'วิทย์', 'วิศวฯ', 'Liberal Arts', 'Sci',
            'วิทยาศาสตร์', 'วิศวกรรมศาสตร์', None, 'ศิลปศาสตร์', 'Science'],
    'GPA': [3.21, 3.45, 3.67, -1, 3.89, 3.12, 4.5, 2.98, 3.34, 3.56,
            3.78, None, 3.23, 3.45, 3.67, 3.89, 3.01, 3.23, None, 3.45],
    'ส่วนสูง_cm': [170, 165, 175, 168, 160, 172, 158, 180, 163, 167,
                  None, 171, 169, 164, 162, 173, 166, 161, 174, 168],
    'น้ำหนัก_kg': [65, 58, None, 70, 52, 75, 48, 82, 55, 60,
                  68, None, 72, 54, 56, 78, 62, 50, 76, 64],
    'ชั่วโมงเรียน_ต่อสัปดาห์': [15, 20, 25, 10, 30, 12, 35, 18, 22, 28,
                              None, 16, 24, 19, 26, 14, 21, 27, None, 23]
}

In [4]:
df_master = pd.DataFrame(student_data)

In [5]:
df_master.shape

(20, 9)

In [7]:
df_master.head()

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0
2,64003,,,Male,Science,3.67,175.0,,25.0
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,-1.0,168.0,70.0,10.0
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0


In [8]:
base_date = datetime(2024, 1, 15)

In [9]:
base_date

datetime.datetime(2024, 1, 15, 0, 0)

In [10]:
df_master['วันที่ลงทะเบียน'] = [base_date + timedelta(days=np.random.randint(-30, 30))
                                for _ in range(20)]

In [11]:
df_master

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์,วันที่ลงทะเบียน
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0,2024-01-23
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0,2024-02-05
2,64003,,,Male,Science,3.67,175.0,,25.0,2024-01-13
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,-1.0,168.0,70.0,10.0,2023-12-30
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0,2024-01-27
5,64006,กานต์,150.0,ชาย,Engineering,3.12,172.0,75.0,12.0,2023-12-23
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,4.5,158.0,48.0,35.0,2024-01-05
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0,2024-01-23
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0,2024-02-11
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0,2024-01-03


In [12]:
print("="*50)
print("🎯 ข้อมูลหลัก (Master Dataset) ที่จะใช้ตลอดบทเรียน")
print("="*50)
print(df_master)
print("\n📊 สรุปปัญหาที่พบในข้อมูล:")
print(f"- ค่าหายทั้งหมด: {df_master.isnull().sum().sum()} ค่า")
print(f"- อายุผิดปกติ: {df_master[df_master['อายุ'] > 100]['อายุ'].values if any(df_master['อายุ'] > 100) else 'ไม่มี'}")
print(f"- GPA ผิดปกติ: {df_master[(df_master['GPA'] < 0) | (df_master['GPA'] > 4)]['GPA'].values if any((df_master['GPA'] < 0) | (df_master['GPA'] > 4)) else 'ไม่มี'}")
print(f"- รูปแบบการเขียนคณะ: {df_master['คณะ'].nunique()} แบบ")
print(f"- รูปแบบการเขียนเพศ: {df_master['เพศ'].nunique()} แบบ")

🎯 ข้อมูลหลัก (Master Dataset) ที่จะใช้ตลอดบทเรียน
   รหัสนักศึกษา      ชื่อ   อายุ     เพศ             คณะ   GPA  ส่วนสูง_cm  \
0         64001     สมชาย   20.0     ชาย     วิทยาศาสตร์  3.21       170.0   
1         64002    สมหญิง   21.0    หญิง           วิทย์  3.45       165.0   
2         64003      None    NaN    Male         Science  3.67       175.0   
3         64004  สมศักดิ์   22.0       ช  คณะวิทยาศาสตร์ -1.00       168.0   
4         64005      สมใจ   19.0       ญ           วิศวะ  3.89       160.0   
5         64006     กานต์  150.0     ชาย     Engineering  3.12       172.0   
6         64007     กิตติ   21.0    หญิง        วิศวกรรม  4.50       158.0   
7         64008      จิรา   20.0       F      ศิลปศาสตร์  2.98       180.0   
8         64009    ชนาธิป   23.0       M            Arts  3.34       163.0   
9         64010      ดารา   21.0    หญิง           ศิลป์  3.56       167.0   
10        64011      ธีระ    NaN    None            None  3.78         NaN   
11        6401

In [13]:
df_master

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์,วันที่ลงทะเบียน
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0,2024-01-23
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0,2024-02-05
2,64003,,,Male,Science,3.67,175.0,,25.0,2024-01-13
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,-1.0,168.0,70.0,10.0,2023-12-30
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0,2024-01-27
5,64006,กานต์,150.0,ชาย,Engineering,3.12,172.0,75.0,12.0,2023-12-23
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,4.5,158.0,48.0,35.0,2024-01-05
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0,2024-01-23
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0,2024-02-11
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0,2024-01-03


In [15]:
df_master.isnull().sum()

Unnamed: 0,0
รหัสนักศึกษา,0
ชื่อ,1
อายุ,3
เพศ,2
คณะ,2
GPA,2
ส่วนสูง_cm,1
น้ำหนัก_kg,2
ชั่วโมงเรียน_ต่อสัปดาห์,2
วันที่ลงทะเบียน,0


In [17]:
df_master.isnull().sum().sum()

np.int64(15)

In [18]:
df_master['คณะ'].nunique()

14

In [19]:
df_original = df_master.copy()

In [20]:
df_original

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์,วันที่ลงทะเบียน
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0,2024-01-23
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0,2024-02-05
2,64003,,,Male,Science,3.67,175.0,,25.0,2024-01-13
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,-1.0,168.0,70.0,10.0,2023-12-30
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0,2024-01-27
5,64006,กานต์,150.0,ชาย,Engineering,3.12,172.0,75.0,12.0,2023-12-23
6,64007,กิตติ,21.0,หญิง,วิศวกรรม,4.5,158.0,48.0,35.0,2024-01-05
7,64008,จิรา,20.0,F,ศิลปศาสตร์,2.98,180.0,82.0,18.0,2024-01-23
8,64009,ชนาธิป,23.0,M,Arts,3.34,163.0,55.0,22.0,2024-02-11
9,64010,ดารา,21.0,หญิง,ศิลป์,3.56,167.0,60.0,28.0,2024-01-03


In [21]:
df_master.to_csv("student.csv", encoding="utf-8", index=False)

In [22]:
import pandas as pd

In [23]:
df = pd.read_csv("student.csv")

In [25]:
df.head()

Unnamed: 0,รหัสนักศึกษา,ชื่อ,อายุ,เพศ,คณะ,GPA,ส่วนสูง_cm,น้ำหนัก_kg,ชั่วโมงเรียน_ต่อสัปดาห์,วันที่ลงทะเบียน
0,64001,สมชาย,20.0,ชาย,วิทยาศาสตร์,3.21,170.0,65.0,15.0,2024-01-23
1,64002,สมหญิง,21.0,หญิง,วิทย์,3.45,165.0,58.0,20.0,2024-02-05
2,64003,,,Male,Science,3.67,175.0,,25.0,2024-01-13
3,64004,สมศักดิ์,22.0,ช,คณะวิทยาศาสตร์,-1.0,168.0,70.0,10.0,2023-12-30
4,64005,สมใจ,19.0,ญ,วิศวะ,3.89,160.0,52.0,30.0,2024-01-27


In [26]:
print("="*50)
print("📋 ข้อมูลทั่วไปของ Dataset")
print("="*50)
df_master.info()

print("\n" + "="*50)
print("📊 สถิติเชิงพรรณนา")
print("="*50)
print(df_master.describe())

# ตรวจสอบค่าหายในแต่ละคอลัมน์
missing_counts = df_master.isnull().sum()
print("\n❌ ค่าหายในแต่ละคอลัมน์:")
for col, count in missing_counts[missing_counts > 0].items():
    percentage = (count / len(df_master)) * 100
    print(f"   - {col}: {count} ค่า ({percentage:.1f}%)")

📋 ข้อมูลทั่วไปของ Dataset
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 10 columns):
 #   Column                   Non-Null Count  Dtype         
---  ------                   --------------  -----         
 0   รหัสนักศึกษา             20 non-null     object        
 1   ชื่อ                     19 non-null     object        
 2   อายุ                     17 non-null     float64       
 3   เพศ                      18 non-null     object        
 4   คณะ                      18 non-null     object        
 5   GPA                      18 non-null     float64       
 6   ส่วนสูง_cm               19 non-null     float64       
 7   น้ำหนัก_kg               18 non-null     float64       
 8   ชั่วโมงเรียน_ต่อสัปดาห์  18 non-null     float64       
 9   วันที่ลงทะเบียน          20 non-null     datetime64[ns]
dtypes: datetime64[ns](1), float64(5), object(4)
memory usage: 1.7+ KB

📊 สถิติเชิงพรรณนา
             อายุ        GPA  ส่วนสูง_cm  น้ำหนัก

In [27]:
data = {
    'ชื่อ': ['ก้อง', 'กล้า', 'กิ่ง', 'กานต์', 'กุล', 'กบ', 'กิตติ', 'กมล', 'กร', 'กนก'],
    'อายุ': [21, 22, 20, 21, None, 22, 21, 20, 21, 22],  # เฉพาะกุลไม่กรอกอายุ
    'GPA': [3.5, 3.2, 3.8, 3.0, 3.7, 3.3, 3.6, 3.4, 3.1, 3.9]
}

In [28]:
df = pd.DataFrame(data)

In [29]:
df.shape

(10, 3)

In [31]:
df.head()

Unnamed: 0,ชื่อ,อายุ,GPA
0,ก้อง,21.0,3.5
1,กล้า,22.0,3.2
2,กิ่ง,20.0,3.8
3,กานต์,21.0,3.0
4,กุล,,3.7


In [32]:
print("ก่อนลบ")
print(df)

ก่อนลบ
    ชื่อ  อายุ  GPA
0   ก้อง  21.0  3.5
1   กล้า  22.0  3.2
2   กิ่ง  20.0  3.8
3  กานต์  21.0  3.0
4    กุล   NaN  3.7
5     กบ  22.0  3.3
6  กิตติ  21.0  3.6
7    กมล  20.0  3.4
8     กร  21.0  3.1
9    กนก  22.0  3.9


In [33]:
df_clean = df.dropna()

In [34]:
df_clean

Unnamed: 0,ชื่อ,อายุ,GPA
0,ก้อง,21.0,3.5
1,กล้า,22.0,3.2
2,กิ่ง,20.0,3.8
3,กานต์,21.0,3.0
5,กบ,22.0,3.3
6,กิตติ,21.0,3.6
7,กมล,20.0,3.4
8,กร,21.0,3.1
9,กนก,22.0,3.9


In [35]:
data = {
    'ชื่อ': ['สมชาย', 'สมหญิง', 'สมศักดิ์', 'สมใจ', 'สมปอง'],
    'อายุ': [20, None, 19, 22, 21]
}
df = pd.DataFrame(data)

In [36]:
df.head()

Unnamed: 0,ชื่อ,อายุ
0,สมชาย,20.0
1,สมหญิง,
2,สมศักดิ์,19.0
3,สมใจ,22.0
4,สมปอง,21.0


In [37]:
mean_age = df['อายุ'].mean()

In [38]:
mean_age

np.float64(20.5)

In [39]:
df['อายุ'].fillna(mean_age, inplace=True)

In [40]:
df

Unnamed: 0,ชื่อ,อายุ
0,สมชาย,20.0
1,สมหญิง,20.5
2,สมศักดิ์,19.0
3,สมใจ,22.0
4,สมปอง,21.0


In [43]:
df['อายุ'].fillna(mean_age, inplace=True)
df['อายุ']=df['อายุ'].fillna(mean_age)  #ใช้ได้เหมือนกัน

In [44]:
df

Unnamed: 0,ชื่อ,อายุ
0,สมชาย,20.5
1,สมหญิง,20.5
2,สมศักดิ์,20.5
3,สมใจ,20.5
4,สมปอง,20.5


In [45]:
data = {
    'ชื่อ': ['สมชาย', 'สมหญิง', 'สมศักดิ์', 'สมใจ', 'สมปอง'],
    'คณะ': ['วิทยาศาสตร์', 'วิทยาศาสตร์', None, 'ศิลปศาสตร์', 'วิทย์']
}


In [46]:
df = pd.DataFrame(data)

In [47]:
df.shape

(5, 2)

In [48]:
df.head()

Unnamed: 0,ชื่อ,คณะ
0,สมชาย,วิทยาศาสตร์
1,สมหญิง,วิทยาศาสตร์
2,สมศักดิ์,
3,สมใจ,ศิลปศาสตร์
4,สมปอง,วิทย์


In [49]:
df['คณะ'].fillna(df['คณะ'].mode()[0], inplace=True)

In [50]:
df

Unnamed: 0,ชื่อ,คณะ
0,สมชาย,วิทยาศาสตร์
1,สมหญิง,วิทยาศาสตร์
2,สมศักดิ์,วิทยาศาสตร์
3,สมใจ,ศิลปศาสตร์
4,สมปอง,วิทย์


In [51]:
def standardize_faculty(name):
    if name in ['วิทยาศาสตร์', 'วิทย์', 'Science', 'คณะวิทยาศาสตร์']:
        return 'วิทยาศาสตร์'
    elif name in ['ศิลปศาสตร์', 'ศิลป์', 'Arts']:
        return 'ศิลปศาสตร์'
    else:
        return name

In [52]:
df['คณะ_มาตรฐาน'] = df['คณะ'].apply(standardize_faculty)

In [53]:
df['คณะ_มาตรฐาน']

Unnamed: 0,คณะ_มาตรฐาน
0,วิทยาศาสตร์
1,วิทยาศาสตร์
2,วิทยาศาสตร์
3,ศิลปศาสตร์
4,วิทยาศาสตร์


In [54]:
data = {
    'ชื่อ': ['นักศึกษา1', 'นักศึกษา2', 'นักศึกษา3', 'นักศึกษา4', 'นักศึกษา5',
             'นักศึกษา6', 'นักศึกษา7', 'นักศึกษา8', 'นักศึกษา9', 'นักศึกษา10'],
    'อายุ': [20, 21, 22, 19, 20, 150, 21, 22, 23, 18]  # 150 คือค่าผิดปกติ
}
df = pd.DataFrame(data)

In [55]:
df.head(10)

Unnamed: 0,ชื่อ,อายุ
0,นักศึกษา1,20
1,นักศึกษา2,21
2,นักศึกษา3,22
3,นักศึกษา4,19
4,นักศึกษา5,20
5,นักศึกษา6,150
6,นักศึกษา7,21
7,นักศึกษา8,22
8,นักศึกษา9,23
9,นักศึกษา10,18


In [56]:
print(f"\nค่าเฉลี่ยอายุ (รวมค่าผิดปกติ) - {df['อายุ'].mean():.2f}")


ค่าเฉลี่ยอายุ (รวมค่าผิดปกติ) - 33.60


In [57]:
Q1 = df['อายุ'].quantile(0.25)
Q3 = df['อายุ'].quantile(0.75)

In [58]:
Q1, Q3

(np.float64(20.0), np.float64(22.0))

In [59]:
IQR = Q3 - Q1

In [60]:
IQR

np.float64(2.0)

In [61]:
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

In [62]:
lower_bound, upper_bound
#print(lower_bound)
#print(upper_bound)

(np.float64(17.0), np.float64(25.0))

In [63]:
df_no_outliers = df[(df['อายุ'] >= lower_bound) & (df['อายุ'] <= upper_bound)]

In [64]:
df_no_outliers

Unnamed: 0,ชื่อ,อายุ
0,นักศึกษา1,20
1,นักศึกษา2,21
2,นักศึกษา3,22
3,นักศึกษา4,19
4,นักศึกษา5,20
6,นักศึกษา7,21
7,นักศึกษา8,22
8,นักศึกษา9,23
9,นักศึกษา10,18


In [65]:
df['อายุ'] >= lower_bound

Unnamed: 0,อายุ
0,True
1,True
2,True
3,True
4,True
5,True
6,True
7,True
8,True
9,True


In [66]:
df['อายุ'] <= upper_bound

Unnamed: 0,อายุ
0,True
1,True
2,True
3,True
4,True
5,False
6,True
7,True
8,True
9,True


In [71]:
data = pd.DataFrame({
    'ชื่อ': ['A', 'B', 'C', 'D'],
    'คณะ': ['วิทย์', 'ศิลป์', 'วิทย์', 'วิศวะ']
})

In [74]:
data_encoded = pd.get_dummies(data, columns=['คณะ'])
print(data_encoded*1) #เปลี่ยน TURE, False เป็น *1

  ชื่อ  คณะ_วิทย์  คณะ_วิศวะ  คณะ_ศิลป์
0    A          1          0          0
1    B          0          0          1
2    C          1          0          0
3    D          0          1          0


In [75]:
coffee_data = pd.DataFrame({
    'วันเวลา': pd.to_datetime(['2024-01-15 07:30', '2024-01-15 12:00',
                               '2024-01-15 16:30', '2024-01-16 08:00']),
    'ยอดขาย': [1500, 3200, 2100, 1800]
})

In [76]:
coffee_data

Unnamed: 0,วันเวลา,ยอดขาย
0,2024-01-15 07:30:00,1500
1,2024-01-15 12:00:00,3200
2,2024-01-15 16:30:00,2100
3,2024-01-16 08:00:00,1800


In [77]:
coffee_data['ชั่วโมง'] = coffee_data['วันเวลา'].dt.hour

In [78]:
coffee_data

Unnamed: 0,วันเวลา,ยอดขาย,ชั่วโมง
0,2024-01-15 07:30:00,1500,7
1,2024-01-15 12:00:00,3200,12
2,2024-01-15 16:30:00,2100,16
3,2024-01-16 08:00:00,1800,8


In [79]:
coffee_data['วันในสัปดาห์'] = coffee_data['วันเวลา'].dt.day_name()

In [80]:
coffee_data

Unnamed: 0,วันเวลา,ยอดขาย,ชั่วโมง,วันในสัปดาห์
0,2024-01-15 07:30:00,1500,7,Monday
1,2024-01-15 12:00:00,3200,12,Monday
2,2024-01-15 16:30:00,2100,16,Monday
3,2024-01-16 08:00:00,1800,8,Tuesday


In [81]:
coffee_data['ช่วงเวลา'] = pd.cut(coffee_data['ชั่วโมง'],
                                  bins=[0, 10, 14, 18, 24],
                                  labels=['เช้า', 'กลางวัน', 'บ่าย', 'เย็น'])

In [82]:
coffee_data

Unnamed: 0,วันเวลา,ยอดขาย,ชั่วโมง,วันในสัปดาห์,ช่วงเวลา
0,2024-01-15 07:30:00,1500,7,Monday,เช้า
1,2024-01-15 12:00:00,3200,12,Monday,กลางวัน
2,2024-01-15 16:30:00,2100,16,Monday,บ่าย
3,2024-01-16 08:00:00,1800,8,Tuesday,เช้า


In [83]:
print(coffee_data[['วันเวลา', 'ช่วงเวลา', 'ยอดขาย']])

              วันเวลา ช่วงเวลา  ยอดขาย
0 2024-01-15 07:30:00     เช้า    1500
1 2024-01-15 12:00:00  กลางวัน    3200
2 2024-01-15 16:30:00     บ่าย    2100
3 2024-01-16 08:00:00     เช้า    1800


In [85]:
student_health = pd.DataFrame({
    'ชื่อ': ['สมชาย', 'สมหญิง', 'สมศักดิ์'],
    'ส่วนสูง_cm': [170, 165, 175],
    'น้ำหนัก_kg': [65, 55, 80]
})

In [86]:
student_health

Unnamed: 0,ชื่อ,ส่วนสูง_cm,น้ำหนัก_kg
0,สมชาย,170,65
1,สมหญิง,165,55
2,สมศักดิ์,175,80


In [87]:
student_health['BMI'] = student_health['น้ำหนัก_kg'] / (student_health['ส่วนสูง_cm']/100)**2
student_health['สุขภาพ'] = pd.cut(student_health['BMI'],
                                   bins=[0, 18.5, 25, 30, 100],
                                   labels=['ผอม', 'ปกติ', 'อ้วน', 'อ้วนมาก'])

In [88]:
print(student_health[['ชื่อ', 'BMI', 'สุขภาพ']])

       ชื่อ        BMI สุขภาพ
0     สมชาย  22.491349   ปกติ
1    สมหญิง  20.202020   ปกติ
2  สมศักดิ์  26.122449   อ้วน


In [89]:
raw_data = {
    'รหัสนักศึกษา': ['64001', '64002', '64003', '64004', '64005'],
    'ชื่อ': ['สมชาย', 'สมหญิง', None, 'สมศักดิ์', 'สมใจ'],
    'คณะ': ['วิทย์', 'ศิลปศาสตร์', 'วิทยาศาสตร์', 'Arts', 'วิศวะ'],
    'ชั้นปี': [2, 3, 2, None, 4],
    'GPA': [3.2, 3.8, -1, 2.9, 4.5],  # -1 และ 4.5 ผิดปกติ
    'กิจกรรม': ['กีฬา', 'ดนตรี', 'กีฬา,ดนตรี', None, 'อาสา'],
    'เวลาเข้าร่วม': ['08:00', '9.30', '08:30', '08:00', None]
}

In [90]:
df_student = pd.DataFrame(raw_data)

In [91]:
df_student

Unnamed: 0,รหัสนักศึกษา,ชื่อ,คณะ,ชั้นปี,GPA,กิจกรรม,เวลาเข้าร่วม
0,64001,สมชาย,วิทย์,2.0,3.2,กีฬา,08:00
1,64002,สมหญิง,ศิลปศาสตร์,3.0,3.8,ดนตรี,9.30
2,64003,,วิทยาศาสตร์,2.0,-1.0,"กีฬา,ดนตรี",08:30
3,64004,สมศักดิ์,Arts,,2.9,,08:00
4,64005,สมใจ,วิศวะ,4.0,4.5,อาสา,


In [92]:
faculty_mapping = {
    'วิทย์': 'วิทยาศาสตร์',
    'วิทยาศาสตร์': 'วิทยาศาสตร์',
    'ศิลปศาสตร์': 'ศิลปศาสตร์',
    'Arts': 'ศิลปศาสตร์',
    'วิศวะ': 'วิศวกรรมศาสตร์'
}

In [95]:
faculty_mapping

{'วิทย์': 'วิทยาศาสตร์',
 'วิทยาศาสตร์': 'วิทยาศาสตร์',
 'ศิลปศาสตร์': 'ศิลปศาสตร์',
 'Arts': 'ศิลปศาสตร์',
 'วิศวะ': 'วิศวกรรมศาสตร์'}

In [93]:
df_student['คณะ'] = df_student['คณะ'].map(faculty_mapping)

In [94]:
df_student

Unnamed: 0,รหัสนักศึกษา,ชื่อ,คณะ,ชั้นปี,GPA,กิจกรรม,เวลาเข้าร่วม
0,64001,สมชาย,วิทยาศาสตร์,2.0,3.2,กีฬา,08:00
1,64002,สมหญิง,ศิลปศาสตร์,3.0,3.8,ดนตรี,9.30
2,64003,,วิทยาศาสตร์,2.0,-1.0,"กีฬา,ดนตรี",08:30
3,64004,สมศักดิ์,ศิลปศาสตร์,,2.9,,08:00
4,64005,สมใจ,วิศวกรรมศาสตร์,4.0,4.5,อาสา,
