In [14]:
import pandas as pd
import numpy as np

# สร้าง DataFrame ตัวอย่างที่มี Missing Values
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', np.nan],
    'age': [24, np.nan, 22, 29, 31],
    'salary': [50000, 54000, np.nan, np.nan, 59000]
}

df = pd.DataFrame(data)
print("Original Data:")
print(df)

Original Data:
      name   age   salary
0    Alice  24.0  50000.0
1      Bob   NaN  54000.0
2  Charlie  22.0      NaN
3    David  29.0      NaN
4      NaN  31.0  59000.0


In [2]:
# 1. ตรวจสอบ Missing Value: การตรวจสอบเพื่อดูว่า Missing Values อยู่ที่ตำแหน่งไหนในข้อมูลของเรา โดยใช้ .isnull() และ .sum()
print("\nตรวจสอบ Missing Values:")
print(df.isnull())  # แสดง True/False หากข้อมูลนั้นๆ เป็นค่าว่าง
print("\nจำนวน Missing Values ในแต่ละคอลัมน์:")
print(df.isnull().sum())  # นับจำนวน Missing Values ในแต่ละคอลัมน์


หลังจากลบแถวที่มี Missing Values:
    name   age   salary
0  Alice  24.0  50000.0


In [3]:
# 2. ลบแถวที่มี Missing Values (Dropping Rows)
df_dropped = df.dropna()
print("\nหลังจากลบแถวที่มี Missing Values:")
print(df_dropped)


ตรวจสอบ Missing Values:
    name    age  salary
0  False  False   False
1  False   True   False
2  False  False    True
3  False  False    True
4   True  False   False

จำนวน Missing Values ในแต่ละคอลัมน์:
name      1
age       1
salary    2
dtype: int64


In [4]:
# 3. แทนที่ Missing Values ด้วยค่าเฉลี่ยหรือค่ากลาง (Filling with Mean or Median)
# แทนที่ Missing Values ในคอลัมน์ 'age' ด้วยค่าเฉลี่ย
df['age'] = df['age'].fillna(df['age'].mean())
print("\nหลังจากแทนที่ Missing Values ในคอลัมน์ 'age' ด้วยค่าเฉลี่ย:")
print(df)

# แทนที่ Missing Values ในคอลัมน์ 'salary' ด้วยค่ากลาง
df['salary'] = df['salary'].fillna(df['salary'].median())
print("\nหลังจากแทนที่ Missing Values ในคอลัมน์ 'salary' ด้วยค่ากลาง:")
print(df)


หลังจากแทนที่ Missing Values ในคอลัมน์ 'age' ด้วยค่าเฉลี่ย:
      name   age   salary
0    Alice  24.0  50000.0
1      Bob  26.5  54000.0
2  Charlie  22.0      NaN
3    David  29.0      NaN
4      NaN  31.0  59000.0

หลังจากแทนที่ Missing Values ในคอลัมน์ 'salary' ด้วยค่ากลาง:
      name   age   salary
0    Alice  24.0  50000.0
1      Bob  26.5  54000.0
2  Charlie  22.0  54000.0
3    David  29.0  54000.0
4      NaN  31.0  59000.0


In [5]:
# 4. แทนที่ Missing Values ด้วยค่าที่พบบ่อยที่สุด (Filling with Mode)
# แทนที่ Missing Values ในคอลัมน์ 'name' ด้วยค่าที่พบบ่อยที่สุด
df['name'] = df['name'].fillna(df['name'].mode()[0])
print("\nหลังจากแทนที่ Missing Values ในคอลัมน์ 'name' ด้วยค่าที่พบบ่อยที่สุด:")
print(df)


หลังจากแทนที่ Missing Values ในคอลัมน์ 'name' ด้วยค่าที่พบบ่อยที่สุด:
      name   age   salary
0    Alice  24.0  50000.0
1      Bob  26.5  54000.0
2  Charlie  22.0  54000.0
3    David  29.0  54000.0
4    Alice  31.0  59000.0


In [6]:
# 5. ใช้วิธี Interpolation
# แทนที่ Missing Values ในคอลัมน์ 'age' ด้วย Interpolation
df['age'] = df['age'].interpolate()
print("\nหลังจากแทนที่ Missing Values ในคอลัมน์ 'age' ด้วย Interpolation:")
print(df)


หลังจากแทนที่ Missing Values ในคอลัมน์ 'age' ด้วย Interpolation:
      name   age   salary
0    Alice  24.0  50000.0
1      Bob  26.5  54000.0
2  Charlie  22.0  54000.0
3    David  29.0  54000.0
4    Alice  31.0  59000.0


In [16]:
# 6. การเติม Missing Values ตามข้อมูลก่อนหน้า/หลังหน้า (Forward Fill / Backward Fill)
# เติมค่าตามข้อมูลก่อนหน้า (Forward Fill)
df_ffill = df.fillna(method='ffill')
print("\nหลังจากเติมค่าตามข้อมูลก่อนหน้า (Forward Fill):")
print(df_ffill)

# เติมค่าตามข้อมูลหลังหน้า (Backward Fill)
df_bfill = df.fillna(method='bfill')
print("\nหลังจากเติมค่าตามข้อมูลหลังหน้า (Backward Fill):")
print(df_bfill)


หลังจากเติมค่าตามข้อมูลก่อนหน้า (Forward Fill):
      name   age   salary
0    Alice  24.0  50000.0
1      Bob  24.0  54000.0
2  Charlie  22.0  54000.0
3    David  29.0  54000.0
4    David  31.0  59000.0

หลังจากเติมค่าตามข้อมูลหลังหน้า (Backward Fill):
      name   age   salary
0    Alice  24.0  50000.0
1      Bob  22.0  54000.0
2  Charlie  22.0  59000.0
3    David  29.0  59000.0
4      NaN  31.0  59000.0


  df_ffill = df.fillna(method='ffill')
  df_bfill = df.fillna(method='bfill')
