# การจัดการข้อมูลสูญหาย
การรวบรวมข้อมูลมาวิเคราะห์นั้น บางครั้งอาจจะมีข้อมูลที่ได้มา
ไม่ครบบ้าง ตกหล่นหรือขาดหายไปบ้างเรียกส่วนนี้ว่า Missing Data
หรือ Missing Value ในหัวข้อนี้จะมาตรวจสอบข้อมูลและจัดการ
ข้อมูลสูญหาย (Clean Data)

In [None]:
import pandas as pd

df = pd.read_csv("datasets/Employee.csv")
df

In [None]:
import pandas as pd

df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
df.shape

In [None]:
df.info()

In [None]:
#การตรวจสอบข้อมูลสูญหายด้วย isnull()
df.isnull()

In [None]:
#ตรวจสอบว่ามีคอลัมน์ใดบ้างที่ไม่มีข้อมูล
df.isnull().any()

In [None]:
#นับจำนวนคอลัมน์ที่ไม่มีข้อมูล
df.isnull().sum()

In [None]:
#การตรวจสอบข้อมูลครบถ้วนด้วย notnull()
df.notnull()

In [None]:
#ตรวจสอบว่ามีคอลัมน์ใดบ้างที่มีข้อมูล
df.notnull().any()

In [None]:
#นับจำนวนคอลัมน์ที่มีข้อมูล
df.isnull().sum()

# วิธีจัดการข้อมูลสูญหาย
- แทนที่ด้วยค่าเฉลี่ยข้อมูลทั้งหมด
- แทนที่ด้วยค่าตรงๆที่กําหนดขึ้นมา
- แทนที่ด้วยค่าก่อนหน้า
- แทนที่ด้วยค่าถัดไป
- ลบข้อมูล

### แทนที่ด้วยค่าเฉลี่ยข้อมูลทั้งหมด

In [None]:
df.describe()

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#แทนที่ด้วยค่าเฉลี่ยข้อมูลทั้งหมด
df['Salary'] = df['Salary'].fillna(df['Salary'].mean())
df

### แทนที่ด้วยค่าตรงๆที่กําหนดขึ้นมา

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#แทนที่ด้วยค่าตรงๆที่กําหนดขึ้นมา
df['Salary'] = df['Salary'].fillna(22000)
df

### แทนที่ด้วยค่าก่อนหน้า

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#แทนที่ด้วยค่าก่อนหน้า
df.fillna(method='pad')

### แทนที่ด้วยค่าถัดไป

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#แทนที่ด้วยค่าถัดไป
df.fillna(method='bfill')

### ลบข้อมูล
- ลบทิ้งทั้งหมด
- ลบแถวบางส่วน
- ลบคอลัมน์บางส่วน
- ลบค่าซ้ำ

#### ลบทิ้งทั้งหมด

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#ลบทิ้งทั้งหมด
df.dropna()

#### ลบแถวบางส่วนที่มีค่าว่าง

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#ลบแถวบางส่วนที่มีค่าว่าง
df.dropna(subset=['Age','Job'])

#### ลบคอลัมน์บางส่วนที่มีค่าว่าง

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
df.dropna(axis='columns')

#### ลบค่าซ้ำ

In [None]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

In [None]:
#เช็คค่าซ้ำ
df[df.duplicated]

In [None]:
#ลบค่าซ้ำ
df.drop_duplicates()