# การจัดการข้อมูลสูญหาย
การรวบรวมข้อมูลมาวิเคราะห์นั้น บางครั้งอาจจะมีข้อมูลที่ได้มา
ไม่ครบบ้าง ตกหล่นหรือขาดหายไปบ้างเรียกส่วนนี้ว่า Missing Data
หรือ Missing Value ในหัวข้อนี้จะมาตรวจสอบข้อมูลและจัดการ
ข้อมูลสูญหาย (Clean Data)

In [1]:
import pandas as pd

df = pd.read_csv("datasets/Employee.csv")
df

Unnamed: 0,Name,Job,Age,Salary,Bonus,Address
0,A,Programmer,20.0,30000.0,10%,123.0
1,B,Programmer,18.0,,10%,
2,C,Developer,,32000.0,10%,
3,D,,23.0,40000.0,10%,
4,E,Sale,29.0,40000.0,10%,
5,F,Manager,,75000.0,10%,
6,,,,,,
7,H,Maketing,34.0,60000.0,10%,
8,I,,26.0,100000.0,10%,
9,H,Maketing,34.0,60000.0,10%,


In [2]:
import pandas as pd

df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [3]:
df.shape

(11, 5)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 11 entries, A to E
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   Job      8 non-null      object 
 1   Age      8 non-null      float64
 2   Salary   9 non-null      float64
 3   Bonus    10 non-null     object 
 4   Address  1 non-null      float64
dtypes: float64(3), object(2)
memory usage: 528.0+ bytes


In [5]:
#การตรวจสอบข้อมูลสูญหายด้วย isnull()
df.isnull()

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,False,False,False,False,False
B,False,False,True,False,True
C,False,True,False,False,True
D,True,False,False,False,True
E,False,False,False,False,True
F,False,True,False,False,True
,True,True,True,True,True
H,False,False,False,False,True
I,True,False,False,False,True
H,False,False,False,False,True


In [6]:
#ตรวจสอบว่ามีคอลัมน์ใดบ้างที่ไม่มีข้อมูล
df.isnull().any()

Job        True
Age        True
Salary     True
Bonus      True
Address    True
dtype: bool

In [7]:
#นับจำนวนคอลัมน์ที่ไม่มีข้อมูล
df.isnull().sum()

Job         3
Age         3
Salary      2
Bonus       1
Address    10
dtype: int64

In [8]:
#การตรวจสอบข้อมูลครบถ้วนด้วย notnull()
df.notnull()

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,True,True,True,True,True
B,True,True,False,True,False
C,True,False,True,True,False
D,False,True,True,True,False
E,True,True,True,True,False
F,True,False,True,True,False
,False,False,False,False,False
H,True,True,True,True,False
I,False,True,True,True,False
H,True,True,True,True,False


In [9]:
#ตรวจสอบว่ามีคอลัมน์ใดบ้างที่มีข้อมูล
df.notnull().any()

Job        True
Age        True
Salary     True
Bonus      True
Address    True
dtype: bool

In [10]:
#นับจำนวนคอลัมน์ที่มีข้อมูล
df.isnull().sum()

Job         3
Age         3
Salary      2
Bonus       1
Address    10
dtype: int64

# วิธีจัดการข้อมูลสูญหาย
- แทนที่ด้วยค่าเฉลี่ยข้อมูลทั้งหมด
- แทนที่ด้วยค่าตรงๆที่กําหนดขึ้นมา
- แทนที่ด้วยค่าก่อนหน้า
- แทนที่ด้วยค่าถัดไป
- ลบข้อมูล

### แทนที่ด้วยค่าเฉลี่ยข้อมูลทั้งหมด

In [11]:
df.describe()

Unnamed: 0,Age,Salary,Address
count,8.0,9.0,1.0
mean,26.625,53000.0,123.0
std,5.998512,23097.618925,
min,18.0,30000.0,123.0
25%,22.25,40000.0,123.0
50%,27.5,40000.0,123.0
75%,30.25,60000.0,123.0
max,34.0,100000.0,123.0


In [12]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [13]:
#แทนที่ด้วยค่าเฉลี่ยข้อมูลทั้งหมด
df['Salary'] = df['Salary'].fillna(df['Salary'].mean())
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,53000.0,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,53000.0,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


### แทนที่ด้วยค่าตรงๆที่กําหนดขึ้นมา

In [14]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [15]:
#แทนที่ด้วยค่าตรงๆที่กําหนดขึ้นมา
df['Salary'] = df['Salary'].fillna(22000)
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,22000.0,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,22000.0,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


### แทนที่ด้วยค่าก่อนหน้า

In [16]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [17]:
#แทนที่ด้วยค่าก่อนหน้า
df.fillna(method='pad')

  df.fillna(method='pad')


Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,30000.0,10%,123.0
C,Developer,18.0,32000.0,10%,123.0
D,Developer,23.0,40000.0,10%,123.0
E,Sale,29.0,40000.0,10%,123.0
F,Manager,29.0,75000.0,10%,123.0
,Manager,29.0,75000.0,10%,123.0
H,Maketing,34.0,60000.0,10%,123.0
I,Maketing,26.0,100000.0,10%,123.0
H,Maketing,34.0,60000.0,10%,123.0


### แทนที่ด้วยค่าถัดไป

In [18]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [19]:
#แทนที่ด้วยค่าถัดไป
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,32000.0,10%,
C,Developer,23.0,32000.0,10%,
D,Sale,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,34.0,75000.0,10%,
,Maketing,34.0,60000.0,10%,
H,Maketing,34.0,60000.0,10%,
I,Maketing,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


### ลบข้อมูล
- ลบทิ้งทั้งหมด
- ลบแถวบางส่วน
- ลบคอลัมน์บางส่วน
- ลบค่าซ้ำ

#### ลบทิ้งทั้งหมด

In [20]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [21]:
#ลบทิ้งทั้งหมด
df.dropna()

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0


#### ลบแถวบางส่วนที่มีค่าว่าง

In [22]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [23]:
#ลบแถวบางส่วนที่มีค่าว่าง
df.dropna(subset=['Age','Job'])

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
E,Sale,29.0,40000.0,10%,
H,Maketing,34.0,60000.0,10%,
H,Maketing,34.0,60000.0,10%,
E,Sale,29.0,40000.0,10%,


#### ลบคอลัมน์บางส่วนที่มีค่าว่าง

In [24]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [25]:
df.dropna(axis='columns')

A
B
C
D
E
F
""
H
I
H
E


#### ลบค่าซ้ำ

In [26]:
#นำเข้า DataFrame ใหม่
df = pd.read_csv("datasets/Employee.csv", index_col="Name")
df

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
H,Maketing,34.0,60000.0,10%,


In [27]:
#เช็คค่าซ้ำ
df[df.duplicated]

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
H,Maketing,34.0,60000.0,10%,
E,Sale,29.0,40000.0,10%,


In [28]:
#ลบค่าซ้ำ
df.drop_duplicates()

Unnamed: 0_level_0,Job,Age,Salary,Bonus,Address
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
A,Programmer,20.0,30000.0,10%,123.0
B,Programmer,18.0,,10%,
C,Developer,,32000.0,10%,
D,,23.0,40000.0,10%,
E,Sale,29.0,40000.0,10%,
F,Manager,,75000.0,10%,
,,,,,
H,Maketing,34.0,60000.0,10%,
I,,26.0,100000.0,10%,
