# Data cleaning และ Data preparation

ในกระบวนการของ Data Analysis ส่วนใหญ่จะใช้เวลาไปกับการเตรียมข้อมูล 

เช่น การ load, clean, transform และ rearrange ข้อมูลให้อยู่ในรูปแบบที่พร้อมต่อการวิเคราะห์

โดยที่ Pandas library ได้เตรียมความสามารถต่าง ๆ เหล่านี้ไว้ให้ ที่สำคัญทำงานได้อย่างมีประสิทธิภาพอีกด้วย

In [67]:
import numpy as np
import pandas as pd

## การจัดการ Missing value หรือ data

เริ่มต้นด้วยการตรวจสอบข้อมูลว่ามี missing value หรือไม่ 
* NA = Not Available
* NaN = Not a Number

In [5]:
samples = pd.Series(['A', 'B', 'C', np.nan, 'D'])
samples

0      A
1      B
2      C
3    NaN
4      D
dtype: object

In [6]:
samples.isnull()

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [9]:
samples[0] = None  #None in Python
samples.isnull()

0     True
1    False
2    False
3     True
4    False
dtype: bool

ใน Pandas library ยังมี function อื่น ๆ ในการจัดการ Missing data อีก ประกอบไปด้่วย
* dropna()
* fillna()
* isnull()
* notnull()

In [11]:
samples.dropna()

1    B
2    C
4    D
dtype: object

In [13]:
samples.notnull()

0    False
1     True
2     True
3    False
4     True
dtype: bool

## ทำการกรอง Missing data ออกไป
สามารถใช้ได้ทั้ง isnull() และ dropna() ยกตัวอย่างเช่น

In [71]:
from numpy import nan as NA
data = pd.Series([1, 2, NA, 4, NA])
data

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

In [17]:
data.dropna()

0    1.0
1    2.0
3    4.0
dtype: float64

In [20]:
data.notnull()

0     True
1     True
2    False
3     True
4    False
dtype: bool

In [21]:
# Put your code

0    1.0
1    2.0
3    4.0
dtype: float64

### มาจัดการ missing data ใน DataFrame กันบ้าง

In [24]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],[NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [26]:
clean_data = data.dropna()
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


จะพบว่า ข้อมูลที่มีค่าเป็น NaN จะถูกเอาออกไปทั้ง row !!

แต่ถ้าเราต้องการในลบข้อมูลที่ทั้ง row ต้องเป็น NaN เท่านั้น สามารถใส่ parameter how=all ไปดังนี้

In [28]:
clean_data = data.dropna(how='all')
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


อีกทั้งยังสามารถลบ column ที่เป็น NaN ทั้งหมดได้อีก ด้วยการใส่ parameter axis=1 ไปดังนี้

In [31]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [32]:
clean_data = data.dropna(axis=1, how='all')
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


### คำถาม ต้องการกรองข้อมูลเฉพาะ row มีค่า NaN ไม่เกิน 2 ค่า ?
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.html

In [50]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [49]:
# Put your code

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
3,,6.5,3.0,


### ถ้าไม่ต้องกรองข้อมูลออก เราสามารถแก้ไขหรือเปลี่ยนค่าของ missing value ได้
สามารถใช้งานด้วย function fillna() ด้วยการระบุค่าที่ต้องการใส่แทน missing value

In [63]:
data = pd.DataFrame(np.random.randn(7, 3))
data.iloc[:5, 1] = NA
data.iloc[:2, 2] = NA
data

Unnamed: 0,0,1,2
0,-0.258738,,
1,1.780211,,
2,-1.297301,,-0.469925
3,-0.789498,,-0.018596
4,0.502193,,-0.405563
5,0.256412,-0.342062,-0.823014
6,-1.348614,0.29487,0.667151


In [64]:
data.fillna(0)

Unnamed: 0,0,1,2
0,-0.258738,0.0,0.0
1,1.780211,0.0,0.0
2,-1.297301,0.0,-0.469925
3,-0.789498,0.0,-0.018596
4,0.502193,0.0,-0.405563
5,0.256412,-0.342062,-0.823014
6,-1.348614,0.29487,0.667151


ทำการกำหนดแยกแต่ละ index หรือ column ได้อีกด้วย

สามารถใส่ parameter ในรูปแบบของ dictionary ได้ดังนี้

In [66]:
data.fillna({1: 0.50, 2: 0})

Unnamed: 0,0,1,2
0,-0.258738,0.5,0.0
1,1.780211,0.5,0.0
2,-1.297301,0.5,-0.469925
3,-0.789498,0.5,-0.018596
4,0.502193,0.5,-0.405563
5,0.256412,-0.342062,-0.823014
6,-1.348614,0.29487,0.667151


### ในบางครั้งไม่ต้องการแทนที่ด้วยค่าที่กำหนด  แต่ต้องการใช้ค่าก่อนหน้า
โดยสามารถทำได้ใส่ parameter method เข้าไปใน fillna() ได้ดังนี้

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna

In [75]:
data = pd.DataFrame(np.random.randn(6, 3))
data.iloc[2:, 1] = NA
data.iloc[4:, 2] = NA
data

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,,-0.484983
3,-0.228528,,0.160589
4,-0.873237,,
5,-0.91963,,


In [76]:
data.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-1.816907,-0.484983
3,-0.228528,-1.816907,0.160589
4,-0.873237,-1.816907,0.160589
5,-0.91963,-1.816907,0.160589


In [77]:
# Put your code

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-1.816907,-0.484983
3,-0.228528,-1.816907,0.160589
4,-0.873237,,0.160589
5,-0.91963,,0.160589


มีอีกหลายแนวทางในการใส่ข้อมูลขอ missing data 

ยกตัวอย่างเช่น ค่า median ของ column ที่ต้องการ

In [87]:
data.fillna(data[1].mean())

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-0.480062,-0.484983
3,-0.228528,-0.480062,0.160589
4,-0.873237,-0.480062,-0.480062
5,-0.91963,-0.480062,-0.480062


In [91]:
# Put your code

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-0.480062,-0.484983
3,-0.228528,-0.480062,0.160589
4,-0.873237,-0.480062,-0.073984
5,-0.91963,-0.480062,-0.073984


## Data transformation

## การจัดการข้อมูล