# Data cleaning และ Data preparation

ในกระบวนการของ Data Analysis ส่วนใหญ่จะใช้เวลาไปกับการเตรียมข้อมูล 

เช่น การ load, clean, transform และ rearrange ข้อมูลให้อยู่ในรูปแบบที่พร้อมต่อการวิเคราะห์

โดยที่ Pandas library ได้เตรียมความสามารถต่าง ๆ เหล่านี้ไว้ให้ ที่สำคัญทำงานได้อย่างมีประสิทธิภาพอีกด้วย

In [67]:
import numpy as np
import pandas as pd

## การจัดการ Missing value หรือ data

เริ่มต้นด้วยการตรวจสอบข้อมูลว่ามี missing value หรือไม่ 
* NA = Not Available
* NaN = Not a Number

In [5]:
samples = pd.Series(['A', 'B', 'C', np.nan, 'D'])
samples

0      A
1      B
2      C
3    NaN
4      D
dtype: object

In [6]:
samples.isnull()

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [9]:
samples[0] = None  #None in Python
samples.isnull()

0     True
1    False
2    False
3     True
4    False
dtype: bool

ใน Pandas library ยังมี function อื่น ๆ ในการจัดการ Missing data อีก ประกอบไปด้่วย
* dropna()
* fillna()
* isnull()
* notnull()

In [11]:
samples.dropna()

1    B
2    C
4    D
dtype: object

In [13]:
samples.notnull()

0    False
1     True
2     True
3    False
4     True
dtype: bool

## ทำการกรอง Missing data ออกไป
สามารถใช้ได้ทั้ง isnull() และ dropna() ยกตัวอย่างเช่น

In [71]:
from numpy import nan as NA
data = pd.Series([1, 2, NA, 4, NA])
data

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

In [17]:
data.dropna()

0    1.0
1    2.0
3    4.0
dtype: float64

In [20]:
data.notnull()

0     True
1     True
2    False
3     True
4    False
dtype: bool

In [21]:
# Put your code

0    1.0
1    2.0
3    4.0
dtype: float64

### มาจัดการ missing data ใน DataFrame กันบ้าง

In [24]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],[NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [26]:
clean_data = data.dropna()
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


จะพบว่า ข้อมูลที่มีค่าเป็น NaN จะถูกเอาออกไปทั้ง row !!

แต่ถ้าเราต้องการในลบข้อมูลที่ทั้ง row ต้องเป็น NaN เท่านั้น สามารถใส่ parameter how=all ไปดังนี้

In [28]:
clean_data = data.dropna(how='all')
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


อีกทั้งยังสามารถลบ column ที่เป็น NaN ทั้งหมดได้อีก ด้วยการใส่ parameter axis=1 ไปดังนี้

In [31]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [32]:
clean_data = data.dropna(axis=1, how='all')
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


### คำถาม ต้องการกรองข้อมูลเฉพาะ row มีค่า NaN ไม่เกิน 2 ค่า ?
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.html

In [50]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [49]:
# Put your code

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
3,,6.5,3.0,


### ถ้าไม่ต้องกรองข้อมูลออก เราสามารถแก้ไขหรือเปลี่ยนค่าของ missing value ได้
สามารถใช้งานด้วย function fillna() ด้วยการระบุค่าที่ต้องการใส่แทน missing value

In [63]:
data = pd.DataFrame(np.random.randn(7, 3))
data.iloc[:5, 1] = NA
data.iloc[:2, 2] = NA
data

Unnamed: 0,0,1,2
0,-0.258738,,
1,1.780211,,
2,-1.297301,,-0.469925
3,-0.789498,,-0.018596
4,0.502193,,-0.405563
5,0.256412,-0.342062,-0.823014
6,-1.348614,0.29487,0.667151


In [64]:
data.fillna(0)

Unnamed: 0,0,1,2
0,-0.258738,0.0,0.0
1,1.780211,0.0,0.0
2,-1.297301,0.0,-0.469925
3,-0.789498,0.0,-0.018596
4,0.502193,0.0,-0.405563
5,0.256412,-0.342062,-0.823014
6,-1.348614,0.29487,0.667151


ทำการกำหนดแยกแต่ละ index หรือ column ได้อีกด้วย

สามารถใส่ parameter ในรูปแบบของ dictionary ได้ดังนี้

In [66]:
data.fillna({1: 0.50, 2: 0})

Unnamed: 0,0,1,2
0,-0.258738,0.5,0.0
1,1.780211,0.5,0.0
2,-1.297301,0.5,-0.469925
3,-0.789498,0.5,-0.018596
4,0.502193,0.5,-0.405563
5,0.256412,-0.342062,-0.823014
6,-1.348614,0.29487,0.667151


### ในบางครั้งไม่ต้องการแทนที่ด้วยค่าที่กำหนด  แต่ต้องการใช้ค่าก่อนหน้า
โดยสามารถทำได้ใส่ parameter method เข้าไปใน fillna() ได้ดังนี้

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna

In [75]:
data = pd.DataFrame(np.random.randn(6, 3))
data.iloc[2:, 1] = NA
data.iloc[4:, 2] = NA
data

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,,-0.484983
3,-0.228528,,0.160589
4,-0.873237,,
5,-0.91963,,


In [76]:
data.fillna(method='ffill')

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-1.816907,-0.484983
3,-0.228528,-1.816907,0.160589
4,-0.873237,-1.816907,0.160589
5,-0.91963,-1.816907,0.160589


In [77]:
# Put your code

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-1.816907,-0.484983
3,-0.228528,-1.816907,0.160589
4,-0.873237,,0.160589
5,-0.91963,,0.160589


มีอีกหลายแนวทางในการใส่ข้อมูลขอ missing data 

ยกตัวอย่างเช่น ค่า median ของ column ที่ต้องการ

In [87]:
data.fillna(data[1].mean())

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-0.480062,-0.484983
3,-0.228528,-0.480062,0.160589
4,-0.873237,-0.480062,-0.480062
5,-0.91963,-0.480062,-0.480062


In [91]:
# Put your code

Unnamed: 0,0,1,2
0,-0.916727,0.856784,-0.70057
1,0.372459,-1.816907,0.72903
2,-0.026176,-0.480062,-0.484983
3,-0.228528,-0.480062,0.160589
4,-0.873237,-0.480062,-0.073984
5,-0.91963,-0.480062,-0.073984


## Data transformation
เริ่มด้วยการลบข้อมูลที่ซ้ำซ้อน ซึ่งพบเป็นประจำสำหรับข้อมูล

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html#pandas.DataFrame.drop_duplicates

In [110]:
data = pd.DataFrame( { "key 1": ['A', 'B', 'C'] * 3 + ['A'],
                       "key 2": [1,2,3,4,5,6,7,8,9] + [1]
                     } )
data

Unnamed: 0,key 1,key 2
0,A,1
1,B,2
2,C,3
3,A,4
4,B,5
5,C,6
6,A,7
7,B,8
8,C,9
9,A,1


In [111]:
# Check duplicated data in DataFrame
data.duplicated()

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9     True
dtype: bool

In [112]:
# Drop duplicated row
data.drop_duplicates()

Unnamed: 0,key 1,key 2
0,A,1
1,B,2
2,C,3
3,A,4
4,B,5
5,C,6
6,A,7
7,B,8
8,C,9


In [119]:
data['new key'] = range(10)
data

Unnamed: 0,key 1,key 2,new key
0,A,1,0
1,B,2,1
2,C,3,2
3,A,4,3
4,B,5,4
5,C,6,5
6,A,7,6
7,B,8,7
8,C,9,8
9,A,1,9


In [123]:
# Check duplicate by column
data.drop_duplicates(['key 1'])

Unnamed: 0,key 1,key 2,new key
0,A,1,0
1,B,2,1
2,C,3,2


In [124]:
# Put your code

Unnamed: 0,key 1,key 2,new key
7,B,8,7
8,C,9,8
9,A,1,9


## Data transform ด้วยการ mapping ในแต่ละ Series

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html#pandas.Series.map

In [136]:
data = pd.DataFrame( { 'food': ['bacon', 'Bacon', 'Ham', 'beef', 'pastrami'],
                       'value': np.random.randn(5)
                     } )
data

Unnamed: 0,food,value
0,bacon,0.222529
1,Bacon,-1.860901
2,Ham,-0.31475
3,beef,2.269789
4,pastrami,0.767087


ต้องการ mapping ข้อมูลดังนี้
* bacon, Ham คือ pig
* beef, pastrami คือ cow

จะต้องทำการ transform ข้อมูลใน DataFrame อย่างไร ?

In [131]:
lowercase_data = data['food'].str.lower()
lowercase_data

0       bacon
1       bacon
2         ham
3        beef
4    pastrami
Name: food, dtype: object

In [132]:
mapping = { 'bacon': 'pig', 'ham': 'pig', 'beef': 'cow', 'pastrami': 'cow' }
lowercase_data.map(mapping)

0    pig
1    pig
2    pig
3    cow
4    cow
Name: food, dtype: object

In [133]:
# Put your code

Unnamed: 0,food,value,type
0,bacon,-0.781627,pig
1,Bacon,0.126815,pig
2,Ham,0.852046,pig
3,beef,-1.920844,cow
4,pastrami,0.77229,cow


#### สามารถเขียนสั้น ๆ ด้วยบรรทัดเดียว !!

In [137]:
data['food'].map(lambda x: mapping[x.lower()])

0    pig
1    pig
2    pig
3    cow
4    cow
Name: food, dtype: object

### การ Replace ค่าใน Series

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.replace.html#pandas.Series.replace

In [148]:
data = pd.Series([1., -999, 2, -999, -1000, 3])
data

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64

ทำการ replace ค่าใน Series ให้ค่า -999 เป็น NaN

In [141]:
data.replace(-999, np.nan)

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64

ทำการ replace หลาย ๆ ค่าใน Series ให้ค่า -999 และ -1000 เป็น NaN

In [142]:
data.replace([-999, -1000], np.nan)

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64

#### คำถาม ทำการ replace ค่าใน Series ดังนี้
* -999 เป็น NaN
* -1000 เป็น 0

In [145]:
# Put your code

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64

### Detecting and Filtering Outliers

เรื่องของ outliers เป็นสิ่งที่เกิดขึ้นในข้อมูลที่มีขนาดใหญ่ โดยที่ outliers มีทั้งข้อดีและข้อเสีย

In [157]:
data = pd.DataFrame(np.random.randn(1000, 4))
data.describe()

Unnamed: 0,0,1,2,3
count,1000.0,1000.0,1000.0,1000.0
mean,-0.033251,0.063944,-0.022717,-0.090652
std,1.00264,1.006535,0.982326,1.004772
min,-3.832485,-3.413845,-2.951679,-3.424204
25%,-0.691341,-0.653859,-0.709574,-0.791109
50%,0.036699,0.100119,-0.034953,-0.081519
75%,0.633197,0.780033,0.658816,0.620844
max,2.937684,3.466735,3.07355,4.044406


ทำการหาข้อมูลใน column ที่ 2 ซึ่งมีค่ามากกว่า 2.5

In [162]:
column = data[2]
column[np.abs(column) > 2.5]

13     2.729968
26    -2.530231
80    -2.654015
92    -2.951679
256    2.691259
379    3.073550
619    2.902912
920    2.506149
Name: 2, dtype: float64

## การจัดการข้อมูล