## Data cleaning และ Data preparation

ในกระบวนการของ Data Analysis ส่วนใหญ่จะใช้เวลาไปกับการเตรียมข้อมูล 

เช่น การ load, clean, transform และ rearrange ข้อมูลให้อยู่ในรูปแบบที่พร้อมต่อการวิเคราะห์

โดยที่ Pandas library ได้เตรียมความสามารถต่าง ๆ เหล่านี้ไว้ให้ ที่สำคัญทำงานได้อย่างมีประสิทธิภาพอีกด้วย

In [4]:
import numpy as np
import pandas as pd

## การจัดการ Missing value หรือ data

เริ่มต้นด้วยการตรวจสอบข้อมูลว่ามี missing value หรือไม่ 
* NA = Not Available
* NaN = Not a Number

In [5]:
samples = pd.Series(['A', 'B', 'C', np.nan, 'D'])
samples

0      A
1      B
2      C
3    NaN
4      D
dtype: object

In [6]:
samples.isnull()

0    False
1    False
2    False
3     True
4    False
dtype: bool

In [9]:
samples[0] = None  #None in Python
samples.isnull()

0     True
1    False
2    False
3     True
4    False
dtype: bool

ใน Pandas library ยังมี function อื่น ๆ ในการจัดการ Missing data อีก ประกอบไปด้่วย
* dropna()
* fillna()
* isnull()
* notnull()

In [11]:
samples.dropna()

1    B
2    C
4    D
dtype: object

In [13]:
samples.notnull()

0    False
1     True
2     True
3    False
4     True
dtype: bool

## ทำการกรอง Missing data ออกไป
สามารถใช้ได้ทั้ง isnull() และ dropna() ยกตัวอย่างเช่น

In [16]:
from numpy import nan as NA
data = pd.Series([1, 2, NA, 4, NA])
data

0    1.0
1    2.0
2    NaN
3    4.0
4    NaN
dtype: float64

In [17]:
data.dropna()

0    1.0
1    2.0
3    4.0
dtype: float64

In [20]:
data.notnull()

0     True
1     True
2    False
3     True
4    False
dtype: bool

In [21]:
# Put your code

0    1.0
1    2.0
3    4.0
dtype: float64

### มาจัดการ missing data ใน DataFrame กันบ้าง

In [24]:
data = pd.DataFrame([[1., 6.5, 3.], [1., NA, NA],[NA, NA, NA], [NA, 6.5, 3.]])
data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


In [26]:
clean_data = data.dropna()
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0


จะพบว่า ข้อมูลที่มีค่าเป็น NaN จะถูกเอาออกไปทั้ง row !!

แต่ถ้าเราต้องการในลบข้อมูลที่ทั้ง row ต้องเป็น NaN เท่านั้น สามารถใส่ parameter how=all ไปดังนี้

In [28]:
clean_data = data.dropna(how='all')
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
3,,6.5,3.0


อีกทั้งยังสามารถลบ column ที่เป็น NaN ทั้งหมดได้อีก ด้วยการใส่ parameter axis=1 ไปดังนี้

In [31]:
data[4] = NA
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [32]:
clean_data = data.dropna(axis=1, how='all')
clean_data

Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


### คำถาม ต้องการกรองข้อมูลเฉพาะ row มีค่า NaN ไม่เกิน 2 ค่า ?
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.dropna.html

In [50]:
data

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
1,1.0,,,
2,,,,
3,,6.5,3.0,


In [49]:
# Put your code

Unnamed: 0,0,1,2,4
0,1.0,6.5,3.0,
3,,6.5,3.0,


## Data transformation

## การจัดการข้อมูล