จาก ep ก่อน ที่เราสอนเรื่อง [ใช้ Deep Neural Network วิเคราะห์ข้อมูลแบบ Structure หรือข้อมูลแบบตาราง Tabular Data ](https://www.bualabs.com/archives/958/machine-learning-deep-learning-structure-data-tabular-data-ep-1/) จะมีงานสำคัญที่ต้องทำก่อนเทรน คือการ Preprocessing จัดเตรียมข้อมูล ซึ่งมีหลายอย่าง เช่น Fillna, Normalize, Categorize, Clipping, Binning, Feature Engineering ต่าง ๆ , etc.  ใน ep นี้เราจะมาเรียนรู้กันเรื่อง การจัดการกับข้อมูลไม่ครบ วิธีเติมค่าที่ขาดหายไป หรือ Null, สอน FillNA - Preprocessing ep.1 

(NA = Not Available, Null = ไม่มีข้อมูล, NaN = Not a Number)

# 0. Magic Commands

In [0]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

# 1. Import Library

In [0]:
from fastai import *
from fastai.tabular import *

# 2. Data

In [0]:
path = untar_data(URLs.ADULT_SAMPLE)
# df = DataFrame, pd = Pandas
df = pd.read_csv(path/'adult.csv')

## 2.1 สำรวจข้อมูล

เปิดดู 10 Row แรก สังเกตว่า ใน Column occupation และ education-num บาง Row จะมีค่าเป็น NaN

In [17]:
df.head(10)

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,salary
0,49,Private,101320,Assoc-acdm,12.0,Married-civ-spouse,,Wife,White,Female,0,1902,40,United-States,>=50k
1,44,Private,236746,Masters,14.0,Divorced,Exec-managerial,Not-in-family,White,Male,10520,0,45,United-States,>=50k
2,38,Private,96185,HS-grad,,Divorced,,Unmarried,Black,Female,0,0,32,United-States,<50k
3,38,Self-emp-inc,112847,Prof-school,15.0,Married-civ-spouse,Prof-specialty,Husband,Asian-Pac-Islander,Male,0,0,40,United-States,>=50k
4,42,Self-emp-not-inc,82297,7th-8th,,Married-civ-spouse,Other-service,Wife,Black,Female,0,0,50,United-States,<50k
5,20,Private,63210,HS-grad,9.0,Never-married,Handlers-cleaners,Own-child,White,Male,0,0,15,United-States,<50k
6,49,Private,44434,Some-college,10.0,Divorced,,Other-relative,White,Male,0,0,35,United-States,<50k
7,37,Private,138940,11th,7.0,Married-civ-spouse,,Husband,White,Male,0,0,40,United-States,<50k
8,46,Private,328216,HS-grad,9.0,Married-civ-spouse,Craft-repair,Husband,White,Male,0,0,40,United-States,>=50k
9,36,Self-emp-inc,216711,HS-grad,,Married-civ-spouse,,Husband,White,Male,99999,0,50,?,>=50k


## 2.2 ดูสถิติข้อมูล

เราลองมาดูแบบสรุป ว่ามี Column ไหนบ้างที่ข้อมูลขาด ถ้า Column ไหน Count ไม่เท่ากับ 32561 แสดงว่ามีข้อมูลขาดหายไป

In [16]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32561 entries, 0 to 32560
Data columns (total 15 columns):
age               32561 non-null int64
workclass         32561 non-null object
fnlwgt            32561 non-null int64
education         32561 non-null object
education-num     32074 non-null float64
marital-status    32561 non-null object
occupation        32049 non-null object
relationship      32561 non-null object
race              32561 non-null object
sex               32561 non-null object
capital-gain      32561 non-null int64
capital-loss      32561 non-null int64
hours-per-week    32561 non-null int64
native-country    32561 non-null object
salary            32561 non-null object
dtypes: float64(1), int64(5), object(9)
memory usage: 3.7+ MB


ในที่นี้คือ occupation (count) = 32049, education-num (count) = 32074

# 3. Prepare Data

ในโลกแห่งความเป็นจริง เราจะพบปัญหาข้อมูลขาดหายอยู่เสมอ เช่น User กรอกแบบฟอร์มไม่ครบ หรือ ใส่ - ใส่ space มาแทน, ระบบมีหลายเวอร์ชัน, ข้อมูลมาจากหลายที่ ที่ Format แตกต่างกันนิดหน่อย, etc.

เมื่อมีข้อมูลขาดหายไป เราจะเป็นต้องจัดการข้อมูลเหล่านั้น ก่อนป้อนเข้าสู่ระบบ Neural Network ก่อนจะใช้เทรน Machine Learning เนื่องจากโมเดลจะรับข้อมูลเป็นตัวเลขเท่านั้น การรับข้อมูล Null, NaN ทำให้มีผลต่อการคำนวน สูตรคณิตศาสร์ภายในโมเดล เช่น NaN * 5 = ? หรือ หาค่าเฉลี่ย แล้วมีค่า NaN ปนมาด้วย ทำให้รวนกันไปหมด


วิธีจัดการค่า Null / NaN

1. Drop Row นั้นทิ้งไปเลย
1. Drop Column นั้นทิ้งไปเลย
1. Imputation เติมด้วยค่าพิเศษ ที่ไม่มีอยู่ในข้อมูล เช่นตัวเลข -1, -Infinity หรือข้อความว่า "Unknown", "N/A"
1. Imputation เติมด้วยค่า Mean / Median / Mode จากข้อมูลทั้งหมด เช่น เติมอายุที่ขาดไป จากอายุเฉลี่ยของข้อมูลทั้ง Dataset
1. Imputation เติมด้วยค่า Mean / Median / Mode จากข้อมูลบางส่วน เช่น เติมอายุที่ขาดไป จากอายุเฉลี่ยของนักเรียนห้องเดียวกัน
1. Imputation เติมด้วยค่าจากอัลกอริทึม เช่น K-Nearest Neighbour, Bi-Linear Interpolation, etc.
1. เติมด้วยค่าด้วยมือของเราเอง ทีละค่า ๆ ด้วยการแก้ไขข้อมูลโดยตรง จากวิจารณญาณ
1. 

ทุกวิธีล้วนมีข้อดีข้อเสียแตกต่างกัน ตั้งแต่ Effort ที่ใช้, เวลาในประมวลผล, คุณภาพของข้อมูล, Reproducibility, ความแม่นยำของโมเดล 

Mean = ค่าเฉลี่ย, Median = ค่ามัธยฐาน, Mode = ค่าฐานนิยม (ค่าที่ซ้ำมากที่สุด) สำหรับข้อมูลตัวเลข เราสามาถใช้ได้ทั้ง 3 อย่าง แต่ถ้าเป็นข้อมูลข้อความ หรือ Category เราอาจจะต้องใช้ Mode แทน

การจะเลือกวิธีใด ควรพิจารณาจาก ชนิดข้อมูล ขนาดของข้อมูล การกระจายของข้อมูล ความเร็วของข้อมูล จำนวนของข้อมูลที่ขาดหายไป บวกกับข้อดีข้อเสียด้านบน

เราจะเลือกวิธีใดถือเป็น Hyperparameter แบบนึง แต่เป็น Indirect Hyperparameter ทางอ้อม เพราะไม่ได้ทำกับโมเดลโดยตรง

หมายเหตุ Imputation = การกำหนดค่าให้บางอย่าง โดยอนุมานเอาจาก ค่าของผลลัพธ์ หรือกระบวนการที่ค่านั้นสนับสนุนอยู่ (the assignment of a value to something by inference from the value of the products or processes to which it contributes.)