# การทำงานของ Machine Learning จะใช้ตัวเลข (Numerical) ในการประมวลผลเท่านั้น
ดังนั้น เรามีความจำเป็นต้องเข้ารหัสข้อมูลที่ไม่ใช่ตัวเลข (Categorial) เช่น

คุณสมบัติ (Features / Columns / Attributes) ของเพศ (sex) ที่มีการจัดเก็บเป็นประเภท(Categorial) คือ 'male', 'female' ให้อยู่ในรูปของตัวเลข ก่อนนำไปใช้

## Data Encoding: การแปลงข้อมูลที่ไม่ใช่ตัวเลข (Categorial) -> ตัวเลข (Numerical)


1. Label / Ordinal Encoding
2. One-Hot / Dummy Encoding
3. Target Encoding
4. Frequency / Count Encoding
5. Binary Encoding  
6. Feature Hashing

https://medium.com/aiskunks/categorical-data-encoding-techniques-d6296697a40f

https://www.shiksha.com/online-courses/articles/handling-categorical-variables-with-one-hot-encoding/

### Step 1: การทำความรู้จักกับข้อมูล (Data Understanding)


1.1 ข้อมูลที่จะใช้ในการทำงานของ Machine Learning เช่น เพศ (sex)<br/>
1.2 ตรวจสอบชนิดของข้อมูลที่จัดเก็บในตัวแปร ด้วยฟังก์ชัน type(...)<br/>
1.3 ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน Pandas ว่าจัดเก็บในรูปแบบกี่มิติ (1D, 2D, 3D, ...) ด้วยคุณสมบัติ .shape<br/>



#### Step 1.1: ข้อมูลที่จะใช้ในการทำงานของ Machine Learning เช่น เพศ (sex)

In [None]:
import pandas as pd

data = pd.DataFrame({
    'sex': ['male', 'female', 'female', 'male']
})

?

In [None]:
# แสดงข้อมูลเพศ ของสมาชิกคนที่ 1 (ใน Python จะเริ่มต้นที่ Index: 0)
data['sex'][?]

In [None]:
# แสดงข้อมูลเพศ ของสมาชิกคนที่ 3 (ใน Python จะเริ่มต้นที่ Index: 0)
data['sex'][?]

#### Step 1.2: ตรวจสอบชนิดของข้อมูลที่จัดเก็บในตัวแปร ด้วยฟังก์ชัน type(...)

In [None]:
# ตรวจสอบชนิดของข้อมูลเพศ ของสมาชิกคนที่ 1
type(data['sex'][?])

In [None]:
# ตรวจสอบชนิดของข้อมูลที่จัดเก็บในตัวแปร data
type(data)

In [None]:
# ตรวจสอบชนิดของข้อมูลที่จัดเก็บในตัวแปร data ที่จัดเก็บข้อมูลเพศ
type(data['sex'])

In [None]:
# ตรวจสอบชนิดของข้อมูลที่จัดเก็บในตัวแปร data ที่จัดเก็บข้อมูลเพศ
type(data[['sex']])

#### Step 1.3: ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน Pandas ว่าจัดเก็บในรูปแบบกี่มิติ (1D, 2D, 3D, ...) ด้วยคุณสมบัติ .shape

In [None]:
# ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน data
data.?

In [None]:
# ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน data['sex']
data['sex'].?

In [None]:
# ตรวจสอบรูปร่างของข้อมูลที่จัดเก็บใน data[['sex']]
data[['sex']].?

## Data Encoding (เทคนิคที่ 1): Label Encoding (จำนวนคอลัมน์ เท่าเดิม)

1. ทำความรู้จักกับข้อมูล (Data Understanding)
2. นำเข้า Library ที่จำเป็น และเข้ารหัส (Encoder) ข้อมูลที่ต้องการ <br/>
  2.1 นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล: sklearn.preprocessing <br/>
  2.2 สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (label_encoder) จาก sklearn.preprocessing <br/>
  2.3 ทำการแปลงคอลัมน์เพศ (sex) ด้วยวิธีการ Label Encoding <br/>
3. ทำการแทนที่ Label Encoding ที่ได้กลับไปที่คอลัมน์ของเพศ (sex) ของ data
4. ทำการตรวจสอบว่าเพศ (sex) ที่แสดงผลเป็นตัวเลข คือเพศ อะไร? ด้วยคุณสมบัติ .classes_

### Step 1: การทำความรู้จักกับข้อมูล (Data Understanding)

In [None]:
import pandas as pd

data = pd.DataFrame({
    'sex': ['male', 'female', 'female', 'male']
})

?

### Step 2: นำเข้า Library ที่จำเป็น และเข้ารหัส (Encoder) ข้อมูลที่ต้องการ

In [None]:
from sklearn import preprocessing                 # นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล

label_encoder = ?       # สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (label_encoder) จาก sklearn.preprocessing
label_data = ?          # ทำการแปลงคอลัมน์เพศ (sex) ด้วยวิธีการ Label Encoding

?

### Step 3: ทำการแทนที่ Label Encoding ที่ได้กลับไปที่คอลัมน์ของเพศ (sex) ของ data

In [None]:
data['sex'] = label_data

?

### Step 4: ทำการตรวจสอบว่าเพศ (sex) ที่แสดงผลเป็นตัวเลข คือเพศ อะไร? ด้วยคุณสมบัติ .classes_

In [None]:
label_encoder.?

## Data Encoding (เทคนิคที่ 2): One-Hot Encoding (จำนวนคอลัมน์ เพิ่มขึ้น ตามจำนวน Categorial)

1. ทำความรู้จักกับข้อมูล (Data Understanding)
2. นำเข้า Library ที่จำเป็น และเข้ารหัส (Encoder) ข้อมูลที่ต้องการ <br/>
  2.1 นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล: sklearn.preprocessing <br/>
  2.2 สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (one_hot_encoder) จาก sklearn.preprocessing <br/>
  2.3 ทำการแปลงคอลัมน์เพศ (sex) ด้วยวิธีการ One-Hot Encoding <br/>
3. ทำการผสาน (Merge) ข้อมูลเดิม (data) กับข้อมูลใหม่ที่ผ่านการเข้ารหัส (Encoder)  
4. ทำการตั้งชื่อให้คอลัมน์ใหม่ที่เกิดขึ้นจาก One-Hot Encoding
5. ทำการลบ(Drop) คอลัมน์ที่ไม่ใช่ตัวเลข(Categorial) ออก เหลือเพียงข้อมูลที่เป็นตัวเลข เพื่อใช้ในงาน ML ต่อไป



### Step 1: การทำความรู้จักกับข้อมูล (Data Understanding)

In [None]:
import pandas as pd

data = pd.DataFrame({
    'sex': ['male', 'female', 'female', 'male']
})

?

### Step 2: นำเข้า Library ที่จำเป็น และเข้ารหัส (Encoder) ข้อมูลที่ต้องการ

In [None]:
from sklearn import preprocessing                 # นำเข้า Library ที่จำเป็นในการจัดเตรียมข้อมูล

one_hot_encoder = ?   # สร้างตัวแปรที่จะทำหน้าที่เข้ารหัส (one_hot_encoder) จาก sklearn.preprocessing
encoder_data = ?      # ทำการแปลงคอลัมน์เพศ (sex) ด้วยวิธีการ One-Hot Encoding

?

### Step 3: ทำการตั้งชื่อให้คอลัมน์ใหม่ที่เกิดขึ้นจาก One-Hot Encoding

In [None]:
column_names = one_hot_encoder.?            # แสดงข้อมูลเพศ(sex) ในรูปแบบ Categorial ที่ถูกแปลงเป็นชื่อคอลัมน์ (column_names) .categories_
?                                           # โครงสร้างของ column_names คือ list ที่จัด array(['female', 'male'])

In [None]:
column_names[?] # การเข้าถึงสมาชิกภายในโครงสร้างของ column_names ในตำแหน่งแรก

In [None]:
# ทำการตั้งชื่อให้คอลัมน์ โดยที่ดัชนีจะเรียงลำดับตามอักษร (a-z)
#encoder_data.columns = ['f', 'm']      # เราสามารถตั้งชื่อคอลัมน์ได้ โดยดัชนีจะเรียงลำดับตามอักษร (a-z)
encoder_data.columns = column_names[?]

?

### Step 4: ทำการผสาน (Merge) ข้อมูลเดิม (data) กับข้อมูลใหม่ที่ผ่านการเข้ารหัส (Encoder)

In [None]:
new_df = data.join(?) # ผสาน ข้อมูลเดิม (data) กับ ข้อมูลใหม่ที่ผ่านการเข้ารหัส (encoder_data)
?

### Step 5: ทำการลบ(Drop) คอลัมน์ที่ไม่ใช่ตัวเลข(Categorial) ออก เหลือเพียงข้อมูลที่เป็นตัวเลข เพื่อใช้ในงาน ML ต่อไป

In [None]:
new_df = new_df.drop([?], axis=?) # ลบคอลัมน์ เพศ(sex) axis=0 คือ แถว, axis=1 คือ คอลัมน์
?

## Data Encoding (เทคนิคที่ 3): Dummy Encoding (จำนวนคอลัมน์ เพิ่มขึ้น ตามจำนวน Categorial)

1. ทำความรู้จักกับข้อมูล (Data Understanding)
2. เรียกใช้งาน Pandas เมธอด .get_dummies(...)
3. ข้อควรระวังในการใช้ .get_dummies(...)

### Step 1: การทำความรู้จักกับข้อมูล (Data Understanding)

In [None]:
import pandas as pd

data = pd.DataFrame({
    'sex': ['male', 'female', 'female', 'male']
})

?

### Step 2: เรียกใช้งาน Pandas เมธอด .get_dummies(...)

In [None]:
dummies = ? # ผลลัพธ์เหมือนกับ One-Hot Encoding แต่เขียนง่ายกว่ามาก
?

In [None]:
dummies = ? # จำนวน Categorical - 1 เนื่องจากทำการ ลบคอลัมน์แรก (drop_first)
?

In [None]:
dummies = ? # จำนวน Categorical - 1 เนื่องจากทำการ ลบคอลัมน์แรก (drop_first) และเติมคำนำหน้าคอลัมน์ด้วย prefix
?

### Step 3: ข้อควรระวังในการใช้งาน pd.get_dummies(...)

ในการเตรียมข้อมูล (Data Preprocessing) เราต้องแน่ใจว่าข้อมูลที่ใช้ในการสอน (Train) และทดสอบ (Test) มีจำนวนคอลัมน์ที่เพิ่มขึ้นตรงกัน

https://albertum.medium.com/preprocessing-onehotencoder-vs-pandas-get-dummies-3de1f3d77dcc