# Label Encoding: การแปลงข้อมูลจาก Categorial เป็น Numerical (จำนวน Feature เท่าเดิม)

## Step 1: ข้อมูลที่เตรียมไว้

In [1]:
import pandas as pd

data = pd.DataFrame({
    'sex':['male', 'female', 'female', 'male'],
    'target':['oxfords', 'sneakers', 'high-heels', 'sneakers']
})

data

Unnamed: 0,sex,target
0,male,oxfords
1,female,sneakers
2,female,high-heels
3,male,sneakers


In [2]:
data['sex']

0      male
1    female
2    female
3      male
Name: sex, dtype: object

In [3]:
data[['sex', 'target']]

Unnamed: 0,sex,target
0,male,oxfords
1,female,sneakers
2,female,high-heels
3,male,sneakers


## Step 2: นำเข้า Library ที่จำเป็น และเข้ารหัส (Encoder) ข้อมูลที่ต้องการ
และสร้าง LabelEncoder ที่ต้องการ

1.   sklearn.preprocessing: สำหรับจัดเตรียมข้อมูล
2.   สร้าง LabelEncoder จาก sklearn.preprocessing
3.   เลือกแปลงคอลัมน์ sex จาก {'female': 0}, {'male': 1} แล้วแทนค่าลงใน data['sex']
4.   แสดงข้อมูลใหม่ที่อยู่ใน DataFrame (data)
5.   แสดง class ในข้อที่ 3


In [4]:
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
data['sex'] = label_encoder.fit_transform(data['sex'])

data

Unnamed: 0,sex,target
0,1,oxfords
1,0,sneakers
2,0,high-heels
3,1,sneakers


In [5]:
label_encoder.classes_

array(['female', 'male'], dtype=object)

In [7]:
data['target'] = label_encoder.fit_transform(data['target'])
data

Unnamed: 0,sex,target
0,1,1
1,0,2
2,0,0
3,1,2


In [9]:
label_encoder.classes_

array([0, 1, 2])

# One-Hot Encoding: การแปลงข้อมูลจาก Categorial เป็น Numerical (แบบที่สร้าง Feature ใหม่)

## Step 1: ข้อมูลที่เตรียมไว้

In [10]:
import pandas as pd

data = pd.DataFrame({
    'sex':['male', 'female', 'female', 'male'],
    'target':['oxfords', 'sneakers', 'high-heels', 'sneakers']
})

data

Unnamed: 0,sex,target
0,male,oxfords
1,female,sneakers
2,female,high-heels
3,male,sneakers


## Step 2: นำเข้า Library ที่จำเป็น และเข้ารหัส (Encoder) ข้อมูลที่ต้องการ
และสร้าง OneHotEncoder ที่ต้องการ

1.   sklearn.preprocessing: สำหรับจัดเตรียมข้อมูล
2.   สร้าง OneHotEncoder จาก sklearn.preprocessing
3.   เลือกแปลงคอลัมน์ sex แล้วแทนค่าลงใน DataFrame ใหม่ 
4.   เปลี่ยนชื่อ คอลัมน์ของ DataFrame ใหม่ในข้อ 3 เป็น ['female', 'male'] ตามลำดับ
5.   แสดงข้อมูลใหม่ที่อยู่ใน DataFrame ใหม่ในข้อ 4
6.   เพิ่มคอลัมน์ target ให้กับ DataFrame ใหม่ในข้อที่ 5

In [16]:
from sklearn import preprocessing

onehot_encoder = preprocessing.OneHotEncoder()
new_data = pd.DataFrame(onehot_encoder.fit_transform(data[['sex']]).toarray())

new_data.columns=['female','male']

new_data

Unnamed: 0,female,male
0,0.0,1.0
1,1.0,0.0
2,1.0,0.0
3,0.0,1.0


In [18]:
new_data['target'] = data['target']

new_data

Unnamed: 0,female,male,target
0,0.0,1.0,oxfords
1,1.0,0.0,sneakers
2,1.0,0.0,high-heels
3,0.0,1.0,sneakers


#สร้าง LabelEncoder ให้กับ target

1.   sklearn.preprocessing: สำหรับจัดเตรียมข้อมูล
2.   สร้าง LabelEncoder จาก sklearn.preprocessing
3.   เลือกแปลงคอลัมน์ target จาก {'high-heels': 0}, {'oxfords': 1}, {'sneakers': 2} แล้วแทนค่าลงใน new_data['target']
4.   แสดงข้อมูลใหม่ที่อยู่ใน DataFrame (new_data)
5.   แสดง class ในข้อที่ 3

In [19]:
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
new_data['target'] = label_encoder.fit_transform(new_data['target'])

new_data

Unnamed: 0,female,male,target
0,0.0,1.0,1
1,1.0,0.0,2
2,1.0,0.0,0
3,0.0,1.0,2


In [20]:
label_encoder.classes_

array(['high-heels', 'oxfords', 'sneakers'], dtype=object)