# Feature Encoding

Wardatul Fadhilah | Wirawan Setio Aji

## Categorical Data

Categorical data adalah data yang direpresentasikan dalam bentuk `String` atau `katagori`<br>
dalam data katagori terdapat 2 macam kategori yaitu,
1. **Ordinal** : ordinal memiliki suatu **tingkatan tertentu**
    - contoh : 
        - Ukuran Baju : XL,L,M,S
        - Pendidikan : SD, SMP,SMA
2. **Nominal** : nominal tidak memiliki suatu tingkatan
    - contoh :
        - Gender :male, female
        - Nama Negara: Prancis, Indonesia,Inggris

## Encoding 
Dalam sebuah **Feature Processing** mesin/komputer hanya mengenal data dalam bentuk angka. Oleh karena itu dalam feature processing sangat diperlukan **Encoding** pada data **Kategori**.

 - [**encoding**](https://caramesin.com/encoding-adalah/) merubah data ke dalam format yang sesuai untuk kebutuhan pemrosesan informasi, 

 - untuk kebutuhan **Feature Processing** data kategori dirubah dari bentuk `string` menjadi `angka` menggunakan metode `encoding` 

## Menangani Data Kategori Ordinal

Dalam data **kategori ordinal**, terdapat **tingkatan** tertentu sehingga **tinggkat terkecil** mendapat **angka terkecil**, dan jika **tinkatan semakin tinggi** maka mendapat **angka yang makin besar** 
- Contoh, pada tingkatan ukuran baju,
    - S = 0
    - M = 1
    - L = 2
    - XL = 3

## Menangani Data Kategori Nominal

Dalam data Kategori Nominal tidak terdapat tingkatan tertentu pada nilai data tersebut.<br>
Contoh : 
- pada gender manusia,
    - Male = 0
    - Female = 1

## Practice

dalam implementasi, menggunakan *Scikit-Learn* pada module python bernama `sklearn`

### Ordinal

untuk data **Ordinal** bisa menggunakan `OrdinalEncoder`

In [2]:
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder

In [3]:
df_ukuran = pd.DataFrame({'ukuran_baju':['L','XL','L','S','M','S','M','XL']})
df_ukuran

Unnamed: 0,ukuran_baju
0,L
1,XL
2,L
3,S
4,M
5,S
6,M
7,XL


In [4]:
encoders = OrdinalEncoder(categories=[['S','M','L','XL']])
encoders.fit(df_ukuran)

ukuran_encoded = encoders.transform(df_ukuran)
ukuran_encoded

array([[2.],
       [3.],
       [2.],
       [0.],
       [1.],
       [0.],
       [1.],
       [3.]])

In [5]:
df_ukuran['Encoded'] = ukuran_encoded
df_ukuran

Unnamed: 0,ukuran_baju,Encoded
0,L,2.0
1,XL,3.0
2,L,2.0
3,S,0.0
4,M,1.0
5,S,0.0
6,M,1.0
7,XL,3.0


### Nominal
pada data **Nominal** menggunakan `OneHotEncoder`

In [6]:
df_gender = pd.DataFrame({'Name': ['Sandra','Dhila','Aji','Handoko','Ocha','Ikhbar','Adnan','Faisal','Alex'],
                          'Gender':['Others','Female','Male','Male','Female','Male','Male','Male','Male']})

df_gender

Unnamed: 0,Name,Gender
0,Sandra,Others
1,Dhila,Female
2,Aji,Male
3,Handoko,Male
4,Ocha,Female
5,Ikhbar,Male
6,Adnan,Male
7,Faisal,Male
8,Alex,Male


In [7]:
from sklearn.preprocessing import OneHotEncoder

encoders = OneHotEncoder(sparse=False)
encoders.fit(df_gender[['Gender']])

gender_encoded = encoders.transform(df_gender[['Gender']])

In [8]:
df_gender[['Female','Male','Others']] = gender_encoded

ValueError: Columns must be same length as key

In [None]:
df_gender

Unnamed: 0,Name,Gender,Female,Male,Others
0,Sandra,Others,0.0,0.0,1.0
1,Dhila,Female,1.0,0.0,0.0
2,Aji,Male,0.0,1.0,0.0
3,Handoko,Male,0.0,1.0,0.0
4,Ocha,Female,1.0,0.0,0.0
5,Ikhbar,Male,0.0,1.0,0.0
6,Adnan,Male,0.0,1.0,0.0
7,Faisal,Male,0.0,1.0,0.0
8,Alex,Male,0.0,1.0,0.0


refrensi 

- [contoh pengerjaan](https://www.analyticsvidhya.com/blog/2020/08/types-of-categorical-data-encoding/)
- [contoh pengerjaan 2](https://towardsdatascience.com/guide-to-encoding-categorical-features-using-scikit-learn-for-machine-learning-5048997a5c79)

