# Dataset

In [1]:
import pandas as pd

jomblo = {
    "tinggi_badan": [150, 170, 160, 150, 165],
    "berat_badan": [45, 66, 55, 50, 60],
    "level_jomblo": ["Jomblo High Quality", "Jomblo Bahagia", "Jomblo (yang ngakunya) Bahagia", "Jomblo Ngenes", "Jomblo Ngenes"]
}

jomblo_df = pd.DataFrame(jomblo)
jomblo_df

Unnamed: 0,tinggi_badan,berat_badan,level_jomblo
0,150,45,Jomblo High Quality
1,170,66,Jomblo Bahagia
2,160,55,Jomblo (yang ngakunya) Bahagia
3,150,50,Jomblo Ngenes
4,165,60,Jomblo Ngenes


# Encoding
- Proses mengubah fitur bertipe kategorikal menjadi fitur bertipe numerikal.
- Tujuannya untuk membuat kumpulan fitur dapat dimengerti dan diproses oleh komputer (mesin).

## Label Encoding
Mengubah fitur categorical menjadi numerik dengan cara mengurutkan setiap kategori berdasarkan abjad yang selanjutnya setiap nilai tersebut diubah mejadi 0 sampai jumlah kategori - 1.

In [2]:
from sklearn.preprocessing import LabelEncoder

jomblo_label_encode_df = jomblo_df.copy()
label_encoder = LabelEncoder()
level_jomblo_encoding = label_encoder.fit_transform(jomblo_label_encode_df["level_jomblo"])

for label, level in enumerate(label_encoder.classes_):
    print(f"{level}: {label}")

Jomblo (yang ngakunya) Bahagia: 0
Jomblo Bahagia: 1
Jomblo High Quality: 2
Jomblo Ngenes: 3


In [3]:
jomblo_label_encode_df["level_jomblo"] = level_jomblo_encoding
jomblo_label_encode_df

Unnamed: 0,tinggi_badan,berat_badan,level_jomblo
0,150,45,2
1,170,66,1
2,160,55,0
3,150,50,3
4,165,60,3


## One-Hot Encoding
- Merepresentasikan fitur bertipe kategorikal menjadi sekumpulan bits.

In [4]:
jomblo_df

Unnamed: 0,tinggi_badan,berat_badan,level_jomblo
0,150,45,Jomblo High Quality
1,170,66,Jomblo Bahagia
2,160,55,Jomblo (yang ngakunya) Bahagia
3,150,50,Jomblo Ngenes
4,165,60,Jomblo Ngenes


In [5]:
from sklearn.preprocessing import OneHotEncoder

jomblo_label_one_hot_encode_df = jomblo_df.copy()
level_jomblo = jomblo_label_one_hot_encode_df["level_jomblo"].values.reshape(-1, 1)
onehot_encoder = OneHotEncoder(dtype='uint8')
level_jomblo_one_hot_encoding = onehot_encoder.fit_transform(level_jomblo).toarray()

level_jomblo_one_hot_encoding

array([[0, 0, 1, 0],
       [0, 1, 0, 0],
       [1, 0, 0, 0],
       [0, 0, 0, 1],
       [0, 0, 0, 1]], dtype=uint8)

In [6]:
level_jomblo_one_hot_encoding_df = pd.DataFrame(level_jomblo_one_hot_encoding, columns=onehot_encoder.categories_)
level_jomblo_one_hot_encoding_df

Unnamed: 0,Jomblo (yang ngakunya) Bahagia,Jomblo Bahagia,Jomblo High Quality,Jomblo Ngenes
0,0,0,1,0
1,0,1,0,0
2,1,0,0,0
3,0,0,0,1
4,0,0,0,1


In [7]:
onehot_encode_df = pd.concat([jomblo_label_one_hot_encode_df, level_jomblo_one_hot_encoding_df], axis=1)
onehot_encode_df

Unnamed: 0,tinggi_badan,berat_badan,level_jomblo,"(Jomblo (yang ngakunya) Bahagia,)","(Jomblo Bahagia,)","(Jomblo High Quality,)","(Jomblo Ngenes,)"
0,150,45,Jomblo High Quality,0,0,1,0
1,170,66,Jomblo Bahagia,0,1,0,0
2,160,55,Jomblo (yang ngakunya) Bahagia,1,0,0,0
3,150,50,Jomblo Ngenes,0,0,0,1
4,165,60,Jomblo Ngenes,0,0,0,1


In [8]:
onehot_encode_df = onehot_encode_df.rename(
    columns={
        ('Jomblo (yang ngakunya) Bahagia',): "Jomblo (yang ngakunya) Bahagia",
        ('Jomblo Bahagia',): "Jomblo Bahagia",
        ('Jomblo High Quality',): "Jomblo High Quality",
        ('Jomblo Ngenes',): "Jomblo Ngenes"
    }
)

onehot_encode_df.drop(["level_jomblo"], axis=1)

Unnamed: 0,tinggi_badan,berat_badan,Jomblo (yang ngakunya) Bahagia,Jomblo Bahagia,Jomblo High Quality,Jomblo Ngenes
0,150,45,0,0,1,0
1,170,66,0,1,0,0
2,160,55,1,0,0,0
3,150,50,0,0,0,1
4,165,60,0,0,0,1


# Label Encoding VS One-Hot Encoding

1. Label Encoding:
    - Digunakan apabila fitur bertipe ordinal (memperhatikan urutan).
    - Jumlah kategori pada fitur relatif banyak.


2. One-Hot Encoding:
    - Digunakan apabila fitur bertipe nominal (tidak memperhatikan urutan).
    - Jumlah kategori pada fitur relatif sedikit.