<a href="https://colab.research.google.com/github/muthiearml/MachineLearning/blob/main/Week1/Pert_9__Categorical_encoding.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![header%20ipynb.png](attachment:header%20ipynb.png)

# Encoding Data Kategorik
---

## Data Kategorik vs Numerik

![kategorik%20vs%20numerik.jpg](attachment:kategorik%20vs%20numerik.jpg)

### Apa itu Data Kategoris?

* Data kategoris adalah jenis data yang digunakan untuk mengelompokkan informasi yang memiliki kesamaan karakteristik, sedangkan data numerik adalah jenis data yang menyatakan informasi dalam bentuk angka.

Contoh data kategoris: jenis kelamin

### Mengapa kita perlu Encoding (pengkodean)?

* Sebagian besar algoritme pembelajaran mesin tidak dapat menangani variabel kategoris kecuali jika kita mengubahnya menjadi nilai numerik

* Banyak kinerja algoritma bahkan bervariasi berdasarkan bagaimana variabel kategori dikodekan

### Variabel kategori dapat dibagi menjadi dua kategori:

Nominal: tidak ada urutan tertentu
Ordinal: ada beberapa urutan antara nilai

### Jenis encoding data kategorik:
* Label Encoding or Ordinal Encoding
* One hot Encoding
* Dummy Encoding
* Effect Encoding
* Binary Encoding
* BaseN Encoding
* Hash Encoding
* Target Encoding

## Label Encoding
* setiap kategori dari pada suatu feature akan diurutkan secara alfabet dan direpresentasikan dengan suatu nilai integer, atau dengan kata lain
* setiap label unik dipetakan ke bilangan bulat.


In [1]:
# Dataset #

import pandas as pd
df = pd.DataFrame({
    'country':['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44,34,46,35,23],
    'salary':[72000, 65000, 98000, 45000,34000]
})
df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


In [2]:
# Label encoding pada Scikit learn #
from sklearn.preprocessing import LabelEncoder
label_encoder = LabelEncoder()
df['country'] = label_encoder.fit_transform(df['country'])
df

Unnamed: 0,country,age,salary
0,0,44,72000
1,2,34,65000
2,1,46,98000
3,2,35,45000
4,1,23,34000


In [3]:
# Cara memahami bagaimana atribut *country* berubah dari kategori (teks) menjadi numerik (number) #

label_encoder.classes_


array(['India', 'Japan', 'US'], dtype=object)

<b> klik 2x di sini </b>  utk lihat penjelasan

<!-- Penjelasannya:

ouput di atas menunjukan bahwa ada tiga kategorik 0 -> India; 1 -> Japan; 2 -> US (yg otomatis diurutkan alfabetikal)

--->

---

## One-Hot Encoding
* Setiap kategori pada suatu  feature aan diurutkan secara alfabetikal dan diurutkan dalam bentuk bits, atau dengan kata lain
* setiap label dipetakan ke vektor biner

In [4]:
# Dataset #

import pandas as pd
df = pd.DataFrame({
    'country':['India', 'US', 'Japan', 'US', 'Japan'],
    'age': [44,34,46,35,23],
    'salary':[72000, 65000, 98000, 45000,34000]
})
df

Unnamed: 0,country,age,salary
0,India,44,72000
1,US,34,65000
2,Japan,46,98000
3,US,35,45000
4,Japan,23,34000


In [5]:
X = df['country'].values.reshape(-1,1)
X

array([['India'],
       ['US'],
       ['Japan'],
       ['US'],
       ['Japan']], dtype=object)

<b> klik 2x di sini </b>  utk lihat penjelasan

<!-- Penjelasannya:

.reshape(-1,1) diperlukan karena sekumpulan nilai dalam array tsb akan diperlakukan sebagai nilai feature,
dimana nilai feature dalam scikit learn diharapkan utk ditampung dalam array dua dimensi

--->

In [6]:
# One-hot encoding pada Scikit learn #

from sklearn.preprocessing import OneHotEncoder
onehot_encoder = OneHotEncoder()
X = onehot_encoder.fit_transform(X).toarray()
X

array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [0., 1., 0.]])

In [7]:
#utk memahami proses di atas kita tulis sintak#
onehot_encoder.categories_

[array(['India', 'Japan', 'US'], dtype=object)]

<b> klik 2x di sini </b>  utk lihat penjelasan

<!-- Penjelasannya:

[array(['India', 'Japan', 'US'], dtype=object)] -> tiga label negara -> bits 3 digit
* India -> digit pertama = 1
* Japan -> digit kedua = 1
* US -> digit ketiga = 1

-->

In [8]:
df_onehot= pd.DataFrame(X, columns=[str(i) for i in range(X.shape[1])])
df_onehot

Unnamed: 0,0,1,2
0,1.0,0.0,0.0
1,0.0,0.0,1.0
2,0.0,1.0,0.0
3,0.0,0.0,1.0
4,0.0,1.0,0.0


In [9]:
# menggabungkan dataframe
df=pd.concat([df_onehot,df], axis=1)
df

Unnamed: 0,0,1,2,country,age,salary
0,1.0,0.0,0.0,India,44,72000
1,0.0,0.0,1.0,US,34,65000
2,0.0,1.0,0.0,Japan,46,98000
3,0.0,0.0,1.0,US,35,45000
4,0.0,1.0,0.0,Japan,23,34000


<b> klik 2x di sini </b>  utk lihat penjelasan

<!-- Penjelasannya:

parametes axis=1, krn proses concatenationnya dilakukan berdampingan (side by side)

-->

In [10]:
# karena atribut 'country' sudah direpresentasikan dengan OneHotEncoder maka kita buang#

df = df.drop(['country'], axis=1)
df

Unnamed: 0,0,1,2,age,salary
0,1.0,0.0,0.0,44,72000
1,0.0,0.0,1.0,34,65000
2,0.0,1.0,0.0,46,98000
3,0.0,0.0,1.0,35,45000
4,0.0,1.0,0.0,23,34000


---

### Pertanyaan Umum
Bagian ini mencantumkan beberapa pertanyaan dan jawaban umum saat encoding data kategorikal.

* T. Bagaimana jika saya memiliki campuran data numerik dan kategorikal?

Atau, bagaimana jika saya memiliki campuran data kategorikal dan ordinal?

Anda perlu menyiapkan atau encoding setiap variabel (kolom) dalam dataset Anda secara terpisah, kemudian menggabungkan semua variabel yang disiapkan kembali menjadi satu larik untuk menyesuaikan atau mengevaluasi model.

Sebagai alternatif, Anda dapat menggunakan ColumnTransformer untuk menerapkan transformasi data yang berbeda secara kondisional ke variabel input yang berbeda.

* T. Bagaimana jika saya memiliki ratusan kategori?

Atau, bagaimana jika saya menggabungkan (concatenate) banyak vektor yang One-hot encoding untuk membuat vektor input eleman yang  banyak (ribuan)?

Anda dapat menggunakan  one-hot encoding hingga ribuan dan puluhan ribu kategori. Juga, memiliki vektor besar sebagai input terdengarnya  menakutkan, tetapi model umumnya dapat menanganinya.

* T. Teknik encoding apa yang terbaik?

Ini tidak dapat diketahui.

Uji setiap teknik (dan lebih banyak lagi) pada dataset Anda dengan model pilihan Anda dan temukan apa yang terbaik untuk kasus Anda.

---

## Cheat sheet menentukan jenis teknik encoding

![cheat%20sheet%20categorical%20encoding.jpg](attachment:cheat%20sheet%20categorical%20encoding.jpg)


---

sumber:
* https://www.analyticsvidhya.com/blog/2020/08/types-of-categorical-data-encoding/
* https://www.youtube.com/watch?v=WWbyYFPHDH8
* https://machinelearningmastery.com/one-hot-encoding-for-categorical-data/
* https://www.kdnuggets.com/2021/05/deal-with-categorical-data-machine-learning.html
