# Percobaan Pertama OneHotEncoding Menggunakan Data Creadit Approval UCI

In [2]:
# import library
import random
import pandas as pd
import numpy as np

In [6]:
# input data
data = pd.read_csv('crx.data', header=None)

In [8]:
# membentuk list Fitur A1..A17
varnames = ['A'+str(s) for s in range(1,17)]

In [10]:
# men-set masing-masing kolom dari data yang ada, Hal ini dilakukan karena data mentah yang dipakai tidak memiliki judul fitur
data.columns = varnames

# mengganti data dengan nilai '?' dengan nilai Nan
data = data.replace('?', np.nan)

In [12]:
# merubah tipe data dari kolom A2 dan A14 menjadi tipe float
data['A2'] = data['A2'].astype('float')
data['A14'] = data['A14'].astype('float')

In [14]:
# melakukan proses maping data text menjadi menjadi bentuk binary
data['A16'] = data['A16'].map({'+':1, '-':0})

In [16]:
# membuat list dengan fitur data dengan jenis kategori dan jenis numerik
cat_cols = [c for c in data.columns if data[c].dtypes=='O'] 
num_cols = [c for c in data.columns if data[c].dtypes!='O']

In [18]:
# melakukan inputasi terhadap data yang kosong dengan nilai 
# 0 untuk list data bernilai numerik
# missing untuk data kolom fitur berjenis kategori
data[num_cols] = data[num_cols].fillna(0) 
data[cat_cols] = data[cat_cols].fillna('Missing')

In [20]:
#menyimpan data yang telah di transformasi dalam bentuk csv
data.to_csv('creditApprovalUCI.csv', index=False)


In [22]:
import pandas as pd
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import OneHotEncoder

In [24]:
# membaca data yang telah di transformasi sebelumnya
data = pd.read_csv('creditApprovalUCI.csv')
data.head()

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,A15,A16
0,b,30.83,0.0,u,g,w,v,1.25,t,t,1,f,g,202.0,0,1
1,a,58.67,4.46,u,g,q,h,3.04,t,t,6,f,g,43.0,560,1
2,a,24.5,0.5,u,g,q,h,1.5,t,f,0,f,g,280.0,824,1
3,b,27.83,1.54,u,g,w,v,3.75,t,t,5,t,g,100.0,3,1
4,b,20.17,5.625,u,g,w,v,1.71,t,f,0,f,s,120.0,0,1


In [26]:
# memisahkan data yang akan digunakan sebagai testing ste
X_train, X_test, y_train, y_test = train_test_split( data.drop(labels=['A16'], axis=1), data['A16'], test_size=0.3,
random_state=0)

In [28]:
# melakukan pengecekan nilai apa saja yang ada pada kolom A4
X_train['A4'].unique()

array(['u', 'y', 'Missing', 'l'], dtype=object)

In [30]:
tmp = pd.get_dummies(X_train['A4'], drop_first=True) 

# Menampilkan 5 data awal dari hasil transformasi yang dilakukan
tmp.head()

Unnamed: 0,l,u,y
596,False,True,False
303,False,True,False
204,False,False,True
351,False,False,True
118,False,True,False


In [32]:
# Untuk melakukan proses encoding data kategori secara bersamaan, pertama-tama kita membentuk list dari masing-masing kolom
vars_categorical = ['A1', 'A4', 'A5', 'A6', 'A7', 'A9', 'A10', 'A12', 'A13']

In [34]:
# melaukan encoding pada dataset training dan testing pada fitur / kolom yang telah di definisikan sebelumnya.
# fungsi get_dummies() panda menangkap nama variabel, katakanlah, A1, 
# dan menempatkan garis bawah diikuti dengan nama kategori untuk mengidentifikasi variabel biner yang dihasilkan.
X_train_enc = pd.get_dummies(X_train[vars_categorical], drop_first=True)
X_test_enc = pd.get_dummies(X_test[vars_categorical], drop_first=True)

In [36]:
X_train_enc.head()

Unnamed: 0,A1_a,A1_b,A4_l,A4_u,A4_y,A5_g,A5_gg,A5_p,A6_aa,A6_c,...,A7_j,A7_n,A7_o,A7_v,A7_z,A9_t,A10_t,A12_t,A13_p,A13_s
596,True,False,False,True,False,True,False,False,False,True,...,False,False,False,True,False,True,True,True,False,False
303,True,False,False,True,False,True,False,False,False,False,...,False,False,False,True,False,False,False,False,False,False
204,False,True,False,False,True,False,False,True,False,False,...,False,False,False,True,False,True,True,False,False,False
351,False,True,False,False,True,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
118,False,True,False,True,False,True,False,False,False,False,...,False,False,False,True,False,True,True,True,False,False


In [38]:
## Melakukan proses encoding
encoder = OneHotEncoder(categories='auto', drop='first', sparse_output=False)
encoder.fit(X_train[vars_categorical])

In [40]:
X_train_enc = encoder.transform(X_train[vars_categorical]) 
X_test_enc = encoder.transform(X_test[vars_categorical])


# SKLEARN Feature-Engine

In [43]:
pip install feature_engine

Note: you may need to restart the kernel to use updated packages.


In [45]:
pip install feature-engine==0.3.0

Note: you may need to restart the kernel to use updated packages.


In [47]:
from feature_engine.categorical_encoders import OneHotCategoricalEncoder

In [49]:
# set up encoder untuk membentuk nilai k-1
# parameter top_categories=None, menunjukkan bahwa Anda akan melakukan encoding semua pada kategori yang ada dalam variabel kategori.
ohe_enc = OneHotCategoricalEncoder(top_categories=None,drop_last=True)

In [51]:
# implementasi encoder ke data latih sehingga ia mempelajari kategori dan variabel yang akan dikodekan:
ohe_enc.fit(X_train)

In [53]:
X_train_enc = ohe_enc.transform(X_train) 
X_test_enc = ohe_enc.transform(X_test) 
X_train.head()

Unnamed: 0,A1,A2,A3,A4,A5,A6,A7,A8,A9,A10,A11,A12,A13,A14,A15
596,a,46.08,3.0,u,g,c,v,2.375,t,t,8,t,g,396.0,4159
303,a,15.92,2.875,u,g,q,v,0.085,f,f,0,f,g,120.0,0
204,b,36.33,2.125,y,p,w,v,0.085,t,t,1,f,g,50.0,1187
351,b,22.17,0.585,y,p,ff,ff,0.0,f,f,0,f,g,100.0,0
118,b,57.83,7.04,u,g,m,v,14.0,t,t,6,t,g,360.0,1332


In [55]:
X_train_enc.head()

Unnamed: 0,A2,A3,A8,A11,A14,A15,A1_a,A1_b,A4_u,A4_y,...,A7_z,A7_bb,A7_j,A7_Missing,A7_n,A9_t,A10_t,A12_t,A13_g,A13_s
596,46.08,3.0,2.375,8,396.0,4159,1,0,1,0,...,0,0,0,0,0,1,1,1,1,0
303,15.92,2.875,0.085,0,120.0,0,1,0,1,0,...,0,0,0,0,0,0,0,0,1,0
204,36.33,2.125,0.085,1,50.0,1187,0,1,0,1,...,0,0,0,0,0,1,1,0,1,0
351,22.17,0.585,0.0,0,100.0,0,0,1,0,1,...,0,0,0,0,0,0,0,0,1,0
118,57.83,7.04,14.0,6,360.0,1332,0,1,1,0,...,0,0,0,0,0,1,1,1,1,0
