# Menangani Data Kualitatif

Sebelumnya, kita menghadapi regresi linier dengan data yang bersifat numerik kontinu. Untuk submodul ini, kita akan menangani data kualitatif dalam regresi.

Sebagai contoh mari kita lihat dataset "student-mat", yakni data mengenai hasil belajar siswa dari suatu sekolah terhadap mata pelajaran matematika.

In [7]:
import pandas as pd
import numpy as np

data = pd.read_csv("Data/Regression/Student Performance/student-mat.csv",delimiter=";")
data.head()

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10


Data tersebut memiliki tiga variabel target, yakni G1, G2 dan G3, masing-masing menandakan data nilai pada term 1, term 2, dan term final. Mari kita lihat karakteristik masing-masing atributnya/fitur/variabelnya dengan fungsi info() pada dataframe.

In [9]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 395 entries, 0 to 394
Data columns (total 33 columns):
school        395 non-null object
sex           395 non-null object
age           395 non-null int64
address       395 non-null object
famsize       395 non-null object
Pstatus       395 non-null object
Medu          395 non-null int64
Fedu          395 non-null int64
Mjob          395 non-null object
Fjob          395 non-null object
reason        395 non-null object
guardian      395 non-null object
traveltime    395 non-null int64
studytime     395 non-null int64
failures      395 non-null int64
schoolsup     395 non-null object
famsup        395 non-null object
paid          395 non-null object
activities    395 non-null object
nursery       395 non-null object
higher        395 non-null object
internet      395 non-null object
romantic      395 non-null object
famrel        395 non-null int64
freetime      395 non-null int64
goout         395 non-null int64
Dalc          395 no

Dari hasil tersebut, ada 17 variabel yang bersifat object atau string, mulai dari 'school' hingga 'romantic'. Untuk detil lebih lanjut mengenai masing-masing prediktor bisa dilihat di berkas "student.txt" di direktori yang sama.

Lalu, mari kita periksa lebih lanjut mengenai beberapa variabel kualitatif di data tersebut. Kita akan ambil 'sex', 'guardian', dan 'famsup' sebagai contoh. Kita akan melihat bagaimana karakteristik dataset berdasar variabel tersebut dan distribusinya. 

In [11]:
#melihat nilai unik dari variabel 'sex'
print(data['sex'].unique())
#melihat nilai unik dari variabel 'guardian'
print(data['guardian'].unique())
#melihat nilai unik dari variabel 'famsup'
print(data['famsup'].unique())

['F' 'M']
['mother' 'father' 'other']
['no' 'yes']


In [17]:
#melihat distribusi data dari masing-masing variabel kualitatif
print(data.groupby(['sex'])['sex'].count())
print("---")
print(data.groupby(['guardian'])['guardian'].count())
print("---")
print(data.groupby(['famsup'])['famsup'].count())
print("---")

sex
F    208
M    187
Name: sex, dtype: int64
---
guardian
father     90
mother    273
other      32
Name: guardian, dtype: int64
---
famsup
no     153
yes    242
Name: famsup, dtype: int64
---


Bisa kita lihat dari ketiga variabel tersebut memiliki 2 dan 3 nilai berbeda untuk kategorinya. Untuk menangani nilai-nilai ini, kita bisa "memaksa" variabel prediktor kualitatif ini menjadi variabel prediktor numerik dengan membuat variabel dummy. Sebagai contoh untuk variabel 'sex' kita akan membuat variabel 'sex0' sebagai variabel dummy. Kita akan anggap nilai 'F' sebagai 1 dan nilai 'M' sebagai 0.

In [33]:
#pembuatan kolom baru 'sex0' dengan nilai integer 1 untuk kolom 'sex'=F
#otomatis selain 'sex'=F akan menjadi 0
data['sex0'] = (data['sex']=='F')*1
data[['sex','sex0']].head(10)

Unnamed: 0,sex,sex0
0,F,1
1,F,1
2,F,1
3,F,1
4,F,1
5,M,0
6,M,0
7,F,1
8,M,0
9,M,0


Latihan:
Dengan cara yang sama, buat kolom variabel dummy 'famsup0' terhadap kolom prediktor 'famsup' dengan nilai 0 untuk 'no' dan 1 untuk 'yes'

In [38]:
data['famsup0'] = (None)*1
data[['famsup','famsup0']].head()

Unnamed: 0,famsup,famsup0
0,no,0
1,yes,1
2,no,0
3,yes,1
4,yes,1


Penanganan untuk nilai lebih dari 2 nilai seperti kolom 'guardian' secara teknis membutuhkan code dan konsep yang berbeda. Penggantian nilai 'father' menjadi 0, 'mother' menjadi 1, dan 'other' menjadi 2 akan membuat makna dari variabel kualitatif tersebut berbeda. Tidak ada ketentuan khusus jika 'other' memiliki bobot berbeda dari 'father' atau 'mother'. Maka dari itu, kita bisa mengganti nilai dari 1 kolom kualitatif ini menjadi 2 kolom biner lain, semisal: kolom 'father' akan bernilai 1 jika prediktor 'guardian' berisi nilai 'father' dan kolom 'mother' bernilai 1 jika prediktor 'guardian' berisi nilai 'mother', jika bernilai 'other' maka kedua kolom tersebut akan bernilai 0. Monsep ini disebut one-hot encoding.

In [36]:
data['father'] =  (data['guardian']=='father')*1
data['mother'] =  (data['guardian']=='mother')*1
data[['guardian','father','mother']].tail(10)

Unnamed: 0,guardian,father,mother
385,mother,0,1
386,mother,0,1
387,mother,0,1
388,mother,0,1
389,mother,0,1
390,other,0,0
391,mother,0,1
392,other,0,0
393,mother,0,1
394,father,1,0


Dengan demikian, kita sudah memiliki 3 nilai prediktor kualitatif yang kita ubah menjadi kuantitatif. Kita bisa menggunakan prediktor-prediktor ini untuk melakukan regresi dan memeriksa apakah ada dampak dari pengubahan nilai kualitatif ke kuantitatif ini terhadap model yang kita bangun.

Pertama-tama, kita akan mengambil beberapa kolom yang bersifat kuantitatif ('age','studytime','failures','freetime','absences') saja ditambah hasil konversi dummy variabel  untuk menguji model ini terhadap salah satu variabel target: G1.

In [43]:
#seleksi data untuk mengambil X dan Y
Y = data['G1']
X_withdummy = data[['age','studytime','failures','freetime','absences','sex0','famsup0','father','mother']]
X_withoutdummy = data[['age','studytime','failures','freetime','absences']]

Kita akan lakukan pembagian data latih dan uji dengan perbandingan  25:75 sebagaimana submodul sebelumnya.

In [49]:
np.random.seed(1)
random_value = np.random.rand(X.shape[0])
X_train_wd = X_withdummy[random_value<=0.75]
X_train_wo = X_withoutdummy[random_value<=0.75]
Y_train = Y[random_value<=0.75]
X_test_wd = X_withdummy[random_value>0.75]
X_test_wo = X_withoutdummy[random_value>0.75]
Y_test = Y[random_value>0.75]

Lalu, kita akan bangun model yang bersesuaian dari masing-masing pilihan dataset kita dengan 2 model linear regression yang berbeda dan membandingkan performa masing-masing model.

In [47]:
from sklearn import linear_model
from sklearn.metrics import mean_squared_error

#---------- With dummy
linreg_wd = linear_model.LinearRegression()
linreg_wd.fit(X_train_wd,Y_train)
Y_pred_wd = linreg_wd.predict(X_test_wd)
mse_wd = mean_squared_error(Y_test, Y_pred_wd)
print("MSE with dummy variable: %lf" % mse_wd)

#---------- Without dummy
linreg_wo = linear_model.LinearRegression()
linreg_wo.fit(X_train_wo,Y_train)
Y_pred_wo = linreg_wo.predict(X_test_wo)
mse_wo = mean_squared_error(Y_test, Y_pred_wo)
print("MSE without dummy variable: %lf" % mse_wo)

MSE with dummy variable: 8.052084
MSE without dummy variable: 8.531346


Kita bisa lihat bahwa dengan adanya variabel dummy dari prediktor kualitatif akan sedikit meningkatkan performa model kita (walaupun memang hasilnya tidak begitu baik, range G1: 0-20 dengan mean squared error 8).

### Variabel Dummy untuk nilai variabel kualitatif biner: (0 dan 1) atau (-1 dan 1)?

Tadi kita sudah mencoba menggunakan nilai variabel dummy 0 dan 1 sebagai pengganti beberapa variabel prediktor kualitatif (contoh: 'sex'). Namun, apakah nilai 0 dan 1 ini sudah cukup baik? Apakah jika kita menambah nilai diskriminatif dari variabel biner akan membantu membuat model lebih baik? Mari kita coba untuk menggunakan 4 objek perbandingan:
- Beberapa variabel kuantitatif + variabel dummy untuk sex (0 dan 1) - sex0 / s0
- Beberapa variabel kuantitatif + variabel dummy untuk sex (-1 dan 1) -  sex1 / s1
- Beberapa variabel kuantitatif + variabel dummy untuk famsup (0 dan 1) -  famsup0 / f0
- Beberapa variabel kuantitatif + variabel dummy untuk famsup (-1 dan 1) -  famsup1 / f1

In [48]:
#pembuatan variabel dummy sex1 dan famsup1
data['sex1'] = ((data['sex']=='F')*2 - 1)
data['famsup1'] = ((data['famsup']=='yes')*2 - 1)

#seleksi data untuk membuat X_s0, x_s1, x_f0, dan x_f1
X_s0 = data[['age','studytime','failures','freetime','absences','sex0']]
X_s1 = data[['age','studytime','failures','freetime','absences','sex1']]
X_f0 = data[['age','studytime','failures','freetime','absences','famsup0']]
X_f1 = data[['age','studytime','failures','freetime','absences','famsup1']]

Pembagian dataset uji dan latih berdasarkan nilai acak

In [50]:
np.random.seed(1)
random_value = np.random.rand(data.shape[0])
X_train_s0 = X_s0[random_value<=0.75]
X_train_s1 = X_s1[random_value<=0.75]
X_train_f0 = X_f0[random_value<=0.75]
X_train_f1 = X_f1[random_value<=0.75]
Y_train = Y[random_value<=0.75]
X_test_s0 = X_s0[random_value>0.75]
X_test_s1 = X_s1[random_value>0.75]
X_test_f0 = X_f0[random_value>0.75]
X_test_f1 = X_f1[random_value>0.75]
Y_test = Y[random_value>0.75]

Pembuatan dan pengujian model regresi linier berdasarkan masing-masing pilihan dataset

In [52]:
from sklearn import linear_model
from sklearn.metrics import mean_squared_error

#---------- s0
linreg_s0 = linear_model.LinearRegression()
linreg_s0.fit(X_train_s0,Y_train)
Y_pred_s0 = linreg_s0.predict(X_test_s0)
mse_s0 = mean_squared_error(Y_test, Y_pred_s0)
print("MSE with encoding sex as 0 and 1: %lf" % mse_s0)

#---------- s1
linreg_s1 = linear_model.LinearRegression()
linreg_s1.fit(X_train_s1,Y_train)
Y_pred_s1 = linreg_s1.predict(X_test_s1)
mse_s1 = mean_squared_error(Y_test, Y_pred_s1)
print("MSE with encoding sex as -1 and 1: %lf" % mse_s1)


#---------- f0
linreg_f0 = linear_model.LinearRegression()
linreg_f0.fit(X_train_f0,Y_train)
Y_pred_f0 = linreg_f0.predict(X_test_f0)
mse_f0 = mean_squared_error(Y_test, Y_pred_f0)
print("MSE with encoding famsup as 0 and 1: %lf" % mse_f0)

#---------- f1
linreg_f1 = linear_model.LinearRegression()
linreg_f1.fit(X_train_f1,Y_train)
Y_pred_f1 = linreg_f1.predict(X_test_f1)
mse_f1 = mean_squared_error(Y_test, Y_pred_f1)
print("MSE with encoding famsup as -1 and 1: %lf" % mse_f1)

MSE with encoding sex as 0 and 1: 7.538186
MSE with encoding sex as -1 and 1: 7.538186
MSE with encoding famsup as 0 and 1: 7.352371
MSE with encoding famsup as -1 and 1: 7.352371


Ternyata hasilnya sama, mengapa ini bisa terjadi? Hal ini diakibatkan oleh penyesuaian bobot dari masing variabel kualitatif yang dipaksa menjadi dummy variabel. Mari kita lihat koefisien untuk keempat model tersebut.

In [54]:
print("Bobot Parameter untuk s0")
print(linreg_s0.coef_)
print("Bobot Parameter untuk s1")
print(linreg_s1.coef_)
print("Bobot Parameter untuk f0")
print(linreg_f0.coef_)
print("Bobot Parameter untuk f1")
print(linreg_f1.coef_)

Bobot Parameter untuk s0
[ 0.02527269  0.48067564 -1.59619359  0.08974091  0.01009094 -1.13719753]
Bobot Parameter untuk s1
[ 0.02527269  0.48067564 -1.59619359  0.08974091  0.01009094 -0.56859876]
Bobot Parameter untuk f0
[-0.02209524  0.37776027 -1.57949958  0.22240279  0.00851832 -0.81734082]
Bobot Parameter untuk f1
[-0.02209524  0.37776027 -1.57949958  0.22240279  0.00851832 -0.40867041]


Bisa kita lihat hanya bobot untuk variabel terakhir saja (hasil konversi variabel dummy) yang berubah, ini diakibatkan oleh perbedaan makna dari konversi biner yang dilakukan

## Latihan:
Buatlah perbandingan model regresi linier yang dibangun dengan variabel dummy dari prediktor kualitatif: 'school' dan 'reason' dan variabel kuantitatif: 'freetime', 'goout', 'Dalc', dan 'health'.

Gunakan konversi variabel dummy -1 dan 1 untuk 'school'.

Gunakan one-hot encoding untuk 'reason' yang menghasilkan 3 kolom baru

Buatlah 4 model berbeda dengan konfigurasi prediktor:
- Variabel kuantitatif saja (A)
- variabel kuantitatif + variabel dummy 'school' (B)
- variabel kuantitatif + variabel dummy 'reason' (C)
- variabel kuantitatif + variabel dummy 'school' + variabel dummy 'reason' (D)

Lalu, bagi dataset menjadi dataset latih dan uji dengan rasio 25:75 dengan random seed 2.

Bandingkan MSE uji dari masing-masing model dan tentukan manakah:
- Di antara A, B, C, dan D yang lebih baik? Apakah yang bisa disimpulkan?
- Di antara B dan C yang lebih baik? Apakah yang bisa disimpulkan?