# **Latihan Forward Selection**

Dengan menggunakan dataset iris, algoritma klasifikasi logistic regression, pembagian data train-test = 80-20, dan evaluasi berupa akurasi. Dilakukan seleksi fitur dengan forward selection :


Baca data iris yang akan digunakan

In [32]:
import pandas as pd

# memberi nama variabel
names = ['sepal-length', 'sepal-width', 'petal-length', 'petal-width', 'class']

# membaca data dengan library pandas
dataset = pd.read_csv('Iris.csv', names=names)

# memisahkan fitur dengan kelasnya
df = dataset[['sepal-length', 'sepal-width', 'petal-length', 'petal-width']]
target = dataset['class']

In [33]:
display(df)

Unnamed: 0,sepal-length,sepal-width,petal-length,petal-width
Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
1,5.1,3.5,1.4,0.2
2,4.9,3.0,1.4,0.2
3,4.7,3.2,1.3,0.2
4,4.6,3.1,1.5,0.2
...,...,...,...,...
146,6.7,3.0,5.2,2.3
147,6.3,2.5,5.0,1.9
148,6.5,3.0,5.2,2.0
149,6.2,3.4,5.4,2.3


In [34]:
df.dtypes

sepal-length    object
sepal-width     object
petal-length    object
petal-width     object
dtype: object

Definisikan model yang akan digunakan. Dalam latihan ini digunakan logistic regression dengan iterasi 
maksimum 1000

In [35]:
from sklearn.linear_model import LogisticRegression

# Algoritma yang digunakan
model = LogisticRegression(max_iter=1000)

Bagi data untuk train dan test (validasi)

In [36]:
# bagi data test 20%, sisanya 80% untuk training
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df, target, test_size=0.2, random_state=5)

Hasil test akan di evaluasi dengan menghitung akurasi


In [37]:
# akan di evaluasi dengan akurasi
from sklearn.metrics import accuracy_score

Mari kita ke forward selection, pertama-tama kita inisiasi

In [38]:
# inisiasi variable
n = len(list(df)) # n = jumlah variabel
i = 0 # untuk penanda saja (tidak masuk algo)
feature_set = [] #inisiasi, fitur masih kosong

Kemudian forward selection (dalam code ini, tidak dilakukan penghentian iterasi untuk menunjukkan proses dan output lengkap setiap iterasi) sbb 

In [39]:
for num_features in range(n):
  #sekedar penanda iterasi
  i = i+1
  print('iterasi =', i)
  #buat menyimpan percobaan sementara
  metric_list = []
  for feature in x_train.columns:
    if feature not in feature_set:
      f_set = feature_set.copy() #copy feature_set (supaya tidak berubah dulu feature_set nya)
      f_set.append(feature) #tambahkan fitur
      print(f_set)
      model.fit(x_train[f_set],y_train) #bangun (train) model dan fitur yang telah ditambah
      uji = model.predict(x_test[f_set]) #test model
      akurasi = accuracy_score(y_test, uji) # hitung akurasi
      print(akurasi)
      metric_list.append((akurasi, feature)) #menyimpan data akurasi dan fitur yang digunakan

  metric_list.sort(key=lambda x:x[0], reverse=True) #dengan kasus bahwa semakin besar akurasi semakin baik, sort yang terbesar
  feature_set.append(metric_list[0][1]) #update feature set dengan menambahkan fitur dengan akurasi tertinggi(sorting teratas)



iterasi = 1
['sepal-length']


ValueError: ignored

Pada iterasi 1, dilakukan evaluasi terhadap 1 fitur: {sepal-length}, {sepal-width}, {petal-length}, dan {petalwidth}. Diperoleh akurasi tertinggi adalah menggunakan fitur {petal-length} dengan akurasi = 1 (100%).

Sehingga, iterasi kedua akan menggunakan kombinasi {petal-length} di tambah fitur lain 

Pada iterasi kedua, petal-length di tambah fitur lain, sehingga diperoleh kombinasi: {petal-length, sepallength}, {petal-length, sepal-width} dan {petal-length, petal-width}. Diperoleh akurasi tertinggi dengan 
menggunakan {petal-length, sepal-length} dengan akurasi = 1 (100%). 

Sehingga, iterasi ketiga akan menggunakan kombinasi fitur {petal-length, sepal-length} di tambah 1 fitur lainnya.

Pada iterasi ketiga, diperoleh kombinasi fitur {petal-length, sepal-length, sepal-width} dan {petal-length, sepal-length, petal-width} dan akurasi tertinggi dicapai dengan kombinasi fitur {petal-length, sepal-length, sepal-width} dengan akurasi =1 (100%)

Iterasi berikutnya merupakan full fitur (tidak di reduksi).


Soal Forward Selection: 

Dari hasil forward selection tersebut, dengan eksperimen menggunakan dataset iris, algoritma klasifikasi logistic regression, pembagian data train-test = 80-20. 

a. Berapa fitur yang dapat kita pakai? Fitur apa sajakah itu?

b. Coba klasifikasikan data iris tersebut dengan fitur yang Anda sebutkan di poin a

c. Bandingkan waktu komputasi dengan menggunakan seluruh fitur dengan klasifikasi pada poin b!

# **Latihan Backward Selection**

Dengan kasus yang sama, dan proses awal yang sama.. berikut code untuk backward selection (tanpa menerapkan kriteria penghentian iterasi/ di iterasi sampai akhir)

Pertama kita inisiasi fitur awal, dimana semua fitur digunakan

In [42]:
i = 0 #untuk index penanda saja (tidak masuk algo)
feature_set = list(df.columns) #inisiasi, fitur lengkap

Kemudian backward selection (dalam code ini, tidak dilakukan penghentian iterasi untuk menunjukkan proses dan output lengkap setiap iterasi) sbb :


In [46]:
while (len(feature_set)>1):
  #sekedar penanda iterasi
  i = i+1
  print('iterasi =', i)
  #buat menyimpan percobaan sementara
  metric_list = []
  for feature in x_train.columns:
    if feature not in feature_set:
      f_set = feature_set.copy() #copy feature_set (supaya tidak berubah dulu feature_set nya)
      f_set.remove(feature) #tambahkan fitur
      print(f_set)
      model.fit(x_train[f_set],y_train) #bangun (train) model dan fitur yang telah ditambah
      uji = model.predict(x_test[f_set]) #test model
      akurasi = accuracy_score(y_test, uji) # hitung akurasi
      print(akurasi)
      metric_list.append((akurasi, feature)) #menyimpan data akurasi dan fitur yang digunakan

  metric_list.sort(key=lambda x:x[0], reverse=True) #dengan kasus bahwa semakin besar akurasi semakin baik, sort yang terbesar
  feature_set.remove(metric_list[0][1]) #update feature set dengan menambahkan fitur dengan akurasi tertinggi(sorting teratas)


iterasi = 2


IndexError: ignored

Inisiasi adalah seuruh fitur : {sepal-length, sepal-width, petal-length, petal-width}

Pada iterasi 1, dilakukan penghapusan 1 fitur secara bergantian sehingga dilakukan evaluasi akrasi untuk penggunaan fitur-fitur sbb : , {sepal-width, petal-length, petal-width}, {sepal-length, petal-length, petalwidth}, {sepal-length, sepal-width, petal-width}, {sepal-length, sepal-width, petal-length} dan diperoleh hasil akurasi tertinggi dengan kombinasi fitur {sepal-length, sepal-width, petal-length} dengan akurasi =1 (100%). 

Maka pada iterasi selanjutnya akan menggunakan fitur-fitur ini.

Pada ietrasi 2, dilakukan penghapusan fitur secara bergantian pada {sepal-length, sepal-width, petal-length} dan di evaluasi performanya, di peroleh kombinasi fitur : {sepal-width, petal-length}, {sepal-length, petallength}, {sepal-length, sepal-width} dengan akurasi tertinggi menggunakan fitur {sepal-length, petal-length} dengan akurasi = 1( 100%). 

Maka pada iterasi berikutnya akan memproses fitur-fitur ini.

Pada iterasi 3, dilakukan penghapusan secara bergantian pada fitur {sepal-length, petal-length}, sehingga diperoleh fitur untuk evaluasi : {sepal-length}, {petal-length}. Setelah dilakukan trainng dan testing ternyata diperoleh akurasi tertinggi menggunakan fitur {petal-length} dengan akurasi =1 (100%).


Soal Backward Selection: 

Dari hasil backwar selection tersebut, dengan eksperimen menggunakan dataset iris, algoritma klasifikasi logistic regression, pembagian data train-test = 80-20. 

a. Berapa fitur yang dapat kita pakai? Fitur apa sajakah itu?

b. Coba klasifikasikan data iris tersebut dengan fitur yang Anda sebutkan di poin a

c. Bandingkan waktu komputasi dengan menggunakan seluruh fitur dengan klasifikasi pada poin b