## 1. Import file CSV dan convert ke Dataframe Pandas

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('train.csv')
df.drop('index', axis=1, inplace=True)
df

Unnamed: 0,daya_baterai,bluetooth,kecepatan_clock,dual_sim,kamera_depan,four_g,memori_internal,tebal_hp,berat_hp,jumlah_prosesor,...,px_panjang,px_lebar,kapasitas_ram,panjang_layar,lebar_layar,waktu_telfon,three_g,touch_screen,wifi,price_range
0,531,0,1.1,0,10,Tidak,63,0.7,189,7,...,145,1903,2958,17.0,1,19,0,1,0,2000k-3000k
1,764,1,1.2,1,1,Tidak,13,1.0,152,8,...,361,511,3148,18.0,7,6,1,1,0,2000k-3000k
2,1812,1,1.3,1,4,Ya,42,1.0,162,7,...,380,1550,3338,18.0,13,11,1,1,1,>3000k
3,1821,0,0.9,0,9,Ya,12,0.3,114,1,...,97,1803,2430,7.0,4,6,1,1,1,2000k-3000k
4,1790,1,2.3,1,3,Ya,49,0.5,100,3,...,396,1980,3568,6.0,2,18,1,0,1,>3000k
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1495,1224,1,1.6,0,9,Tidak,33,1.0,157,1,...,522,563,3796,10.0,5,13,1,1,0,>3000k
1496,1158,0,0.7,1,1,Ya,29,0.7,123,2,...,311,1796,1542,17.0,9,15,1,0,1,1000k-<2000k
1497,1190,0,2.0,1,0,Tidak,40,0.2,93,5,...,1399,1646,3610,13.0,7,9,0,0,1,>3000k
1498,1191,0,2.4,1,2,Tidak,13,0.9,169,1,...,179,1813,1028,14.0,6,8,1,1,1,0-<1000k


---
## 2. Preprocessing

Sebelum kita menggunakan dataset kita untuk dipelajari oleh algoritma Machine Learning, sebaiknya kita melakukan langkah-langkah untuk memastikan apakah data kita sudah siap untuk diproses dan dipelajari.

### a. Mendeteksi Missing Value pada Setiap Kolom Dataframe

In [2]:
def checkMissingVal(data):
    col_list = []
    missingVal_list = []

    dfMissingVal = pd.DataFrame(columns=['Column','# of NaN'])

    for col in (data.columns):
        
        missing = data[col].isnull().sum()

        if missing > 0:
            col_list.append(col)
            missingVal_list.append(missing)

    dfMissingVal['Column'] = col_list
    dfMissingVal['# of NaN'] = missingVal_list
    
    return dfMissingVal

checkMissingVal(df)

Unnamed: 0,Column,# of NaN
0,kecepatan_clock,50
1,panjang_layar,119


---

### b. Checking tipe data tiap kolom di dalam dataframe

Untuk menentukan apakah perlu dilakukan konversi tipe data untuk preprocessing dataset.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1500 entries, 0 to 1499
Data columns (total 21 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   daya_baterai        1500 non-null   int64  
 1   bluetooth           1500 non-null   int64  
 2   kecepatan_clock     1450 non-null   float64
 3   dual_sim            1500 non-null   int64  
 4   kamera_depan        1500 non-null   int64  
 5   four_g              1500 non-null   object 
 6   memori_internal     1500 non-null   int64  
 7   tebal_hp            1500 non-null   float64
 8   berat_hp            1500 non-null   int64  
 9   jumlah_prosesor     1500 non-null   int64  
 10  kamera_belakang_mp  1500 non-null   int64  
 11  px_panjang          1500 non-null   int64  
 12  px_lebar            1500 non-null   int64  
 13  kapasitas_ram       1500 non-null   int64  
 14  panjang_layar       1381 non-null   float64
 15  lebar_layar         1500 non-null   int64  
 16  waktu_

Dari output info dataframe diatas bisa kita lihat kalau semua value numerik sudah bertipe data numerik, dan kolom yang memiliki missing value sudah sesuai dengan hasil pemeriksaan sebelum ini.

---

### c. Mengubah isi kolom 'four_g' dan 'price_range' ke tipe data numerik
Kalau kita lihat, kolom four_g berisi info apakah HP tersebut memiliki fitur 4G atau tidak, maka kita perlu mengubah value 'Tidak' menjadi 0 dan 'Ya' menjadi 1 agar bisa dipelajari oleh algoritma model nanti

In [4]:
df['four_g'].replace({'Tidak':0, 'Ya':1}, inplace=True)

---
Kolom 'price_range' juga perlu kita convert ke tipe data numerik agar dapat dipelajari algoritma model saat menjadi data target nanti.
<br>Pertama-tama kita cek apa saja isi kolomnya:

In [5]:
df['price_range'].value_counts()

1000k-<2000k    390
0-<1000k        376
2000k-3000k     375
>3000k          359
Name: price_range, dtype: int64

Dari info di atas sekarang kita tahu kalau dataset ini memiliki 4 label klasifikasi, maka kita bisa mengubah masing-masing kategori tersebut ke nilai numerik yang unik untuk setiap klasifikasi:

P.S: Dari info di atas juga kita dapat melihat kalau jumlah data dalam tiap label klasifikasi tidak berbeda jauh satu dengan lainnya. Dengan kata lain, ini merupakan dataset yang balance.

In [6]:
priceRange_translator = {'0-<1000k':0, '1000k-<2000k':1, '2000k-3000k':2, '>3000k':3}

df['price_range'].replace(priceRange_translator, inplace=True)

In [7]:
df

Unnamed: 0,daya_baterai,bluetooth,kecepatan_clock,dual_sim,kamera_depan,four_g,memori_internal,tebal_hp,berat_hp,jumlah_prosesor,...,px_panjang,px_lebar,kapasitas_ram,panjang_layar,lebar_layar,waktu_telfon,three_g,touch_screen,wifi,price_range
0,531,0,1.1,0,10,0,63,0.7,189,7,...,145,1903,2958,17.0,1,19,0,1,0,2
1,764,1,1.2,1,1,0,13,1.0,152,8,...,361,511,3148,18.0,7,6,1,1,0,2
2,1812,1,1.3,1,4,1,42,1.0,162,7,...,380,1550,3338,18.0,13,11,1,1,1,3
3,1821,0,0.9,0,9,1,12,0.3,114,1,...,97,1803,2430,7.0,4,6,1,1,1,2
4,1790,1,2.3,1,3,1,49,0.5,100,3,...,396,1980,3568,6.0,2,18,1,0,1,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1495,1224,1,1.6,0,9,0,33,1.0,157,1,...,522,563,3796,10.0,5,13,1,1,0,3
1496,1158,0,0.7,1,1,1,29,0.7,123,2,...,311,1796,1542,17.0,9,15,1,0,1,1
1497,1190,0,2.0,1,0,0,40,0.2,93,5,...,1399,1646,3610,13.0,7,9,0,0,1,3
1498,1191,0,2.4,1,2,0,13,0.9,169,1,...,179,1813,1028,14.0,6,8,1,1,1,0


P.S: Kita bisa langsung mengubah value kedua kolom di atas menjadi tipe numerik karena kita sudah mengetahui data mereka tak bersifat nominal/categorical

### d. Mengecek Keberadaan Outliers

Langkah berikutnya adalah mengecek dataset kita, apakah memiliki data outlier atau tidak.
Disini penulis menggunakan metode IQR (Interquartile Range) untuk melakukan pengecekan.

Pertama-tama kita buat dulu fungsi pengecekan outliers agar akan sangat memudahkan untuk mengecek dataset khusus test nanti.

In [8]:
def getOutliers(dframe, clm):
    Q1 = dframe[clm].quantile(0.25)
    Q3 = dframe[clm].quantile(0.75)
    
    IQR = Q3-Q1
    
    lower_limit = Q1-(1.5*IQR)
    upper_limit = Q3+(1.5*IQR)
    
    outliers = dframe.loc[ (dframe[clm]<lower_limit) | dframe[clm]>upper_limit ]
    
    return outliers

Setelah itu, kita jalankan fungsinya untuk setiap kolom dalam dataset

In [18]:
for i, col in enumerate(df.columns):
    if getOutliers(df, col).empty:
        print(f'No outlier detected in column {col}')
    else:
        display(getOutliers(df, col))

No outlier detected in column daya_baterai
No outlier detected in column bluetooth
No outlier detected in column kecepatan_clock
No outlier detected in column dual_sim
No outlier detected in column kamera_depan
No outlier detected in column four_g
No outlier detected in column memori_internal
No outlier detected in column tebal_hp
No outlier detected in column berat_hp
No outlier detected in column jumlah_prosesor
No outlier detected in column kamera_belakang_mp
No outlier detected in column px_panjang
No outlier detected in column px_lebar
No outlier detected in column kapasitas_ram
No outlier detected in column panjang_layar
No outlier detected in column lebar_layar
No outlier detected in column waktu_telfon
No outlier detected in column three_g
No outlier detected in column touch_screen
No outlier detected in column wifi
No outlier detected in column price_range


Setelah dijalankan kita bisa mengetahui kalau dataset yang akan kita proses tidak memiliki data outlier, dan ini merupakan hal yang bagus.

### e. Handling Missing value

Seperti yang sudah kita ketahui sebelumnya, dalam dataset ini ada 2 kolom yang memiliki missing value, yaitu kolom 'kecepatan_clock' dan 'panjang_layar'.
<br>
<br>
Dikarenakan jumlah missing value memiliki persentase yang cukup besar dari keseluruhan data, maka menghapus entry yang memiliki missing value bukan merupakan solusi yang tepat, karena seperti yang kita tahu, dataset ini merupakan dataset yang cukup balance dan menghapus banyak entry akan berakibat terganggungya keseimbangan klasifikasinya.
<br>
<br>
Pertama-tama, ada baiknya kita cek dulu persebaran datanya sebelum memilih metode pengisian missing value.
<br>Hal ini dikarenakan penulis rasa kurang tepat jika metode frontfill dan backfill digunakan di dataset yang seperti ini, karena jika melihat kolom-kolom yang ingin kita isi, datanya tidak berurutan dari besar ke kecil atau sebaliknya.

In [11]:
df[['kecepatan_clock','panjang_layar']].describe()

Unnamed: 0,kecepatan_clock,panjang_layar
count,1450.0,1381.0
mean,1.54731,12.370022
std,0.833468,4.351904
min,0.5,5.0
25%,0.7,8.0
50%,1.6,13.0
75%,2.3,16.0
max,3.0,19.0


Setelah itu kita cek koefesien variansi kolom-kolom tersebut.

In [12]:
def getVarCoef(dframe, clm):
    colMean = dframe[clm].mean()
    colSDev = dframe[clm].std()
    
    return colSDev/colMean

In [17]:
print(f"Koefesien Variansi kolom 'kecepatan_clock': {getVarCoef(df, 'kecepatan_clock')}")
print(f"Koefesien Variansi kolom 'panjang_layar': {getVarCoef(df, 'panjang_layar')}")

Koefesien Variansi kolom 'kecepatan_clock': 0.5386558023742233
Koefesien Variansi kolom 'panjang_layar': 0.3518105682979377


Seperti yang kita lihat, semua koefesien variansinya dibawah 1, ini berarti data dari kolom-kolom ini tersebar dalam area yang cukup dekat dengan mean/rata-ratanya.
<br><br>
Artinya, mengisi missing value dengan metode rata-rata akan menjadi salah satu pilihan tepat untuk kasus ini.
<br><br>
Sekarang kita coba apakah kita bisa menggunakan metode mode/modus untuk mengisi missing value.
<br>
Kita lihat nilai apa saja yang paling sering muncul(modus) dari masing-masing kolom tersebut.

In [16]:
print(f"Paling sering muncul di kolom 'kecepatan_clock': {df['kecepatan_clock'].mode()[0]}")
print(f"Paling sering muncul di kolom 'panjang_layar': {df['panjang_layar'].mode()[0]}")

Paling sering muncul di kolom 'kecepatan_clock': 0.5
Paling sering muncul di kolom 'panjang_layar': 17.0


Ternyata mengisi missing value dengan metode modus adalah solusi yang kurang tepat karena akan membuat skewness kolom 'kecepatan_clock' menjadi semakin positif (karena modus jauh dibawah mean) dan skewness kolom 'panjang_layar' menjadi semakin negatif (karena modus cukup jauh di atas mean).
<br><br>
Jadi dari analisis yang sudah kita lakukan tadi, metode pengisian missing value dengan metode mean/rata-rata merupakan pilihan yang paling tepat dari semua metode yang telah kita pertimbangkan.

#####   - Lakukan pengisian missing value dengan metode rata-rata

In [19]:
df.fillna(df.mean(), inplace=True)

#####   - Cek ulang dataframe setelah melakukan prosedur di atas

In [20]:
checkMissingVal(df)

Unnamed: 0,Column,# of NaN


Bisa kita lihat sekarang tidak ada lagi missing value dalam dataframe kita.

### f. Tentukan Features dan Label Untuk Diproses Oleh Algoritma Machine Learning Nanti

In [21]:
X = df.drop('price_range', axis=1) #kolom index sudah di-drop di awal
y = df['price_range']

---

In [22]:
#import seaborn as sns

#visual = sns.pairplot(data = df, hue='price_range', palette='bright')

In [23]:
#visual.savefig('dataVisual.png', dpi=100)

---

---

## 3. Membuat Model Machine Learning

Setelah selesai melakukan data preprocessing, selanjutnya kita sudah bisa memulai untuk membuat model machine learning yang akan kita gunakan.
<br>
Berdasarkan isi datasetnya, kasus ini adalah kasus klasifikasi multiclass non-biner, maka dari itu penulis akan menggunakan algoritma SVC.
<br><br>
P.S.: Sebelum memutuskan untuk menggunakan algoritma SVC dalam notebook ini, penulis telah melakukan A/B/C/D testing dengan algoritma KNN, SVC, Random Forest, dan Multinomial Naive Beyes, dan yang memberikan skor terbaik adalah algoritma SVC.

---
### a. Menentukan Kombinasi Hyperparameter Terbaik dari Algoritma SVC

Pertama-tama kita import objek SVC dari library sklearn.
<br>
<br>Lalu kita buat instance objek dari SVC dengan setting hyperparameter default dan menyimpannya ke dalam suatu variabel.
<br>
<br>Kemudian kita buat satu dictionary yang key-nya merupakan nama hyperparameter dan value-listnya berisikan nilai-nilai yang bisa di tempatkan sebagai setting hyperparameternya. 

In [24]:
from sklearn.svm import SVC

svc_model = SVC()
hParam_dict_svc = {'kernel':['linear', 'poly', 'rbf', 'sigmoid'], 'gamma':['scale','auto'], 'decision_function_shape':['ovo','ovr']}

Lalu kita cari kombinasi terbaik hyperparameternya menggunakan GridSearchCV, dengan setting scoring f1-weighted

In [25]:
from sklearn.model_selection import GridSearchCV

gsCV_svc = GridSearchCV(svc_model, param_grid=hParam_dict_svc, scoring='f1_weighted')
gsCV_svc.fit(X,y)

GridSearchCV(estimator=SVC(),
             param_grid={'decision_function_shape': ['ovo', 'ovr'],
                         'gamma': ['scale', 'auto'],
                         'kernel': ['linear', 'poly', 'rbf', 'sigmoid']},
             scoring='f1_weighted')

In [26]:
print(gsCV_svc.best_params_)
print(gsCV_svc.best_score_)

{'decision_function_shape': 'ovo', 'gamma': 'scale', 'kernel': 'linear'}
0.9726408649906535


Setelah mendapatkan kombinasi yang terbaik(dan scorenya juga sangat tinggi) kita buat instance objek SVC baru dengan menggunakan hyperparameter yang kita dapatkan tersebut.
<br><br>Dari sini dan seterusnya, model yang akan kita gunakan adalah adalah instance baru ini.

<br>Setelah itu, kita lakukan cross validate.

In [27]:
svc_model_best = SVC(decision_function_shape='ovo', gamma='scale', kernel='linear')

In [29]:
from sklearn.model_selection import cross_validate

crossVal_svc2 = cross_validate(svc_model_best, X, y, cv=30, scoring='f1_weighted', return_train_score=True)

print(f"Skor rata-rata tes training data(cross_validate): {crossVal_svc2['train_score'].mean()}")
print(f"Skor rata-rata tes validation data(cross_validate): {crossVal_svc2['test_score'].mean()}")

Skor rata-rata tes training data(cross_validate): 0.9986436734441625
Skor rata-rata tes validation data(cross_validate): 0.9733151384096312


Dari hasil cross-validate di atas, kita dapat menarik kesimpulan kalau algoritma model kita buat sudah baik, karena skor tes menggunakan data training dengan label training dan tes menggunakan data validasi dengan label validasi hasilnya tak berbeda jauh (< 3%)
<br><br><br>
Setelah itu kita cari kombinasi pemisahan antara data training dan validasi terbaik untuk mendapatkan skor tertinggi dengan mencoba berbagai macam nilai parameter random_state pada objek train_test_split dari sklearn.

In [32]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

accuracy_list = []
f1macro_list = []
f1weighted_list = []

for i in range(1,51):
    X_train, X_val, Y_train, Y_val = train_test_split(X, y, test_size=0.2, random_state=i, stratify=y)

    svc_model_best.fit(X_train, Y_train)
    svc_predict_val = svc_model_best.predict(X_val)
    
    classReport_val = classification_report(Y_val, svc_predict_val, output_dict=True)
    
    accuracy_list.append(classReport_val['accuracy'])
    f1macro_list.append(classReport_val['macro avg']['f1-score'])
    f1weighted_list.append(classReport_val['weighted avg']['f1-score'])

print(f'Max accuracy: {max(accuracy_list)} @ random_state {accuracy_list.index(max(accuracy_list)) +1}')
print(f'Max f1 macro: {max(f1macro_list)} @ random_state {f1macro_list.index(max(f1macro_list)) +1}')
print(f'Max f1 weighted: {max(f1weighted_list)} @ random_state {f1weighted_list.index(max(f1weighted_list)) +1}')

Max accuracy: 0.9933333333333333 @ random_state 33
Max f1 macro: 0.9933493713417313 @ random_state 33
Max f1 weighted: 0.9933547852826291 @ random_state 33


<br>Setelah mengetahui nilai random_state agar mendapatkan hasil terbaik, buat agar seterusnya random_state yang digunakan adalah nilai terbaik tersebut.
<br><br>
Kemudian fit data X_train dan Y_train ke dalam model yang sudah kita buat

In [33]:
X_train, X_val, Y_train, Y_val = train_test_split(X, y, test_size=0.2, random_state=33, stratify=y) #33<- all time high in 1-100 test

svc_model_best.fit(X_train, Y_train)

SVC(decision_function_shape='ovo', kernel='linear')

<br>Selanjutnya kita buat prediksi untuk masing-masing data training(X_train) dan data validasi(X_val)
<br><br>
Tidak lupa juga kita lakukan classification report untuk masing-masing tes model terhadap data training dan data validasi. 

In [34]:
svc_predict_tr = svc_model_best.predict(X_train)
svc_predict_val = svc_model_best.predict(X_val)

In [36]:
from sklearn.metrics import classification_report

classReport_tr = classification_report(Y_train, svc_predict_tr,)
classReport_val = classification_report(Y_val, svc_predict_val)

print('Classification Report for Training Data:\n', classReport_tr)
print('\n============================================================\n')
print('Classification Report for Validation Data:\n', classReport_val)
print('\n============================================================\n')

Classification Report for Training Data:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00       301
           1       1.00      1.00      1.00       312
           2       1.00      1.00      1.00       300
           3       1.00      1.00      1.00       287

    accuracy                           1.00      1200
   macro avg       1.00      1.00      1.00      1200
weighted avg       1.00      1.00      1.00      1200



Classification Report for Validation Data:
               precision    recall  f1-score   support

           0       1.00      1.00      1.00        75
           1       1.00      0.99      0.99        78
           2       0.97      1.00      0.99        75
           3       1.00      0.99      0.99        72

    accuracy                           0.99       300
   macro avg       0.99      0.99      0.99       300
weighted avg       0.99      0.99      0.99       300





Dari output classification validation di atas, kita bisa melihat kalau model machine learning kita sudah siap untuk digunakan.

---

## 3. Memprediksi Klasifikasi Setiap Item dalam Dataset Test
### a. Import dan Verifikasi Dataset Test
Setelah importing, jangan lupa cek datasetnya

In [37]:
df_test = pd.read_csv('test.csv')
df_test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 21 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   index               500 non-null    int64  
 1   daya_baterai        500 non-null    int64  
 2   bluetooth           500 non-null    int64  
 3   kecepatan_clock     500 non-null    float64
 4   dual_sim            500 non-null    int64  
 5   kamera_depan        500 non-null    int64  
 6   four_g              500 non-null    object 
 7   memori_internal     500 non-null    int64  
 8   tebal_hp            500 non-null    float64
 9   berat_hp            500 non-null    int64  
 10  jumlah_prosesor     500 non-null    int64  
 11  kamera_belakang_mp  500 non-null    int64  
 12  px_panjang          500 non-null    int64  
 13  px_lebar            500 non-null    int64  
 14  kapasitas_ram       500 non-null    int64  
 15  panjang_layar       500 non-null    int64  
 16  lebar_la

Ternyata kolom 'four_g' isinya masih berupa string, kita ubah menjadi integer agar bisa diproses algoritma model machine learning kita.
<br><br>

In [38]:
df_test['four_g'].replace({'Tidak':0, 'Ya':1}, inplace=True)

In [39]:
df_test

Unnamed: 0,index,daya_baterai,bluetooth,kecepatan_clock,dual_sim,kamera_depan,four_g,memori_internal,tebal_hp,berat_hp,...,kamera_belakang_mp,px_panjang,px_lebar,kapasitas_ram,panjang_layar,lebar_layar,waktu_telfon,three_g,touch_screen,wifi
0,405,1454,1,0.5,1,1,0,34,0.7,83,...,3,250,1033,3419,7,5,5,1,1,0
1,1190,1092,1,0.5,1,10,0,11,0.5,167,...,14,468,571,737,14,4,11,0,1,0
2,1132,1524,1,1.8,1,0,0,10,0.6,174,...,1,154,550,2678,16,5,13,1,0,1
3,731,1807,1,2.1,0,2,0,49,0.8,125,...,10,337,1384,1906,17,13,13,0,1,1
4,1754,1086,1,1.7,1,0,1,43,0.2,111,...,1,56,1150,3285,11,5,17,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,936,805,0,0.8,0,1,0,34,0.6,88,...,2,1262,1538,3647,18,11,9,1,0,1
496,1524,1162,0,1.0,0,0,0,50,0.5,104,...,10,332,866,1404,10,3,15,1,1,1
497,1415,1759,1,1.4,0,10,1,15,0.4,101,...,13,382,1163,2107,18,5,16,1,1,0
498,1223,514,1,1.6,0,7,1,37,0.1,172,...,9,956,1723,3392,12,8,5,1,1,1


Setelah kita cek kembali, isi kolom 'four_g' sudah berubah menjadi integer.
<br><br>
Langkah selanjutanya adalah mengeluarkan kolom index dari df_test, tapi karena nanti kita masih menggunakan kolom ini untuk membuat dataframe hasil tes, maka kita tidak bisa menggunakan parameter inplace=True.
<br><br>
Solusinya adalah menyimpan hasil dari drop column ke dalam sebuah variabel baru,
<br>sehingga saat akan melakukan prediksi, variabel itulah yang harus kita panggil, bukan lagi df_test.

In [40]:
test_data = df_test.drop('index', axis=1)

test_data

Unnamed: 0,daya_baterai,bluetooth,kecepatan_clock,dual_sim,kamera_depan,four_g,memori_internal,tebal_hp,berat_hp,jumlah_prosesor,kamera_belakang_mp,px_panjang,px_lebar,kapasitas_ram,panjang_layar,lebar_layar,waktu_telfon,three_g,touch_screen,wifi
0,1454,1,0.5,1,1,0,34,0.7,83,4,3,250,1033,3419,7,5,5,1,1,0
1,1092,1,0.5,1,10,0,11,0.5,167,3,14,468,571,737,14,4,11,0,1,0
2,1524,1,1.8,1,0,0,10,0.6,174,4,1,154,550,2678,16,5,13,1,0,1
3,1807,1,2.1,0,2,0,49,0.8,125,1,10,337,1384,1906,17,13,13,0,1,1
4,1086,1,1.7,1,0,1,43,0.2,111,6,1,56,1150,3285,11,5,17,1,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
495,805,0,0.8,0,1,0,34,0.6,88,6,2,1262,1538,3647,18,11,9,1,0,1
496,1162,0,1.0,0,0,0,50,0.5,104,4,10,332,866,1404,10,3,15,1,1,1
497,1759,1,1.4,0,10,1,15,0.4,101,4,13,382,1163,2107,18,5,16,1,1,0
498,514,1,1.6,0,7,1,37,0.1,172,1,9,956,1723,3392,12,8,5,1,1,1


<br>Setelah kolom 'index' dipastikan tidak ada, kita perlu verifikasi lagi apakah dalam dataframe test_data terdapat outlier atau tidak.

In [41]:
#checking for outliers, NO OUTPUT MEANS EVERYTHING IS GOOD
for i, col in enumerate(test_data.columns):
    if getOutliers(test_data, col).empty:
        pass
    else:
        display(getOutliers(test_data, col))

Tidak ada outputnya, berarti tak ada outlier dalam dataframe data_test kita.
<br><br>
Selanjutnya kita harus memeriksa apakah urutan kolom dalam test_data sudah sama dengan data training.

In [42]:
#ensure all columns position are the same between df and data_test, NO OUTPUT MEANS EVERYTHING IS GOOD
for i in range(len(test_data.columns)):
    if test_data.columns[i] != df.columns[i]:
        print(f'Different on index {i}')

Tidak menghasilkan output, berarti urutan kolom-kolom sudah sesuai satu sama lain antara test_data dengan data_training.
<br>
---
### b. Lakukan Prediksi Klasifikasi terhadap Data Tes
Pertama-tama kita gunakan method predict dari model yang sudah kita buat dan simpan kedalam sebuah variabel agar bisa diakses via nama variabelnya nanti.

In [43]:
svc_predict_test = svc_model_best.predict(test_data)

<br>Buat dataframe untuk menampung hasil prediksi dengan nama kolom 'price_range' dan tentukan indexnya adalah index dari df_test sesuai sesuai instruksi final project.
<br>(inilah alasan kenapa kolom 'index' dari df_test tidak kita drop secara inplace.)

In [44]:
resultDF_svc = pd.DataFrame(svc_predict_test, columns=['price_range'], index=df_test['index'])

resultDF_svc

Unnamed: 0_level_0,price_range
index,Unnamed: 1_level_1
405,3
1190,0
1132,2
731,2
1754,2
...,...
936,3
1524,0
1415,2
1223,3


<br>Dataframe untuk submisi sudah siap untuk di export ke format csv

In [45]:
resultDF_svc.to_csv('finProject_svcResult8_meanFill.csv')

Hasil notebook ini di Kaggla final project Sanbercode:
<br>
![alt_text](https://drive.google.com/uc?id=1Kh1QfZjRQYEnLyUHZCKNtX8cInOnp1GP)
<br><br>
![alt_text](https://drive.google.com/uc?id=1cHVRosSg3qElbOYAW7Jrzn7ecWMlfrjD)