# 1. Memasukkan Library
Langkah pertama untuk melakukan preprocessing adalah mengimport beberapa library python, yaitu :
1. Numpy, berfungsi untuk melakukan operasi matematika, manipulasi array, dan analisis data pada Python. 
2. Matplotlib, berfungsi untuk membuat visualisasi data secara grafis.
3. Pandas, berfungsi untuk memanipulasi dan menganalisis data dalam format tabel atau dataframe

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# 2. Import Dataset
Setelah memasukkan library, langkah selanjutnya adalah memasukkan file dataset yang ingin digunakan dengan menggunakan fungsi 'pd.read' yang dimiliki oleh library Pandas


In [2]:
dataFrame = pd.read_csv('latihan_interval_lari.csv')

## 2.1. Tampilkan Data yang Telah di masukkan

In [3]:
dataFrame

Unnamed: 0,Nama,Umur,Waktu(s),Target
0,Adi,19.0,2322.0,Yes
1,Ditya,,2622.0,Yes
2,Adith,18.0,2321.0,No
3,Agung,18.0,2312.0,Yes
4,Akhmad,,2452.0,No
5,Ardian,19.0,,No
6,Arifianto,19.0,2152.0,Yes
7,Atinna,,2362.0,No
8,Bektiningsih,18.0,2531.0,Yes
9,Bondan,18.0,2351.0,Yes


Diketahui ketika menampilkan data dari dataset, terdapat Missing Value dengan disimbolkan isian 'NaN'. Agar Missing Value dapat diketahui jumlahnya, maka langkah selanjutnya adalah memasukan perintah untuk menghitung jumlah Missing Value setiap atributnya

In [4]:
dataFrame.isnull().sum()

Nama        0
Umur        3
Waktu(s)    2
Target      0
dtype: int64

Rincian diatas menyebutkan bahwa data dengan Atribut 'Umur' mengalami Missing Value sebanyak 3 record dan data dengan Atribut 'Waktu(s)' mengalami Missing Value sebanyak 2 record

## 2.2. Bagi Data dengan Dua Variable
Selanjutnya membagi data dengan memasukkanya kedalam dua variable. Variable 'x' untuk data yang berupa atribut, dan variable 'y' untuk data yang berupa class/label

In [5]:
x = dataFrame.iloc[:, :-1].values
y = dataFrame.iloc[:, -1].values

## 2.3. Tampilkan Data yang Telah dibagi dengan Dua Variable

In [6]:
print(x)

[['Adi' 19.0 2322.0]
 ['Ditya' nan 2622.0]
 ['Adith' 18.0 2321.0]
 ['Agung' 18.0 2312.0]
 ['Akhmad' nan 2452.0]
 ['Ardian' 19.0 nan]
 ['Arifianto' 19.0 2152.0]
 ['Atinna' nan 2362.0]
 ['Bektiningsih' 18.0 2531.0]
 ['Bondan' 18.0 2351.0]
 ['Edi' 19.0 nan]]


In [7]:
print(y)

['Yes' 'Yes' 'No' 'Yes' 'No' 'No' 'Yes' 'No' 'Yes' 'Yes' 'No']


# 3. Melakukan Data Cleaning
Diketahui proses sebelumnya terdapat data yang mengalami Missing Value, sehingga langkah selanjutnya data harus diperbaiki dengan melakukan Data Cleaning atau pembersihan data

Pembersihan data dapat dilakukan dengan memanggil library 'sklearn' dengan mengakses folder 'impute' dan memasukkan fungsi 'SimpleImputer'. Metode yang dilakukan adalah dengan mengambil nilai rata-rata (mean) dari masing-masing atribut yang mengalami Missing Value, lalu selanjutnya data yang kosong sebelumnya akan digantikan dengan nilai mean

In [8]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(x[:, 1:3])
x[:, 1:3]= imputer.transform(x[:, 1:3])

Tampilkan hasil Data Cleaning dengan mencetak variable menampung data yang telah dibuat pada langkah sebelumnya

In [9]:
print(x)

[['Adi' 19.0 2322.0]
 ['Ditya' 18.5 2622.0]
 ['Adith' 18.0 2321.0]
 ['Agung' 18.0 2312.0]
 ['Akhmad' 18.5 2452.0]
 ['Ardian' 19.0 2380.5555555555557]
 ['Arifianto' 19.0 2152.0]
 ['Atinna' 18.5 2362.0]
 ['Bektiningsih' 18.0 2531.0]
 ['Bondan' 18.0 2351.0]
 ['Edi' 19.0 2380.5555555555557]]


Sekarang data telah terisi sepenuhnya dan tidak ada data yang mengalami Missing Value. Sehingga data dapat diolah pada proses berikutnya.

# 4. Melakukan Encoding
Langkah selanjutnya adalah mengubah data kategorikal/non-numerik(String) kedalam bentuk numerik(Float atau Integer). Hal ini dilakukan agar data dapat diproses oleh mesin. Kegiatan ini dinamakan 'Encoding'.

## 4.1. Encoding label/class

In [29]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

Code tersebut melakukan encoding pada data label y menggunakan kelas LabelEncoder dari library sklearn.preprocessing. Label encoding adalah proses mengubah nilai-nilai kategori menjadi nilai numerik, sehingga dapat diproses oleh model machine learning.

Pertama-tama, dilakukan import kelas LabelEncoder dari library sklearn.preprocessing dengan from sklearn.preprocessing import LabelEncoder.

Selanjutnya, objek le dibuat sebagai instance dari kelas LabelEncoder dengan le = LabelEncoder().

Kemudian, data label y diubah menjadi nilai numerik dengan menggunakan method fit_transform() dari objek le. Method ini akan mengembalikan array baru yang berisi nilai numerik yang sesuai dengan nilai-nilai kategori pada y. Hasil transformasi disimpan ke variabel y dengan y = le.fit_transform(y).

In [12]:
print(y)

[1 1 0 1 0 0 1 0 1 1 0]


Dengan melakukan encoding pada data label, nilai-nilai kategori akan diubah menjadi nilai numerik yang dapat diproses oleh model machine learning seperti algoritma klasifikasi.

## 4.2. Encoding Atribut

In [10]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(),[0])], remainder='passthrough')

Code tersebut melakukan transformasi data pada satu atau beberapa kolom di dalam suatu dataframe menggunakan kelas ColumnTransformer dan OneHotEncoder dari library sklearn. Objek ct dibuat sebagai instance dari kelas ColumnTransformer dan diatur spesifikasi transformasi yang ingin dilakukan pada data dengan menggunakan OneHotEncoder(). Parameter remainder menunjukkan bahwa kolom-kolom yang tidak diubah oleh OneHotEncoder() akan tetap dipertahankan. Objek ct dapat diterapkan pada data dengan menggunakan method fit_transform().

In [11]:
x = ct.fit_transform(x).toarray()

Code tersebut melakukan transformasi data pada dataframe x dengan menggunakan objek ct yang telah diatur spesifikasi transformasinya sebelumnya. Method fit_transform() digunakan untuk melakukan transformasi tersebut dan menghasilkan array yang baru. Method toarray() kemudian digunakan untuk mengubah hasil transformasi menjadi array numpy. Hasil transformasi disimpan kembali ke variabel x.

Cetak data yang telah dilakukan Encoding

In [12]:
print(x)

[[1.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.90000000e+01
  2.32200000e+03]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 1.00000000e+00 0.00000000e+00 1.85000000e+01
  2.62200000e+03]
 [0.00000000e+00 1.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.80000000e+01
  2.32100000e+03]
 [0.00000000e+00 0.00000000e+00 1.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.80000000e+01
  2.31200000e+03]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 1.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.85000000e+0

# 5. Membagi dataset ke dalam training set dan test set

Dengan membagi dataset menjadi training set dan test set, kita dapat mengukur kinerja model pada data yang belum pernah dilihat sebelumnya, sehingga dapat dihindari overfitting. Data training digunakan untuk melatih model, sedangkan data test digunakan untuk mengukur kinerja model. Dalam hal ini, kita dapat memastikan bahwa model yang dibuat memiliki kinerja yang baik pada data yang belum pernah dilihat sebelumnya, sehingga dapat digunakan untuk memprediksi data baru dengan akurasi yang lebih tinggi.

In [14]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 1)

Code tersebut digunakan untuk membagi dataset menjadi training set dan test set dengan menggunakan kelas train_test_split dari library sklearn.model_selection. Variabel x dan y merupakan data yang ingin dibagi. Parameter test_size menunjukkan proporsi data yang ingin dialokasikan sebagai test set. Pada contoh tersebut, proporsi test set adalah 20% dari total data. Parameter random_state digunakan untuk menghasilkan hasil yang konsisten ketika kode dijalankan ulang dengan parameter yang sama. Variabel x_train, x_test, y_train, dan y_test akan berisi data training dan test set yang telah terbagi secara acak dari dataset.

Cetak beberapa variable data yang telah dilakukan pembagian dataset 

In [18]:
print(x_train)

[[0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  1.00000000e+00 0.00000000e+00 0.00000000e+00 1.80000000e+01
  2.35100000e+03]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 1.00000000e+00 0.00000000e+00 1.85000000e+01
  2.62200000e+03]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 1.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.90000000e+01
  2.15200000e+03]
 [1.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.90000000e+01
  2.32200000e+03]
 [0.00000000e+00 0.00000000e+00 0.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 1.00000000e+00 0.00000000e+00
  0.00000000e+00 0.00000000e+00 0.00000000e+00 1.85000000e+0

In [20]:
print(x_test)

[[0.000e+00 1.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00
  0.000e+00 0.000e+00 0.000e+00 0.000e+00 1.800e+01 2.321e+03]
 [0.000e+00 0.000e+00 1.000e+00 0.000e+00 0.000e+00 0.000e+00 0.000e+00
  0.000e+00 0.000e+00 0.000e+00 0.000e+00 1.800e+01 2.312e+03]
 [0.000e+00 0.000e+00 0.000e+00 1.000e+00 0.000e+00 0.000e+00 0.000e+00
  0.000e+00 0.000e+00 0.000e+00 0.000e+00 1.850e+01 2.452e+03]]


In [21]:
print(y_train)

[1 1 1 1 0 0 1 0]


In [22]:
print(y_test)

[0 1 0]


# 6. Melakukan Feature Scaling
Feature Scaling digunakan untuk menormalkan variabel-variabel input (fitur) ke dalam rentang yang sama. Teknik ini penting dilakukan terutama pada algoritma-algoritma yang menghitung jarak atau memiliki skala yang sensitif terhadap perbedaan skala antar fitur.

In [23]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
x_train[:, 3:] = sc.fit_transform(x_train[:, 3:])
x_test[:, 3:] = sc.transform(x_test[:, 3:])

Kode tersebut mengimport kelas StandardScaler dari library sklearn.preprocessing untuk melakukan normalisasi data. Data pada kolom ke-3 dan setelahnya pada x_train dan x_test akan di-normalisasi dengan menggunakan StandardScaler.fit_transform() pada x_train dan StandardScaler.transform() pada x_test.

Cetak hasil data yang telah dilakukan Feature Scaling

In [24]:
print(x_train)

[[ 0.          0.          0.          0.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447  2.64575131 -0.37796447 -0.37796447 -1.50755672
  -0.27956016]
 [ 0.          0.          0.          0.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447 -0.37796447  2.64575131 -0.37796447 -0.30151134
   1.78821006]
 [ 0.          0.          0.          0.         -0.37796447  2.64575131
  -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.37796447  0.90453403
  -1.79795969]
 [ 1.          0.          0.          0.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.37796447  0.90453403
  -0.50083446]
 [ 0.          0.          0.          0.         -0.37796447 -0.37796447
   2.64575131 -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.30151134
  -0.19562853]
 [ 0.          0.          0.          0.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447 -0.37796447 -0.37796447  2.64575131  0.90453403
  -0.05404688]
 [ 0.          0.     

In [25]:
print(x_test)

[[ 0.          1.          0.          0.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.37796447 -1.50755672
  -0.50846461]
 [ 0.          0.          1.          0.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.37796447 -1.50755672
  -0.57713595]
 [ 0.          0.          0.          1.         -0.37796447 -0.37796447
  -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.37796447 -0.30151134
   0.49108483]]
