In [15]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [16]:
df = pd.read_csv('data.csv') # df = data frame, pd.read_csv = fungsi untuk membaca file csv

# Dependent vars : semua baris dengan kolom 0-2
x = df.iloc[:,:-1].values # df.iloc memilih baris dan kolom berdasarkan index, argumen pertama untuk range baris dan argumen kedua untuk range kolom

# Independent vars : semua baris dengan kolom 3
y = df.iloc[:,3].values

# Note : dalam python, range menyertakan batas bawah dan tidak menyertakan batas atas

In [17]:
# Taking care of missing data

# Terdapat 2 cara untuk mengatasi missing data
# 1. Menghapus baris yang mengandung missing data : tidak masalah jika data yang hilang hanya sedikit
# 2. Mengganti missing data dengan nilai rata-rata dari kolom tersebut
# Akan digunakan cara kedua

from sklearn.impute import SimpleImputer# sklearn.preprocessing adalah library untuk preprocessing data, imputer adalah class yang digunakan untuk mengganti missing data

imputer = SimpleImputer(missing_values=np.nan, strategy='mean') # missing_values adalah nilai yang akan diganti, strategy adalah cara penggantian nilai (rata-rata)
imputer.fit(x[:,1:3]) # imputer.fit digunakan untuk mengganti nilai yang hilang, argumen pertama adalah data yang akan diganti
x[:,1:3] = imputer.transform(x[:,1:3]) # imputer.transform digunakan untuk mengganti nilai yang hilang, argumen pertama adalah data yang akan diganti



In [18]:
# Encoding categorical data
# Hot encoding : mengkode setiap kategori dalam suatu data kategorikal menjadi kolom baru
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# objek ct (column transformer) dibuat dengan class ColumnTransformer dengan argumen :
# transformers : list of tuples, dimana setiap tuple berisi nama transformer, transformer, dan kolom yang akan diubah
# remainder : 'passthrough' untuk menyertakan kolom yang tidak diubah, 'drop' untuk menghapus kolom yang tidak diubah, defaultnya adalah 'drop'

ct  = ColumnTransformer(transformers=[('encoder',OneHotEncoder(),[0])],remainder='passthrough')

# ct.fit_transform digunakan untuk menerapkan ct pada sebuah matriks, argumen pertama adalah matriks yang akan diubah
# np.array digunakan untuk mengubah hasil ct.fit_transform menjadi array numpy (lebih cepat dari list biasa)
x = np.array(ct.fit_transform(x))

In [19]:
# Encoding dependent variable
# Label encoding : mengkode setiap kategori dalam suatu data kategorikal menjadi angka
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()

# le.fit_transform digunakan untuk mengubah nilai pada variabel dependen y menjadi angka
y = le.fit_transform(y) 

In [20]:
# Splitting the dataset into the Training set and Test set
# Training set : data yang digunakan untuk melatih model
# Test set : data yang digunakan untuk menguji model

# splitting dilakukan sebelum feature scaling karena test set memerlukan dataset yang benar-benar baru
# jika feature scaling dilakukan sebelum splitting, maka data test akan terpengaruh oleh data training, disebut juga information leakage

from sklearn.model_selection import train_test_split

# train_test_split digunakan untuk membagi dataset menjadi training set dan test set
# argumen pertama adalah variabel independen, argumen kedua adalah variabel dependen 
# argumen ketiga adalah test_size, yaitu persentase data yang akan dijadikan test set
# argumen keempat adalah random_state, yaitu seed untuk random number generator, jika tidak diisi maka akan diisi secara random
# argumen kelima adalah shuffle, yaitu apakah data akan diacak atau tidak, defaultnya adalah True
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=1,shuffle=True)

In [21]:
# Feature Scaling

# Feature scaling dilakukan untuk mengubah skala data menjadi sama, sehingga tidak ada data yang mendominasi data lain
# Feature scaling dilakukan setelah splitting karena test set harus benar-benar baru
# Terdapat 2 cara untuk melakukan feature scaling :
# 1. Standardisation : x_stand = (x-mean(x))/std(x), works all the time (lebih disarankan)
# 2. Normalisation : x_norm = (x-min(x))/(max(x)-min(x)), works only when data is normally distributed

from sklearn.preprocessing import StandardScaler # StandardScaler adalah class untuk melakukan standardisation

sc = StandardScaler()

x_train[:,3:] = sc.fit_transform(x_train[:,3:]) # sc.fit_transform digunakan untuk melakukan feature scaling, argumen pertama adalah data yang akan diubah
x_test[:,3:] = sc.fit_transform(x_test[:,3:]) # sc.transform digunakan untuk melakukan feature scaling, argumen pertama adalah data yang akan diubah

# x_train dan x_test adalah data hasil preprocessing
print(x_train)
print(x_test)

[[0.0 0.0 1.0 -0.19159184384578545 -1.0781259408412425]
 [0.0 1.0 0.0 -0.014117293757057777 -0.07013167641635372]
 [1.0 0.0 0.0 0.566708506533324 0.633562432710455]
 [0.0 0.0 1.0 -0.30453019390224867 -0.30786617274297867]
 [0.0 0.0 1.0 -1.9018011447007988 -1.420463615551582]
 [1.0 0.0 0.0 1.1475343068237058 1.232653363453549]
 [0.0 1.0 0.0 1.4379472069688968 1.5749910381638885]
 [1.0 0.0 0.0 -0.7401495441200351 -0.5646194287757332]]
[[0.0 1.0 0.0 -1.0 -1.0]
 [1.0 0.0 0.0 1.0 1.0]]
