# <i>Preprocessing Data</i>

Preprocessing data merupakan sebuah data yang tidak memiliki nilai atau data tersebut bisa rusak. Cara mengatasi permasalahan tersebut adalah dengan melihat nilai sebelumnya atau menggunakan 'mean'.

Berikut ini adalah langkah-langkah untuk melakukan preprocessing data :
1. Impor library dan data yang dibutuhkan untuk project ini.
2. Kendalikan nilai atau data yang hilang.
3. Lakukan proses encoding pada data yang telah ada.
4. Lakukan proses normalisasi pada data.
5. Bagilah data tersebut menjadi <i>train</i> dan <i>test</i>.

![cat.png](https://miro.medium.com/max/1400/1*L6vivCP633xS1XAGXJOXlQ.jpeg)

## Langkah 1 : Impor Library dan Data

Ada 3 library yang dijadikan sebagai bahan <i>Machine Learning</i> dan dapat digunakan untuk pemodelan lainnya :
1. <i>NumPy</i> : Library ini digunakan untuk membuat sebuah array berupa dua atau tiga dimensi. Selain array, library ini juga dapat digunakan untuk pemodelan pada <i>Machine Learning</i>.
2. <i>Pandas</i> : Library ini digunakan untuk membaca data yang akan digunakan (baik dalam bentuk csv ataupun teks dan sebagainya). Selain itu, library ini juga digunakan untuk pembuatan matriks dan pembagian variabel menjadi independent dan dependent.
3. <i>Matplotlib</i> : Library ini digunakan untuk membuat visualisasi dari data dengan bentuk graf dan chart. 

In [1]:
# Impor library yang dibutuhkan
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

### Ambil Data

Setelah melakukan impor library, langkah selanjutnya adalah mengambil data dari <a href = 'https://github.com/suneet10/DataPreprocessing/blob/main/Data.csv'>sini</a>

In [2]:
# Ambil data dari Github
data = pd.read_csv('Data.csv')
data

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,,Yes
5,France,35.0,58000.0,Yes
6,Spain,,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


## Langkah 2 : Mengatasi Nilai yang Hilang

Untuk mengatasi nilai yang hilang pada tabel diatas, dapat dilakukan dengan mengganti nilai yang hilang dengan <i>mean</i>. Nilai <i>mean</i> merupakan nilai penggabungan atau rata-rata dari nilai yang ada pada baris sebelumnya.

Berikut ini adalah implementasi nilai <i>mean </i> pada <i>Python</i> :

In [6]:
# Ambil library SimpleImputer
from sklearn.impute import SimpleImputer

# 'np.nan' yang akan dihilangkan
# strategy dapat diisi dengan 3 metode yaitu mean, median, dan modus
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# kecilkan imputer yang ada di baris kelima dan ketujuh 
imputer.fit(data.iloc[:, 1:3])
# data yang ada di kolom age dan salary kemudian transformasikan
data.iloc[:, 1:3] = imputer.transform(data.iloc[:, 1:3])

# Tampilkan data
data

Unnamed: 0,Country,Age,Salary,Purchased
0,France,44.0,72000.0,No
1,Spain,27.0,48000.0,Yes
2,Germany,30.0,54000.0,No
3,Spain,38.0,61000.0,No
4,Germany,40.0,63777.777778,Yes
5,France,35.0,58000.0,Yes
6,Spain,38.777778,52000.0,No
7,France,48.0,79000.0,Yes
8,Germany,50.0,83000.0,No
9,France,37.0,67000.0,Yes


## Langkah 3 : Lakukan <i>Encoding</i> pada Data

Di dalam data ini ada 2 hal yang perlu dijadikan sebagai pemisahan :
1. Kolom <i>country</i>
2. Kolom <i>Purchased</i>

### 1. Kolom <i>Country</i>

Di dalam kolom negara, ada Prancis, Spanyol, dan Jerman. Kita bisa mengambil label sebagai Prancis sebagai indeks 0, Jerman sebagai indeks 1, dan Spanyol sebagai indeks 2.

Pada <i>Python</i>, menggunakan <i>OneHotEncoding</i>. Hal ini digunakan unuk membagi kolom negara menjadi angka 0 dan 1. Selain <i>OneHotEncoding</i>, juga ada satu kelas dari <i>ScikitLearn</i> yang bernama <i>ColumnTransformer</i>. Kelas ini digunakan untuk menghindari adanya kolom yang tidak diganggu atau dikosongi. Berikut ini adalah implementasi terkait <i>OneHotEncoding</i> di <i>Python</i>.

In [7]:
# Ambil library ColumnTransformer
from sklearn.compose import ColumnTransformer
# Ambil library OneHotEncoding 
from sklearn.preprocessing import OneHotEncoder
# Implementasikan ColumnTransformer ke dalam variabel ct
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
# Indeks ke 0 menunjukkan adanya indeks untuk mengaplikasikan encodingnya
data = pd.DataFrame(ct.fit_transform(data))
data

Unnamed: 0,0,1,2,3,4,5
0,1.0,0.0,0.0,44.0,72000.0,No
1,0.0,0.0,1.0,27.0,48000.0,Yes
2,0.0,1.0,0.0,30.0,54000.0,No
3,0.0,0.0,1.0,38.0,61000.0,No
4,0.0,1.0,0.0,40.0,63777.777778,Yes
5,1.0,0.0,0.0,35.0,58000.0,Yes
6,0.0,0.0,1.0,38.777778,52000.0,No
7,1.0,0.0,0.0,48.0,79000.0,Yes
8,0.0,1.0,0.0,50.0,83000.0,No
9,1.0,0.0,0.0,37.0,67000.0,Yes


<b>Kesimpulan</b>: Sekarang di dalam kolom negara, dapat dibagi menjadi 3 bagian yaitu Prancis terdiri dari 1 0 0 dan seterusnya.

### 2. Kolom <i>Purchased</i>

Sedangkan di dalam kolom <i>purchased</i>, dapat digunakan <i>LabelEncoder</i> yang tersedia di <i>ScikitLearn</i>. Berikut ini adalah implementasi dari <i>LabelEncoder</i> pada <i>Python</i>.

In [8]:
# Ambil library LabelEncoder
from sklearn.preprocessing import LabelEncoder
# Panggil kelas LabelEncoder
le = LabelEncoder()
# Kecilkan data dari kolom purchased
data.iloc[:, -1] = le.fit_transform(data.iloc[:, -1])
# Tampilkan data
data

Unnamed: 0,0,1,2,3,4,5
0,1.0,0.0,0.0,44.0,72000.0,0
1,0.0,0.0,1.0,27.0,48000.0,1
2,0.0,1.0,0.0,30.0,54000.0,0
3,0.0,0.0,1.0,38.0,61000.0,0
4,0.0,1.0,0.0,40.0,63777.777778,1
5,1.0,0.0,0.0,35.0,58000.0,1
6,0.0,0.0,1.0,38.777778,52000.0,0
7,1.0,0.0,0.0,48.0,79000.0,1
8,0.0,1.0,0.0,50.0,83000.0,0
9,1.0,0.0,0.0,37.0,67000.0,1


<b>Kesimpulan</b> : Untuk <i>LabelEncoder</i>, dapat diimplementasikan pada kolom <i>purchased</i>.

## Langkah 4 : Lakukan Normalisasi pada Data

![test.png](https://miro.medium.com/max/562/1*vXYUFARONQOxwfLG4DKx1Q.jpeg)

Proses ini digunakan agar tidak ada data yang dominan. Proses ini menggunakan angka 0 dan 1. Di dalam <i>Python</i>, menggunakan kelas <i>MinMaxScaler</i> yang tersedia pada library yang sama.

In [9]:
# Ambil Library MinMaxScaler
from sklearn.preprocessing import MinMaxScaler
# Terapkan kelas MinMaxScaler
scaler = MinMaxScaler()
# tampilkan data yang telah dibuat sebelumnya
data = pd.DataFrame(scaler.fit_transform(data))
data

Unnamed: 0,0,1,2,3,4,5
0,1.0,0.0,0.0,0.73913,0.685714,0.0
1,0.0,0.0,1.0,0.0,0.0,1.0
2,0.0,1.0,0.0,0.130435,0.171429,0.0
3,0.0,0.0,1.0,0.478261,0.371429,0.0
4,0.0,1.0,0.0,0.565217,0.450794,1.0
5,1.0,0.0,0.0,0.347826,0.285714,1.0
6,0.0,0.0,1.0,0.512077,0.114286,0.0
7,1.0,0.0,0.0,0.913043,0.885714,1.0
8,0.0,1.0,0.0,1.0,1.0,0.0
9,1.0,0.0,0.0,0.434783,0.542857,1.0


<b>Kesimpulan</b>: Untuk penerapan <i>MinMaxScaler</i>, tidak ada nilai yang dominan atau yang sangat besar, semua memiliki angka 0 dan 1.

## Langkah 5 : Lakukan Pembagian pada Data

Pembagian pada data ada 2 cara :
- Pembagian variabel
- Pembagian <i>train </i> dan <i>test</i>

- Pembagian variabel dapat dibagi menjadi variabel independen dan dependen. Pada kasus ini, variabel dependen ditunjukkan pada kolom <i>purchased</i>, sedangkan variabel independen ditunjukkan pada kolom <i>country</i>, <i>age</i>, dan <i>salary</i>

Berikut ini adalah implementasi dari pembagian variabel pada <i>Python</i>.

In [10]:
# Bagi menjadi variabel independen dan dependen
X = data.iloc[:, :-1].values
y = data.iloc[:, -1].values
# fungsi .value digunakan untuk konversikan data menjadi array

# tampilkan variabel independen dan dependen
print('Variabel Independen : \n')
print(X)
print('\nVariabel Dependen : \n')
print(y)

Variabel Independen : 

[[1.         0.         0.         0.73913043 0.68571429]
 [0.         0.         1.         0.         0.        ]
 [0.         1.         0.         0.13043478 0.17142857]
 [0.         0.         1.         0.47826087 0.37142857]
 [0.         1.         0.         0.56521739 0.45079365]
 [1.         0.         0.         0.34782609 0.28571429]
 [0.         0.         1.         0.51207729 0.11428571]
 [1.         0.         0.         0.91304348 0.88571429]
 [0.         1.         0.         1.         1.        ]
 [1.         0.         0.         0.43478261 0.54285714]]

Variabel Dependen : 

[0. 1. 0. 0. 1. 1. 0. 1. 0. 1.]


- Pembagian <i>train</i> dan <i>test</i>. Di <i>Python</i>, pembagian ini dapat dilakukan pada <i>train_test_split</i> yang diambil dari library <i>ScikitLearn</i>. Pembagian ini dilakukan 80% data <i>training</i> dan 20% data <i>testing</i>. <br>Berikut ini adalah implementasi <i>train_test_split</i> pada <i>Python</i>.

In [11]:
# Ambil library train_test_split
from sklearn.model_selection import train_test_split
# Lakukan pembagian 80-20
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
# Maksud dari test_size = 0.2 adalah 20% digunakan untuk data pengujian atau testing.

In [12]:
# Tampilkan X_train dan X_test
print(X_train)

[[1.         0.         0.         0.73913043 0.68571429]
 [1.         0.         0.         0.43478261 0.54285714]
 [0.         0.         1.         0.51207729 0.11428571]
 [0.         1.         0.         0.56521739 0.45079365]
 [0.         0.         1.         0.         0.        ]
 [0.         1.         0.         1.         1.        ]
 [1.         0.         0.         0.34782609 0.28571429]
 [1.         0.         0.         0.91304348 0.88571429]]


In [13]:
print(X_test)

[[0.         0.         1.         0.47826087 0.37142857]
 [0.         1.         0.         0.13043478 0.17142857]]


<b>Kesimpulan</b>: Data tersebut siap digunakan untuk pemodelan lain, sebagai contoh melakukan <i>Linear Regression</i> dan sebagainya.