<a href="https://colab.research.google.com/github/ajiik/preprocessingdata/blob/main/preprocessingdata.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Langkah Awal sebslum kita menjalankan preprocessingdata, kita harus menginport library seperti di bawah ini:

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Setelah mengimpor library, langkah berikutnya adalah membaca data dari file CSV yang berisi nilai X dan Y.

In [3]:
dataset = pd.read_csv('data_laptop.csv')
x = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

menjalankan printah untuk membaca nilai X

In [4]:
print(x)

[['Jerman' 'Dell' 44.0 72000.0]
 ['Prancis' 'Apple' 27.0 48000.0]
 ['Spanyol' 'Samsung' 30.0 54000.0]
 ['Jerman' 'Lenovo' 35.0 58000.0]
 ['Prancis' 'Asus' 38.0 61000.0]
 ['Spanyol' 'Huawei' 40.0 63777.77]
 ['Jerman' 'HP' 37.0 67000.0]
 ['Prancis' 'Acer' 48.0 79000.0]]


menjalankan printah untuk membaca nilai y

In [5]:
print(y)

['Ya' 'Tidak' 'Tidak' 'Ya' 'Ya' 'Tidak' 'Ya' 'Tidak']


SimpleImputer dengan strategi 'most_frequent' digunakan untuk mengisi nilai yang hilang pada kolom kategorik dengan kategori yang paling sering muncul, membantu menjaga struktur dan distribusi data asli dalam proses preprocessing.

In [18]:
imputer_cat = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
imputer_cat.fit(x[:, 0:1])
x[:, 0:1] = imputer_cat.transform(x[:, 0:1])

Ketika kita menjalankan kode print(X), program akan menampilkan data X setelah proses pengisian nilai yang hilang dengan rata-rata (mean). Ini berguna untuk memastikan bahwa semua nilai yang hilang telah terisi dengan benar dan dataset siap digunakan untuk analisis lebih lanjut.

In [19]:
print(x)

[['Jerman' 'Dell' 44.0 72000.0]
 ['Prancis' 'Apple' 27.0 48000.0]
 ['Spanyol' 'Samsung' 30.0 54000.0]
 ['Jerman' 'Lenovo' 35.0 58000.0]
 ['Prancis' 'Asus' 38.0 61000.0]
 ['Spanyol' 'Huawei' 40.0 63777.77]
 ['Jerman' 'HP' 37.0 67000.0]
 ['Prancis' 'Acer' 48.0 79000.0]]


One-Hot Encoding adalah teknik mengubah variabel kategorik menjadi kolom biner (0 atau 1) untuk memungkinkan algoritma machine learning memproses data kategorik, di mana pada kode ini, ColumnTransformer digunakan untuk mengonversi kolom pertama (indeks 0) menjadi representasi one-hot, sementara kolom lainnya tetap dipertahankan aslinya menggunakan opsi 'passthrough'.

In [None]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
x = np.array(ct.fit_transform(x))

Saat kita menjalankan print(X), program akan menampilkan data X setelah dikonversi menggunakan One-Hot Encoding. Ini memungkinkan kita untuk melihat bagaimana data kategorikal telah diubah menjadi bentuk numerik dengan representasi vektor biner.

In [20]:
print(x)

[['Jerman' 'Dell' 44.0 72000.0]
 ['Prancis' 'Apple' 27.0 48000.0]
 ['Spanyol' 'Samsung' 30.0 54000.0]
 ['Jerman' 'Lenovo' 35.0 58000.0]
 ['Prancis' 'Asus' 38.0 61000.0]
 ['Spanyol' 'Huawei' 40.0 63777.77]
 ['Jerman' 'HP' 37.0 67000.0]
 ['Prancis' 'Acer' 48.0 79000.0]]


Label Encoding adalah teknik mengonversi label kategorik menjadi representasi numerik, di mana setiap kategori unik diubah menjadi integer berurutan, dalam konteks ini digunakan untuk mengubah variabel target (y) dari bentuk kategorik (misalnya 'Ya'/'Tidak') menjadi angka yang dapat diproses oleh algoritma machine learning.

In [21]:
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
y = le.fit_transform(y)

Saat kita menjalankan print(y), program akan menampilkan data y setelah dikonversi menggunakan Label Encoding. Ini memungkinkan kita melihat bagaimana setiap kategori telah digantikan dengan nilai numerik.

In [22]:
print(y)

[1 0 0 1 1 0 1 0]


Train-Test Split adalah teknik membagi dataset menjadi dua bagian: data latih (training) dan data uji (testing), di mana pada kode ini 80% data digunakan untuk melatih model (x_train, y_train) dan 20% data digunakan untuk menguji performa model (x_test, y_test), dengan parameter random_state=1 memastikan pembagian data yang konsisten dan dapat direproduksi setiap kali kode dijalankan.

In [23]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 1)

Saat kita menjalankan print(X_train), program akan menampilkan data latih (training) setelah proses pembagian dataset. Data ini digunakan oleh model machine learning untuk belajar pola dari dataset.

In [24]:
print(x_train)

[['Prancis' 'Apple' 27.0 48000.0]
 ['Jerman' 'HP' 37.0 67000.0]
 ['Jerman' 'Dell' 44.0 72000.0]
 ['Prancis' 'Asus' 38.0 61000.0]
 ['Jerman' 'Lenovo' 35.0 58000.0]
 ['Spanyol' 'Huawei' 40.0 63777.77]]


Saat kita menjalankan print(X_test), program akan menampilkan data uji (testing) setelah proses pembagian dataset. Data ini digunakan untuk menguji kinerja model setelah dilatih.

In [25]:
print(x_test)

[['Prancis' 'Acer' 48.0 79000.0]
 ['Spanyol' 'Samsung' 30.0 54000.0]]


Saat kita menjalankan print(y_train), program akan menampilkan data latih (training) untuk variabel target (y). Data ini digunakan oleh model machine learning untuk belajar dan menemukan pola dari dataset.

In [26]:
print(y_train)

[0 1 1 1 1 0]


Standarisasi dengan StandardScaler adalah teknik normalisasi data numerik yang mengubah fitur menjadi memiliki rata-rata 0 dan standar deviasi 1, dalam kode ini dilakukan pada kolom ke-4 dan seterusnya (x_train[:, 3:]) dengan menggunakan fit_transform() untuk data latih dan transform() untuk data uji, memastikan skala yang konsisten antara data latih dan data uji sehingga algoritma machine learning dapat memproses data dengan lebih optimal.

In [27]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
x_train[:, 3:] = sc.fit_transform(x_train[:, 3:])
x_test[:, 3:] = sc.transform(x_test[:, 3:])

Saat kita menjalankan print(X_train), program akan menampilkan data latih (training) setelah proses standarisasi. Data ini telah diubah sehingga memiliki rata-rata 0 dan standar deviasi 1, membantu model machine learning bekerja lebih optimal.

In [28]:
print(x_train)

[['Prancis' 'Apple' 27.0 -1.8096925159828943]
 ['Jerman' 'HP' 37.0 0.7130584323744642]
 ['Jerman' 'Dell' 44.0 1.3769402608895585]
 ['Prancis' 'Asus' 38.0 -0.08359976184364902]
 ['Jerman' 'Lenovo' 35.0 -0.4819288589527056]
 ['Spanyol' 'Huawei' 40.0 0.28522244351522524]]
