<a href="https://colab.research.google.com/github/Elenanda/Penambangan_Data/blob/main/preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# --------------------------------------------------------------------------
# Langkah 1: Mengimpor library yang diperlukan
# --------------------------------------------------------------------------
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

Kode ini mengimpor library Python yang diperlukan untuk pra-pemrosesan data dan tugas-tugas machine learning.

*   `import numpy as np`: Mengimpor library NumPy, yang umum digunakan untuk operasi numerik dan penanganan array. Diberi alias `np`.
*   `import pandas as pd`: Mengimpor library pandas, penting untuk bekerja dengan struktur data seperti DataFrame (tabel). Diberi alias `pd`.
*   `from sklearn.impute import SimpleImputer`: Mengimpor `SimpleImputer` dari scikit-learn, digunakan untuk menangani data yang hilang (missing data).
*   `from sklearn.compose import ColumnTransformer`: Mengimpor `ColumnTransformer` dari scikit-learn, digunakan untuk menerapkan transformasi yang berbeda pada kolom yang berbeda.
*   `from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler`: Mengimpor `OneHotEncoder` (untuk encoding fitur kategorikal), `LabelEncoder` (untuk encoding variabel target), dan `StandardScaler` (untuk penskalaan fitur) dari scikit-learn.
*   `from sklearn.model_selection import train_test_split`: Mengimpor `train_test_split` dari scikit-learn, digunakan untuk membagi dataset menjadi set pelatihan (training set) dan set pengujian (testing set).

In [2]:
# --------------------------------------------------------------------------
# Langkah 2: Membuat dan memuat dataset
# --------------------------------------------------------------------------
# Membuat DataFrame (tabel data) menggunakan pandas
# np.nan merepresentasikan data yang hilang (missing value)
data = {
    'Negara': ['Indonesia', 'Thailand', 'Jepang', 'Thailand', 'Jepang', 'Indonesia', 'Thailand', 'Indonesia', 'Jepang', 'Indonesia'],
    'Usia': [44, 27, 30, 38, 40, 35, np.nan, 48, 50, 37],
    'Gaji': [72000, 48000, 54000, 61000, np.nan, 58000, 52000, 79000, 83000, 67000],
    'Membeli': ['Tidak', 'Ya', 'Tidak', 'Tidak', 'Ya', 'Ya', 'Tidak', 'Ya', 'Tidak', 'Ya']
}
dataset = pd.DataFrame(data)

Sel kode ini membuat dataset sederhana menggunakan library pandas.

*   `data = {...}`: Ini mendefinisikan sebuah dictionary Python bernama `data`. Dictionary ini berisi empat kunci: 'Negara', 'Usia', 'Gaji', dan 'Membeli'. Setiap kunci memiliki daftar nilai yang terkait dengannya. Perhatikan bahwa `np.nan` digunakan untuk merepresentasikan nilai yang hilang (missing values) di kolom 'Usia' dan 'Gaji'.
*   `dataset = pd.DataFrame(data)`: Baris ini menggunakan dictionary `data` untuk membuat objek DataFrame pandas. DataFrame adalah struktur data tabular, mirip dengan spreadsheet atau tabel database, yang sangat umum digunakan dalam analisis data di Python.

In [3]:
print("Dataset Awal:")
print(dataset)
print("-" * 30)

Dataset Awal:
      Negara  Usia     Gaji Membeli
0  Indonesia  44.0  72000.0   Tidak
1   Thailand  27.0  48000.0      Ya
2     Jepang  30.0  54000.0   Tidak
3   Thailand  38.0  61000.0   Tidak
4     Jepang  40.0      NaN      Ya
5  Indonesia  35.0  58000.0      Ya
6   Thailand   NaN  52000.0   Tidak
7  Indonesia  48.0  79000.0      Ya
8     Jepang  50.0  83000.0   Tidak
9  Indonesia  37.0  67000.0      Ya
------------------------------


Kode ini bertujuan untuk mencetak dataset awal ke konsol.

*   `print("Dataset Awal:")`: Mencetak string "Dataset Awal:" ke konsol. Ini berfungsi sebagai judul untuk output dataset.
*   `print(dataset)`: Mencetak seluruh isi DataFrame `dataset` ke konsol. Ini menunjukkan data dalam format tabel seperti yang dibuat pada langkah sebelumnya, termasuk nilai-nilai yang hilang (`NaN`).
*   `print("-" * 30)`: Mencetak garis pemisah yang terdiri dari 30 karakter strip (-) ke konsol. Ini membantu memisahkan output bagian ini dari bagian lain dalam output konsol, membuatnya lebih mudah dibaca.

In [4]:
# Memisahkan antara fitur (variabel independen) dan target (variabel dependen)
# X berisi kolom 'Negara', 'Usia', 'Gaji'
# y berisi kolom 'Membeli'
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values


Kode ini bertujuan untuk memisahkan dataset menjadi fitur (variabel independen) dan target (variabel dependen).

*   `X = dataset.iloc[:, :-1].values`: Baris ini memilih semua baris (`:`) dan semua kolom kecuali kolom terakhir (`:-1`) dari DataFrame `dataset`. `.values` mengubah subset DataFrame yang dipilih menjadi array NumPy. Array `X` sekarang berisi kolom 'Negara', 'Usia', dan 'Gaji', yang merupakan fitur.
*   `y = dataset.iloc[:, -1].values`: Baris ini memilih semua baris (`:`) dan hanya kolom terakhir (`-1`) dari DataFrame `dataset`. `.values` mengubah subset DataFrame yang dipilih menjadi array NumPy. Array `y` sekarang berisi kolom 'Membeli', yang merupakan target atau variabel dependen yang ingin kita prediksi.

In [5]:
print("Fitur (X) sebelum diproses:")
print(X)
print("\nTarget (y) sebelum diproses:")
print(y)
print("-" * 30)

Fitur (X) sebelum diproses:
[['Indonesia' 44.0 72000.0]
 ['Thailand' 27.0 48000.0]
 ['Jepang' 30.0 54000.0]
 ['Thailand' 38.0 61000.0]
 ['Jepang' 40.0 nan]
 ['Indonesia' 35.0 58000.0]
 ['Thailand' nan 52000.0]
 ['Indonesia' 48.0 79000.0]
 ['Jepang' 50.0 83000.0]
 ['Indonesia' 37.0 67000.0]]

Target (y) sebelum diproses:
['Tidak' 'Ya' 'Tidak' 'Tidak' 'Ya' 'Ya' 'Tidak' 'Ya' 'Tidak' 'Ya']
------------------------------


Kode ini bertujuan untuk mencetak fitur (variabel independen) dan target (variabel dependen) ke konsol sebelum proses pra-pemrosesan lebih lanjut.

*   `print("Fitur (X) sebelum diproses:")`: Mencetak string "Fitur (X) sebelum diproses:" ke konsol sebagai judul.
*   `print(X)`: Mencetak array NumPy `X` yang berisi fitur-fitur dataset sebelum dilakukan penanganan missing values atau encoding.
*   `print("\nTarget (y) sebelum diproses:")`: Mencetak baris kosong (`\n`) diikuti string "Target (y) sebelum diproses:" sebagai judul.
*   `print(y)`: Mencetak array NumPy `y` yang berisi variabel target sebelum dilakukan encoding.
*   `print("-" * 30)`: Mencetak garis pemisah yang terdiri dari 30 karakter strip (-) ke konsol untuk memisahkan output bagian ini.

In [6]:
# --------------------------------------------------------------------------
# Langkah 3: Menangani data yang hilang (Missing Data)
# --------------------------------------------------------------------------
# Kita akan mengisi nilai NaN pada kolom numerik ('Usia' dan 'Gaji') dengan nilai rata-rata (mean)
# dari kolom tersebut.
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# Terapkan imputer pada kolom numerik (indeks 1 dan 2)
X[:, 1:3] = imputer.fit_transform(X[:, 1:3])

print("Fitur (X) setelah menangani missing values:")
print(X)
print("-" * 30)

Fitur (X) setelah menangani missing values:
[['Indonesia' 44.0 72000.0]
 ['Thailand' 27.0 48000.0]
 ['Jepang' 30.0 54000.0]
 ['Thailand' 38.0 61000.0]
 ['Jepang' 40.0 63777.77777777778]
 ['Indonesia' 35.0 58000.0]
 ['Thailand' 38.77777777777778 52000.0]
 ['Indonesia' 48.0 79000.0]
 ['Jepang' 50.0 83000.0]
 ['Indonesia' 37.0 67000.0]]
------------------------------


Kode ini bertujuan untuk menangani data yang hilang (Missing Data) pada kolom numerik 'Usia' dan 'Gaji' dengan mengisi nilai-nilai yang hilang (NaN) menggunakan nilai rata-rata (mean) dari masing-masing kolom.

*   `imputer = SimpleImputer(missing_values=np.nan, strategy='mean')`: Baris ini membuat objek `SimpleImputer`. `missing_values=np.nan` menentukan bahwa nilai yang akan diisi adalah `np.nan` (nilai yang hilang dalam NumPy). `strategy='mean'` menentukan bahwa strategi yang digunakan untuk mengisi nilai yang hilang adalah dengan nilai rata-rata dari kolom tersebut.
*   `X[:, 1:3] = imputer.fit_transform(X[:, 1:3])`: Baris ini menerapkan `imputer` ke kolom kedua (`Usia`, indeks 1) dan kolom ketiga (`Gaji`, indeks 2) dari array `X`. `fit_transform()` pertama-tama mempelajari (fits) nilai rata-rata dari kolom-kolom tersebut (mengabaikan nilai yang hilang), kemudian mengisi (transforms) nilai yang hilang dengan rata-rata yang telah dipelajari. Hasilnya disimpan kembali ke kolom 1 dan 2 dari array `X`.
*   `print("Fitur (X) setelah menangani missing values:")`: Mencetak string sebagai judul.
*   `print(X)`: Mencetak array `X` setelah nilai yang hilang diisi.
*   `print("-" * 30)`: Mencetak garis pemisah.

In [8]:
# --------------------------------------------------------------------------
# Langkah 4: Encoding Data Kategorikal
# --------------------------------------------------------------------------
# --- Encoding Fitur (Variabel Independen) ---
# Kolom 'Negara' (indeks 0) adalah data kategorikal.
# Kita akan mengubahnya menjadi angka menggunakan OneHotEncoder agar mesin bisa memprosesnya.
# OneHotEncoder akan membuat kolom baru untuk setiap kategori negara.
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

print("Fitur (X) setelah OneHotEncoder pada kolom 'Negara':")
print(X)
print("-" * 30)

# --- Encoding Target (Variabel Dependen) ---
# Kolom 'Membeli' ('Ya'/'Tidak') juga perlu diubah menjadi angka (misal: 1/0).
# Kita gunakan LabelEncoder untuk ini.
le = LabelEncoder()
y = le.fit_transform(y)

print("Target (y) setelah LabelEncoder:")
print(y)
print("-" * 30)

Fitur (X) setelah OneHotEncoder pada kolom 'Negara':
[[0.0 1.0 0.0 0.0 44.0 72000.0]
 [1.0 0.0 0.0 1.0 27.0 48000.0]
 [1.0 0.0 1.0 0.0 30.0 54000.0]
 [1.0 0.0 0.0 1.0 38.0 61000.0]
 [1.0 0.0 1.0 0.0 40.0 63777.77777777778]
 [0.0 1.0 0.0 0.0 35.0 58000.0]
 [1.0 0.0 0.0 1.0 38.77777777777778 52000.0]
 [0.0 1.0 0.0 0.0 48.0 79000.0]
 [1.0 0.0 1.0 0.0 50.0 83000.0]
 [0.0 1.0 0.0 0.0 37.0 67000.0]]
------------------------------
Target (y) setelah LabelEncoder:
[0 1 0 0 1 1 0 1 0 1]
------------------------------


Kode ini bertujuan untuk melakukan *encoding* pada data kategorikal, baik untuk fitur (kolom 'Negara') maupun target (kolom 'Membeli').

**--- Encoding Fitur (Variabel Independen) ---**

*   `ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], remainder='passthrough')`: Baris ini membuat objek `ColumnTransformer`. `ColumnTransformer` memungkinkan kita menerapkan transformasi yang berbeda pada kolom yang berbeda dalam array `X`.
    *   `transformers=[('encoder', OneHotEncoder(), [0])]`: Ini mendefinisikan transformasi yang akan diterapkan.
        *   `'encoder'`: Nama untuk transformasi ini.
        *   `OneHotEncoder()`: Transformer yang akan digunakan. `OneHotEncoder` digunakan untuk mengubah data kategorikal menjadi format one-hot encoding, di mana setiap kategori diubah menjadi kolom biner (0 atau 1).
        *   `[0]`: Indeks kolom tempat `OneHotEncoder` akan diterapkan, yaitu kolom 'Negara'.
    *   `remainder='passthrough'`: Ini menentukan apa yang terjadi pada kolom-kolom lain yang tidak disebutkan dalam `transformers`. `passthrough` berarti kolom-kolom lainnya (kolom 'Usia' dan 'Gaji' setelah penanganan missing values) akan dilewatkan tanpa perubahan.
*   `X = np.array(ct.fit_transform(X))`: Baris ini menerapkan `ColumnTransformer` ke array `X`. `fit_transform()` pertama-tama mempelajari kategori unik di kolom 'Negara' (dengan `fit()`), kemudian menerapkan one-hot encoding ke kolom tersebut dan menggabungkannya dengan kolom-kolom lain yang dilewatkan (dengan `transform()`). Hasilnya dikonversi kembali menjadi array NumPy dan disimpan kembali ke `X`.

**--- Encoding Target (Variabel Dependen) ---**

*   `le = LabelEncoder()`: Baris ini membuat objek `LabelEncoder`. `LabelEncoder` digunakan untuk mengubah label target kategorikal menjadi angka (misalnya, 'Tidak' menjadi 0 dan 'Ya' menjadi 1). Ini diperlukan karena sebagian besar algoritma machine learning memerlukan target dalam format numerik.
*   `y = le.fit_transform(y)`: Baris ini menerapkan `LabelEncoder` ke array target `y`. `fit_transform()` pertama-tama mempelajari kategori unik di `y` ('Ya' dan 'Tidak') dan menetapkan nilai numerik untuk masing-masing, lalu mengubah nilai di `y` sesuai dengan penetapan tersebut. Hasilnya disimpan kembali ke `y`.
*   `print(...)`: Baris-baris `print` digunakan untuk menampilkan array `X` dan `y` setelah proses encoding.

In [9]:
# --------------------------------------------------------------------------
# Langkah 5: Membagi dataset menjadi Data Latih dan Data Uji
# --------------------------------------------------------------------------
# Dataset akan dibagi menjadi 80% data latih (untuk melatih model) dan 20% data uji (untuk menguji performa model).
# random_state=1 agar hasil pembagiannya selalu sama setiap kali kode dijalankan.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

print("X_train (Data Latih Fitur):")
print(X_train)
print("\nX_test (Data Uji Fitur):")
print(X_test)
print("-" * 30)

X_train (Data Latih Fitur):
[[1.0 0.0 0.0 1.0 38.77777777777778 52000.0]
 [1.0 0.0 1.0 0.0 40.0 63777.77777777778]
 [0.0 1.0 0.0 0.0 44.0 72000.0]
 [1.0 0.0 0.0 1.0 38.0 61000.0]
 [1.0 0.0 0.0 1.0 27.0 48000.0]
 [0.0 1.0 0.0 0.0 48.0 79000.0]
 [1.0 0.0 1.0 0.0 50.0 83000.0]
 [0.0 1.0 0.0 0.0 35.0 58000.0]]

X_test (Data Uji Fitur):
[[1.0 0.0 1.0 0.0 30.0 54000.0]
 [0.0 1.0 0.0 0.0 37.0 67000.0]]
------------------------------


Kode ini bertujuan untuk membagi dataset menjadi data latih dan data uji.

*   `X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1)`: Baris ini menggunakan fungsi `train_test_split` dari scikit-learn untuk membagi array fitur `X` dan array target `y` menjadi subset pelatihan dan pengujian.
    *   `X`: Array fitur yang akan dibagi.
    *   `y`: Array target yang akan dibagi.
    *   `test_size=0.2`: Menentukan proporsi dataset yang akan dialokasikan untuk set pengujian. Dalam kasus ini, 20% dari data akan menjadi data uji, dan sisanya (80%) akan menjadi data latih.
    *   `random_state=1`: Ini adalah *seed* untuk generator angka acak. Mengatur `random_state` ke nilai tertentu (seperti 1) memastikan bahwa pembagian dataset akan selalu sama setiap kali kode dijalankan, yang penting untuk reproduksibilitas hasil.
*   `print(...)`: Baris-baris `print` digunakan untuk menampilkan array `X_train` dan `X_test` setelah proses pembagian.

In [12]:
# --------------------------------------------------------------------------
# Langkah 6: Feature Scaling (Penskalaan Fitur)
# --------------------------------------------------------------------------
# Langkah ini bertujuan untuk menyamakan skala nilai dari semua fitur numerik
# agar tidak ada fitur yang mendominasi fitur lainnya.
# Kita akan menggunakan StandardScaler.
sc = StandardScaler()

# Terapkan scaling pada semua kolom fitur di data latih dan data uji
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test) # Gunakan transform() saja untuk data uji

print("X_train setelah Feature Scaling:")
print(X_train)
print("\nX_test setelah Feature Scaling:")
print(X_test)
print("-" * 30)

print("PROSES PREPROCESSING SELESAI!")

X_train setelah Feature Scaling:
[[ 0.77459667 -0.77459667 -0.57735027  1.29099445 -0.19159184 -1.07812594]
 [ 0.77459667 -0.77459667  1.73205081 -0.77459667 -0.01411729 -0.07013168]
 [-1.29099445  1.29099445 -0.57735027 -0.77459667  0.56670851  0.63356243]
 [ 0.77459667 -0.77459667 -0.57735027  1.29099445 -0.30453019 -0.30786617]
 [ 0.77459667 -0.77459667 -0.57735027  1.29099445 -1.90180114 -1.42046362]
 [-1.29099445  1.29099445 -0.57735027 -0.77459667  1.14753431  1.23265336]
 [ 0.77459667 -0.77459667  1.73205081 -0.77459667  1.43794721  1.57499104]
 [-1.29099445  1.29099445 -0.57735027 -0.77459667 -0.74014954 -0.56461943]]

X_test setelah Feature Scaling:
[[ 0.77459667 -0.77459667  1.73205081 -0.77459667 -1.46618179 -0.9069571 ]
 [-1.29099445  1.29099445 -0.57735027 -0.77459667 -0.44973664  0.20564034]]
------------------------------
PROSES PREPROCESSING SELESAI!


Kode ini bertujuan untuk melakukan *Feature Scaling* (Penskalaan Fitur) pada fitur-fitur numerik dalam dataset.

*   `sc = StandardScaler()`: Baris ini membuat objek `StandardScaler`. `StandardScaler` menstandarkan fitur dengan menghapus rata-rata dan menskalakan ke varians unit. Ini penting karena banyak algoritma machine learning sensitif terhadap skala fitur input.
*   `X_train = sc.fit_transform(X_train)`: Baris ini menerapkan `StandardScaler` ke set data latih (`X_train`). `fit_transform()` pertama-tama menghitung rata-rata dan standar deviasi dari setiap fitur di data latih (dengan `fit()`), kemudian menerapkan penskalaan menggunakan nilai-nilai yang dihitung tersebut (dengan `transform()`). Hasilnya disimpan kembali ke `X_train`.
*   `X_test = sc.transform(X_test)`: Baris ini menerapkan `StandardScaler` ke set data uji (`X_test`). Penting untuk hanya menggunakan `transform()` pada data uji, BUKAN `fit_transform()`. Ini karena kita ingin menggunakan rata-rata dan standar deviasi yang dihitung dari data latih untuk menskalakan data uji, untuk menghindari kebocoran data (data leakage) dari set pengujian ke set pelatihan.
*   `print(...)`: Baris-baris `print` digunakan untuk menampilkan array `X_train` dan `X_test` setelah proses penskalaan.
*   `print("PROSES PREPROCESSING SELESAI!")`: Mencetak pesan yang menandakan bahwa semua langkah pra-pemrosesan telah selesai.