# 🧹 Preprocessing Template
Notebook ini digunakan untuk preprocessing data sebelum pemodelan.

## Langkah yang disarankan:
    - Load dataset
    - Cek dan tangani missing value
    - Encode variabel kategorikal
    - Normalisasi atau standarisasi
    - Simpan dataset bersih ke file baru (opsional)

In [6]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from itertools import combinations
from collections import Counter
import ast

In [7]:
# Load data
df_raw = pd.read_csv(r"..\data\raw\Retail_Transactions_Dataset.csv")
df_raw.head()

Unnamed: 0,Transaction_ID,Date,Customer_Name,Product,Total_Items,Total_Cost,Payment_Method,City,Store_Type,Discount_Applied,Customer_Category,Season,Promotion
0,1000000000,2022-01-21 06:27:29,Stacey Price,"['Ketchup', 'Shaving Cream', 'Light Bulbs']",3,71.65,Mobile Payment,Los Angeles,Warehouse Club,True,Homemaker,Winter,
1,1000000001,2023-03-01 13:01:21,Michelle Carlson,"['Ice Cream', 'Milk', 'Olive Oil', 'Bread', 'P...",2,25.93,Cash,San Francisco,Specialty Store,True,Professional,Fall,BOGO (Buy One Get One)
2,1000000002,2024-03-21 15:37:04,Lisa Graves,['Spinach'],6,41.49,Credit Card,Houston,Department Store,True,Professional,Winter,
3,1000000003,2020-10-31 09:59:47,Mrs. Patricia May,"['Tissues', 'Mustard']",1,39.34,Mobile Payment,Chicago,Pharmacy,True,Homemaker,Spring,
4,1000000004,2020-12-10 00:59:59,Susan Mitchell,['Dish Soap'],10,16.42,Debit Card,Houston,Specialty Store,False,Young Adult,Winter,Discount on Selected Items


In [8]:
print(df_raw.isnull().sum())
#Menampilkan jumlah nilai yang hilang (NaN) untuk setiap kolom.

Transaction_ID            0
Date                      0
Customer_Name             0
Product                   0
Total_Items               0
Total_Cost                0
Payment_Method            0
City                      0
Store_Type                0
Discount_Applied          0
Customer_Category         0
Season                    0
Promotion            333943
dtype: int64


In [9]:
# Mengubah isi kolom 'Product' dari string representasi list menjadi list Python asli
# Misalnya dari "[ 'Milk', 'Bread' ]" menjadi ['Milk', 'Bread']
transaction = df_raw['Product'].apply(ast.literal_eval)

# Menyimpan hasil evaluasi ke variabel baru (sebenarnya bisa langsung pakai 'transaction' saja)
transactions = transaction  # Tidak wajib, tapi memberi nama yang lebih deskriptif

# Menampilkan 10 transaksi pertama setelah diolah
print("Transactions:")
print(transactions.head(10))

Transactions:
0                [Ketchup, Shaving Cream, Light Bulbs]
1        [Ice Cream, Milk, Olive Oil, Bread, Potatoes]
2                                            [Spinach]
3                                   [Tissues, Mustard]
4                                          [Dish Soap]
5                                [Toothpaste, Chicken]
6     [Honey, BBQ Sauce, Soda, Olive Oil, Garden Hose]
7    [Syrup, Trash Cans, Pancake Mix, Water, Mayonn...
8                                   [Insect Repellent]
9                             [Soap, Baby Wipes, Soda]
Name: Product, dtype: object


In [10]:
# Inisialisasi objek TransactionEncoder dari library mlxtend
te = TransactionEncoder()

# Fit encoder ke data transaksi dan langsung transformasi ke array one-hot (True/False)
# Contoh: ['Milk', 'Bread'] -> [True, True, False, ...] (untuk semua produk unik)
te_array = te.fit(transactions).transform(transactions)

# Membuat DataFrame dari array one-hot dengan kolom sesuai nama produk unik
# Nilai True menunjukkan produk tersebut ada dalam transaksi
df_encoded = pd.DataFrame(te_array, columns=te.columns_)

# Menampilkan DataFrame hasil one-hot encoding
display(df_encoded)

Unnamed: 0,Air Freshener,Apple,BBQ Sauce,Baby Wipes,Banana,Bath Towels,Beef,Bread,Broom,Butter,...,Tomatoes,Toothbrush,Toothpaste,Trash Bags,Trash Cans,Tuna,Vacuum Cleaner,Vinegar,Water,Yogurt
0,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,True,False,False,...,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
999995,False,False,True,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
999996,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False
999997,False,False,False,False,False,False,False,False,False,False,...,False,False,False,True,False,False,False,False,False,False
999998,False,False,False,False,False,False,False,False,False,False,...,False,False,False,False,False,False,False,False,False,False


In [11]:
df_encoded.shape[0]
#Jumlah transaksi setelah di-one-hot encode.

1000000

🔄 Tahap Preprocessing
Berikut adalah langkah-langkah yang dilakukan dalam tahap preprocessing sebelum data digunakan untuk analisis pola:

1. Parsing Kolom Produk
- Kolom 'Product' awalnya berisi data dalam bentuk string list (misalnya: "['Milk', 'Bread']").
- Menggunakan ast.literal_eval untuk mengubah string tersebut menjadi list Python asli agar bisa diproses sebagai transaksi.

2. Pengecekan Missing Value
- Mengevaluasi apakah terdapat nilai kosong (NaN) di dataset dengan df_raw.isnull().sum().
- Langkah ini penting untuk memastikan data bersih dan tidak mengganggu proses analisis lebih lanjut.

3. One-Hot Encoding Transaksi
- Menggunakan TransactionEncoder dari library mlxtend untuk mengubah data transaksi menjadi format tabular biner (boolean).
- Hasilnya adalah DataFrame baru, di mana setiap kolom mewakili satu produk, dan nilainya True atau False tergantung apakah produk tersebut ada dalam transaksi.

4. Mengecek Jumlah Transaksi
- Menggunakan df_encoded.shape[0] untuk memastikan jumlah transaksi yang berhasil diproses setelah one-hot encoding.

