<h1 style="color:lightblue;"><b><u>Import Library</u></b></h1>

In [3]:
import pandas as pd

# Setting agar pandas menampilkan semua kolom
pd.set_option('display.max_columns', None)

print("Libraries berhasil di-import.")

Libraries berhasil di-import.


<h1 style="color:lightblue;"><b><u>Muat Data Bersih</u></b></h1>

<h3 style="color:lightblue;">Memuat bersih yang kita dapat dari Data Cleaning, yaitu SuperStore_Cleaned.csv</h3>

In [4]:
# Path relatif dari 'notebooks' ke file bersih di 'data'
cleaned_data_path = "../data/SuperStore_Cleaned.csv"

try:
    # Penting: Kita parsing kolom tanggal saat memuatnya
    df = pd.read_csv(cleaned_data_path, parse_dates=['Order_Date', 'Ship_Date'])
    print(f"Berhasil memuat data bersih dari: {cleaned_data_path}")
    print(f"Jumlah baris data: {len(df)}")
except FileNotFoundError:
    print(f"ERROR: File '{cleaned_data_path}' tidak ditemukan.")

# Tampilkan 5 baris pertama untuk inspeksi
df.head()

Berhasil memuat data bersih dari: ../data/SuperStore_Cleaned.csv
Jumlah baris data: 9993


Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,2019-11-08,2019-11-11,Second Class,Claire Gute,Consumer,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",2019-11-08,2019-11-11,Second Class,Claire Gute,Consumer,Henderson,Kentucky,South
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,2019-06-12,2019-06-16,Second Class,Darrin Van Huff,Corporate,Los Angeles,California,West
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,2018-10-11,2018-10-18,Standard Class,Sean O'Donnell,Consumer,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,2018-10-11,2018-10-18,Standard Class,Sean O'Donnell,Consumer,Fort Lauderdale,Florida,South


<h1 style="color:lightblue;"><b><u>Ekstraksi Komponen Waktu</u></b></h1>

<h3 style="color:lightblue;">Kita akan "Membongkar" kolom Order_Date untuk mendapatkan informasi yang lebih spesifik. Ini berguna untuk menganalisis tren musiman.</h3>

In [5]:
print("Membuat fitur berbasis waktu...")

# 1. Ekstrak Tahun Pemesanan (misal: 2019)
df['Order_Year'] = df['Order_Date'].dt.year

# 2. Ekstrak Bulan Pemesanan (misal: 11 untuk November)
df['Order_Month'] = df['Order_Date'].dt.month

# 3. Ekstrak Nama Bulan (misal: 'November')
df['Order_Month_Name'] = df['Order_Date'].dt.month_name()

# 4. Ekstrak Nama Hari (misal: 'Friday')
df['Order_Day_Name'] = df['Order_Date'].dt.day_name()

print("-> Fitur waktu (Year, Month, Day Name) berhasil dibuat.")
print("\nContoh hasil:")
df[['Order_Date', 'Order_Year', 'Order_Month', 'Order_Month_Name', 'Order_Day_Name']].head()

Membuat fitur berbasis waktu...
-> Fitur waktu (Year, Month, Day Name) berhasil dibuat.

Contoh hasil:


Unnamed: 0,Order_Date,Order_Year,Order_Month,Order_Month_Name,Order_Day_Name
0,2019-11-08,2019,11,November,Friday
1,2019-11-08,2019,11,November,Friday
2,2019-06-12,2019,6,June,Wednesday
3,2018-10-11,2018,10,October,Thursday
4,2018-10-11,2018,10,October,Thursday


<h1 style="color:lightblue;"><b><u>Membuat Metrik Bisnis</u></b></h1>

<h3 style="color:lightblue;">Kita buat metrik yang biasa digunakan dalam bisnis : Durasi pengiriman dan Margin keuntungan.</h3>

In [6]:
print("Membuat fitur metrik bisnis...")

# 1. Hitung Durasi Pengiriman (Ship Date - Order Date)
# Kita ambil .dt.days untuk mendapatkan angkanya saja (misal: 3 hari)
df['Shipping_Duration_Days'] = (df['Ship_Date'] - df['Order_Date']).dt.days

# 2. Hitung Profit Margin (Margin Keuntungan)
# Rumus: (Profit / Sales) * 100
# Kita gunakan .round(2) untuk membulatkan jadi 2 angka di belakang koma
df['Profit_Margin_%'] = ((df['Profit'] / df['Sales']) * 100).round(2)

print("-> Fitur 'Shipping_Duration_Days' dan 'Profit_Margin_%' berhasil dibuat.")
print("\nContoh hasil:")
df[['Order_Date', 'Ship_Date', 'Shipping_Duration_Days', 'Sales', 'Profit', 'Profit_Margin_%']].head()

Membuat fitur metrik bisnis...
-> Fitur 'Shipping_Duration_Days' dan 'Profit_Margin_%' berhasil dibuat.

Contoh hasil:


Unnamed: 0,Order_Date,Ship_Date,Shipping_Duration_Days,Sales,Profit,Profit_Margin_%
0,2019-11-08,2019-11-11,3,261.96,41.9136,16.0
1,2019-11-08,2019-11-11,3,731.94,219.582,30.0
2,2019-06-12,2019-06-16,4,14.62,6.8714,47.0
3,2018-10-11,2018-10-18,7,957.5775,-383.031,-40.0
4,2018-10-11,2018-10-18,7,22.368,2.5164,11.25


<h1 style="color:lightblue;"><b><u>Membuat Kategori Biner</u></b></h1>

<h3 style="color:lightblue;">Ini adalah contoh <i>Binning</i> (Pengelompokan) yang paling sederhana. Kita ubah angka (Profit) menjadi kategori (Untung/Rugi). Ini akan sangat berguna untuk model klasifikasi yang akan kita buat nantinya.</h3>

In [7]:
print("Membuat fitur kategori biner 'Is_Profitable'...")

# 1. Buat kolom baru: 'Yes' jika Profit > 0, 'No' jika tidak
# Kita gunakan np.where (fungsi dari library numpy, tapi pandas bisa memahaminya)
# df['Is_Profitable'] = (df['Profit'] > 0).astype(str) # Cara lain (True/False)

# Menggunakan fungsi apply() untuk logika yang lebih jelas
def check_profit(profit_value):
    if profit_value > 0:
        return 'Profitable'
    elif profit_value == 0:
        return 'Break-even'
    else:
        return 'Not Profitable'

df['Profit_Status'] = df['Profit'].apply(check_profit)

print("-> Fitur 'Profit_Status' berhasil dibuat.")
print("\nContoh hasil:")
df[['Profit', 'Profit_Status']].head(10) # Tampilkan 10 baris

Membuat fitur kategori biner 'Is_Profitable'...
-> Fitur 'Profit_Status' berhasil dibuat.

Contoh hasil:


Unnamed: 0,Profit,Profit_Status
0,41.9136,Profitable
1,219.582,Profitable
2,6.8714,Profitable
3,-383.031,Not Profitable
4,2.5164,Profitable
5,14.1694,Profitable
6,1.9656,Profitable
7,90.7152,Profitable
8,5.7825,Profitable
9,34.47,Profitable


<h1 style="color:lightblue;"><b><u>Review Akhir dan Simpan Data</u></b></h1>

<h3 style="color:lightblue;">Kita sudah selesai membuat kolom-kolom baru, mari kita lihat semua dan simpan hasilnya ke file baru.</h3>

In [8]:
print("--- Proses Feature Engineering Selesai! ---")
print("Data sekarang memiliki kolom-kolom baru.")

# Tampilkan 5 baris pertama dengan SEMUA kolom (termasuk yg baru)
df.head()

--- Proses Feature Engineering Selesai! ---
Data sekarang memiliki kolom-kolom baru.


Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,City,State,Region,Order_Year,Order_Month,Order_Month_Name,Order_Day_Name,Shipping_Duration_Days,Profit_Margin_%,Profit_Status
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,2019-11-08,2019-11-11,Second Class,Claire Gute,Consumer,Henderson,Kentucky,South,2019,11,November,Friday,3,16.0,Profitable
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",2019-11-08,2019-11-11,Second Class,Claire Gute,Consumer,Henderson,Kentucky,South,2019,11,November,Friday,3,30.0,Profitable
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,2019-06-12,2019-06-16,Second Class,Darrin Van Huff,Corporate,Los Angeles,California,West,2019,6,June,Wednesday,4,47.0,Profitable
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,2018-10-11,2018-10-18,Standard Class,Sean O'Donnell,Consumer,Fort Lauderdale,Florida,South,2018,10,October,Thursday,7,-40.0,Not Profitable
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,2018-10-11,2018-10-18,Standard Class,Sean O'Donnell,Consumer,Fort Lauderdale,Florida,South,2018,10,October,Thursday,7,11.25,Profitable


<h1 style="color:lightblue;"><b><u>Simpan Data yang Sudah Diproses</u></b></h1>

<h3 style="color:lightblue;">Kita simpan data ini ke file baru, ini adalah file yang akan kita gunakan untuk Eksplorasi Data Analisis</h3>

In [9]:
# Tentukan path untuk menyimpan file yang sudah diproses
processed_data_path = "../data/SuperStore_Processed.csv"

# index=False agar nomor index tidak ikut tersimpan
df.to_csv(processed_data_path, index=False)

print(f"\nData yang sudah diproses (dengan fitur baru) telah disimpan di:")
print(f"{processed_data_path}")


Data yang sudah diproses (dengan fitur baru) telah disimpan di:
../data/SuperStore_Processed.csv
