In [None]:
# ====================================
#  1. Upload Dataset
# ====================================
from google.colab import files
import pandas as pd

uploaded = files.upload()
file_name = list(uploaded.keys())[0]

# Pada bagian pertama ini, Saya mempersiapkan Colab untuk menerima file daataset dari file laptop saya
# Libary files dari modul goole.colab digunakan untuk membuka file yang sudah saya upload
# Lalu saat file di unggah upload.keys() akan menyimpan nama file tsb ke dalam variabel file_name

# ====================================
# 2. Load Dataset
# ====================================
df = pd.read_csv(file_name)
print(f"Dataset loaded: {file_name}")
print(f"Shape: {df.shape}\n")
# Setelah file berhasil diunggah, dataset tersebut kemudian dibaca ke dalam DataFrame pandas yang diberi nama df. Fungsi pd.read_csv() digunakan untuk membaca file CSV
# Setelah dataset berhasil dimuat, saya mencetak informasi mengenai nama file yang diunggah dan ukuran dataset dengan df.shape

# ====================================
#  3. Cek Missing Values
# ====================================
print("Jumlah Missing Values per Kolom:")
print(df.isnull().sum())
print("\n")

print("Persentase Missing Values per Kolom:")
print((df.isnull().sum() / len(df)) * 100)
print("\n")

# Kode ini  saya gunakan untuk mengecek ada tidaknya data yang hilang (missing values) di setiap kolom dataset.
# Fungsi df.isnull() akan menghasilkan DataFrame berisi nilai boolean (True jika data kosong, False jika tidak)
# Kemudian fungsi .sum() akan menjumlahkan berapa banyak nilai kosong di setiap kolom.
# Saya juga menggunakan kode (df.isnull().sum() / len(df)) * 100 untuk mengetahui seberapa besar persentase nilai kosong

# ====================================
#  4. Combine Count + Percentage
# ====================================
missing_data = pd.DataFrame({
    'Missing Values': df.isnull().sum(),
    'Percentage (%)': round((df.isnull().sum() / len(df)) * 100, 2)
})

missing_data = missing_data[missing_data['Missing Values'] > 0]  # Hanya tampilkan kolom yg ada missing
print("Summary Missing Data (Kolom dengan Nilai Hilang):")
print(missing_data)

# Saya membuat sebuah DataFrame baru bernama missing_data yang isinya merupakan gabungan dari dua informasi utama: jumlah nilai kosong dan persentase nilai kosong di setiap kolom


Saving maxcart_sales_sample_with_missing.csv to maxcart_sales_sample_with_missing.csv
Dataset loaded: maxcart_sales_sample_with_missing.csv
Shape: (150, 10)

Jumlah Missing Values per Kolom:
Order ID          0
Order Date        0
Product           0
Category         12
Quantity          2
Unit Price        6
Revenue           8
Country           2
Customer Type     0
Source            0
dtype: int64


Persentase Missing Values per Kolom:
Order ID         0.000000
Order Date       0.000000
Product          0.000000
Category         8.000000
Quantity         1.333333
Unit Price       4.000000
Revenue          5.333333
Country          1.333333
Customer Type    0.000000
Source           0.000000
dtype: float64


Summary Missing Data (Kolom dengan Nilai Hilang):
            Missing Values  Percentage (%)
Category                12            8.00
Quantity                 2            1.33
Unit Price               6            4.00
Revenue                  8            5.33
Country        

In [None]:
# 5 Data Cleaning
# ====================================

# Drop baris tanpa Order ID atau Order Date
df_clean = df.dropna(subset=['Order ID', 'Order Date'])

# Isi Category kosong
df_clean['Category'] = df_clean['Category'].fillna('Unknown')

# Drop baris Quantity / Unit Price kosong
df_clean = df_clean.dropna(subset=['Quantity', 'Unit Price'])

# Pastikan Quantity & Unit Price numeric
df_clean['Quantity'] = pd.to_numeric(df_clean['Quantity'], errors='coerce')
df_clean['Unit Price'] = pd.to_numeric(df_clean['Unit Price'], errors='coerce')

# Filter retail reasonable ranges
df_clean = df_clean[
    (df_clean['Quantity'] > 0) &
    (df_clean['Quantity'] <= 10) &
    (df_clean['Unit Price'] > 0) &
    (df_clean['Unit Price'] <= 500)
]

# Recalculate Revenue ONLY if missing or zero
df_clean['Revenue'] = pd.to_numeric(df_clean['Revenue'], errors='coerce')
df_clean.loc[(df_clean['Revenue'].isnull()) | (df_clean['Revenue'] == 0), 'Revenue'] = \
    df_clean['Quantity'] * df_clean['Unit Price']

# Round Revenue + prevent scientific notation
df_clean['Revenue'] = df_clean['Revenue'].astype(float).round(2)

# Convert Order Date to datetime
df_clean['Order Date'] = pd.to_datetime(df_clean['Order Date'], errors='coerce')

# Drop Country kosong (optional)
df_clean = df_clean.dropna(subset=['Country'])

print(f"\nShape setelah cleaning: {df_clean.shape}")

# ====================================
# 6 Export Clean Dataset
# ====================================
df_clean.to_excel('maxcart_sales_cleaned_final_SAFE.xlsx', index=False)
files.download('maxcart_sales_cleaned_final_SAFE.xlsx')

print("\n✅ Dataset clean + SAFE Excel export selesai: maxcart_sales_cleaned_final_SAFE.xlsx")


Shape setelah cleaning: (140, 10)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


✅ Dataset clean + SAFE Excel export selesai: maxcart_sales_cleaned_final_SAFE.xlsx
