<a href="https://colab.research.google.com/github/alfathh03/Nike_Sales_DataCleansing_ID/blob/master/2318117DataCleansing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. INSTAL LIBRARY


    Mengimpor pustaka Pandas untuk memanipulasi data tabular (DataFrame), NumPy untuk operasi numerik, dan io untuk mengolah data yang diunggah

    Metode yang Digunakan: Library Initialization

In [2]:
import pandas as pd
import numpy as np
import io

# 2. Koneksi Google Drive


    Mengimpor modul 'files' dari google.colab,

In [3]:
#Digunakan untuk memungkinkan fitur unggah dan unduh file di lingkungan Google Colab
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# 3. Buka File Dataset

In [4]:
file_path = '/content/drive/MyDrive/Colab Notebooks/dataset/data kotor.csv'
df = pd.read_csv(file_path)

# 4. Penanganan Data yang Hilang (Missing Values) dan Imputasi


    Bagian ini adalah tahapan inti pembersihan data. Kami menerapkan serangkaian keputusan metodologis untuk mengatasi data yang hilang (NaN)

In [7]:
# Membuat salinan data untuk proses pembersihan.
df_clean = df.copy()

# A. Hapus Baris Total Kosong:
# Menghapus baris yang tidak memiliki ID Pesanan.
df_clean.dropna(subset=['ID_Pesanan'], inplace=True)

# B. Imputasi Numerik (Mengisi NaN):
# Mengisi NaN pada Diskon_Diterapkan dengan 0.
df_clean['Diskon_Diterapkan'] = df_clean['Diskon_Diterapkan'].fillna(0)

# Mengisi NaN pada Unit_Terjual dengan 0
df_clean['Unit_Terjual'] = df_clean['Unit_Terjual'].fillna(0)

# Mengganti nilai Unit_Terjual yang negatif menjadi 0
df_clean.loc[df_clean['Unit_Terjual'] < 0, 'Unit_Terjual'] = 0

# Konversi ke integer setelah bersih dari nilai negatif
df_clean['Unit_Terjual'] = df_clean['Unit_Terjual'].astype(int)

# Mengecek apakah ada nilai negatif pada kolom Unit_Terjual
negatif_unit = df_clean[df_clean['Unit_Terjual'] < 0]
print("Data dengan Unit_Terjual negatif:")
print(negatif_unit)

# --- Penanganan ---
# Opsi 1: Ganti nilai negatif dengan 0 (sudah dilakukan di atas)
# Opsi 2 (alternatif): Ganti nilai negatif dengan median kolom
# median_unit = df_clean['Unit_Terjual'].median()
# df_clean.loc[df_clean['Unit_Terjual'] < 0, 'Unit_Terjual'] = median_unit

# Cek ulang apakah masih ada nilai negatif
print("Sisa data dengan Unit_Terjual negatif:", (df_clean['Unit_Terjual'] < 0).sum())

# Mengisi NaN pada MRP dengan nilai median per Lini Produk.
df_clean['Harga_Eceran_Maksimum'] = df_clean.groupby('Lini_Produk')['Harga_Eceran_Maksimum'].transform(
    lambda x: x.fillna(x.median())
)

# C. Imputasi Kategorikal:
# Mengisi nilai NaN pada kolom Ukuran dengan Modus.
df_clean['Ukuran'] = df_clean['Ukuran'].fillna(df_clean['Ukuran'].mode()[0])


Data dengan Unit_Terjual negatif:
Empty DataFrame
Columns: [ID_Pesanan, Kategori_Gender, Lini_Produk, Nama_Produk, Ukuran, Unit_Terjual, Harga_Eceran_Maksimum, Diskon_Diterapkan, Pendapatan, Tanggal_Pesanan, Saluran_Penjualan, Wilayah, Keuntungan]
Index: []
Sisa data dengan Unit_Terjual negatif: 0


# 5. Koreksi Tipe Data dan Penanganan Inkonsistensi Logis


    Bagian ini berfokus pada validasi dan standardisasi struktural data. Kami mengonversi kolom ID menjadi tipe bilangan bulat (integer) dan memperbaiki format Tanggal_Pesanan menjadi tipe datetime untuk memungkinkan analisis temporal. Lebih lanjut, kami menghapus anomali fatal di mana kerugian dicatat tanpa adanya pendapatan yang jelas, karena kondisi ini secara logis mustahil dan mengindikasikan error pencatatan yang parah

    Metode yang digunakan: Type Casting dan Anomaly Handling (Penghapusan Logis)
  

In [15]:
# A. Koreksi Tipe Data
# Mengonversi ID Pesanan menjadi integer.
df_clean['ID_Pesanan'] = df_clean['ID_Pesanan'].astype(int)

# Mengonversi Tanggal Pesanan ke format datetime.
df_clean['Tanggal_Pesanan'] = pd.to_datetime(df_clean['Tanggal_Pesanan'], errors='coerce')

# Jika ada nilai kosong (NaT) pada Tanggal_Pesanan, ganti dengan 0
df_clean['Tanggal_Pesanan'] = df_clean['Tanggal_Pesanan'].fillna(0)

# B. Penanganan Inkonsistensi Logis:
# Menghapus baris di mana Pendapatan = 0 DAN Keuntungan < 0.
df_clean = df_clean[~((df_clean['Pendapatan'] == 0) & (df_clean['Keuntungan'] < 0))]


# 6.  Standarisasi Kolom Ukuran



    Bagian ini fokus pada standardisasi data kategorikal. Nilai numerik yang tidak baku pada kolom Ukuran dikelompokkan ke dalam kategori standar (S, M, L, XL) untuk memastikan konsistensi analisis

In [16]:
# --- STANDARDISASI UKURAN ---

# Membuat peta pemetaan dari ukuran non-standar/numerik ke standar (S, M, L, XL)
size_mapping = {
    # Numerik ke Kategori
    '6': 'S', '7': 'S',
    '8': 'M', '9': 'M',
    '10': 'L', '11': 'L',
    '12': 'XL',
    # Kategori sudah ada (untuk memastikan)
    'M': 'M', 'L': 'L', 'XL': 'XL'
}

# Mengonversi kolom Ukuran ke string untuk menangani nilai numerik dan teks secara seragam
df_clean['Ukuran'] = df_clean['Ukuran'].astype(str)

# Menerapkan pemetaan standardisasi ukuran
df_clean['Ukuran'] = df_clean['Ukuran'].replace(size_mapping)

print("\nStandardisasi kolom 'Ukuran' berhasil diterapkan.")
print("Nilai unik akhir di kolom Ukuran:", df_clean['Ukuran'].unique())


Standardisasi kolom 'Ukuran' berhasil diterapkan.
Nilai unik akhir di kolom Ukuran: ['M' 'L' 'XL' 'S']


# 7.  Ringkasan Akhir dan Penyimpanan Hasil


    Sebagai tahap finalisasi dan penutupan, blok ini memberikan ringkasan status data (perbandingan jumlah baris awal dan akhir) dan menyajikan data yang telah dibersihkan. Selanjutnya, data yang sudah tervalidasi tersebut disimpan ke dalam file CSV baru dan secara otomatis diunduh ke perangkat pengguna.

    Metode yang Digunakan: Data Serialization (Serialisasi Data) dan Validation

In [18]:
from google.colab import files  # WAJIB diimport

# Ringkasan Akhir dan Penyimpanan
print(f"Bentuk Awal Data: {df.shape[0]} baris")
print(f"Bentuk Akhir Data Bersih: {df_clean.shape[0]} baris")

print("\n5 Baris Pertama Data yang Sudah Dibersihkan:")
print(df_clean.head().to_markdown(index=False))

# Menyimpan DataFrame yang sudah dibersihkan ke file CSV baru.
output_file_name_clean = 'Nike_Penjualan_Dibersihkan_Final.csv'
df_clean.to_csv(output_file_name_clean, index=False)

# Mengunduh file hasil (fitur Colab).
files.download(output_file_name_clean)
print(f"\nDataset akhir telah disimpan sebagai '{output_file_name_clean}' dan diunduh ke komputer Anda.")


Bentuk Awal Data: 2499 baris
Bentuk Akhir Data Bersih: 587 baris

5 Baris Pertama Data yang Sudah Dibersihkan:
|   ID_Pesanan | Kategori_Gender   | Lini_Produk   | Nama_Produk    | Ukuran   |   Unit_Terjual |   Harga_Eceran_Maksimum |   Diskon_Diterapkan |   Pendapatan | Tanggal_Pesanan     | Saluran_Penjualan   | Wilayah   |   Keuntungan |
|-------------:|:------------------|:--------------|:---------------|:---------|---------------:|------------------------:|--------------------:|-------------:|:--------------------|:--------------------|:----------|-------------:|
|         2002 | Wanita            | Sepak Bola    | Premier III    | M        |              4 |                 5937.52 |                   0 |            0 | 0                   | Ritel               | Mumbai    |      3337.34 |
|         2003 | Anak              | Gaya Hidup    | Blazer Mid     | L        |              0 |                 9673.57 |                   0 |            0 | 2024-04-10 00:00:00 | Daring    

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>


Dataset akhir telah disimpan sebagai 'Nike_Penjualan_Dibersihkan_Final.csv' dan diunduh ke komputer Anda.
