# **1. Import Libraries**

In [None]:
import pandas as pd # Import library pandas untuk manipulasi data

In [None]:
from google.colab import drive # Import modul drive dari Google Colab
drive.mount('/content/drive')  # Mount Google Drive ke Colab agar bisa akses file di Drive

Mounted at /content/drive


# **2. Baca Dataset Pelanggan yang kotor**

In [None]:
file_path = '/content/drive/MyDrive/Data_Mining/List of Orders.csv'  # Menentukan path file CSV di Google Drive
data = pd.read_csv(file_path) # Membaca file CSV ke dalam DataFrame pandas

In [None]:
print(data) # Menampilkan seluruh isi dataset

    Order ID  Order Date CustomerName              State       City
0    B-25601    1/4/2018       Bharat            Gujarat  Ahmedabad
1    B-25602    1/4/2018        Pearl        Maharashtra       Pune
2    B-25603    3/4/2018        Jahan     Madhya Pradesh     Bhopal
3    B-25604    3/4/2018       Divsha          Rajasthan     Jaipur
4    B-25605    5/4/2018      Kasheen        West Bengal    Kolkata
..       ...         ...          ...                ...        ...
495  B-26096  28-03-2019       Atharv        West Bengal    Kolkata
496  B-26097  28-03-2019         Vini          Karnataka  Bangalore
497  B-26098  29-03-2019        Pinky  Jammu and Kashmir    Kashmir
498  B-26099  30-03-2019       Bhishm        Maharashtra     Mumbai
499  B-26100  31-03-2019       Hitika     Madhya Pradesh     Indore

[500 rows x 5 columns]


# **3. Menampilkan struktur variable data pelanggan**

In [None]:
print("\nInfo dataset:") # Menampilkan judul teks sebelum info dataset
print(data.info()) # Menampilkan ringkasan struktur dataset (jumlah baris, kolom, tipe data, non-null)


Info dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Order ID      500 non-null    object
 1   Order Date    500 non-null    object
 2   CustomerName  500 non-null    object
 3   State         500 non-null    object
 4   City          500 non-null    object
dtypes: object(5)
memory usage: 19.7+ KB
None


In [None]:
column_types = data.dtypes  # Menyimpan tipe data dari setiap kolom di DataFrame
print(column_types) # Menampilkan tipe data tiap kolom

Order ID        object
Order Date      object
CustomerName    object
State           object
City            object
dtype: object


# **4. Data Cleansing-Standarisasi kolom Order ID**

Algoritma yang akan digunakan:
1. Cek apakah kode pelanggan memiliki format "B-" di awal.
2. Cek jumlah digit setelah "B-". Jika hanya terdapat 4 digit, tambahkan satu digit nol di depan sehingga menjadi 5 digit.
3. Tampilkan hasil yang sudah diperbaiki.

In [None]:
def format_Order_ID(kode): # Fungsi untuk memformat nilai Order ID
    if kode.startswith("B-") and len(kode.split('-')[-1]) == 4: # Jika Order ID diawali "B-" dan bagian akhir panjangnya 4 digit
        return kode[:3] + '0' + kode[3:]  # Sisipkan '0' setelah "B-"
    return kode # Kalau tidak sesuai kondisi, kembalikan kode asli

In [None]:
data['Order ID'] = data['Order ID'].apply(format_Order_ID) # Terapkan fungsi format_Order_ID ke setiap nilai di kolom 'Order ID'

In [None]:
data[['Order ID']].head()  # Tampilkan 5 baris pertama kolom 'Order ID' setelah diformat

Unnamed: 0,Order ID
0,B-25601
1,B-25602
2,B-25603
3,B-25604
4,B-25605


Kolom Kode Pelanggan telah diperbaiki. Tidak ada kode pelanggan dengan 4 digit yang perlu ditambahkan angka nol, karena semua sudah memiliki 5 digit setelah "B-".

# **5. Data Cleansing-Standarisasi kolom CustomerName**

In [None]:
import pandas as pd # Import pandas untuk baca dan olah data
import re # Import regex (regular expression) untuk pembersihan teks

file_path = '/content/drive/MyDrive/Data_Mining/List of Orders.csv'
df = pd.read_csv(file_path) # Membaca dataset CSV ke DataFrame

# Fungsi membersihkan nama customer
def clean_name(x):   # Definisikan fungsi dengan parameter 'x'
    patterns = [ # Daftar pola (gelar, simbol, angka) yang akan dihapus
        r'\bIbu\b', r'\bBapak\b', r'\bBpk\b', r'\bBpk.\b', r'\bIr.\b',
        r'\bS\.H\.\b', r'\bDrs.\b', r'\bST\b', r'@', r',', r'\bdr.\b',
        r'\bSKOM\b', r'\d+', r'\(|\)'
    ]
    combined_pattern = re.compile('|'.join(patterns), flags=re.IGNORECASE) # Gabungkan semua pola jadi 1 regex
    cleaned_name = combined_pattern.sub('', str(x)).strip()  # Hapus pola dari nama, rapikan spasi
    return cleaned_name  # Kembalikan nama bersih

# Terapkan ke kolom nama pelanggan (pastikan nama kolom sama persis di dataset)
df['Nama Pelanggan Bersih'] = df['CustomerName'].apply(clean_name)

# Tampilkan 5 baris pertama untuk cek hasil
print(df[['CustomerName', 'Nama Pelanggan Bersih']].head())

  CustomerName Nama Pelanggan Bersih
0       Bharat                Bharat
1        Pearl                 Pearl
2        Jahan                 Jahan
3       Divsha                Divsha
4      Kasheen               Kasheen


# **6. Data Cleansing-Standarisasi kolom Order Date**

In [None]:
# Fungsi untuk standarisasi format tanggal
def standardize_date(date):
    try:
        # Ubah ke format datetime, lalu format ke 'dd-mm-YYYY'
        standardized_date = pd.to_datetime(date, errors='coerce').strftime('%d-%m-%Y')
    except:
      # Jika gagal parsing (misalnya data kosong/invalid), isi dengan None
        standardized_date = None
    return standardized_date

# Terapkan fungsi standardisasi ke kolom 'Order Date'
df['Order Date Standar'] = df['Order Date'].apply(standardize_date)

# Tampilkan 5 baris pertama kolom tanggal asli vs hasil standarisasis
df[['Order Date', 'Order Date Standar']].head()

  standardized_date = pd.to_datetime(date, errors='coerce').strftime('%d-%m-%Y')


Unnamed: 0,Order Date,Order Date Standar
0,1/4/2018,04-01-2018
1,1/4/2018,04-01-2018
2,3/4/2018,04-03-2018
3,3/4/2018,04-03-2018
4,5/4/2018,04-05-2018


# **7. Data Cleansing-Deduplikasi Data**

In [None]:
duplicate_rows = df[df.duplicated(['Order ID', 'Order Date', 'CustomerName', 'State', 'City'], keep=False)] # Cari baris duplikat berdasarkan kombinasi beberapa kolom

print("Jumlah duplikat:", len(duplicate_rows)) # Tampilkan jumlah baris duplikat
print(duplicate_rows.head()) # Tampilkan 5 baris pertama dari data duplikat


Jumlah duplikat: 0
Empty DataFrame
Columns: [Order ID, Order Date, CustomerName, State, City, Nama Pelanggan Bersih, Order Date Standar]
Index: []


In [None]:
# Urutkan data berdasarkan kolom 'Order ID'
df_sorted = df.sort_values(by='Order ID')

# Hapus baris duplikat berdasarkan kombinasi kolom tertentu,
# hanya menyimpan baris pertama (Order ID terkecil)
df_deduplicated = df_sorted.drop_duplicates(
    subset=['Order ID', 'Order Date', 'CustomerName', 'State', 'City'],
    keep='first'
)

# Reset index agar urut kembali dari 0
df_deduplicated.reset_index(drop=True, inplace=True)

# Tampilkan 5 baris pertama hasil data tanpa duplikat
df_deduplicated.head()

Unnamed: 0,Order ID,Order Date,CustomerName,State,City,Nama Pelanggan Bersih,Order Date Standar
0,B-25601,1/4/2018,Bharat,Gujarat,Ahmedabad,Bharat,04-01-2018
1,B-25602,1/4/2018,Pearl,Maharashtra,Pune,Pearl,04-01-2018
2,B-25603,3/4/2018,Jahan,Madhya Pradesh,Bhopal,Jahan,04-03-2018
3,B-25604,3/4/2018,Divsha,Rajasthan,Jaipur,Divsha,04-03-2018
4,B-25605,5/4/2018,Kasheen,West Bengal,Kolkata,Kasheen,04-05-2018


In [None]:
print("\nData setelah dibersihkan:") # Cetak judul agar output lebih jelas
print(df_deduplicated.head()) # Cetak 5 baris pertama dari data hasil deduplikasi


Data setelah dibersihkan:
  Order ID Order Date CustomerName           State       City  \
0  B-25601   1/4/2018       Bharat         Gujarat  Ahmedabad   
1  B-25602   1/4/2018        Pearl     Maharashtra       Pune   
2  B-25603   3/4/2018        Jahan  Madhya Pradesh     Bhopal   
3  B-25604   3/4/2018       Divsha       Rajasthan     Jaipur   
4  B-25605   5/4/2018      Kasheen     West Bengal    Kolkata   

  Nama Pelanggan Bersih Order Date Standar  
0                Bharat         04-01-2018  
1                 Pearl         04-01-2018  
2                 Jahan         04-03-2018  
3                Divsha         04-03-2018  
4               Kasheen         04-05-2018  
