<a href="https://colab.research.google.com/github/Karis-ilham/karis-ilham/blob/main/2318093DataCleansing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



# **1. Import Libraries**

In [None]:
import pandas as pd

In [None]:
# Langkah 1: Mount Google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).




# **2. Baca Dataset yang kotor**

In [None]:
# Baca file .xlsx
file_path = '/content/drive/MyDrive/Colab Notebooks/dataset.xlsx'
data = pd.read_excel(file_path, engine='openpyxl')  # Gunakan openpyxl untuk file .xlsx

In [None]:
print(data)

    kode_pelanggan nama_pelanggan                alamat         no_hp  produk  \
0           CUST43           Siti  Jl. Raya Timur KM 10      08xx9988  Sepatu   
1           CUST26           Rina     Jl. Kenanga No. 7       nohp123  Celana   
2           CUST47           andi     Jl. Kenanga No. 7      08xx9988  Celana   
3           CUST18           Agus                   NaN  +62888815765  Sepatu   
4           CUST14           Siti     Jl. Kenanga No. 7           NaN   Jaket   
..             ...            ...                   ...           ...     ...   
115          CUST3           andi     Jl. Melati No. 12           NaN     NaN   
116         CUST48           Budi     Jl. Kenanga No. 7   08125894949    Topi   
117         CUST16           Budi                   NaN   08241631031    Kaos   
118         CUST21           Dewi                   NaN           NaN    Kaos   
119         CUST39           Dewi                   NaN  +62845457167     NaN   

    jumlah  harga tanggal_t



# **3. Menampilkan Variabel**

In [None]:
print("Struktur Data Pelanggan:")
print(data.info())

Struktur Data Pelanggan:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 120 entries, 0 to 119
Data columns (total 8 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   kode_pelanggan     113 non-null    object
 1   nama_pelanggan     110 non-null    object
 2   alamat             93 non-null     object
 3   no_hp              98 non-null     object
 4   produk             107 non-null    object
 5   jumlah             63 non-null     object
 6   harga              54 non-null     object
 7   tanggal_transaksi  116 non-null    object
dtypes: object(8)
memory usage: 7.6+ KB
None


In [None]:
# Tampilkan nama kolom dan tipe data kolom
column_types = data.dtypes
print(column_types)

kode_pelanggan       object
nama_pelanggan       object
alamat               object
no_hp                object
produk               object
jumlah               object
harga                object
tanggal_transaksi    object
dtype: object




# **4. Data Cleansing-Standarisasi kolom Kode Pelanggan**

Algoritma yang digunakan :
1. mengecek apakah awalan pada kode pelanggan memiliki format "CUST" diawal
2. cek jumlah digit angka setelah "CUST", jika hanya 1 digit  ditambah 0 didepannya

In [None]:
def format_kode_pelanggan(kode):
    if pd.isna(kode) or str(kode).strip() == "":
        return "CUST00"
    angka = ''.join(ch for ch in str(kode) if ch.isdigit())
    if angka == "":
        return "CUST00"
    return f"CUST{int(angka):02d}"

In [None]:
# Ubah nama kolom biar lebih aman (hapus spasi & titik)
data.columns = [c.strip().lower().replace(" ", "_").replace(".", "_") for c in data.columns]

# Ambil baris ke-2 sampai 15
subset = data.iloc[1:15].copy()

# Terapkan fungsi ke kolom kode_pelanggan
subset["kode_pelanggan_standar"] = subset["kode_pelanggan"].apply(format_kode_pelanggan)

# Tampilkan hasil
from IPython.display import display
display(subset[["kode_pelanggan", "kode_pelanggan_standar"]])


Unnamed: 0,kode_pelanggan,kode_pelanggan_standar
1,CUST26,CUST26
2,CUST47,CUST47
3,CUST18,CUST18
4,CUST14,CUST14
5,CUST42,CUST42
6,CUST8,CUST08
7,CUST17,CUST17
8,CUST14,CUST14
9,CUST9,CUST09
10,CUST27,CUST27


kolom sudah diperbaiki tidak ada lagi CUST kode dengan 1 digit



# **5. Data Cleansing-Standarisasi kolom Nama.Lengkap**

Algoritma jika nama kosong akan langsung terhapus

In [None]:
# STEP 1: Samakan format nama kolom agar mudah dipanggil
data.columns = [c.strip().lower().replace(" ", "_").replace(".", "_") for c in data.columns]

# STEP 2: Ambil baris 20 - 30 (ingat index Python mulai dari 0, jadi 19:30)
subset = data.iloc[19:30].copy()

# STEP 3: Tampilkan data kotor (kode + nama pelanggan)
from IPython.display import display
display(subset[["kode_pelanggan", "nama_pelanggan"]])

# STEP 4: Standarisasi kode pelanggan
def format_kode_pelanggan(kode):
    if pd.isna(kode) or str(kode).strip() == "":
        return "CUST00"
    angka = ''.join(ch for ch in str(kode) if ch.isdigit())
    if angka == "":
        return "CUST00"
    return f"CUST{int(angka):02d}"

subset["kode_pelanggan_standar"] = subset["kode_pelanggan"].apply(format_kode_pelanggan)

# STEP 5: Hapus baris dengan nama_pelanggan kosong
cleaned = subset.dropna(subset=["nama_pelanggan"])
cleaned = cleaned[cleaned["nama_pelanggan"].str.strip() != ""]

# STEP 6: Tampilkan hasil bersih
print("=== DATA BERSIH (Setelah Standarisasi & Hapus Nama Kosong) ===")
display(cleaned[["kode_pelanggan", "kode_pelanggan_standar", "nama_pelanggan"]])


Unnamed: 0,kode_pelanggan,nama_pelanggan
19,CUST41,
20,CUST29,andi
21,CUST17,Rina
22,CUST22,Budi
23,CUST7,
24,CUST39,Budi
25,CUST33,
26,CUST37,
27,CUST12,Agus
28,CUST27,


=== DATA BERSIH (Setelah Standarisasi & Hapus Nama Kosong) ===


Unnamed: 0,kode_pelanggan,kode_pelanggan_standar,nama_pelanggan
20,CUST29,CUST29,andi
21,CUST17,CUST17,Rina
22,CUST22,CUST22,Budi
24,CUST39,CUST39,Budi
27,CUST12,CUST12,Agus
29,CUST44,CUST44,andi




# **6. Data Cleansing-Standarisasi kolom No HP**

algoritma nomor akan diubah menjadi +62 jika yang sebelumnya menggunakan 08, dan jika ada huruf pada nomor maka akan invalid

In [None]:
import re
from IPython.display import display

# ==== Fungsi Standarisasi No HP ====
def format_no_hp(nohp):
    if pd.isna(nohp) or str(nohp).strip() == "":
        return None  # kosong → nanti dihapus

    nohp = str(nohp).strip()

    # Jika ada huruf → INVALID
    if re.search(r"[A-Za-z]", nohp):
        return "INVALID"

    # Format sudah +62
    if nohp.startswith("+62") and nohp[3:].isdigit():
        return nohp

    # Format 08xxxx → ubah jadi +62xxxx
    if nohp.startswith("08") and nohp[1:].isdigit():
        return "+62" + nohp[1:]

    # Jika angka tapi format aneh
    if nohp.isdigit():
        if nohp.startswith("62"):
            return "+" + nohp
        else:
            return "INVALID"

    # Default → INVALID
    return "INVALID"

# ==== Ambil baris 20–30 dan proses ====
subset = data.iloc[19:30].copy()

# Terapkan fungsi
subset["no_hp_standar"] = subset["no_hp"].apply(format_no_hp)

# Hapus baris yang no_hp kosong (None)
subset = subset.dropna(subset=["no_hp_standar"])

# ==== Tampilkan hasil ====
display(subset[["no_hp", "no_hp_standar"]])

Unnamed: 0,no_hp,no_hp_standar
19,08769206274,+628769206274
20,08295887086,+628295887086
21,08xx9988,INVALID
25,nohp123,INVALID
26,08xx9988,INVALID
27,+62804427240,+62804427240
28,08xx9988,INVALID
29,08150740794,+628150740794




# **7. Data Cleansing-Standarisasi kolom Tanggal Transaksi**

algoritma untuk tanggal transaksi tanggal-bulan-tahun, jika ada yang kosong, bulan atau tahunnya melebihi waktu normal maka akan invalid

In [None]:
from datetime import datetime
from IPython.display import display

# ==== Fungsi Standarisasi Tanggal ====
def format_tanggal(tgl):
    if pd.isna(tgl) or str(tgl).strip() == "":
        return "INVALID"
    tgl = str(tgl).strip()
    for fmt in ("%Y-%m-%d", "%d-%m-%Y", "%Y/%m/%d", "%d/%m/%Y"):
        try:
            dt = datetime.strptime(tgl, fmt)
            return dt.strftime("%d-%m-%Y")  # format akhir dd-mm-yyyy
        except:
            continue
    return "INVALID"

subset = data.iloc[0:20].copy()

# Terapkan standarisasi tanggal
subset["tanggal_standar"] = subset["tanggal_transaksi"].apply(format_tanggal)

# ==== Tampilkan hasil ====
print("=== Tanggal Transaksi Asli vs Standarisasi (Baris 1–20) ===")
display(subset[["tanggal_transaksi", "tanggal_standar"]])

=== Tanggal Transaksi Asli vs Standarisasi (Baris 1–20) ===


Unnamed: 0,tanggal_transaksi,tanggal_standar
0,2023-04-06,06-04-2023
1,2023-08-02,02-08-2023
2,2023/99/01,INVALID
3,2023-07-25,25-07-2023
4,2023-09-06,06-09-2023
5,2023-01-14,14-01-2023
6,2023-08-24,24-08-2023
7,2023-09-07,07-09-2023
8,2023-07-09,09-07-2023
9,,INVALID




# **8. Data Cleansing-Deduplikasi Data**

In [None]:
from IPython.display import display

subset = data.iloc[0:20].copy()

# Cari duplikat berdasarkan nama_pelanggan (asli)
duplikat_nama = subset[subset.duplicated(subset=["nama_pelanggan"], keep=False)]

display(duplikat_nama[["kode_pelanggan", "nama_pelanggan"]])

Unnamed: 0,kode_pelanggan,nama_pelanggan
0,CUST43,Siti
1,CUST26,Rina
2,CUST47,andi
3,CUST18,Agus
4,CUST14,Siti
5,CUST42,Andi
6,CUST8,Agus
7,CUST17,Siti
8,CUST14,Agus
9,CUST9,Rina




# **9. Data Enrichment**

Data enrichment akan menambahkan konteks baru yang tidak ada secara langsung di dataset, tapi bisa diperoleh dari kolom yang sudah ada (misalnya dari kode pelanggan → lokasi, dari no_hp → operator, dari tanggal → bulan/hari). Ini akan bikin dataset lebih kaya untuk analisis maupun pelaporan.

In [None]:
from datetime import datetime
from IPython.display import display

# ==== Fungsi Standarisasi Tanggal ====
def format_tanggal(tgl):
    if pd.isna(tgl) or str(tgl).strip() == "":
        return None
    tgl = str(tgl).strip()
    for fmt in ("%Y-%m-%d", "%d-%m-%Y", "%Y/%m/%d", "%d/%m/%Y"):
        try:
            dt = datetime.strptime(tgl, fmt)
            return dt
        except:
            continue
    return None

subset = data.iloc[0:20].copy()

# Konversi tanggal ke format datetime
subset["tanggal_dt"] = subset["tanggal_transaksi"].apply(format_tanggal)

# Enrichment: tambahkan Hari, Bulan, Tahun
subset["hari"]   = subset["tanggal_dt"].dt.strftime("%A")   # nama hari
subset["bulan"]  = subset["tanggal_dt"].dt.strftime("%B")   # nama bulan
subset["tahun"]  = subset["tanggal_dt"].dt.year             # tahun

# Hapus baris yang gagal parsing (None)
enriched = subset.dropna(subset=["tanggal_dt"])

print("=== Data Enrichment Tanggal Transaksi ===")
display(enriched[["tanggal_transaksi", "hari", "bulan", "tahun"]])

=== Data Enrichment Tanggal Transaksi ===


Unnamed: 0,tanggal_transaksi,hari,bulan,tahun
0,2023-04-06,Thursday,April,2023.0
1,2023-08-02,Wednesday,August,2023.0
3,2023-07-25,Tuesday,July,2023.0
4,2023-09-06,Wednesday,September,2023.0
5,2023-01-14,Saturday,January,2023.0
6,2023-08-24,Thursday,August,2023.0
7,2023-09-07,Thursday,September,2023.0
8,2023-07-09,Sunday,July,2023.0
10,2023-04-24,Monday,April,2023.0
12,2023-09-01,Friday,September,2023.0


Dengan enrichment ini, kamu bisa langsung analisis pola transaksi per hari, bulan, tahun.