In [1]:
import pandas as pd
import numpy as np

# Jumlah baris data
n = 1000

# Fungsi untuk menghasilkan data kotor
def generate_noisy_data(column_data, noise_factor):
    noise = np.random.randint(1, noise_factor, size=len(column_data))
    return column_data + noise

# Nama Pelanggan (misalkan kita memiliki 10 nama pelanggan yang berulang)
names = ["Pelanggan" + str(i) for i in range(1, 11)]
name_column = np.random.choice(names, n)

# Jenis Transaksi (Deposit, Transfer, Tarik Tunai)
transaction_types = ["Deposit", "Transfer", "Tarik Tunai"]
transaction_column = np.random.choice(transaction_types, n)

# Jumlah Transaksi (dalam Rupiah, dengan beberapa data kotor/noise)
amount_column = generate_noisy_data(np.random.randint(500000, 50000000, n), 100000)

# Tanggal Transaksi (antara 2020-01-01 hingga 2022-12-31)
date_column = pd.date_range('2020-01-01', '2022-12-31', freq='D').to_numpy()
transaction_date_column = np.random.choice(date_column, n)

# Lokasi (misalkan kita memiliki 5 lokasi)
locations = ["Jakarta", "Bandung", "Surabaya", "Yogyakarta", "Medan"]
location_column = np.random.choice(locations, n)

# Buat DataFrame
df = pd.DataFrame({
    "Nama": name_column,
    "Jenis Transaksi": transaction_column,
    "Jumlah (Rp)": amount_column,
    "Tanggal Transaksi": transaction_date_column,
    "Lokasi": location_column
})

# Simpan dalam format CSV
df.to_csv("~/project/APUChat/workspace/data/noise_data.csv", index=False)


### data kotor (data duplikat, dll)

In [2]:
import pandas as pd
import numpy as np

# Jumlah baris data
n = 1000

# Fungsi untuk menghasilkan data kotor
def generate_noisy_data(column_data, noise_factor):
    noise = np.random.randint(1, noise_factor, size=len(column_data))
    return column_data + noise

# 1. Data duplikat: Menambahkan beberapa baris duplikat
duplicate_rows = 50

# 2. Nilai yang hilang: Menentukan persentase data yang hilang
missing_percentage = 0.05

# 3. Format data yang tidak bersih: Menambahkan beberapa string ke tanggal
dirty_dates = ["2020-01-32", "2020-02-30", "2020-00-00", "not a date"]

# 6. Nilai lokasi yang salah
invalid_locations = ["LokasiSalah", "TidakDiketahui"]

# 7. Nilai yang tidak valid: Menentukan persentase nilai negatif
negative_percentage = 0.02

# Nama Pelanggan
names = ["Pelanggan" + str(i) for i in range(1, 11)]
name_column = np.random.choice(names, n)

# Jenis Transaksi
transaction_types = ["Deposit", "Transfer", "Tarik Tunai"]
transaction_column = np.random.choice(transaction_types, n)

# Jumlah Transaksi dengan beberapa data kotor/noise
amount_column = generate_noisy_data(np.random.randint(500000, 50000000, n), 100000)

# 7. Menambahkan nilai negatif ke kolom jumlah
negative_indices = np.random.choice(n, int(n * negative_percentage), replace=False)
amount_column[negative_indices] = amount_column[negative_indices] * -1

# Tanggal Transaksi dengan beberapa format yang kotor
date_column = np.append(pd.date_range('2020-01-01', '2022-12-31', freq='D').astype(str).to_numpy(), dirty_dates)

transaction_date_column = np.random.choice(date_column, n)

# Lokasi dengan beberapa lokasi tidak valid
locations = ["Jakarta", "Bandung", "Surabaya", "Yogyakarta", "Medan"] + invalid_locations
location_column = np.random.choice(locations, n)

# Buat DataFrame
df = pd.DataFrame({
    "Nama": name_column,
    "Jenis Transaksi": transaction_column,
    "Jumlah (Rp)": amount_column,
    "Tanggal Transaksi": transaction_date_column,
    "Lokasi": location_column
})

# 2. Menambahkan missing values
for col in df.columns:
    missing_indices = np.random.choice(n, int(n * missing_percentage), replace=False)
    df.loc[missing_indices, col] = np.nan

# 4. Outliers: Menambahkan outlier untuk jumlah transaksi
outliers = [1000000000, -1000000000]  # Nilai yang sangat besar dan sangat kecil
df.at[0, 'Jumlah (Rp)'] = outliers[0]
df.at[1, 'Jumlah (Rp)'] = outliers[1]

# 5. Transformasi Data: Misalkan, kita ingin memiliki kolom jumlah transaksi dalam USD. Kurs asumsi 1 USD = 14,000 IDR
df['Jumlah (USD)'] = df['Jumlah (Rp)'] / 14000

# 1. Menambahkan duplikat
df = pd.concat([df, df.iloc[:duplicate_rows]]).sample(frac=1).reset_index(drop=True)

# Simpan dalam format CSV
df.to_csv("~/project/APUChat/workspace/data/data_pencucian_uang.csv", index=False)
