In [1]:
import pandas as pd

In [2]:
import os
import glob

In [3]:
# Menggabungkan semua data transaksi dari 9 batch
transaksi_folder = "transaksi"
transaksi_files = glob.glob(os.path.join(transaksi_folder, "transaksi_batch_*.csv"))

print(f"File yang akan digabungkan: {len(transaksi_files)} file")
for file in sorted(transaksi_files):
    print(f"- {file}")

# Membaca dan menggabungkan semua file transaksi
transaksi_dataframes = []

for file in sorted(transaksi_files):
    print(f"Membaca {file}...")
    df = pd.read_csv(file)
    print(f"  - Jumlah baris: {len(df):,}")
    transaksi_dataframes.append(df)

# Menggabungkan semua dataframe
print("\nMenggabungkan semua data transaksi...")
transaksi_combined = pd.concat(transaksi_dataframes, ignore_index=True)

print(f"Total data transaksi setelah digabungkan: {len(transaksi_combined):,} baris")
print(f"Kolom: {list(transaksi_combined.columns)}")
print(f"\nInfo singkat data gabungan:")
print(transaksi_combined.info())

File yang akan digabungkan: 9 file
- transaksi\transaksi_batch_1.csv
- transaksi\transaksi_batch_2.csv
- transaksi\transaksi_batch_3.csv
- transaksi\transaksi_batch_4.csv
- transaksi\transaksi_batch_5.csv
- transaksi\transaksi_batch_6.csv
- transaksi\transaksi_batch_7.csv
- transaksi\transaksi_batch_8.csv
- transaksi\transaksi_batch_9.csv
Membaca transaksi\transaksi_batch_1.csv...
  - Jumlah baris: 66,039
Membaca transaksi\transaksi_batch_2.csv...
  - Jumlah baris: 69,726
Membaca transaksi\transaksi_batch_3.csv...
  - Jumlah baris: 64,593
Membaca transaksi\transaksi_batch_4.csv...
  - Jumlah baris: 69,077
Membaca transaksi\transaksi_batch_5.csv...
  - Jumlah baris: 74,083
Membaca transaksi\transaksi_batch_6.csv...
  - Jumlah baris: 70,576
Membaca transaksi\transaksi_batch_7.csv...
  - Jumlah baris: 68,977
Membaca transaksi\transaksi_batch_8.csv...
  - Jumlah baris: 72,922
Membaca transaksi\transaksi_batch_9.csv...
  - Jumlah baris: 47,212

Menggabungkan semua data transaksi...
Total da

In [4]:
# Menampilkan sample data gabungan
print("Sample 5 baris pertama:")
print(transaksi_combined.head())

print("\nSample 5 baris terakhir:")
print(transaksi_combined.tail())

# Mengecek duplikasi data (jika ada)
duplicates = transaksi_combined.duplicated().sum()
print(f"\nJumlah data duplikat: {duplicates}")

# Statistik deskriptif singkat
print("\nStatistik deskriptif:")
print(transaksi_combined.describe())

Sample 5 baris pertama:
  id_produk  minggu      current_event  id_toko  harga_promosi  diskon  \
0  P0008266       1  Promo Akhir Pekan        1          12900  0.1428   
1  P0004740       1  Promo Akhir Pekan        1           3200  0.1807   
2  P0000272       1  Promo Akhir Pekan        1           4300  0.1157   
3  P0007290       1  Promo Akhir Pekan        1           8500  0.0945   
4  P0000907       1  Promo Akhir Pekan        1           6200  0.1436   

   diskon_margin  hari_jual  kedaluwarsa tanggal_transaksi  
0         0.0512         63          302        2023-01-01  
1        -0.0522         54          311        2023-01-01  
2         0.1219         65          300        2023-01-01  
3         0.0980        128          237        2023-01-01  
4         0.0816         53          312        2023-01-01  

Sample 5 baris terakhir:
       id_produk  minggu      current_event  id_toko  harga_promosi  diskon  \
603200  P0078970     113  Promo Akhir Pekan        7        

In [5]:
# Menyimpan data gabungan ke file CSV baru
output_file = "transaksi_combined.csv"
print(f"Menyimpan data gabungan ke {output_file}...")
transaksi_combined.to_csv(output_file, index=False)
print(f"Data berhasil disimpan dengan {len(transaksi_combined):,} baris")

# Verifikasi file yang disimpan
if os.path.exists(output_file):
    file_size = os.path.getsize(output_file) / (1024*1024)  # Size in MB
    print(f"Ukuran file: {file_size:.2f} MB")
else:
    print("Error: File tidak berhasil disimpan")

Menyimpan data gabungan ke transaksi_combined.csv...
Data berhasil disimpan dengan 603,205 baris
Ukuran file: 34.63 MB
