In [1]:
import pandas as pd
import numpy as np

# --- 1. Tentukan Lokasi File ---
# Sesuaikan path ini jika Anda menggunakan nama file yang berbeda
path_notebook_output = '../data_processed/Preproces_Waterquality.csv' # Ganti jika nama file berbeda
path_script_output = '../data_processed/processed_data.csv'

In [2]:
# --- 2. Muat Kedua Dataset ---
try:
    df_notebook = pd.read_csv(path_notebook_output)
    df_script = pd.read_csv(path_script_output)
    print("✅ Kedua file berhasil dimuat.")
except FileNotFoundError as e:
    print(f"❌ Error: File tidak ditemukan. {e}")
    print("Pastikan Anda sudah menjalankan notebook asli dan skrip preprocess.py terlebih dahulu.")


✅ Kedua file berhasil dimuat.


In [3]:
# --- 3. Lakukan Perbandingan ---

print("\nMemulai perbandingan DataFrame...")

# a. Bandingkan Bentuk (Jumlah Baris dan Kolom)
if df_notebook.shape == df_script.shape:
    print(f"✅ Bentuk DataFrame identik: {df_notebook.shape}")
else:
    print(f"❌ PERINGATAN: Bentuk DataFrame berbeda!")
    print(f"   - Notebook: {df_notebook.shape}")
    print(f"   - Script: {df_script.shape}")

# b. Bandingkan Nama Kolom
if df_notebook.columns.equals(df_script.columns):
    print("✅ Nama kolom identik.")
else:
    print("❌ PERINGATAN: Nama kolom berbeda.")

# c. Bandingkan Tipe Data Kolom
if df_notebook.dtypes.equals(df_script.dtypes):
    print("✅ Tipe data identik.")
else:
    print("❌ PERINGATAN: Tipe data berbeda.")

# d. Bandingkan Isi (Nilai) Secara Keseluruhan
# df.equals() adalah cara paling akurat untuk membandingkan kesamaan 100%
if df_notebook.equals(df_script):
    print("\n[HASIL AKHIR] ✔️ SUKSES! Isi kedua DataFrame 100% identik.")
    print("Skrip otomatisasi Anda bekerja dengan benar sesuai notebook.")
else:
    print("\n[HASIL AKHIR] ❌ GAGAL! Ada perbedaan konten antara kedua DataFrame.")
    # Gunakan np.allclose untuk menangani kemungkinan perbedaan numerik yang sangat kecil
    try:
        if np.allclose(df_notebook.select_dtypes(include=np.number), df_script.select_dtypes(include=np.number), rtol=1e-5, atol=1e-8):
            print("   - Info: Perbedaan numerik sangat kecil (toleransi 1e-5), kemungkinan karena floating point. Bisa dianggap identik.")
        else:
            print("   - Info: Terdapat perbedaan signifikan pada nilai-nilai di dalam DataFrame.")
            # Menemukan lokasi perbedaan (jika ada, untuk debugging)
            diff = df_notebook.compare(df_script, align_axis=1)
            print("\nContoh perbedaan pertama yang ditemukan:")
            print(diff.head())
    except Exception as e:
        print(f"   - Tidak dapat melakukan perbandingan numerik: {e}")


Memulai perbandingan DataFrame...
✅ Bentuk DataFrame identik: (3276, 17)
✅ Nama kolom identik.
✅ Tipe data identik.

[HASIL AKHIR] ❌ GAGAL! Ada perbedaan konten antara kedua DataFrame.
   - Info: Perbedaan numerik sangat kecil (toleransi 1e-5), kemungkinan karena floating point. Bisa dianggap identik.
