In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ks_2samp

real = pd.read_csv("../data/processed/train.csv")
synth = pd.read_csv("../data/synthetic/train_augmented.csv")

target_col = "RF Link Quality"
cont_cols = [c for c in real.columns if c not in [target_col] and not c.startswith("Modulation Scheme_") and c != "Network Congestion"]

# 1. Kiểm tra thống kê trung bình và độ lệch chuẩn
print("==== Statistical comparison ====")
for col in cont_cols:
    r_mean, s_mean = real[col].mean(), synth[col].mean()
    r_std, s_std = real[col].std(), synth[col].std()
    print(f"{col:25} | mean(real)={r_mean:.3f}, mean(synth)={s_mean:.3f} | std(real)={r_std:.3f}, std(synth)={s_std:.3f}")

# 2. Kiểm định KS (Kolmogorov–Smirnov) để đo độ tương đồng phân phối
print("\n==== KS Test (p > 0.05 nghĩa là không khác biệt đáng kể) ====")
for col in cont_cols:
    ks_stat, p = ks_2samp(real[col], synth[col])
    print(f"{col:25} | KS={ks_stat:.3f} | p={p:.3f}")

# 3. Visualization
plt.figure(figsize=(10,6))
for col in cont_cols[:3]:  # vẽ 3 cột đầu tiên
    sns.kdeplot(real[col], label=f"Real {col}", fill=True, alpha=0.3)
    sns.kdeplot(synth[col], label=f"Synth {col}", fill=True, alpha=0.3)
plt.legend()
plt.title("Distribution Comparison (Example)")
plt.show()
