### EN: Offline evaluation results overview
### FA: نمای کلی نتایج ارزیابی آفلاین

In [1]:
# EN: Imports and plotting setup
# FA: بارگذاری کتابخانه‌ها و تنظیمات ترسیم
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path

plt.style.use("seaborn-v0_8-whitegrid")
plt.rcParams["figure.figsize"] = (9, 5)
plt.rcParams["axes.titlesize"] = 14
plt.rcParams["axes.labelsize"] = 12

### EN: Load aggregated and per-user metrics
### FA: بارگذاری متریک‌های تجمیعی و سطح کاربر

In [2]:
results_dir = Path("../results")
agg_path = results_dir / "model_comparison.csv"
user_path = results_dir / "user_metrics.parquet"

agg_df = pd.read_csv(agg_path)
try:
    user_df = pd.read_parquet(user_path)
except FileNotFoundError:
    user_df = None
    print("User-level metrics not found. Run evaluation first.")

### EN: Overall model comparison at K=10
### FA: مقایسه کلی مدل‌ها در K=10

In [3]:
# EN: Pivot for easier plotting
# FA: پیوت برای ترسیم ساده‌تر
pivot_df = agg_df.pivot(index="model", columns="metric", values="value")
display(pivot_df)

metrics_order = [c for c in pivot_df.columns if c.startswith(("precision", "recall", "ndcg", "map"))]
pivot_df[metrics_order].plot(kind="bar")
plt.title("Model comparison (higher is better)")
plt.ylabel("Score")
plt.xticks(rotation=0)
plt.legend(title="Metric")
plt.show()

### EN: Distribution of user-level recall/precision
### FA: توزیع دقت/یادآوری در سطح کاربر

In [4]:
if user_df is not None:
    metric_cols = [c for c in user_df.columns if "@" in c]
    for metric in metric_cols:
        plt.figure()
        sns.boxplot(data=user_df, x="model", y=metric)
        plt.title(f"User-level {metric}")
        plt.xticks(rotation=0)
        plt.show()
else:
    print("No user-level metrics available for distribution plots.")