# Tools — Agregacja wyników wielu osób (Projekt A)

**Cel:** scalić CSV z wielu folderów `outputs_studentA_*` i narysować wspólne heatmapy.

Wymagania:
- każdy student oddaje plik `A_runs_*.csv` (run-level),
- w tym pliku są kolumny: model, pooling, seq_len, hidden, seed, best_test_acc, success.

Jeśli ktoś robił tylko fragment siatki (np. jeden model), to i tak się da scalić.


In [None]:
import os, glob
import pandas as pd
import matplotlib.pyplot as plt
import sys

# import rnnlab
sys.path.append(os.path.abspath(".."))
import rnnlab


In [None]:
# ====== WSKAŻ FOLDER Z WYNIKAMI ======
# Ustaw tu ścieżkę, gdzie leżą foldery outputs_studentA_*
ROOT = "."

csv_paths = glob.glob(os.path.join(ROOT, "outputs_studentA_*", "A_runs_*.csv"))
print("Found CSVs:", len(csv_paths))
csv_paths[:5]


In [None]:
# ====== LOAD + CONCAT ======
dfs = []
for p in csv_paths:
    df = pd.read_csv(p)
    df["source_file"] = os.path.basename(p)
    dfs.append(df)

all_runs = pd.concat(dfs, ignore_index=True) if dfs else pd.DataFrame()
display(all_runs.head())
print("Total rows:", len(all_runs))


In [None]:
# ====== SUMMARIZE (global) ======
if len(all_runs) > 0:
    summary = rnnlab.summarize_frontier(all_runs)
    display(summary.head())
else:
    summary = None


In [None]:
# ====== PLOTS ======
if summary is not None:
    # linie mean(best_acc) vs SEQ_LEN
    rnnlab.plot_lines_acc(summary, title="Global Project A: mean(best_acc) vs SEQ_LEN (all students)")
    plt.show()

    # heatmapy P_success per model+pooling
    for (m, pool) in sorted(summary[["model","pooling"]].drop_duplicates().itertuples(index=False, name=None)):
        sdf = summary[(summary["model"]==m) & (summary["pooling"]==pool)].copy()
        if len(sdf["hidden"].unique())>=2 and len(sdf["seq_len"].unique())>=2:
            rnnlab.plot_heatmap(
                sdf,
                value_col="P_success",
                title=f"Global P(success) | model={m} pool={pool}",
            )
            plt.show()


## Co dalej?
- Zapisz `all_runs.csv` i `summary.csv` jako “centralny dataset”.
- Do raportu bierz 1–2 najlepsze heatmapy + linię mean(best_acc).
