In [None]:
# append_engagnition_expand.py
# ДЛЯ ENGANITION:
# - Создаёт строки уровня session × modality (ACC/GSR/TMP/ENG/GAZE/PERF).
# - Для LPE/HPE добавляет строки уровня block там, где в CSV есть Готовый столбец
#   c блоками (block/trial/round/task/stage/level/segment/...).
# - НИКАКИХ вычислений: только факты (пути, флаги, имена блоков).
# - Перед записью удаляет все старые строки с sample_id, начинающимися на "ENG_"
#   (чтобы избежать дублирования при повторных запусках).

import os
import argparse
import pandas as pd

CONDITION_DIRS = {
    "Baseline": "Baseline condition",
    "LPE": "LPE condition",
    "HPE": "HPE condition",
}

# Модальности: имя, имя файла, название "rel_path_*", название "has_*"
MODS = [
    ("ACC",  "E4AccData.csv",        "rel_path_acc",         "has_acc"),
    ("GSR",  "E4GsrData.csv",        "rel_path_gsr",         "has_gsr"),
    ("TMP",  "E4TmpData.csv",        "rel_path_tmp",         "has_st"),
    ("ENG",  "EngagementData.csv",   "rel_path_engagement",  "has_engagement"),
    ("GAZE", "GazeData.csv",         "rel_path_gaze",        "has_gaze"),
    ("PERF", "PerformanceData.csv",  "rel_path_performance", "has_performance"),
]

def relp(path, start):
    return os.path.relpath(path, start=start).replace("/", "\\")

def norm(s: str) -> str:
    return str(s).strip().lower().replace(" ", "").replace("_", "")

def normalize_condition(s):
    t = str(s).strip().lower()
    if t in ("hpe", "highphysicalengagement", "high-physical-engagement"):
        return "HPE"
    if t in ("lpe", "lowphysicalengagement", "low-physical-engagement"):
        return "LPE"
    if "base" in t:
        return "Baseline"
    return t.upper()

# Какие названия колонок считаем "блоковыми"
BLOCK_KEYS = ("block", "trial", "round", "task", "stage", "level", "segment", "game")

def find_block_column(df: pd.DataFrame):
    """Пытаемся найти колонку, по которой можно порезать на блоки (2..50 уникальных значений).
       Возвращаем (orig_name, uniq_values) или (None, []).
    """
    if df is None or df.empty:
        return None, []
    # Сначала пробуем по "говорящим" названиям
    for c in df.columns:
        n = norm(c)
        if any(k in n for k in BLOCK_KEYS):
            vals = pd.Series(df[c]).dropna().unique().tolist()
            if 2 <= len(vals) <= 50:
                return c, vals
    # Если не нашли — пробуем все категориальные колонки "в разумных границах"
    for c in df.columns:
        vals = pd.Series(df[c]).dropna().unique().tolist()
        if 2 <= len(vals) <= 50 and pd.api.types.infer_dtype(vals) in ("string", "mixed", "categorical", "integer"):
            return c, vals
    return None, []

def try_read_csv(path):
    """Читаем CSV 'как есть'. Если не получается — возвращаем None, не падаем."""
    try:
        return pd.read_csv(path, low_memory=False)
    except Exception:
        return None

def build_rows_for_session_and_blocks(data_root, participant_id, cond, pdir):
    """Создаём:
       - session×modality строки для каждой существующей модальности
       - доп. block-строки для модальностей, где удаётся найти 'блоковую' колонку
         (обычно PERF и/или GAZE) — ТОЛЬКО для LPE/HPE.
    """
    base_row_common = {
        "dataset": "Engagnition",
        "participant_id": participant_id,
        "condition": cond,
        "source_dir": relp(pdir, data_root),

        # цели/таргеты — плейсхолдеры, без вычислений
        "activity_class": pd.NA,
        "engagement_level": pd.NA,
        "movement_intensity_raw": pd.NA,
        "movement_intensity_z": pd.NA,
        "movement_intensity_bin": pd.NA,

        # совместимость c MMASD
        "activity_prefix": pd.NA,
        "rel_path_openpose": pd.NA,

        # fairness плейсхолдеры
        "sex": pd.NA,
        "age_years": pd.NA,
        "age_group": pd.NA,

        # сплиты плейсхолдеры
        "split_seed": pd.NA,
        "split_iid": pd.NA,
        "split_lodo": pd.NA,
    }

    rows = []

    # ----- 1) session × modality -----
    for mod_name, filename, rel_col, has_col in MODS:
        fpath = os.path.join(pdir, filename)
        exists = os.path.isfile(fpath)

        row = base_row_common.copy()
        row["unit_level"] = "session"
        row["modality"] = mod_name
        row["sample_id"] = f"ENG_{participant_id}_{cond}_{mod_name}"
        # заполняем только свой путь + флаг
        row[rel_col] = relp(fpath, data_root) if exists else pd.NA
        row[has_col] = int(exists)
        # остальные rel_path_* оставим пустыми — они не нужны в строке "чужой" модальности
        rows.append(row)

    # ----- 2) block-уровень (только для LPE/HPE) -----
    if cond in ("LPE", "HPE"):
        for mod_name, filename, rel_col, has_col in MODS:
            if mod_name not in ("PERF", "GAZE"):
                continue  # блоки обычно описаны в PERF/GAZE
            fpath = os.path.join(pdir, filename)
            if not os.path.isfile(fpath):
                continue
            df = try_read_csv(fpath)
            col, uniq_vals = find_block_column(df)
            if not col:
                continue

            for v in uniq_vals:
                brow = base_row_common.copy()
                brow["unit_level"] = "block"
                brow["modality"] = mod_name
                # block_id приводим к строке без пробелов
                block_id = str(v).strip().replace(" ", "")
                brow["block_field"] = col
                brow["block_id"] = str(v)
                brow["sample_id"] = f"ENG_{participant_id}_{cond}_{mod_name}_B{block_id}"
                brow[rel_col] = relp(fpath, data_root)
                brow[has_col] = 1
                rows.append(brow)

    return rows

def collect_rows(data_root):
    eng_root = os.path.join(data_root, "Engagnition")
    rows = []
    for cond, cond_dir in CONDITION_DIRS.items():
        base = os.path.join(eng_root, cond_dir)
        if not os.path.isdir(base):
            continue

        for name in sorted(os.listdir(base)):
            if not name.upper().startswith("P"):
                continue
            pdir = os.path.join(base, name)
            if not os.path.isdir(pdir):
                continue

            participant_id = name  # 'Pxx'
            rows.extend(build_rows_for_session_and_blocks(data_root, participant_id, cond, pdir))

    return pd.DataFrame(rows, dtype="object")

# ======== XLSX (готовые значения, без вычислений) ========

def find_col(cols_map, predicate):
    for orig, n in cols_map.items():
        if predicate(n):
            return orig
    return None

def load_intervention_df(xlsx_path):
    if not os.path.isfile(xlsx_path):
        return pd.DataFrame()
    df0 = pd.read_excel(xlsx_path)
    if df0.empty:
        return pd.DataFrame()
    cols_map = {c: norm(c) for c in df0.columns}
    pid_col  = find_col(cols_map, lambda n: n.startswith("p") or "participant" in n or n in ("id","pid"))
    cond_col = find_col(cols_map, lambda n: n.startswith("condition"))
    type_col = find_col(cols_map, lambda n: "intervention" in n and "type" in n)
    ts_col   = find_col(cols_map, lambda n: "timestamp" in n or "timestamps" in n or "time" in n)
    if not pid_col or not cond_col:
        return pd.DataFrame()
    out = pd.DataFrame()
    out["participant_id"] = df0[pid_col].astype(str).str.upper().str.extract(r"(P\d+)")[0]
    out["condition"] = df0[cond_col].apply(normalize_condition)
    if type_col:
        out["intervention_type"] = df0[type_col]
    if ts_col:
        out["intervention_timestamps_raw"] = df0[ts_col].astype(str)
    return out.dropna(subset=["participant_id","condition"]).drop_duplicates(["participant_id","condition"])

def load_elapsed_df(xlsx_path):
    if not os.path.isfile(xlsx_path):
        return pd.DataFrame()
    df0 = pd.read_excel(xlsx_path)
    if df0.empty:
        return pd.DataFrame()
    cols_map = {c: norm(c) for c in df0.columns}
    pid_col  = find_col(cols_map, lambda n: n.startswith("p") or "participant" in n or n in ("id","pid"))
    cond_col = find_col(cols_map, lambda n: n.startswith("condition"))
    tot_col  = find_col(cols_map, lambda n: "totalsec" in n or "elapsed" in n or "durationsec" in n or "totaltime" in n)
    if not pid_col or not cond_col or not tot_col:
        return pd.DataFrame()
    out = pd.DataFrame()
    out["participant_id"] = df0[pid_col].astype(str).str.upper().str.extract(r"(P\d+)")[0]
    out["condition"] = df0[cond_col].apply(normalize_condition)
    out["elapsed_time_sec_total"] = df0[tot_col]
    return out.dropna(subset=["participant_id","condition"]).drop_duplicates(["participant_id","condition"])

def load_questionnaire_df(xlsx_path):
    if not os.path.isfile(xlsx_path):
        return pd.DataFrame()
    df0 = pd.read_excel(xlsx_path)
    if df0.empty:
        return pd.DataFrame()
    cols_map = {c: norm(c) for c in df0.columns}
    pid_col  = find_col(cols_map, lambda n: n.startswith("p") or "participant" in n or n in ("id","pid"))
    cond_col = find_col(cols_map, lambda n: n.startswith("condition"))
    sus_col  = find_col(cols_map, lambda n: "sus" in n and "total" in n)
    nasa_w   = find_col(cols_map, lambda n: "nasa" in n and "weighted" in n)
    nasa_u   = find_col(cols_map, lambda n: "nasa" in n and ("unweighted" in n or "raw" in n))
    if not pid_col or not cond_col:
        return pd.DataFrame()
    out = pd.DataFrame()
    out["participant_id"] = df0[pid_col].astype(str).str.upper().str.extract(r"(P\d+)")[0]
    out["condition"] = df0[cond_col].apply(normalize_condition)
    if sus_col:
        out["sus_total"] = df0[sus_col]
    if nasa_w:
        out["nasa_tlx_weighted"] = df0[nasa_w]
    if nasa_u:
        out["nasa_tlx_unweighted"] = df0[nasa_u]
    return out.dropna(subset=["participant_id","condition"]).drop_duplicates(["participant_id","condition"])

def main():
    ap = argparse.ArgumentParser()
    ap.add_argument("--data-root", required=True)
    ap.add_argument("--out", required=True)
    args = ap.parse_args()

    # 1) читаем текущую мету
    if os.path.isfile(args.out):
        meta = pd.read_csv(args.out, dtype="object")
    else:
        meta = pd.DataFrame(dtype="object")

    # 2) собираем расширенные строки ENGANITION
    eng = collect_rows(args.data_root)
    if eng.empty:
        print("[WARN] Engagnition не найден.")
        return

    # 3) подмешиваем ГОТОВЫЕ поля из XLSX (если есть)
    base = os.path.join(args.data_root, "Engagnition")
    inter_df   = load_intervention_df(os.path.join(base, "InterventionData.xlsx"))
    elapsed_df = load_elapsed_df(os.path.join(base, "Session Elapsed Time.xlsx"))
    quest_df   = load_questionnaire_df(os.path.join(base, "Subjective questionnaire.xlsx"))
    for extra in (inter_df, elapsed_df, quest_df):
        if not extra.empty:
            # Мержим по participant_id+condition — данные приклеятся ко всем
            # строкам этого участника/условия (и session, и block).
            eng = eng.merge(extra, on=["participant_id","condition"], how="left")

    # 4) удаляем прежние ENG_* строки, чтобы не плодить дубликаты
    if "sample_id" in meta.columns:
        before = len(meta)
        meta = meta[~meta["sample_id"].astype(str).str.startswith("ENG_")]
        removed = before - len(meta)
        if removed:
            print(f"[INFO] Удалены старые ENG-строки: {removed}")

    # 5) унифицируем колонки и сохраняем
    all_cols = list(dict.fromkeys(list(meta.columns) + list(eng.columns)))
    meta = meta.reindex(columns=all_cols)
    eng  = eng.reindex(columns=all_cols)

    out_df = pd.concat([meta, eng], ignore_index=True)
    out_df.to_csv(args.out, index=False, encoding="utf-8-sig")
    print(f"[OK] Добавлено ENG-строк: {len(eng)}; всего строк: {len(out_df)}")
    print(f"[OK] Сохранено: {args.out}")

if __name__ == "__main__":
    main()
