<a href="https://colab.research.google.com/github/rvkushnir/project_fifa_players/blob/main/notebooks/07_data_science__models_block.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ініціалізація середовища**

Клонуємо репозиторій з GitHub у /content, переходимо в корінь проєкту.
Це гарантує однакові шляхи для даних/виводів у всіх сесіях Colab.
Після клонування перевіряємо наявність data/raw/fifa_players.csv.
Вихід: робочий каталог → pwd = /content/project_fifa_players.

In [None]:
#  Ініціалізація середовища: клон репозиторію і перехід у робочу теку
REPO = "rvkushnir/project_fifa_players"
BRANCH = "main"
WORKDIR = "/content/project_fifa_players"

# чистий клон
!rm -rf "$WORKDIR"
!git clone --depth 1 -b "$BRANCH" "https://github.com/{REPO}.git" "$WORKDIR"
%cd "$WORKDIR"

# Якщо у репо використовується Git LFS (великі файли) — підтягнемо дані
!git lfs install 2>/dev/null || true
!git lfs pull 2>/dev/null || true

# Перевіримо, що CSV на місці
!ls -lah data/raw


Task20 — класифікація позиції гравця (set-based оцінювання)

Що прогнозуємо. Для кожного гравця є множина реальних позицій (з player_positions). Ми оцінюємо моделі за тим, чи потрапляє передбачена позиція в цю множину. Поле primary_position використовується лише як технічна single-label проксі для тренування частини моделей і діагностики; у метриках воно не має пріоритету.

Фічсети (дві стратегії)

A-48 (фіксований) — компактний, інтерпретований набір із 48 ознак:
базовий профіль (overall, potential, антропометрія, репутація, нога тощо) + 7 інтегральних індексів (pace_idx, dribble_idx, …, gk_idx) + помірний пул технічних ознак, добраний детерміновано (добираємо детальні скіли з найбільшою |corr| з overall як проксі якості) до рівно 48 фіч.
Перевага: стабільний і “легкий”; мета: сильна база без складного відбору.

B-42 (автовідбір) — 42 найінформативніші фічі з великого детального пулу (див. Task19).
Як відбирали (у Task19):

mutual_info_classif (агрегація важливості категорій назад на “сиру” фічу через максимум по one-hot стовпцях);

RandomForest importance, усереднена по 5-фолдовому CV (знову згортаємо важливості one-hot → сирі фічі);

комбінований рейтинг rank_sum = rank_MI + rank_RF;

анти-колінеарність: drop надлишково корельованих числових фіч (|r| ≥ 0.95);

беремо top-K = 42 → Task19_selected_features_B.csv.
Перевага: максимально інформативний під реальні дані.

Сценарії даних

no_leak — чисті ознаки.

with_leak — додаємо з RAW club_position/nation_position (оцінюємо вплив потенційного “витоку” доменної інформації).

Моделі

Плоскі (flat):

LR — LogisticRegression(lbfgs, C=1.5, max_iter=6000); сильна лінійна база, добре працює з OHE.

RF — RandomForest(n_estimators=600, min_samples_leaf=2); робастний до шуму, дає ймовірності.

HGB — HistGradientBoostingClassifier як швидкий сучасний бустинг.

XGB* — XGBClassifier(max_depth=6, lr=0.10, n_estimators≈650, subsample=0.8, colsample_bytree=0.8, tree_method="hist").
Якщо XGBoost недоступний, автоматично використовуємо HGB як фолбек.

Ієрархічні (group → position):

1. Класифікатор групи (GK/DEF/MID/FWD): P(g|x).

2. Усередині кожної групи — свій класифікатор позиції: P(pos|x, g).

3. Підсумок: P(pos∣x)=∑gP(g∣x)⋅P(pos∣x,g).
Навіщо: використовує природну таксономію позицій, зменшує плутанину між далекими класами.

Ансамблі (soft-vote):

Середнє по ймовірностях кількох flat-моделей (LR+HGB; LR+HGB+XGB).

Перед усередненням вирівнюємо порядок класів.

Калібрування ймовірностей: для дерев/бустингів — CalibratedClassifierCV(method="isotonic", cv=3) для кращого top-k.

Препроцесинг і CV

ColumnTransformer:
— числові → StandardScaler(with_mean=False);
— категоріальні → OneHotEncoder(handle_unknown="ignore").

5-фолдова StratifiedKFold за primary_position (стабільні класи у фолдах).

Фіксуємо сид: SEED=42.

Для XGB кодуємо цілі LabelEncoder з фіксованим простором міток.

Метрики (основний фокус — множини позицій)

acc_any — частка кейсів, де передбачена позиція ∈ множині реальних позицій гравця.

top2_any — хіт, якщо хоч одна з топ-2 передбачених позицій входить до множини реальних.

avg_cost_any — середній штраф: 0 якщо вгадали; 1 якщо промах, але група (DEF/MID/FWD/GK) збіглась з групою бодай однієї реальною позицією; 3 якщо промах і група інша.

Діагностика (single-label proxy): macro_f1, balanced_acc — лише щоб бачити, чи класифікатор у принципі “адекватний”; у висновках не використовуємо.

Метрики acc_primary та top2_acc вилучені — у задачі немає “головної” позиції; важливо влучити будь-яку реальну позицію.

Вивід

Детальні фолдові результати → out/tables/Task20_FULL_runs_detailed.csv.

Зведена таблиця (усереднено по фолдах) → out/tables/Task20_FULL_results_summary.csv.

Порівнюємо фічсети (A-48 vs B-42) і сценарії (no_leak vs with_leak) для кожного типу моделі.

In [None]:
#  Task20_FULL: All models (flat/hier/ensembles) on A-48 and B-42, leak/no_leak — set-based metrics only
from pathlib import Path
import warnings, numpy as np, pandas as pd
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import OneHotEncoder, StandardScaler, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score, balanced_accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import HistGradientBoostingClassifier, RandomForestClassifier
from sklearn.calibration import CalibratedClassifierCV
from sklearn.exceptions import ConvergenceWarning

SEED      = 42
N_SPLITS  = 5
CALIBRATE = True
RAW_CSV   = Path("data/raw/fifa_players.csv")
IN_FE     = Path("out/tables/Task18_features_train.csv")
SEL_B42   = Path("out/tables/Task19_selected_features_B.csv")  # B-42 з блоку 6
OUT_DIR   = Path("out/tables"); OUT_DIR.mkdir(parents=True, exist_ok=True)

warnings.filterwarnings("ignore", category=ConvergenceWarning)

#  Data
df = pd.read_csv(IN_FE, low_memory=False)
POS = df["primary_position"].astype(str)  # single-label proxy лише для тренування/діагностики

# Groups
DEF = {"CB","LB","RB","LWB","RWB"}
MID = {"CDM","CM","CAM","LM","RM"}
FWD = {"ST","CF","LW","RW"}
GMAP = {
    "GK":"GK",
    "CB":"DEF","LB":"DEF","RB":"DEF","LWB":"DEF","RWB":"DEF",
    "CDM":"MID","CM":"MID","CAM":"MID","LM":"MID","RM":"MID",
    "LW":"FWD","RW":"FWD","ST":"FWD","CF":"FWD"
}
def to_grp(p):
    p=str(p).upper()
    if p=="GK": return "GK"
    if p in DEF: return "DEF"
    if p in MID: return "MID"
    if p in FWD: return "FWD"
    return "OTHER"

# Для ієрархічної моделі потрібні групи на train-проксі
GRP = (df["role_group"].astype(str) if "role_group" in df.columns
       else df["primary_position"].astype(str).map(to_grp))

# LabelEncoder для XGB
LE_POS = LabelEncoder().fit(POS)

# match-any sets (істина)
assert RAW_CSV.exists(), "Немає RAW CSV: data/raw/fifa_players.csv"
raw_pos = (pd.read_csv(RAW_CSV, usecols=["sofifa_id","player_positions"])
             .drop_duplicates("sofifa_id"))
CANON15 = {"GK","CB","LB","RB","LWB","RWB","CDM","CM","CAM","LM","RM","LW","RW","ST","CF"}
def parse_positions_list(s: str) -> list[str]:
    if pd.isna(s): return []
    return [t.strip().upper() for t in str(s).split(",") if t.strip() and t.strip().upper() in CANON15]
pos_sets_map = {
    int(r.sofifa_id): parse_positions_list(r.player_positions)
    for r in raw_pos.itertuples(index=False)
}

#  Feature variants
# B-42 — з файлу
sel_B = pd.read_csv(SEL_B42)["feature"].tolist()
if len(sel_B) > 42: sel_B = sel_B[:42]

# A-48 — фіксований компактний набір (48 ознак)
def build_A48_alt(dfref) -> list:
    must_keep_front = [
        "overall","potential","age","height_cm","weight_kg",
        "weak_foot","skill_moves","international_reputation",
        "pace_idx","dribble_idx","playmake_idx","attack_idx","defend_idx","phys_idx","gk_idx",
        "work_rate","preferred_foot","body_type","work_att","work_def"
    ]
    cols = [c for c in must_keep_front if c in dfref.columns]
    # добираємо з технічних
    patterns = ("attacking_","skill_","movement_","mentality_","power_","defending_","goalkeeping_")
    detail = [c for c in dfref.columns if c.startswith(patterns)]
    num_detail = [c for c in detail if pd.api.types.is_numeric_dtype(dfref[c])]
    corr = dfref[num_detail].corrwith(dfref["overall"]).abs().sort_values(ascending=False)
    tail = [c for c in corr.index if c not in cols]
    for c in tail:
        if len(cols) >= 48: break
        cols.append(c)
    return cols[:48]

sel_A = build_A48_alt(df)

VARIANTS = {
    "B42": sel_B,
    "A48": sel_A
}

# ----------------------- Utils -----------------------
def OHE_dense():
    try:
        return OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        return OneHotEncoder(handle_unknown="ignore", sparse=False)

def make_preprocessor(X_cols, dfref):
    num_cols = [c for c in X_cols if pd.api.types.is_numeric_dtype(dfref[c])]
    cat_cols = [c for c in X_cols if not pd.api.types.is_numeric_dtype(dfref[c])]
    return ColumnTransformer([
        ("num", StandardScaler(with_mean=False), num_cols),
        ("cat", OHE_dense(), cat_cols)
    ], remainder="drop")

def maybe_calibrate(est):
    if not CALIBRATE:
        return est
    name = est.__class__.__name__.lower()
    if any(x in name for x in ["histgradientboosting","randomforest","xgb"]):
        return CalibratedClassifierCV(estimator=est, method="isotonic", cv=3)
    return est

def with_leak_df(df_in: pd.DataFrame, want_leak: bool):
    if not want_leak:
        return df_in.copy(), []
    if "sofifa_id" in df_in.columns and RAW_CSV.exists():
        raw = pd.read_csv(RAW_CSV, usecols=["sofifa_id","club_position","nation_position"]) \
                .drop_duplicates("sofifa_id").set_index("sofifa_id")
        df2 = df_in.copy()
        for c in ["club_position","nation_position"]:
            if c in raw.columns:
                df2[c] = df2["sofifa_id"].map(raw[c])
        leak_cols = [c for c in ["club_position","nation_position"] if c in df2.columns]
        return df2, leak_cols
    return df_in.copy(), []

# ---- set-based метрики ----
def acc_any_from_sets(yhat: np.ndarray, ids: np.ndarray) -> float:
    hits = []
    for i, p in enumerate(yhat):
        truths = set(pos_sets_map.get(int(ids[i]), []))
        hits.append(p in truths)
    return float(np.mean(hits)) if len(hits) else 0.0

def topk_acc_any(proba: np.ndarray, ids: np.ndarray, classes: np.ndarray, k: int = 2) -> float:
    topk_idx = np.argsort(proba, axis=1)[:, ::-1][:, :k]
    clmap = {i: c for i, c in enumerate(classes)}
    hits = []
    for i, row in enumerate(topk_idx):
        preds = {clmap[j] for j in row}
        truths = set(pos_sets_map.get(int(ids[i]), []))
        hits.append(len(preds & truths) > 0)
    return float(np.mean(hits)) if len(hits) else 0.0

def group_acc_any(yhat: np.ndarray, ids: np.ndarray) -> float:
    hits = []
    for i, p in enumerate(yhat):
        pred_g = GMAP.get(p, "OTHER")
        truths = set(pos_sets_map.get(int(ids[i]), []))
        true_g = {GMAP.get(t, "OTHER") for t in truths}
        hits.append(pred_g in true_g if true_g else False)
    return float(np.mean(hits)) if len(hits) else 0.0

COST = {"intra": 1.0, "cross": 3.0}
def avg_cost_any_from_sets(yhat: np.ndarray, ids: np.ndarray) -> float:
    costs = []
    for i, p in enumerate(yhat):
        truths = set(pos_sets_map.get(int(ids[i]), []))
        if not truths:
            costs.append(COST["cross"]); continue
        if p in truths:
            costs.append(0.0); continue
        pred_g = GMAP.get(p, "OTHER")
        true_g = {GMAP.get(t, "OTHER") for t in truths}
        costs.append(COST["intra"] if pred_g in true_g else COST["cross"])
    return float(np.mean(costs)) if len(costs) else 0.0

# unify proba to a given class order
def align_proba(P, src_classes, tgt_classes):
    idx = {c:i for i,c in enumerate(src_classes)}
    aligned = np.zeros((P.shape[0], len(tgt_classes)), dtype=float)
    for j, c in enumerate(tgt_classes):
        if c in idx:
            aligned[:, j] = P[:, idx[c]]
    return aligned

# ----------------------- Estimators -----------------------
USE_XGB = True
def make_flat_estimator(key):
    key = key.lower()
    if key == "flat_lr":
        return LogisticRegression(C=1.5, max_iter=6000, solver="lbfgs", n_jobs=-1, random_state=SEED)
    if key == "flat_rf":
        return RandomForestClassifier(n_estimators=600, min_samples_leaf=2, n_jobs=-1, random_state=SEED)
    if key in ["flat_hgb", "flat_xgb"]:
        if key == "flat_xgb" and USE_XGB:
            try:
                from xgboost import XGBClassifier
                return XGBClassifier(
                    objective="multi:softprob", eval_metric="mlogloss",
                    max_depth=6, learning_rate=0.10, n_estimators=650,
                    subsample=0.8, colsample_bytree=0.8,
                    tree_method="hist", n_jobs=-1, random_state=SEED
                )
            except Exception as e:
                print("[WARN] xgboost недоступний — фолбек на HGB:", e)
        return HistGradientBoostingClassifier(random_state=SEED)
    raise ValueError(f"Unknown model key: {key}")

def make_group_estimator():
    return HistGradientBoostingClassifier(random_state=SEED)

def make_pos_estimator(kind, n_classes):
    if n_classes <= 1:
        return None
    if kind == "xgb" and USE_XGB:
        try:
            from xgboost import XGBClassifier
            obj = "binary:logistic" if n_classes == 2 else "multi:softprob"
            evalm = "logloss" if n_classes == 2 else "mlogloss"
            return XGBClassifier(
                objective=obj, eval_metric=evalm,
                max_depth=6, learning_rate=0.10, n_estimators=500,
                subsample=0.8, colsample_bytree=0.8,
                tree_method="hist", n_jobs=-1, random_state=SEED
            )
        except Exception as e:
            print("[WARN] xgboost недоступний — фолбек на HGB:", e)
    return HistGradientBoostingClassifier(random_state=SEED)

# ----------------------- Runners -----------------------
def run_flat(model_key, df_use, X_cols, scenario):
    rows = []
    skf = StratifiedKFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)
    for fold, (tr, te) in enumerate(skf.split(df_use[X_cols], POS), 1):
        Xtr, Xte = df_use.iloc[tr][X_cols], df_use.iloc[te][X_cols]
        ytr, yte = POS.iloc[tr], POS.iloc[te]  # proxy лише для тренування/діагностики
        ids_te = df_use.iloc[te]["sofifa_id"].astype(int).values

        pre = make_preprocessor(X_cols, df_use)
        est = make_flat_estimator(model_key)

        use_le = (model_key == "flat_xgb" and hasattr(est, "fit") and est.__class__.__name__.lower().startswith("xgb"))
        est_c = maybe_calibrate(est)
        pipe = Pipeline([("prep", pre), ("clf", est_c)])

        if use_le:
            pipe.fit(Xtr, LE_POS.transform(ytr))
            proba = pipe.predict_proba(Xte)
            classes_lbl = LE_POS.inverse_transform(pipe.named_steps["clf"].classes_) \
                          if hasattr(pipe.named_steps["clf"], "classes_") else np.sort(POS.unique())
            yhat = classes_lbl[proba.argmax(axis=1)]
        else:
            pipe.fit(Xtr, ytr)
            proba = pipe.predict_proba(Xte)
            classes_lbl = pipe.named_steps["clf"].classes_
            yhat  = classes_lbl[proba.argmax(axis=1)]

        # метрики (усі set-based, крім діагностичних нижче)
        acc_a  = acc_any_from_sets(yhat, ids_te)
        t2a    = topk_acc_any(proba, ids_te, classes_lbl, k=2)
        gacc   = group_acc_any(yhat, ids_te)
        cost_a = avg_cost_any_from_sets(yhat, ids_te)

        # діагностика якості single-label класифікатора
        mF1    = f1_score(yte, yhat, average="macro")
        bacc   = balanced_accuracy_score(yte, yhat)

        rows.append({
            "scenario": scenario,
            "model": model_key,
            "features": float(len(X_cols)),
            "fold": float(fold),
            "acc_any": acc_a,
            "top2_any": t2a,
            "group_acc": gacc,
            "avg_cost_any": cost_a,
            "macro_f1": mF1,
            "balanced_acc": bacc
        })
    return rows

def run_hier(kind, df_use, X_cols, scenario):
    rows = []
    skf = StratifiedKFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)
    for fold, (tr, te) in enumerate(skf.split(df_use[X_cols], POS), 1):
        Xtr, Xte = df_use.iloc[tr][X_cols], df_use.iloc[te][X_cols]
        ytr_pos, yte_pos = POS.iloc[tr], POS.iloc[te]  # proxy
        ytr_grp = GRP.iloc[tr]
        ids_te = df_use.iloc[te]["sofifa_id"].astype(int).values

        # 1) груповий класифікатор
        pre_g   = make_preprocessor(X_cols, df_use)
        grp_est = maybe_calibrate(make_group_estimator())
        pipe_grp = Pipeline([("prep", pre_g), ("clf", grp_est)])
        pipe_grp.fit(Xtr, ytr_grp)
        grp_classes = pipe_grp.named_steps["clf"].classes_
        Pgrp_te = pipe_grp.predict_proba(Xte)

        # 2) моделі всередині груп
        pos_models = {}
        for g in ["GK","DEF","MID","FWD"]:
            idx_g = ytr_pos[ytr_pos.map(GMAP) == g].index
            if len(idx_g) < 20:
                continue
            Xg = df_use.loc[idx_g, X_cols]
            yg = ytr_pos.loc[idx_g]
            le_g = LabelEncoder().fit(yg)
            yg_enc = le_g.transform(yg)
            pre_p = make_preprocessor(X_cols, df_use)
            est_p = make_pos_estimator(kind, n_classes=len(le_g.classes_))
            if est_p is None:
                pos_models[g] = {"only": le_g.classes_[0]}
                continue
            est_p = maybe_calibrate(est_p)
            pipe_pos = Pipeline([("prep", pre_p), ("clf", est_p)])
            pipe_pos.fit(Xg, yg_enc)
            pos_models[g] = {"pipe": pipe_pos, "le": le_g}

        # 3) змішування
        unique_pos = np.array(sorted(POS.unique()))
        pos_index  = {p:i for i,p in enumerate(unique_pos)}
        Ppos_te    = np.zeros((len(Xte), len(unique_pos)))

        for gi, gname in enumerate(grp_classes):
            if gname not in pos_models:
                continue
            info = pos_models[gname]
            if "only" in info:
                only = info["only"]
                Ppos_te[:, pos_index[only]] += Pgrp_te[:, gi]
                continue
            P_cond = info["pipe"].predict_proba(Xte)
            cl_names = info["le"].inverse_transform(np.arange(P_cond.shape[1]))
            for ci, cname in enumerate(cl_names):
                Ppos_te[:, pos_index[cname]] += Pgrp_te[:, gi] * P_cond[:, ci]

        yhat_pos = unique_pos[Ppos_te.argmax(axis=1)]
        # set-based метрики
        acc_a  = acc_any_from_sets(yhat_pos, ids_te)
        t2a    = topk_acc_any(Ppos_te, ids_te, unique_pos, k=2)
        gacc   = group_acc_any(yhat_pos, ids_te)
        cost_a = avg_cost_any_from_sets(yhat_pos, ids_te)
        # діагностика
        mF1    = f1_score(yte_pos, yhat_pos, average="macro")
        bacc   = balanced_accuracy_score(yte_pos, yhat_pos)

        rows.append({
            "scenario": scenario,
            "model": f"hier_{kind}",
            "features": float(len(X_cols)),
            "fold": float(fold),
            "acc_any": acc_a,
            "top2_any": t2a,
            "group_acc": gacc,
            "avg_cost_any": cost_a,
            "macro_f1": mF1,
            "balanced_acc": bacc
        })
    return rows

def run_ens(models, df_use, X_cols, scenario, name):
    """Soft-vote по ймовірностях FLAT моделей; метрики — лише set-based + діагностика."""
    rows = []
    skf = StratifiedKFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)
    for fold, (tr, te) in enumerate(skf.split(df_use[X_cols], POS), 1):
        Xtr, Xte = df_use.iloc[tr][X_cols], df_use.iloc[te][X_cols]
        ytr, yte = POS.iloc[tr], POS.iloc[te]  # proxy
        ids_te = df_use.iloc[te]["sofifa_id"].astype(int).values

        classes_all = np.array(sorted(POS.unique()))
        P_list = []

        for key in models:
            pre = make_preprocessor(X_cols, df_use)
            est = make_flat_estimator(key)
            est_c = maybe_calibrate(est)
            pipe = Pipeline([("prep", pre), ("clf", est_c)])

            if key == "flat_xgb" and hasattr(est, "fit") and est.__class__.__name__.lower().startswith("xgb"):
                pipe.fit(Xtr, LE_POS.transform(ytr))
                P = pipe.predict_proba(Xte)
                cls = LE_POS.inverse_transform(pipe.named_steps["clf"].classes_) \
                      if hasattr(pipe.named_steps["clf"], "classes_") else classes_all
            else:
                pipe.fit(Xtr, ytr)
                P = pipe.predict_proba(Xte)
                cls = pipe.named_steps["clf"].classes_

            P_al = align_proba(P, cls, classes_all)
            P_list.append(P_al)

        P_avg = np.mean(P_list, axis=0)
        yhat = classes_all[P_avg.argmax(axis=1)]

        # set-based
        acc_a  = acc_any_from_sets(yhat, ids_te)
        t2a    = topk_acc_any(P_avg, ids_te, classes_all, k=2)
        gacc   = group_acc_any(yhat, ids_te)
        cost_a = avg_cost_any_from_sets(yhat, ids_te)
        # діагностика
        mF1    = f1_score(yte, yhat, average="macro")
        bacc   = balanced_accuracy_score(yte, yhat)

        rows.append({
            "scenario": scenario,
            "model": name,
            "features": float(len(X_cols)),
            "fold": float(fold),
            "acc_any": acc_a,
            "top2_any": t2a,
            "group_acc": gacc,
            "avg_cost_any": cost_a,
            "macro_f1": mF1,
            "balanced_acc": bacc
        })
    return rows

# ----------------------- Master run -----------------------
all_rows = []

for var_name, feat_list in VARIANTS.items():
    for want_leak in [False, True]:
        df_use, leak_cols = with_leak_df(df, want_leak)
        X_cols = [c for c in feat_list if c in df_use.columns] + leak_cols
        scenario = f"{var_name}_{'with_leak' if want_leak else 'no_leak'}"
        print(f"[{scenario}] Using {len(X_cols)} features")

        # FLAT
        for key in ["flat_lr", "flat_rf", "flat_hgb", "flat_xgb"]:
            try:
                all_rows.extend(run_flat(key, df_use, X_cols, scenario))
            except Exception as e:
                print(f"[WARN] skip {key} @ {scenario}: {e}")

        # HIER
        for kind in (["xgb","hgb"] if True else ["hgb"]):
            try:
                all_rows.extend(run_hier(kind, df_use, X_cols, scenario))
            except Exception as e:
                print(f"[WARN] skip hier_{kind} @ {scenario}: {e}")

        # ENSEMBLES
        try:
            all_rows.extend(run_ens(["flat_lr","flat_hgb"], df_use, X_cols, scenario, name="ens_lr_hgb"))
        except Exception as e:
            print(f"[WARN] skip ens_lr_hgb @ {scenario}: {e}")
        try:
            all_rows.extend(run_ens(["flat_lr","flat_hgb","flat_xgb"], df_use, X_cols, scenario, name="ens_lr_xgb_hgb"))
        except Exception as e:
            print(f"[WARN] skip ens_lr_xgb_hgb @ {scenario}: {e}")

res = pd.DataFrame(all_rows)
res.to_csv(OUT_DIR/"Task20_FULL_runs_detailed.csv", index=False)

grp = (res.groupby(["scenario","model"], as_index=False)
         .mean(numeric_only=True)
         .sort_values(["scenario","acc_any"], ascending=[True, False]))
grp.to_csv(OUT_DIR/"Task20_FULL_results_summary.csv", index=False)

print("\n=== SUMMARY (усереднено по фолдах) — ключові set-метрики ===")
print(
  grp[["scenario","model","features","acc_any","top2_any","group_acc","avg_cost_any","macro_f1","balanced_acc"]]
  .round(4).to_string(index=False)
)
print(f"\n[OK] Saved: {OUT_DIR/'Task20_FULL_runs_detailed.csv'} and {OUT_DIR/'Task20_FULL_results_summary.csv'}")


Висновки по Task20 (single-label, set-метрики)

Головна метрика — acc_any (вгадали будь-яку із позицій гравця).

Без підгляду (no_leak): найкраще A48_no_leak • ens_lr_hgb → 0.8807; B42_no_leak • ens_lr_hgb майже ідентично → 0.8803.

З підглядом (with_leak): найкраще B42_with_leak • ens_lr_hgb → 0.9007, A48_with_leak • ens_lr_hgb → 0.9002.

Що дає “leak” (club_position / nation_position):

acc_any зростає приблизно на +0.020 (≈ +2 п.п.).

avg_cost_any падає на ~0.035 (з ~0.206 → ~0.171), тобто помилки стають «дешевшими» за рахунок прямого підказування.

top2_any зростає на ~+1.0 п.п. (≈ 0.947 → 0.958).

Додаткові класифікаційні метрики (macro_f1/balanced_acc) теж підростають, але вони вторинні для нашої бізнес-мети.

Чому так краще не робити у проді:

club_position/nation_position — це фактично проксі таргету (часто прямо входять у список реальних позицій гравця).

Така ознака недоступна або нелегітимна в інференсі «за скілами» (калькулятор амплуа від атрибутів), тож ми отримуємо завищені офлайн-оцінки і ризик деградації на нових даних.

Є ризик витоку по часовій осі (оновлені ролі клубу/збірної вже «знають» поточну позицію) та перенавчання на метадані замість реальних навичок.

A48 vs B42:
Обидва фічсети дають практично однаковий рівень якості у всіх сценаріях (різниця в межах ±0.1 п.п.).

A48 — фіксований, інтерпретований набір (48 ознак).

B42 — авто-відбір (MI+RF, CV) — компактніший (41–43 після включення/виключення leak-колонок).

По моделях:

Плоскі моделі (особливо LR та ансамбль ens_lr_hgb) стабільно кращі.

Ієрархія (group→position) програє ~1.5–3.0 п.п. по acc_any (накопичуються помилки на двох рівнях).

XGB у нас не домінує над LR/HGB на цих фіча-матрицях.

Task20 — Мультилейбл класифікація позицій гравця (set-based + вартісна метрика)

Що прогнозуємо. Для кожного гравця відома множина реальних позицій T з поля player_positions (канонічні 15 ярликів). Модель повертає набір передбачених позицій P (до K штук, типово K=3). Мета — мінімізувати сумарний штраф за невідповідність множин, а не “вгадати одну головну” позицію.

Простір ярликів і групи

Використовуємо 15 канонічних позицій: GK, CB, LB, RB, LWB, RWB, CDM, CM, CAM, LM, RM, LW, RW, ST, CF.
Для кожної позиції визначено групу: GK окремо; DEF = {CB, LB, RB, LWB, RWB}; MID = {CDM, CM, CAM, LM, RM}; FWD = {LW, RW, ST, CF}. Групи потрібні для градуйованих штрафів.

Головна метрика: вартісна avg_set_cost (нижче — краще)

Штраф рахується покомпонентно за зайві передбачення (FP) та пропущені істинні ярлики (FN). Для кожного гравця з істинною множиною T і предиктом P:

За кожен FP p ∈ P \ T:

якщо group(p) збігається з хоч однією групою з T → +1.0 (помилка всередині правильної лінії),

якщо group(p) інша за всі групи в T → +3.0 (переплутали лінії),

якщо це польовий ↔ GK (напр., передбачили GK, коли в T лише DEF/MID/FWD, або навпаки) → +5.0 (найсильніший штраф).

За кожен FN t ∈ T \ P → +2.0 (пропустили реальну позицію).

Пер-зразковий штраф: set_cost(T,P)=p∈P∖T∑​cFP​(p,T)+t∈T∖P∑​2.0

Нормалізація (для зіставності між виборами K): set_cost_norm(T,P)=2⋅∣T∣+5⋅Kset_cost(T,P)​ ∈[0,1] де знаменник — “гірша межа” (пропустили всі істинні + передбачили K максимально хибних GK-помилок).
Головний показник у звітах: avg_set_cost_norm (середнє по вибірці).

Ця метрика прямо відбиває бізнес-вимогу: зайва позиція — погано, пропуск — теж погано; переплутати лінії гірше, а польовий↔GK — найгірше. Ідеал — P == T (нульовий штраф).

Додаткові діагностики (для інтерпретації)

acc_any — чи перетинаються множини (|P∩T|>0), інтуїтивний “хіт бодай по одній”.

jaccard_samples — середній Jaccard |P∩T|/|P∪T|.

micro_f1, macro_f1, hamming_loss — стандартні мультилейбл-метрики для звичного порівняння.

У висновках пріоритезуємо avg_set_cost_norm; інші — як допоміжні.

Керування кардинальністю (скільки ярликів прогнозуємо)

Модель повертає ймовірності по 15 ярликах. Далі:

Тюнінг порогів по кожному ярлику на валідації (сітка 0.2–0.5) для кращого F1 всередині класу.

Обмеження кардинальності: лишаємо ярлики ≥ threshold, але обрізаємо до K найбільш імовірних (типово K=3). Якщо жоден не проходить — беремо топ-1 як fallback.

Це дисциплінує |P| і напряму зменшує FP-штрафи.

Моделі й препроцесинг

One-Vs-Rest над базовими класифікаторами:

LR (lbfgs, C≈1.5, max_iter≈3000–6000),

HGB (HistGradientBoostingClassifier).

Калібрування ймовірностей усередині OVR: CalibratedClassifierCV(method="sigmoid", cv=3) — стабільніші пороги.

Пайплайн: ColumnTransformer → числові StandardScaler(with_mean=False), категоріальні OneHotEncoder(handle_unknown="ignore").

CV: KFold(n_splits=5, shuffle=True, random_state=42).

Вхідні ярлики конструюємо з player_positions (фільтр до канонічних 15), MultiLabelBinarizer.

Вивід артефактів

Фолдові метрики → out/tables/Task20_multilabel_folds.csv.

Зведені середні → out/tables/Task20_multilabel_results.csv.
У таблицях головні колонки: avg_set_cost_norm (↓), acc_any (↑), jaccard_samples (↑), micro_f1, macro_f1, hamming_loss.

In [None]:
#  Task20: Multilabel позиції — головна метрика avg_set_cost_norm
from pathlib import Path
import warnings, numpy as np, pandas as pd

from sklearn.model_selection import KFold
from sklearn.preprocessing import OneHotEncoder, StandardScaler, MultiLabelBinarizer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.metrics import f1_score, hamming_loss, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import HistGradientBoostingClassifier
from sklearn.calibration import CalibratedClassifierCV
from sklearn.multiclass import OneVsRestClassifier
from sklearn.exceptions import ConvergenceWarning

# ----------------------- Конфіг ----------------------------------------------
SEED        = 42
N_SPLITS    = 5
CALIBRATE   = True            # калібрування для небінарних базових (HGB)
K_CAP       = 3               # верхня межа кількості предиктів на гравця (обрізаємо до топ-K)
THR_GRID    = (0.2, 0.3, 0.4, 0.5)  # сітка для тюнінгу порогів по кожному ярлику

# Ваги штрафів (бізнес-логіка)
FP_INTRA    = 1.0   # зайва позиція в межах правильної лінії
FP_CROSS    = 3.0   # зайва позиція з іншої лінії
FP_GK       = 5.0   # польовий ↔ GK (найгірший хибний позитив)
FN_W        = 2.0   # пропуск істинної позиції

# Канонічні ярлики і групи
CANON15 = ["GK","CB","LB","RB","LWB","RWB","CDM","CM","CAM","LM","RM","LW","RW","ST","CF"]
CANON15_SET = set(CANON15)

DEF = {"CB","LB","RB","LWB","RWB"}
MID = {"CDM","CM","CAM","LM","RM"}
FWD = {"ST","CF","LW","RW"}
def group_of(pos: str) -> str:
    p = str(pos).upper()
    if p == "GK": return "GK"
    if p in DEF:  return "DEF"
    if p in MID:  return "MID"
    if p in FWD:  return "FWD"
    return "OTHER"

# Шляхи
RAW_CSV   = Path("data/raw/fifa_players.csv")
IN_FE     = Path("out/tables/Task18_features_train.csv")
IN_SEL_B  = Path("out/tables/Task19_selected_features_B.csv")  # використовуємо лише B
OUT       = Path("out/tables"); OUT.mkdir(parents=True, exist_ok=True)

# ----------------------- Дані -------------------------------------------------
warnings.filterwarnings("ignore", category=ConvergenceWarning)

df = pd.read_csv(IN_FE, low_memory=False)
sel = pd.read_csv(IN_SEL_B)["feature"].tolist()  # фічсет B (автовідбір)

# Парсинг множин позицій із player_positions
def parse_positions(s):
    if pd.isna(s): return []
    toks = [t.strip().upper() for t in str(s).split(",") if t.strip()]
    return [t for t in toks if t in CANON15_SET]

# Патч: якщо немає або частково відсутні 'player_positions' у train-матриці — доточуємо з RAW
need_patch = ("player_positions" not in df.columns) or df["player_positions"].isna().any()
if need_patch:
    if not RAW_CSV.exists():
        raise FileNotFoundError("Немає RAW (data/raw/fifa_players.csv), щоб заповнити 'player_positions'.")
    raw_pp = (pd.read_csv(RAW_CSV, usecols=["sofifa_id","player_positions"], low_memory=False)
                .drop_duplicates("sofifa_id").set_index("sofifa_id"))
    before = df.shape[0]
    miss_before = df["player_positions"].isna().sum() if "player_positions" in df.columns else df.shape[0]
    df = df.set_index("sofifa_id")
    if "player_positions" not in df.columns:
        df["player_positions"] = np.nan
    df.loc[df["player_positions"].isna(), "player_positions"] = raw_pp.reindex(df.index)["player_positions"]
    df = df.reset_index()
    miss_after = df["player_positions"].isna().sum()


if "player_positions" not in df.columns:
    raise ValueError("Немає 'player_positions' у Task18_features_train.csv — потрібен для мультилейбл-цілі.")

y_sets = df["player_positions"].apply(parse_positions)
mask_ok = y_sets.apply(lambda xs: len(xs) > 0)
df = df.loc[mask_ok].copy()
y_sets = y_sets.loc[mask_ok]

# Ознаки: лише ті, що реально є в df
base_feats = [c for c in sel if c in df.columns]
if not base_feats:
    raise ValueError("Порожній набір ознак: жодної з вибраних фіч із Task19_selected_features_B.csv не знайдено в матриці.")
X = df[base_feats].copy()

# ----------------------- Препроцесинг ----------------------------------------
def make_preprocessor(X_ref: pd.DataFrame):
    num_cols = [c for c in X_ref.columns if pd.api.types.is_numeric_dtype(X_ref[c])]
    cat_cols = [c for c in X_ref.columns if not pd.api.types.is_numeric_dtype(X_ref[c])]
    return ColumnTransformer([
        ("num", StandardScaler(with_mean=False), num_cols),
        ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=False), cat_cols)
    ], remainder="drop")

mlb = MultiLabelBinarizer(classes=CANON15)
Y = mlb.fit_transform(y_sets)

# ----------------------- Базові моделі ----------------------------------------
def make_base_est(kind="hgb"):
    if kind == "lr":
        return LogisticRegression(
            C=1.5, max_iter=6000, solver="lbfgs", n_jobs=-1, random_state=SEED
        )
    # default → HGB + калібрування (дає надійніші predict_proba в OVR)
    est = HistGradientBoostingClassifier(random_state=SEED)
    if CALIBRATE:
        est = CalibratedClassifierCV(estimator=est, method="sigmoid", cv=3)
    return est

# ----------------------- Тюнінг порогів і обрізання до K ----------------------
def choose_thresholds(y_true_bin, y_proba, grid=THR_GRID):
    thr = np.full(y_proba.shape[1], 0.5, dtype=float)
    for j in range(y_proba.shape[1]):
        yt = y_true_bin[:, j]
        if yt.sum() == 0:
            thr[j] = 0.5
            continue
        pj = y_proba[:, j]
        best_f1, best_t = -1.0, 0.5
        for t in grid:
            pred = (pj >= t).astype(int)
            f1 = f1_score(yt, pred, zero_division=0)
            if f1 > best_f1:
                best_f1, best_t = f1, t
        thr[j] = best_t
    return thr

def apply_thresholds_limit(P_val, thr, k_cap=K_CAP):
    """Пороги по класах + обрізання до топ-k_cap. Якщо нічого не пройшло — беремо топ-1."""
    Yb = (P_val >= thr[np.newaxis, :]).astype(int)
    Yhat = np.zeros_like(Yb)
    for i in range(P_val.shape[0]):
        idx = np.where(Yb[i] == 1)[0].tolist()
        if len(idx) == 0:
            j = int(np.argmax(P_val[i]))
            idx = [j]
        if len(idx) > k_cap:
            order = np.argsort(P_val[i][idx])[::-1][:k_cap]
            idx = [idx[o] for o in order]
        Yhat[i, idx] = 1
    return Yhat

# ----------------------- Вартісна метрика -------------------------------------
def set_cost_one(T_labels: list[str], P_labels: list[str]) -> float:
    """Ненормована вартість для одного гравця (чим менше — тим краще)."""
    T = set(T_labels)
    P = set(P_labels)

    # FP
    cost = 0.0
    T_groups = {group_of(t) for t in T}
    has_gk_T = ("GK" in T_groups)
    for p in (P - T):
        gp = group_of(p)
        # польовий ↔ GK
        if (gp == "GK" and not has_gk_T) or (gp != "GK" and has_gk_T):
            cost += FP_GK
        else:
            cost += FP_INTRA if gp in T_groups else FP_CROSS

    # FN
    fn = len(T - P)
    cost += FN_W * fn
    return cost

def avg_set_cost_norm(Y_true_bin: np.ndarray, Y_pred_bin: np.ndarray, classes: list[str], k_cap=K_CAP):
    """Середня нормована вартість (↓ краще). Нормалізуємо на FN_W*|T| + FP_GK*K_cap для кожного зразка."""
    costs, norms = [], []
    for i in range(Y_true_bin.shape[0]):
        T = [classes[j] for j in np.where(Y_true_bin[i] == 1)[0]]
        P = [classes[j] for j in np.where(Y_pred_bin[i] == 1)[0]]
        c = set_cost_one(T, P)
        denom = FN_W * len(T) + FP_GK * k_cap
        denom = max(denom, 1e-9)
        costs.append(c)
        norms.append(c / denom)
    return float(np.mean(costs)), float(np.mean(norms))

def acc_any(y_true_bin, y_pred_bin):
    inter = ((y_true_bin & y_pred_bin).sum(axis=1) > 0)
    return float(inter.mean())

def jaccard_samples(y_true_bin, y_pred_bin):
    inter = (y_true_bin & y_pred_bin).sum(axis=1)
    union = (y_true_bin | y_pred_bin).sum(axis=1)
    union = np.where(union == 0, 1, union)
    return float((inter / union).mean())

# ----------------------- Крос-вал і оцінка ------------------------------------
def run_multilabel(kind="hgb"):
    kf = KFold(n_splits=N_SPLITS, shuffle=True, random_state=SEED)
    rows = []
    for fold, (tr, te) in enumerate(kf.split(X), 1):
        Xtr, Xte = X.iloc[tr], X.iloc[te]
        Ytr, Yte = Y[tr], Y[te]

        pre  = make_preprocessor(Xtr)
        base = make_base_est(kind)
        clf  = OneVsRestClassifier(base, n_jobs=-1)
        pipe = Pipeline([("prep", pre), ("clf", clf)])

        # навчання
        pipe.fit(Xtr, Ytr)

        # ймовірності для тюнінгу порогів
        try:
            P_val = pipe.predict_proba(Xte)
        except Exception:
            try:
                D_val = pipe.decision_function(Xte)
                P_val = 1.0 / (1.0 + np.exp(-D_val))
            except Exception:
                P_val = pipe.predict(Xte).astype(float)

        thr = choose_thresholds(Yte, P_val, grid=THR_GRID)
        Yhat = apply_thresholds_limit(P_val, thr, k_cap=K_CAP)

        # метрики
        subset_acc = accuracy_score(Yte, Yhat)                 # повний збіг множин
        micro_f1   = f1_score(Yte, Yhat, average="micro", zero_division=0)
        macro_f1   = f1_score(Yte, Yhat, average="macro", zero_division=0)
        ham_loss   = hamming_loss(Yte, Yhat)
        jacc       = jaccard_samples(Yte, Yhat)
        any_hit    = acc_any(Yte, Yhat)
        cost_raw, cost_norm = avg_set_cost_norm(Yte, Yhat, classes=list(mlb.classes_), k_cap=K_CAP)

        rows.append({
            "feat_set": "B", "model": f"ovr_{kind}",
            "fold": float(fold),
            "subset_acc": subset_acc,
            "micro_f1": micro_f1,
            "macro_f1": macro_f1,
            "hamming_loss": ham_loss,
            "jaccard_samples": jacc,
            "acc_any": any_hit,
            "avg_set_cost": cost_raw,
            "avg_set_cost_norm": cost_norm,
            "avg_true_card": float(Yte.sum(axis=1).mean()),
            "avg_pred_card": float(Yhat.sum(axis=1).mean()),
            "n_features": float(len(base_feats)),
            "K_cap": float(K_CAP)
        })
    return pd.DataFrame(rows)

warnings.filterwarnings("ignore")

res_lr  = run_multilabel("lr")
res_hgb = run_multilabel("hgb")

res = pd.concat([res_lr, res_hgb], ignore_index=True)
res_grp = (res.groupby(["feat_set","model"], as_index=False)
              .mean(numeric_only=True)
              .sort_values(["avg_set_cost_norm","jaccard_samples","acc_any"],
                           ascending=[True, False, False]))

# збереження
res.to_csv(OUT/"Task20_multilabel_folds.csv", index=False)
res_grp.to_csv(OUT/"Task20_multilabel_results.csv", index=False)

# друк (додаємо subset_acc у підсумковий звіт)
cols = ["feat_set","model","n_features","K_cap",
        "avg_set_cost_norm","avg_set_cost",
        "jaccard_samples","acc_any","subset_acc","micro_f1","macro_f1","hamming_loss",
        "avg_true_card","avg_pred_card"]
print(res_grp[cols].round(4).to_string(index=False))
print(f"[OK] Saved: {OUT/'Task20_multilabel_folds.csv'}, {OUT/'Task20_multilabel_results.csv'}")


Мета блоку: запакувати найкращу одноярликову модель у форматі, готовому до прод-інференсу (Streamlit/скрипт), разом з метаданими.

Що робить:

Читає Task20_FULL_results_summary.csv, знаходить найкращий flat-варіант серед flat_lr, flat_hgb, flat_rf за acc_any.

Відновлює точний сценарій (A48/B42 × with_leak/no_leak), збирає правильний фічсет.

Навчає повний пайплайн (preprocessor + classifier) на всьому train-наборі; для дерев/бустінгу — калібрує (isotonic, CV=3).

Зберігає в models/:

task20_singlelabel_<scenario>_<model>_<timestamp>.pkl — sklearn-пайплайн (готовий predict_proba/predict).

task20_singlelabel_<...>.metadata.json — класи, список ознак, сценарій, прапор калібрування, тощо.

Навіщо так: таймштамповані файли не перезаписують попередні артефакти та полегшують відкат/аудит. Метадані потрібні для відтворюваності та сервісу.

Примітки:

Якщо найкращим виявився ансамбль/ієрархія/flat_xgb, блок автоматично візьме наступний кращий підтримуваний flat.

Висновки (multilabel, фічсет B, K_cap=3)

Найкраще спрацювала OVR-Logistic Regression:

avg_set_cost_norm ↓ 0.0980 (нижче = краще) — на ~13% менше штрафу, ніж у HGB (0.1128).

subset_acc ↑ 0.4358 проти 0.4038 у HGB — майже у 44% кейсів ми відтворюємо повний список позицій гравця.

Узгоджені додаткові метрики:

acc_any = 0.9535 — у 95% випадків вгадуємо хоч одну з істинних позицій.

jaccard_samples = 0.6696 — у середньому ~2/3 перетину між істинним та передбаченим множинами.

micro_f1 = 0.7031, macro_f1 = 0.5859, hamming_loss = 0.0694.

Кардинальність множин: істина avg_true_card = 1.66, прогноз avg_pred_card = 1.84 — помірна схильність до надлишкових передбачених позицій, але в межах наших штрафів це прийнятний компроміс: низький avg_set_cost_norm підтверджує, що «зайві» позиції здебільшого не коштують дорого.

Бізнес-інтерпретація.
Модель LR забезпечує низьку середню вартість помилок і високу практичну корисність: у 95% гравців вона потрапляє в одну з їхніх позицій, а майже в половині випадків — відтворює весь набір. Це робить її хорошим вибором за нашою головною метрикою avg_set_cost_norm (мінімізуємо штрафи) при збереженні адекватної точності повного збігу (subset_acc).

In [None]:
# === (Optional) Export best single-label model (flat LR/HGB/RF) + metadata ===
import json, time, joblib
from pathlib import Path
import numpy as np, pandas as pd
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler, LabelEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, HistGradientBoostingClassifier
from sklearn.calibration import CalibratedClassifierCV

SEED = 42
CALIBRATE = True

RAW_CSV = Path("data/raw/fifa_players.csv")
IN_FE   = Path("out/tables/Task18_features_train.csv")
SUM_CSV = Path("out/tables/Task20_FULL_results_summary.csv")
SEL_B42 = Path("out/tables/Task19_selected_features_B.csv")  # 42 фічі з блоку 6
OUTM    = Path("models"); OUTM.mkdir(exist_ok=True, parents=True)

SUPPORTED_FLAT = {"flat_lr", "flat_hgb", "flat_rf"}  # що вміємо пакувати

# --- helpers ---
def OHE_dense():
    try:
        return OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        return OneHotEncoder(handle_unknown="ignore", sparse=False)

def make_preprocessor(X_cols, dfref):
    num_cols = [c for c in X_cols if pd.api.types.is_numeric_dtype(dfref[c])]
    cat_cols = [c for c in X_cols if not pd.api.types.is_numeric_dtype(dfref[c])]
    return ColumnTransformer([
        ("num", StandardScaler(with_mean=False), num_cols),
        ("cat", OHE_dense(), cat_cols)
    ], remainder="drop")

def with_leak_df(df_in: pd.DataFrame, want_leak: bool):
    if not want_leak:
        return df_in.copy(), []
    if "sofifa_id" in df_in.columns and RAW_CSV.exists():
        raw = (pd.read_csv(RAW_CSV, usecols=["sofifa_id","club_position","nation_position"])
                 .drop_duplicates("sofifa_id").set_index("sofifa_id"))
        df2 = df_in.copy()
        leak_cols = []
        for c in ["club_position","nation_position"]:
            if c in raw.columns:
                df2[c] = df2["sofifa_id"].map(raw[c])
                leak_cols.append(c)
        return df2, leak_cols
    return df_in.copy(), []

def make_estimator(key):
    if key == "flat_lr":
        return LogisticRegression(C=1.5, max_iter=6000, solver="lbfgs", n_jobs=-1, random_state=SEED)
    if key == "flat_rf":
        return RandomForestClassifier(n_estimators=600, min_samples_leaf=2, n_jobs=-1, random_state=SEED)
    if key == "flat_hgb":
        return HistGradientBoostingClassifier(random_state=SEED)
    raise ValueError("Unsupported model for export")

def build_A48_alt(dfref):
    # фіксований каркас + добір технічних до 48
    must = ["overall","potential","age","height_cm","weight_kg",
            "weak_foot","skill_moves","international_reputation",
            "pace_idx","dribble_idx","playmake_idx","attack_idx","defend_idx","phys_idx","gk_idx",
            "work_rate","preferred_foot","body_type","work_att","work_def"]
    cols = [c for c in must if c in dfref.columns]
    patterns = ("attacking_","skill_","movement_","mentality_","power_","defending_","goalkeeping_")
    detail = [c for c in dfref.columns if c.startswith(patterns)]
    num_detail = [c for c in detail if pd.api.types.is_numeric_dtype(dfref[c])]
    if "overall" in dfref.columns and len(num_detail) > 0:
        corr = dfref[num_detail].corrwith(dfref["overall"]).abs().sort_values(ascending=False)
        for c in corr.index:
            if len(cols) >= 48: break
            if c not in cols:
                cols.append(c)
    return cols[:48]

# --- pick best supported flat setup by acc_any ---
summary = pd.read_csv(SUM_CSV)
cand = summary[summary["model"].isin(SUPPORTED_FLAT)].copy()
if cand.empty:
    raise RuntimeError("Немає жодної підтримуваної плоскої моделі для експорту (flat_lr/flat_hgb/flat_rf).")
best = cand.sort_values(["acc_any"], ascending=False).iloc[0]
scenario = best["scenario"]  # e.g., A48_with_leak
model_key = best["model"]    # flat_lr / flat_hgb / flat_rf
print(f"[best for export] scenario={scenario}, model={model_key}, acc_any={best['acc_any']:.4f}")

# --- load data & features for that scenario ---
df = pd.read_csv(IN_FE, low_memory=False)
POS = df["primary_position"].astype(str)

sel_B = pd.read_csv(SEL_B42)["feature"].tolist()
sel_B = sel_B[:42] if len(sel_B) > 42 else sel_B
sel_A = build_A48_alt(df)

if scenario.startswith("B42_"):
    feat_list = sel_B
elif scenario.startswith("A48_"):
    feat_list = sel_A
else:
    raise ValueError(f"Unknown scenario prefix in '{scenario}' (expect A48_* or B42_*)")

want_leak = scenario.endswith("_with_leak")
df_use, leak_cols = with_leak_df(df, want_leak)
X_cols = [c for c in feat_list if c in df_use.columns] + leak_cols
print(f"[export] Using {len(X_cols)} features ({'with' if want_leak else 'no'}_leak)")

# --- fit full-train pipeline ---
pre = make_preprocessor(X_cols, df_use)
est = make_estimator(model_key)
clf = CalibratedClassifierCV(est, method="isotonic", cv=3) if CALIBRATE and isinstance(est, (HistGradientBoostingClassifier, RandomForestClassifier)) else est
pipe = Pipeline([("prep", pre), ("clf", clf)])
pipe.fit(df_use[X_cols], POS)

# --- save pkl + metadata ---
stamp = time.strftime("%Y%m%d_%H%M%S")
fname_base = f"task20_singlelabel_{scenario}_{model_key}_{stamp}"
pkl_path = OUTM / f"{fname_base}.pkl"
meta_path = OUTM / f"{fname_base}.metadata.json"

joblib.dump(pipe, pkl_path)

meta = {
    "scenario": scenario,
    "model": model_key,
    "features": X_cols,
    "n_features": len(X_cols),
    "classes": sorted(POS.unique()),
    "seed": SEED,
    "calibrated": bool(CALIBRATE and isinstance(est, (HistGradientBoostingClassifier, RandomForestClassifier))),
    "selected_from": str(SUM_CSV),
}
with open(meta_path, "w", encoding="utf-8") as f:
    json.dump(meta, f, ensure_ascii=False, indent=2)

print("✅ Saved:", pkl_path)
print("✅ Saved:", meta_path)


Мета блоку: зібрати маніфест артефактів Task20 (таблиці якості та збережені моделі), перевірити їх на існування/непорожність і синхронізувати у GitHub.

Що робить:

Перевіряє ключові CSV:

out/tables/Task20_FULL_runs_detailed.csv, out/tables/Task20_FULL_results_summary.csv

out/tables/Task20_multilabel_folds.csv, out/tables/Task20_multilabel_results.csv

Автоматично інвентаризує всі models/*.pkl і models/*.json (без жорстких імен).

Формує маніфест _manifest_task20_models.csv із розміром, head-рядками для CSV і mtime.

Комітить/пушить артефакти в репозиторій (гілка/токен — параметри блоку).

Додатково може додати сервісні файли (app.py, config.yaml, requirements.txt, тощо).

Як читати:

✅ — файл існує і має ненульовий розмір (для CSV ще й читається head).

❌ — відсутній/порожній (перевірте попередні кроки або шляхи).

Гнучкість:

STRICT=False — лише друк попереджень; True — падіння з assert (зручно для CI).

Шаблони додаткових файлів — у EXTRA_GLOBS.

In [None]:
# === Task20: Перевірка артефактів моделей + Sync у GitHub =====================
import os, glob, json, getpass, subprocess, shlex, time
from pathlib import Path
import pandas as pd

# ── Налаштування репо / пушу ──────────────────────────────────────────────────
WORKDIR   = "/content/project_fifa_players"        # корінь клонованого репо
BRANCH    = "main"                                 # цільова гілка
REPO_SLUG = "rvkushnir/project_fifa_players"       # user/repo
FORCE_ADD_IF_IGNORED = False                       # git add -f

# ── Шляхи/каталоги ────────────────────────────────────────────────────────────
OUT = Path("out/tables")
MODELS_DIR = Path("models")
OUT.mkdir(parents=True, exist_ok=True)
MODELS_DIR.mkdir(parents=True, exist_ok=True)

# ── Очікувані CSV (Task20) ────────────────────────────────────────────────────
EXPECTED_CSV = [
    # single-label
    "Task20_FULL_runs_detailed.csv",
    "Task20_FULL_results_summary.csv",
    # multilabel
    "Task20_multilabel_folds.csv",
    "Task20_multilabel_results.csv",
]

# Додатково пушимо ці патерни (не обовʼязково)
EXTRA_GLOBS = [
    "app.py",
    "config.yaml",
    "requirements.txt",
    "scripts/export_best_model.py",
]

# Грубість перевірки: False → друк попереджень; True → падіння з assert
STRICT = False

# ── Утиліти ───────────────────────────────────────────────────────────────────
def run(cmd, check=True, capture=False):
    print("$", cmd)
    if capture:
        return subprocess.run(shlex.split(cmd), check=check, capture_output=True, text=True)
    return subprocess.run(shlex.split(cmd), check=check)

def exists(p: Path) -> bool:
    return p.exists() and (p.stat().st_size > 0)

# ── 0) Робоча тека ────────────────────────────────────────────────────────────
os.makedirs(WORKDIR, exist_ok=True)
os.chdir(WORKDIR)
print("pwd:", os.getcwd())

# ── 1) Побудова маніфесту по CSV та models/* ──────────────────────────────────
rows = []

# CSV з OUT
for name in EXPECTED_CSV:
    p = OUT / name
    info = {
        "bucket": "tables",
        "path": str(p),
        "exists": p.exists(),
        "size": int(p.stat().st_size) if p.exists() else 0,
        "mtime": time.ctime(p.stat().st_mtime) if p.exists() else "-",
        "head_rows": "-"
    }
    if p.suffix == ".csv" and p.exists() and p.stat().st_size > 0:
        try:
            info["head_rows"] = pd.read_csv(p, nrows=3).shape[0]
        except Exception:
            info["head_rows"] = "?"
    rows.append(info)

# Усі моделі/метадані з MODELS_DIR
model_files = sorted(MODELS_DIR.glob("*.pkl"))
meta_files  = sorted(MODELS_DIR.glob("*.json"))
for p in model_files + meta_files:
    rows.append({
        "bucket": "models",
        "path": str(p),
        "exists": p.exists(),
        "size": int(p.stat().st_size),
        "mtime": time.ctime(p.stat().st_mtime),
        "head_rows": "-"
    })

man = pd.DataFrame(rows).sort_values(["bucket","path"])
man_path = OUT / "_manifest_task20_models.csv"
man.to_csv(man_path, index=False)

print("\n=== Task20 Models Manifest ===")
ok = True
for _, r in man.iterrows():
    mark = "✅" if (r["exists"] and r["size"] > 0) else "❌"
    print(f'{mark} {r["bucket"]:<8} | {os.path.basename(r["path"]):45s} | size={r["size"]:>8} | head={r["head_rows"]!s:<3} | {r["mtime"]}')
    if r["bucket"] == "tables" and not (r["exists"] and r["size"] > 0):
        ok = False  # таблиці вважаємо обовʼязковими

print(f"\nМаніфест збережено → {man_path}")

if STRICT:
    assert ok, "Є відсутні або порожні таблиці Task20."

# ── 2) Git-конфіг автора (безпечно, якщо вже задано) ─────────────────────────
run('git config user.name "rvkushnir"', check=False)
run('git config user.email "rvkushnir@gmail.com"', check=False)

# ── 3) Додаємо файли у staging ────────────────────────────────────────────────
added_files = []

# CSV
for name in EXPECTED_CSV:
    p = OUT / name
    if p.exists():
        cmd = f'git add{" -f" if FORCE_ADD_IF_IGNORED else ""} {shlex.quote(str(p))}'
        run(cmd, check=False)
        added_files.append(str(p))

# Маніфест
if man_path.exists():
    run(f'git add {shlex.quote(str(man_path))}', check=False)
    added_files.append(str(man_path))

# Моделі + метадані (усі знайдені)
for p in model_files + meta_files:
    run(f'git add {shlex.quote(str(p))}', check=False)
    added_files.append(str(p))

# Додаткові патерни (не обовʼязково)
for pat in EXTRA_GLOBS:
    for p in glob.glob(pat):
        run(f'git add {shlex.quote(p)}', check=False)
        added_files.append(p)

if not added_files:
    print("ℹ️  Немає що додавати (файлів не знайдено за списком/патернами).")

# ── 4) Коміт (якщо є staged) ─────────────────────────────────────────────────
has_staged = subprocess.run(shlex.split("git diff --cached --quiet")).returncode != 0
if has_staged:
    ts = time.strftime("%Y-%m-%d %H:%M:%S")
    run(f'git commit -m "Sync Task20 models & results ({ts})"', check=False)
else:
    print("ℹ️  Немає staged-змін — коміт пропущено.")

# ── 5) Оновлення віддаленої гілки та rebase ───────────────────────────────────
run(f"git fetch origin {BRANCH}", check=False)
run(f"git rebase origin/{BRANCH}", check=False)

# ── 6) Пуш із токеном ─────────────────────────────────────────────────────────
if "GH_TOKEN" not in os.environ or not os.environ["GH_TOKEN"]:
    os.environ["GH_TOKEN"] = getpass.getpass("GitHub token (приховано): ")

push_url = f'https://x-access-token:{os.environ["GH_TOKEN"]}@github.com/{REPO_SLUG}.git'
run(f'git push "{push_url}" HEAD:{BRANCH}', check=False)

# ── 7) Звіт: що є у HEAD ─────────────────────────────────────────────────────
res = run('git ls-tree -r HEAD --name-only', check=False, capture=True)
head_files = [p for p in res.stdout.splitlines()
              if p.startswith(("out/tables/Task20_", "out/tables/_manifest_task20_models.csv",
                               "models/", "app.py", "config.yaml", "requirements.txt", "scripts/"))]
print("\n✅ У HEAD тепер є:")
for p in head_files:
    print(" •", p)
