<a href="https://colab.research.google.com/github/rvkushnir/project_fifa_players/blob/main/notebooks/06_data_science_block.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ініціалізація середовища**

Клонуємо репозиторій з GitHub у /content, переходимо в корінь проєкту.
Це гарантує однакові шляхи для даних/виводів у всіх сесіях Colab.
Після клонування перевіряємо наявність data/raw/fifa_players.csv.
Вихід: робочий каталог → pwd = /content/project_fifa_players.

In [None]:
#  Ініціалізація середовища: клон репозиторію і перехід у робочу теку
REPO = "rvkushnir/project_fifa_players"
BRANCH = "main"
WORKDIR = "/content/project_fifa_players"

# чистий клон
!rm -rf "$WORKDIR"
!git clone --depth 1 -b "$BRANCH" "https://github.com/{REPO}.git" "$WORKDIR"
%cd "$WORKDIR"

# Якщо у репо використовується Git LFS (великі файли) — підтягнемо дані
!git lfs install 2>/dev/null || true
!git lfs pull 2>/dev/null || true

# Перевіримо, що CSV на місці
!ls -lah data/raw


Мета кроку. Підключення бібліотек, налаштування шляхів та базові константи/множини позицій. Ця клітинка нічого не читає і не пише — лише готує середовище.

In [None]:
# === 17–19: EDA → Feature Engineering → Feature Selection
from pathlib import Path
import pandas as pd, numpy as np, re, json
from sklearn.feature_selection import mutual_info_classif
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier

DATA_CSV = Path("data/raw/fifa_players.csv")
OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

#  Допоміжні
DEF = {"CB","LB","RB","LWB","RWB"}
MID = {"CDM","CM","CAM","LM","RM"}
FWD = {"ST","CF","LW","RW"}

# Канонічні 15 позицій
CANON15 = ["GK","CB","LB","RB","LWB","RWB","CDM","CM","CAM","LM","RM","LW","RW","ST","CF"]

# Патч для OHE (щоб працювало і в нових, і в старих sklearn)
def OHE_dense():
    try:
        return OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        return OneHotEncoder(handle_unknown="ignore", sparse=False)

def make_primary_position(s: pd.Series) -> pd.Series:
    # перша позиція як primary
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

def role_group(pos: str) -> str:
    p = str(pos).upper()
    if p=="GK": return "GK"
    if p in DEF: return "DEF"
    if p in MID: return "MID"
    if p in FWD: return "FWD"
    return "OTHER"

def safe_num(df, cols):
    for c in cols:
        if c in df.columns:
            df[c] = pd.to_numeric(df[c], errors="coerce")
    return df

def parse_work_rate(s):
    # "High/Med" -> (2,1), H=2,M=1,L=0
    m = {"High":2,"Med":1,"Low":0}
    if pd.isna(s): return (np.nan, np.nan)
    parts = str(s).split("/")
    a = m.get(parts[0].strip().title(), np.nan) if len(parts)>0 else np.nan
    d = m.get(parts[1].strip().title(), np.nan) if len(parts)>1 else np.nan
    return (a,d)

def pct(x): return (x.isna().mean() if hasattr(x,"isna") else np.nan)

def corr_pairs(df, cols, thr=0.9):
    c = df[cols].corr(numeric_only=True)
    pairs = []
    for i,a in enumerate(cols):
        for j,b in enumerate(cols):
            if j<=i: continue
            r = c.loc[a,b]
            if pd.notna(r) and abs(r)>=thr:
                pairs.append((a,b,round(float(r),3)))
    return sorted(pairs, key=lambda t: -abs(t[2]))

#  Завантаження
if not DATA_CSV.exists():
    raise FileNotFoundError(f"Не знайдено файл: {DATA_CSV.resolve()}")
df = pd.read_csv(DATA_CSV, low_memory=False)

# Базові колонки
must = ["sofifa_id","player_url","short_name","long_name","player_positions",
        "overall","age","height_cm","weight_kg","value_eur","wage_eur",
        "club_name","league_name","preferred_foot","weak_foot","work_rate"]
for m in must:
    if m not in df.columns: print(f"[WARN] Відсутня колонка: {m}")

# Техпідготовка
df["primary_position"] = make_primary_position(df["player_positions"])
df["role_group"] = df["primary_position"].apply(role_group)
safe_num(df, ["overall","age","height_cm","weight_kg","value_eur","wage_eur","weak_foot"])

#  17) EDA
# Типи/пропуски
nulls = df.isna().mean().sort_values(ascending=False).to_frame("null_frac")
types = df.dtypes.astype(str).to_frame("dtype")
types.to_csv(OUT_T/"EDA_types.csv")
nulls.to_csv(OUT_T/"EDA_nulls.csv")

# Дублікати
dup_id = df.duplicated(subset=["sofifa_id"]).sum() if "sofifa_id" in df.columns else np.nan
dup_url = df.duplicated(subset=["player_url"]).sum() if "player_url" in df.columns else np.nan
dup_name = df.duplicated(subset=["short_name","dob"]).sum() if "dob" in df.columns else df.duplicated(subset=["short_name"]).sum()
pd.DataFrame([{"dup_sofifa_id":int(dup_id), "dup_url":int(dup_url), "dup_name":int(dup_name)}]).to_csv(OUT_T/"EDA_duplicates.csv", index=False)

# Діапазони/квантили
num_core = [c for c in ["age","overall","height_cm","weight_kg","value_eur","wage_eur"] if c in df.columns]
qtab = df[num_core].quantile([0.01,0.05,0.5,0.95,0.99]).T
qtab.to_csv(OUT_T/"EDA_quantiles_core.csv")

# Валідність
viol = {
    "age_out": int((~df["age"].between(15,45)).sum()) if "age" in df.columns else np.nan,
    "height_out": int((~df["height_cm"].between(150,210)).sum()) if "height_cm" in df.columns else np.nan,
    "weight_out": int((~df["weight_kg"].between(45,120)).sum()) if "weight_kg" in df.columns else np.nan,
    "value_neg_or_zero": int((df["value_eur"]<=0).sum()) if "value_eur" in df.columns else np.nan,
    "wage_neg_or_zero": int((df["wage_eur"]<=0).sum()) if "wage_eur" in df.columns else np.nan,
}
pd.DataFrame([viol]).to_csv(OUT_T/"EDA_range_violations.csv", index=False)

# Розподіл позицій/груп
pos_count = df["primary_position"].value_counts(dropna=False).to_frame("n")
grp_count = df["role_group"].value_counts(dropna=False).to_frame("n")
pos_count.to_csv(OUT_T/"EDA_pos_count.csv")
grp_count.to_csv(OUT_T/"EDA_role_group_count.csv")

# Контамінація ознак GK vs польові
GK_COLS = [c for c in df.columns if c.startswith("goalkeeping_")]
FIELD_GROUP_PREFIXES = ["attacking_","skill_","movement_","power_","mentality_","defending_"]
FIELD_DET = [c for c in df.columns if any(c.startswith(p) for p in FIELD_GROUP_PREFIXES)]
contam = {}
if GK_COLS:
    non_gk = df[df["role_group"]!="GK"]
    gk = df[df["role_group"]=="GK"]
    contam["nonGK_has_GK_notnull_frac"] = float(non_gk[GK_COLS].notna().mean().mean())
    contam["GK_has_FIELD_notnull_frac"] = float(gk[FIELD_DET].notna().mean().mean()) if FIELD_DET else np.nan
pd.DataFrame([contam]).to_csv(OUT_T/"EDA_contamination.csv", index=False)

# Кореляції ядра й сильні пари
core = [c for c in ["pace","shooting","passing","dribbling","defending","physic","overall"] if c in df.columns]
strong_pairs = corr_pairs(df, core, thr=0.9) if len(core)>=2 else []
pd.DataFrame(strong_pairs, columns=["f1","f2","r"]).to_csv(OUT_T/"EDA_core_strong_corr.csv", index=False)

# Кардинальності категорій
cat_cols = [c for c in ["club_name","league_name","nationality_name","preferred_foot","work_rate","body_type"] if c in df.columns]
card = {c:int(df[c].nunique(dropna=True)) for c in cat_cols}
pd.DataFrame([card]).to_csv(OUT_T/"EDA_categorical_cardinality.csv", index=False)

# Потенційні leakage-фічі (списком)
leak_like = [c for c in df.columns if c in ["club_position","nation_position","club_jersey_number","nation_jersey_number"]]
pd.Series(leak_like, name="leak_like").to_csv(OUT_T/"EDA_potential_leakage.csv", index=False)

print("[EDA] OK. Збережено таблиці в out/tables/ (EDA_*)")

#  18) Feature Engineering
# Цільові мапи
def map_to_15(p):
    p = str(p).upper()
    return p if p in CANON15 else p  # лишаємо як є; згодом можна нормалізувати "RB/LB/..." суворо

df["target_pos15"] = df["primary_position"].str.upper()
df["target_grp4"]  = df["role_group"]

# Індекси-агрегати (беремо що є)
def mean_cols(row, cols):
    vals = [row[c] for c in cols if c in row.index and pd.notna(row[c])]
    return np.mean(vals) if vals else np.nan

# Переліки груп
PACE = [c for c in ["movement_acceleration","movement_sprint_speed","pace"] if c in df.columns]
DRIB = [c for c in ["dribbling","skill_dribbling","skill_ball_control","movement_agility","movement_balance"] if c in df.columns]
PASS = [c for c in ["passing","attacking_short_passing","skill_long_passing","mentality_vision","skill_curve","attacking_crossing"] if c in df.columns]
SHOOT = [c for c in ["shooting","attacking_finishing","attacking_volleys","power_shot_power","power_long_shots","attacking_heading_accuracy","mentality_penalties"] if c in df.columns]
DEFND = [c for c in ["defending","defending_marking_awareness","defending_standing_tackle","defending_sliding_tackle","mentality_interceptions","power_strength"] if c in df.columns]
PHYS = [c for c in ["physic","power_stamina","power_strength","power_jumping"] if c in df.columns]
GKSET = [c for c in ["goalkeeping_diving","goalkeeping_reflexes","goalkeeping_positioning","goalkeeping_handling","goalkeeping_kicking","goalkeeping_speed"] if c in df.columns]

for grp, cols in [("pace_idx", PACE),("dribble_idx", DRIB),("playmake_idx", PASS),
                  ("attack_idx", SHOOT),("defend_idx", DEFND),("phys_idx", PHYS),("gk_idx", GKSET)]:
    if cols:
        df[grp] = df[cols].mean(axis=1, skipna=True)

# BMI, age^2
if "height_cm" in df.columns and "weight_kg" in df.columns:
    h_m = df["height_cm"]/100.0
    df["bmi"] = df["weight_kg"]/(h_m*h_m)
if "age" in df.columns:
    df["age2"] = df["age"]**2

# work_rate → два числових
if "work_rate" in df.columns:
    wr = df["work_rate"].apply(parse_work_rate)
    df["work_rate_att"] = wr.apply(lambda t: t[0])
    df["work_rate_def"] = wr.apply(lambda t: t[1])

# preferred_foot → is_left, weak_foot
if "preferred_foot" in df.columns:
    df["is_left"] = (df["preferred_foot"].str.upper()=="LEFT").astype("Int64")

# Легка імпутація числових: медіана за role_group → глобальна
num_cols = df.select_dtypes(include=[np.number]).columns.tolist()
num_cols = [c for c in num_cols if c not in ["sofifa_id"]]  # захист id
med_by_role = df.groupby("role_group")[num_cols].median(numeric_only=True)
def impute_row(row):
    rg = row["role_group"]
    for c in num_cols:
        if pd.isna(row[c]):
            if rg in med_by_role.index and pd.notna(med_by_role.loc[rg, c]):
                row[c] = med_by_role.loc[rg, c]
    return row
df_num = df.copy()
df_num[num_cols] = df_num[num_cols].astype(float)
df_num = df_num.apply(impute_row, axis=1)
for c in num_cols:
    df_num[c] = df_num[c].fillna(df_num[c].median())  # остаточний fallback

# Вибір «безпечних» фіч (без ідентифікаторів/URL/ліків)
drop_like = set([
    "player_url","long_name","short_name","club_logo_url","nation_logo_url","nation_flag_url",
    "club_position","nation_position","club_jersey_number","nation_jersey_number"
])
keep_num = [c for c in num_cols if c not in drop_like]
keep_cat = [c for c in ["preferred_foot","work_rate","body_type","league_name","club_name","nationality_name"] if c in df.columns]

fe_base = df_num[["sofifa_id","primary_position","target_pos15","target_grp4"] + keep_num + keep_cat]
fe_base.to_csv(OUT_T/"Task18_features_base.csv", index=False)

print("[FE] OK. Збережено базову матрицю ознак: Task18_features_base.csv")

#  19) Feature Selection
# Мішень: мультиклас за target_pos15 (фільтруємо тільки канонічні)
fe = fe_base[fe_base["target_pos15"].isin(CANON15)].copy()
y = fe["target_pos15"].astype(str)

# Підготовка X: числові + one-hot категорій
X_num = fe[keep_num].copy()
X_cat = fe[keep_cat].astype(str) if keep_cat else None

if X_cat is not None and len(keep_cat)>0:
    ohe = OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    X_cat_arr = ohe.fit_transform(X_cat)
    ohe_cols = ohe.get_feature_names_out(keep_cat).tolist()
    X_cat_df = pd.DataFrame(X_cat_arr, columns=ohe_cols, index=fe.index)
    X_full = pd.concat([X_num, X_cat_df], axis=1)
else:
    X_full = X_num.copy()
    ohe_cols = []

# Видалення надсильних кореляцій (|r|≥0.95) серед числових
strong = corr_pairs(X_num, X_num.columns.tolist(), thr=0.95)
drop_corr = set([b for (a,b,_) in strong])
X_filt = X_full.drop(columns=list(drop_corr), errors="ignore")

# MI (фільтраційно)
mi = mutual_info_classif(X_filt.fillna(0), y, discrete_features=[c in ohe_cols for c in X_filt.columns], random_state=42)
mi_tbl = pd.DataFrame({"feature": X_filt.columns, "mi": mi}).sort_values("mi", ascending=False)
mi_tbl.to_csv(OUT_T/"Task19_mi_features_pos15.csv", index=False)

# RF (вбудоване)
rf = RandomForestClassifier(
    n_estimators=400, max_depth=None, min_samples_leaf=2,
    n_jobs=-1, random_state=42
)
rf.fit(X_filt.fillna(0), y)
rf_imp = pd.DataFrame({"feature": X_filt.columns, "rf_importance": rf.feature_importances_}) \
         .sort_values("rf_importance", ascending=False)
rf_imp.to_csv(OUT_T/"Task19_rf_importance_pos15.csv", index=False)

# Рекомендований набір: перетин топ-N (MI, RF), без корельованих
TOPN = 60
top_mi = set(mi_tbl.head(TOPN)["feature"])
top_rf = set(rf_imp.head(TOPN)["feature"])
sel = sorted((top_mi & top_rf) - drop_corr)

pd.Series(sel, name="selected_feature").to_csv(OUT_T/"Task19_selected_features_pos15.csv", index=False)

print("[FS] OK. MI/RF/selected збережені в out/tables/. Рекомендовано використати Task19_selected_features_pos15.csv")
# =============================================================================


Мета. Оголосити утиліту для пошуку «сильних» кореляцій (Pearson/Spearman) між усіма числовими навичками. УВАГА: ця клітинка лише визначає функцію — ми її викличемо в наступній клітинці, де вже є df.

In [None]:
#  Розширений пошук сильних кореляцій (усі числові навички) ---


def save_strong_corr(df: pd.DataFrame, out_dir: Path, thr: float = 0.90):
    out_dir.mkdir(parents=True, exist_ok=True)

    EXCLUDE_LIKE = {
        "sofifa_id","overall","value_eur","wage_eur",  # лишаємо окремо від «технічних»
        "club_jersey_number","nation_jersey_number",
    }

    # лише «технічні» числові фічі
    num_all = [c for c in df.select_dtypes(include=[np.number]).columns if c not in EXCLUDE_LIKE]
    if not num_all:
        print("[EDA] Немає числових колонок для кореляцій.")
        # все одно створимо порожні файли з заголовками
        pd.DataFrame(columns=["f1","f2","|r|"]).to_csv(out_dir/"EDA_strong_corr_all_pearson.csv", index=False)
        pd.DataFrame(columns=["f1","f2","|rho|"]).to_csv(out_dir/"EDA_strong_corr_all_spearman.csv", index=False)
        return

    # Pearson
    corr_p = df[num_all].corr(numeric_only=True).abs()
    pairs_p = []
    for i, a in enumerate(num_all):
        for j, b in enumerate(num_all):
            if j <= i:
                continue
            r = corr_p.loc[a, b]
            if pd.notna(r) and r >= thr:
                pairs_p.append((a, b, round(float(r), 3)))
    pearson_path = out_dir/"EDA_strong_corr_all_pearson.csv"
    pd.DataFrame(pairs_p, columns=["f1","f2","|r|"]).sort_values("|r|", ascending=False).to_csv(pearson_path, index=False)

    # Spearman (монотонний зв'язок)
    corr_s = df[num_all].rank().corr(numeric_only=True).abs()
    pairs_s = []
    for i, a in enumerate(num_all):
        for j, b in enumerate(num_all):
            if j <= i:
                continue
            r = corr_s.loc[a, b]
            if pd.notna(r) and r >= thr:
                pairs_s.append((a, b, round(float(r), 3)))
    spearman_path = out_dir/"EDA_strong_corr_all_spearman.csv"
    pd.DataFrame(pairs_s, columns=["f1","f2","|rho|"]).sort_values("|rho|", ascending=False).to_csv(spearman_path, index=False)

    print(f"[EDA] strong corr saved (thr={thr}) →")
    print(f"  • Pearson:  {len(pairs_p)} пар  → {pearson_path}")
    print(f"  • Spearman: {len(pairs_s)} пар  → {spearman_path}")


Мета.

EDA (Task 17): завантажити csv, зібрати базові перевірки якості, розрахувати квантили/діапазони, частки пропусків, підрахунки позицій/груп, перевірити «контамінацію» GK/польових, базові кореляції ядра, потенційні leakage-фічі та зберегти повні матриці сильних кореляцій (викликаємо нашу функцію).

Feature Engineering (Task 18): побудувати індекси (pace/attack/defend/…), bmi, age2, декодувати work_rate, легка імпутація по role_group, сформувати Task18_features_base.csv.

Feature Selection (Task 19): OHE-категорій, дроп надсильних корельованих числових (|r|≥0.95), MI та RF-важливості, і рекомендований набір як перетин топ-N (MI, RF) без надлишкових фіч.

In [None]:
#  Допоміжні для 3-ї клітинки
def make_primary_position(s: pd.Series) -> pd.Series:
    # перша позиція як primary
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

def role_group(pos: str) -> str:
    p = str(pos).upper()
    if p=="GK": return "GK"
    if p in DEF: return "DEF"
    if p in MID: return "MID"
    if p in FWD: return "FWD"
    return "OTHER"

def safe_num(df, cols):
    for c in cols:
        if c in df.columns:
            df[c] = pd.to_numeric(df[c], errors="coerce")
    return df

def parse_work_rate(s):
    # "High/Med" -> (2,1), H=2,M=1,L=0
    m = {"High":2,"Med":1,"Low":0}
    if pd.isna(s): return (np.nan, np.nan)
    parts = str(s).split("/")
    a = m.get(parts[0].strip().title(), np.nan) if len(parts)>0 else np.nan
    d = m.get(parts[1].strip().title(), np.nan) if len(parts)>1 else np.nan
    return (a,d)

def corr_pairs(df, cols, thr=0.9):
    c = df[cols].corr(numeric_only=True)
    pairs = []
    for i,a in enumerate(cols):
        for j,b in enumerate(cols):
            if j<=i: continue
            r = c.loc[a,b]
            if pd.notna(r) and abs(r)>=thr:
                pairs.append((a,b,round(float(r),3)))
    return sorted(pairs, key=lambda t: -abs(t[2]))

#  Завантаження
if not DATA_CSV.exists():
    raise FileNotFoundError(f"Не знайдено файл: {DATA_CSV.resolve()}")
df = pd.read_csv(DATA_CSV, low_memory=False)

# Базові колонки
must = ["sofifa_id","player_url","short_name","long_name","player_positions",
        "overall","age","height_cm","weight_kg","value_eur","wage_eur",
        "club_name","league_name","preferred_foot","weak_foot","work_rate"]
for m in must:
    if m not in df.columns: print(f"[WARN] Відсутня колонка: {m}")

# Техпідготовка
df["primary_position"] = make_primary_position(df["player_positions"])
df["role_group"] = df["primary_position"].apply(role_group)
safe_num(df, ["overall","age","height_cm","weight_kg","value_eur","wage_eur","weak_foot"])

#  17) EDA
# Типи/пропуски
nulls = df.isna().mean().sort_values(ascending=False).to_frame("null_frac")
types = df.dtypes.astype(str).to_frame("dtype")
types.to_csv(OUT_T/"EDA_types.csv")
nulls.to_csv(OUT_T/"EDA_nulls.csv")

# Дублікати
dup_id = df.duplicated(subset=["sofifa_id"]).sum() if "sofifa_id" in df.columns else np.nan
dup_url = df.duplicated(subset=["player_url"]).sum() if "player_url" in df.columns else np.nan
dup_name = df.duplicated(subset=["short_name","dob"]).sum() if "dob" in df.columns else df.duplicated(subset=["short_name"]).sum()
pd.DataFrame([{"dup_sofifa_id":int(dup_id), "dup_url":int(dup_url), "dup_name":int(dup_name)}]).to_csv(OUT_T/"EDA_duplicates.csv", index=False)

# Діапазони/квантили
num_core = [c for c in ["age","overall","height_cm","weight_kg","value_eur","wage_eur"] if c in df.columns]
qtab = df[num_core].quantile([0.01,0.05,0.5,0.95,0.99]).T
qtab.to_csv(OUT_T/"EDA_quantiles_core.csv")

# Валідність
viol = {
    "age_out": int((~df["age"].between(15,45)).sum()) if "age" in df.columns else np.nan,
    "height_out": int((~df["height_cm"].between(150,210)).sum()) if "height_cm" in df.columns else np.nan,
    "weight_out": int((~df["weight_kg"].between(45,120)).sum()) if "weight_kg" in df.columns else np.nan,
    "value_neg_or_zero": int((df["value_eur"]<=0).sum()) if "value_eur" in df.columns else np.nan,
    "wage_neg_or_zero": int((df["wage_eur"]<=0).sum()) if "wage_eur" in df.columns else np.nan,
}
pd.DataFrame([viol]).to_csv(OUT_T/"EDA_range_violations.csv", index=False)

# Розподіл позицій/груп
df["primary_position"].value_counts(dropna=False).to_frame("n").to_csv(OUT_T/"EDA_pos_count.csv")
df["role_group"].value_counts(dropna=False).to_frame("n").to_csv(OUT_T/"EDA_role_group_count.csv")

# Контамінація ознак GK vs польові
GK_COLS = [c for c in df.columns if c.startswith("goalkeeping_")]
FIELD_GROUP_PREFIXES = ["attacking_","skill_","movement_","power_","mentality_","defending_"]
FIELD_DET = [c for c in df.columns if any(c.startswith(p) for p in FIELD_GROUP_PREFIXES)]
contam = {}
if GK_COLS:
    non_gk = df[df["role_group"]!="GK"]
    gk = df[df["role_group"]=="GK"]
    contam["nonGK_has_GK_notnull_frac"] = float(non_gk[GK_COLS].notna().mean().mean())
    contam["GK_has_FIELD_notnull_frac"] = float(gk[FIELD_DET].notna().mean().mean()) if FIELD_DET else np.nan
pd.DataFrame([contam]).to_csv(OUT_T/"EDA_contamination.csv", index=False)

# Кореляції ядра й сильні пари
core = [c for c in ["pace","shooting","passing","dribbling","defending","physic","overall"] if c in df.columns]
strong_pairs = corr_pairs(df, core, thr=0.9) if len(core)>=2 else []
pd.DataFrame(strong_pairs, columns=["f1","f2","r"]).to_csv(OUT_T/"EDA_core_strong_corr.csv", index=False)

# Потенційні leakage-фічі (списком)
leak_like = [c for c in df.columns if c in ["club_position","nation_position","club_jersey_number","nation_jersey_number"]]
pd.Series(leak_like, name="leak_like").to_csv(OUT_T/"EDA_potential_leakage.csv", index=False)

# Повні сильні кореляції (Pearson/Spearman) — виклик нашої утиліти
save_strong_corr(df, OUT_T, thr=0.90)

print("[EDA] OK. Збережено таблиці в out/tables/ (EDA_*)")

#  18) Feature Engineering
# Мапи цілі
df["target_pos15"] = df["primary_position"].str.upper()
df["target_grp4"]  = df["role_group"]

# Індекси-агрегати (беремо що є)
PACE = [c for c in ["movement_acceleration","movement_sprint_speed","pace"] if c in df.columns]
DRIB = [c for c in ["dribbling","skill_dribbling","skill_ball_control","movement_agility","movement_balance"] if c in df.columns]
PASS = [c for c in ["passing","attacking_short_passing","skill_long_passing","mentality_vision","skill_curve","attacking_crossing"] if c in df.columns]
SHOOT = [c for c in ["shooting","attacking_finishing","attacking_volleys","power_shot_power","power_long_shots","attacking_heading_accuracy","mentality_penalties"] if c in df.columns]
DEFND = [c for c in ["defending","defending_marking_awareness","defending_standing_tackle","defending_sliding_tackle","mentality_interceptions","power_strength"] if c in df.columns]
PHYS = [c for c in ["physic","power_stamina","power_strength","power_jumping"] if c in df.columns]
GKSET = [c for c in ["goalkeeping_diving","goalkeeping_reflexes","goalkeeping_positioning","goalkeeping_handling","goalkeeping_kicking","goalkeeping_speed"] if c in df.columns]

for grp, cols in [("pace_idx", PACE),("dribble_idx", DRIB),("playmake_idx", PASS),
                  ("attack_idx", SHOOT),("defend_idx", DEFND),("phys_idx", PHYS),("gk_idx", GKSET)]:
    if cols:
        df[grp] = df[cols].mean(axis=1, skipna=True)

# BMI, age^2
if "height_cm" in df.columns and "weight_kg" in df.columns:
    h_m = df["height_cm"]/100.0
    df["bmi"] = df["weight_kg"]/(h_m*h_m)
if "age" in df.columns:
    df["age2"] = df["age"]**2

# work_rate → два числових
if "work_rate" in df.columns:
    wr = df["work_rate"].apply(parse_work_rate)
    df["work_rate_att"] = wr.apply(lambda t: t[0])
    df["work_rate_def"] = wr.apply(lambda t: t[1])

# preferred_foot → is_left
if "preferred_foot" in df.columns:
    df["is_left"] = (df["preferred_foot"].str.upper()=="LEFT").astype("Int64")

# Легка імпутація числових: медіана за role_group → глобальна
num_cols = df.select_dtypes(include=[np.number]).columns.tolist()
num_cols = [c for c in num_cols if c not in ["sofifa_id"]]  # захист id
med_by_role = df.groupby("role_group")[num_cols].median(numeric_only=True)
def impute_row(row):
    rg = row["role_group"]
    for c in num_cols:
        if pd.isna(row[c]):
            if rg in med_by_role.index and pd.notna(med_by_role.loc[rg, c]):
                row[c] = med_by_role.loc[rg, c]
    return row
df_num = df.copy()
df_num[num_cols] = df_num[num_cols].astype(float)
df_num = df_num.apply(impute_row, axis=1)
for c in num_cols:
    df_num[c] = df_num[c].fillna(df_num[c].median())  # остаточний fallback

# Вибір «безпечних» фіч (без ідентифікаторів/URL/ліків)
drop_like = set([
    "player_url","long_name","short_name","club_logo_url","nation_logo_url","nation_flag_url",
    "club_position","nation_position","club_jersey_number","nation_jersey_number"
])
keep_num = [c for c in num_cols if c not in drop_like]
keep_cat = [c for c in ["preferred_foot","work_rate","body_type","league_name","club_name","nationality_name"] if c in df.columns]

fe_base = df_num[["sofifa_id","primary_position","target_pos15","target_grp4"] + keep_num + keep_cat]
fe_base.to_csv(OUT_T/"Task18_features_base.csv", index=False)

print("[FE] OK. Збережено базову матрицю ознак: Task18_features_base.csv")

#  19) Feature Selection
# Мішень: мультиклас за target_pos15 (лише канонічні)
fe = fe_base[fe_base["target_pos15"].isin(CANON15)].copy()
y = fe["target_pos15"].astype(str)

# Підготовка X: числові + one-hot категорій
X_num = fe[keep_num].copy()
if keep_cat:
    ohe = OHE_dense()
    X_cat_arr = ohe.fit_transform(fe[keep_cat].astype(str))
    ohe_cols = ohe.get_feature_names_out(keep_cat).tolist()
    X_cat_df = pd.DataFrame(X_cat_arr, columns=ohe_cols, index=fe.index)
    X_full = pd.concat([X_num, X_cat_df], axis=1)
else:
    X_full = X_num.copy()
    ohe_cols = []

# Видалення надсильних кореляцій (|r|≥0.95) серед числових
strong = corr_pairs(X_num, X_num.columns.tolist(), thr=0.95)
drop_corr = set([b for (a,b,_) in strong])
X_filt = X_full.drop(columns=list(drop_corr), errors="ignore")

# MI (фільтраційно)
mi = mutual_info_classif(X_filt.fillna(0), y, discrete_features=[c in ohe_cols for c in X_filt.columns], random_state=42)
mi_tbl = pd.DataFrame({"feature": X_filt.columns, "mi": mi}).sort_values("mi", ascending=False)
mi_tbl.to_csv(OUT_T/"Task19_mi_features_pos15.csv", index=False)

# RF (вбудоване)
rf = RandomForestClassifier(
    n_estimators=400, max_depth=None, min_samples_leaf=2,
    n_jobs=-1, random_state=42
)
rf.fit(X_filt.fillna(0), y)
rf_imp = pd.DataFrame({"feature": X_filt.columns, "rf_importance": rf.feature_importances_}) \
         .sort_values("rf_importance", ascending=False)
rf_imp.to_csv(OUT_T/"Task19_rf_importance_pos15.csv", index=False)

# Рекомендований набір: перетин топ-N (MI, RF), без корельованих
TOPN = 60
top_mi = set(mi_tbl.head(TOPN)["feature"])
top_rf = set(rf_imp.head(TOPN)["feature"])
sel = sorted((top_mi & top_rf) - drop_corr)

pd.Series(sel, name="selected_feature").to_csv(OUT_T/"Task19_selected_features_pos15.csv", index=False)

print("[FS] OK. MI/RF/selected збережені в out/tables/. Рекомендовано використати Task19_selected_features_pos15.csv")


Мета. Виявити гравців із підозріло малим/великим зростом/вагою всередині ролі (GK/DEF/MID/FWD) і гравців без цих показників.
Що зберігаємо.

Task17_role_extremes_height_weight.csv — 1-й і 99-й перцентил за роллю; все, що ≤1% або ≥99% → прапоримо.

Task17_missing_bodymetrics.csv — усі, у кого бракує height/weight.
Тлумачення. Це не «помилка», а екран: вибірка для ручної перевірки або окремого бізнес-правила (наприклад, дропнути екстремальних GK зі зростом < 170 см, якщо це шкодить моделі).

In [None]:
#  Task17.A: Екстремальні/відсутні антропометрії (за role_group)

from pathlib import Path
import numpy as np
import pandas as pd

OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

# налаштування порогів (ранговий підхід: 1% знизу + 1% згори)
P_EXT_FRAC     = 0.01
MIN_N_PER_ROLE = 30

# гарантуємо наявність role_group / primary_position
DEF = {"CB","LB","RB","LWB","RWB"}
MID = {"CDM","CM","CAM","LM","RM"}
FWD = {"ST","CF","LW","RW"}

def make_primary_position(s: pd.Series) -> pd.Series:
    # перша позиція як primary
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

def role_group_fn(pos: str) -> str:
    p = str(pos).upper()
    if p == "GK": return "GK"
    if p in DEF:  return "DEF"
    if p in MID:  return "MID"
    if p in FWD:  return "FWD"
    return "OTHER"

if "primary_position" not in df.columns and "player_positions" in df.columns:
    df["primary_position"] = make_primary_position(df["player_positions"])
if "role_group" not in df.columns and "primary_position" in df.columns:
    df["role_group"] = df["primary_position"].apply(role_group_fn)

# вибираємо доступну назву гравця
NAME_COL = "short_name" if "short_name" in df.columns else ("long_name" if "long_name" in df.columns else None)

# цільові колонки на виході
COLS_OUT = ["sofifa_id","name","primary_position","role_group","col","value"]

ext_frames, miss_frames = [], []

for grp, part in df.groupby("role_group"):
    if grp not in {"GK","DEF","MID","FWD"} or len(part) < MIN_N_PER_ROLE:
        continue

    for col in ["height_cm","weight_kg"]:
        if col not in part.columns:
            continue

        # відсутні значення
        miss_mask = part[col].isna()
        if miss_mask.any():
            base = pd.DataFrame({
                "sofifa_id": part.loc[miss_mask, "sofifa_id"].values if "sofifa_id" in part.columns else pd.NA,
                "primary_position": part.loc[miss_mask, "primary_position"].values if "primary_position" in part.columns else pd.NA,
                "role_group": grp,
                "col": col,
                "value": np.nan,
            })
            if NAME_COL and NAME_COL in part.columns:
                base["name"] = part.loc[miss_mask, NAME_COL].values
            else:
                # заглушка з ID
                base["name"] = base["sofifa_id"].apply(lambda x: f"player_{int(x)}" if pd.notna(x) else "player_unknown")
            miss_frames.append(base[COLS_OUT])

        # екстреми рангово (1% low + 1% high)
        p = part.dropna(subset=[col])
        if p.empty:
            continue
        n_each = max(1, int(np.ceil(P_EXT_FRAC * len(p))))
        s = p.sort_values(col)
        low  = s.head(n_each)
        high = s.tail(n_each)
        both = pd.concat([low, high], ignore_index=False)

        if not both.empty:
            base = pd.DataFrame({
                "sofifa_id": both["sofifa_id"].values if "sofifa_id" in both.columns else pd.NA,
                "primary_position": both["primary_position"].values if "primary_position" in both.columns else pd.NA,
                "role_group": grp,
                "col": col,
                "value": both[col].values,
            })
            if NAME_COL and NAME_COL in both.columns:
                base["name"] = both[NAME_COL].values
            else:
                base["name"] = base["sofifa_id"].apply(lambda x: f"player_{int(x)}" if pd.notna(x) else "player_unknown")
            ext_frames.append(base[COLS_OUT])

# збірка результатів з заголовками навіть якщо пусто
ext_df  = (pd.concat(ext_frames, ignore_index=True)  if ext_frames else pd.DataFrame(columns=COLS_OUT))
miss_df = (pd.concat(miss_frames, ignore_index=True) if miss_frames else pd.DataFrame(columns=COLS_OUT))

ext_df.to_csv(OUT_T/"Task17_role_extremes_height_weight.csv", index=False)
miss_df.to_csv(OUT_T/"Task17_missing_bodymetrics.csv", index=False)

print(f"[A] extremes rows: {len(ext_df)} | missing rows: {len(miss_df)} "
      f"(frac={P_EXT_FRAC}, min_n={MIN_N_PER_ROLE}, name_col={NAME_COL or 'placeholder'})")


Мета. Відловити гравців, чия ціна або зарплата нетипова для їх overall, віку та ліги (контроль за контекстом!).
Що зберігаємо.

Task17_value_outliers_byrole.csv, Task17_wage_outliers_byrole.csv — спостереження з |z-resid| ≥ Z_THR.
Метод. Для кожної ролі: регресуємо log1p(value/wage) ~ overall + age + OHE(league_topN), беремо стандартизований залишок і відсікаємо хвости.

In [None]:
#  Task17.B: Аномалії value/wage за ролями (лінійна модель + Z-резидуали)
from pathlib import Path
import numpy as np, pandas as pd
from sklearn.preprocessing import OneHotEncoder
from sklearn.linear_model import LinearRegression

OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

Z_THR = 4.0  # чутливість (менше → більше аномалій)
TOP_LEAG = df["league_name"].value_counts().head(30).index if "league_name" in df.columns else []

def ohe_league(s: pd.Series) -> pd.Series:
    return s.where(s.isin(TOP_LEAG), "Other").astype(str)

def OHE_dense():
    try:
        return OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        return OneHotEncoder(handle_unknown="ignore", sparse=False)

def role_linear_outliers(data: pd.DataFrame, y_col: str, z_thr: float = Z_THR) -> pd.DataFrame:
    cols_out = ["sofifa_id","short_name","club_name","league_name",
                "primary_position","role_group","overall","age", y_col, "resid_z_log"]
    if data.empty:
        return pd.DataFrame(columns=cols_out)

    need_cols = [y_col,"overall","age","role_group","primary_position"]
    for c in need_cols:
        if c not in data.columns:
            return pd.DataFrame(columns=cols_out)

    part0 = data.dropna(subset=[y_col,"overall","age"]).copy()
    if part0.empty:
        return pd.DataFrame(columns=cols_out)

    rows = []
    for grp, part in part0.groupby("role_group"):
        if len(part) < 10:
            continue

        # X: overall, age (+ one-hot league)
        X_num = part[["overall","age"]].values
        if "league_name" in part.columns:
            Xb = part[["league_name"]].copy()
            Xb["league_name"] = ohe_league(Xb["league_name"])
            ohe = OHE_dense()
            X_cat = ohe.fit_transform(Xb[["league_name"]])
            X = np.hstack([X_num, X_cat])
        else:
            X = X_num

        # y: log1p(value/wage)
        y = np.log1p(part[y_col].clip(lower=1))
        reg = LinearRegression().fit(X, y)
        resid = y - reg.predict(X)
        s = resid.std(ddof=1)
        z = (resid - resid.mean()) / (s if s > 0 else 1.0)

        mask = np.abs(z) >= z_thr
        if mask.any():
            tmp = part.loc[mask, ["sofifa_id","short_name","club_name","league_name",
                                  "primary_position","role_group","overall","age", y_col]].copy()
            tmp["resid_z_log"] = z[mask]
            rows.append(tmp)

    out = (pd.concat(rows, ignore_index=True) if rows else pd.DataFrame(columns=cols_out))
    return out[cols_out]

# фільтруємо лише додатні значення (лог-трансформація)
val_in = df[df.get("value_eur", 0) > 0]
wag_in = df[df.get("wage_eur", 0)  > 0]

val_out = role_linear_outliers(val_in, "value_eur", z_thr=Z_THR)
wag_out = role_linear_outliers(wag_in, "wage_eur",  z_thr=Z_THR)

val_out.to_csv(OUT_T/"Task17_value_outliers_byrole.csv", index=False)
wag_out.to_csv(OUT_T/"Task17_wage_outliers_byrole.csv",  index=False)

print(f"[B] value_outliers: {len(val_out)} | wage_outliers: {len(wag_out)} | z_thr={Z_THR}, top_leagues={len(TOP_LEAG)}")


Мета. Знайти гравців у топ-квантілі overall всередині своєї ролі, у яких ключові скіли для цієї ролі нижчі за рольові пороги.
Що зберігаємо.

Task17_high_overall_but_weak_core_attrs.csv — підозрілі записи для ручної перевірки.
Правила (можна підкрутити під курс/захист):

беремо верхні 10% за overall у ролі;

«низькі обидва» — скіли нижче 20-го перцентиля ролі;

«дуже низький один» — хоча б один нижче 10-го перцентиля.

In [None]:
#  Task17.C: High overall but weak core skills (screen)
from pathlib import Path
import numpy as np
import pandas as pd

OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

P_TOP_OVERALL   = 0.90
P_BOTH_LOW      = 0.20
P_VLOW_ONE      = 0.10
MIN_N_PER_ROLE  = 50

role_rules = {
    "FWD": {"low_both": ["attack_idx","pace_idx"],      "vlow_one": ["attack_idx","pace_idx"]},
    "MID": {"low_both": ["playmake_idx","dribble_idx"], "vlow_one": ["playmake_idx"]},
    "DEF": {"low_both": ["defend_idx","phys_idx"],      "vlow_one": ["defend_idx"]},
    "GK":  {"low_both": ["gk_idx"],                     "vlow_one": ["gk_idx"]},
}

# вибираємо доступну назву гравця (для красивого виводу)
NAME_COL = "short_name" if "short_name" in df.columns else ("long_name" if "long_name" in df.columns else None)

rows = []
for grp, part in df.groupby("role_group"):
    # фільтр мін.розміру і наявності overall
    if grp not in role_rules or len(part) < MIN_N_PER_ROLE or "overall" not in part.columns:
        continue
    rr = role_rules[grp]

    # кандидати: верхній квантіль за overall усередині ролі
    part_ok = part[part["overall"].notna()].copy()
    if part_ok.empty:
        continue
    top_over = part_ok["overall"].quantile(P_TOP_OVERALL)
    cand = part_ok[part_ok["overall"] >= top_over].copy()
    if cand.empty:
        continue

    # «обидва низькі» — лише за тими колонками, що реально існують
    low_both_cols = [c for c in rr["low_both"] if c in part_ok.columns]
    if low_both_cols:
        both_low = np.ones(len(cand), dtype=bool)
        for c in low_both_cols:
            thr = part_ok[c].quantile(P_BOTH_LOW)
            both_low &= cand[c] < thr
    else:
        both_low = np.zeros(len(cand), dtype=bool)

    # «дуже низький один»
    vlow_cols = [c for c in rr["vlow_one"] if c in part_ok.columns]
    vlow = np.zeros(len(cand), dtype=bool)
    for c in vlow_cols:
        thr = part_ok[c].quantile(P_VLOW_ONE)
        vlow |= cand[c] < thr

    # формуємо підсумкову таблицю лише з наявними колонками
    base_cols = ["sofifa_id","primary_position","overall"]
    if "club_name" in cand.columns: base_cols.insert(1, "club_name")
    if NAME_COL and NAME_COL in cand.columns: base_cols.insert(1, NAME_COL)

    skill_cols_present = list(set(low_both_cols + vlow_cols) & set(cand.columns))
    sus = cand.loc[both_low | vlow, base_cols + skill_cols_present].copy()
    if not sus.empty:
        sus["role_group"] = grp
        rows.append(sus)

# збірка і збереження (навіть якщо порожньо — з заголовками)
all_cols = sorted(set().union(*(t.columns for t in rows))) if rows else base_cols + ["role_group"]
out_c = (pd.concat(rows, ignore_index=True) if rows else pd.DataFrame(columns=all_cols))
out_c.to_csv(OUT_T/"Task17_high_overall_but_weak_core_attrs.csv", index=False)

print(f"[C] weak-core among top overall: {len(out_c)}")


Мета. Побудувати чистий train-набір для майбутнього моделювання позиції:
– нормалізувати позиції → лише канонічні 15;
– вимагати достатність ключових індексів за роллю;
– виключити жорсткі фінансові аутлайєри;
– зберегти Task18_features_train.csv.
Що зберігаємо.

Task18_features_train.csv — підмножина Task18_features_base.csv із валідними sofifa_id.

In [None]:
#  Task18: Маска якості → features_train
from pathlib import Path
import numpy as np, pandas as pd

OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

# гарантуємо primary_position / role_group
DEF = {"CB","LB","RB","LWB","RWB"}
MID = {"CDM","CM","CAM","LM","RM"}
FWD = {"ST","CF","LW","RW"}

def make_primary_position(s: pd.Series) -> pd.Series:
    # перша позиція як primary
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

def role_group_fn(pos: str) -> str:
    p = str(pos).upper()
    if p == "GK": return "GK"
    if p in DEF:  return "DEF"
    if p in MID:  return "MID"
    if p in FWD:  return "FWD"
    return "OTHER"

if "primary_position" not in df.columns and "player_positions" in df.columns:
    df["primary_position"] = make_primary_position(df["player_positions"])

# 🔧 нормалізація: робимо UPPERCASE для консистентності (без жодних мап SK→ST)
df["primary_position"] = df["primary_position"].astype(str).str.upper().str.strip()

if "role_group" not in df.columns and "primary_position" in df.columns:
    df["role_group"] = df["primary_position"].apply(role_group_fn)

# канонічні позиції
CANON15 = {"GK","CB","LB","RB","LWB","RWB","CDM","CM","CAM","LM","RM","LW","RW","ST","CF"}
mask_pos = df["primary_position"].isin(CANON15)

# заповненість ключових індексів (правило: ≥ половини з переліку)
need = {
    "FWD": ["attack_idx","pace_idx","dribble_idx"],
    "MID": ["playmake_idx","dribble_idx"],
    "DEF": ["defend_idx","phys_idx","pace_idx"],
    "GK":  ["gk_idx"]
}
def enough_cols(row: pd.Series) -> bool:
    cols = need.get(row.get("role_group"), [])
    if not cols:
        return True
    ok = [pd.notna(row[c]) for c in cols if c in row.index]
    return (sum(ok) >= max(1, int(np.ceil(len(cols)/2))))

mask_enough = df.apply(enough_cols, axis=1)

# жорсткі аномалії (ID із Task17.B)
def load_ids(rel_path: str) -> set:
    p = OUT_T / rel_path
    if not p.exists():
        return set()
    try:
        t = pd.read_csv(p)
        return set(t["sofifa_id"].dropna().astype(int))
    except Exception:
        return set()

bad_ids = load_ids("Task17_value_outliers_byrole.csv") | load_ids("Task17_wage_outliers_byrole.csv")
mask_anom = ~df["sofifa_id"].astype(int).isin(bad_ids)

# все разом
train_mask = (mask_pos & mask_enough & mask_anom &
              df["overall"].notna() & df["age"].notna())

# читання базових фіч
FE_BASE_PATH = OUT_T / "Task18_features_base.csv"
if not FE_BASE_PATH.exists():
    raise FileNotFoundError(f"Не знайдено {FE_BASE_PATH}. Спочатку збережи базову матрицю ознак (Task18_features_base.csv).")

fe_base = pd.read_csv(FE_BASE_PATH, low_memory=False)
fe_train = fe_base[fe_base["sofifa_id"].isin(df.loc[train_mask, "sofifa_id"])]

fe_train.to_csv(OUT_T / "Task18_features_train.csv", index=False)
print(f"[TRAIN] {fe_train.shape[0]} рядків у Task18_features_train.csv (з {fe_base.shape[0]})")


Мета блоку

Що робимо: готуємо два варіанти ознак для задачі класифікації позиції та відбираємо найінформативніші змінні.

Навіщо два варіанти:
A) компактні індекси (інтерпретованість, низька мультиколінеарність),
B) детальні атрибути (вища гнучкість моделей).

Методологія відбору: комбінуємо ранги Mutual Information (нелінійний зв’язок із таргетом) та RandomForest importance (середнє по крос-валідації). Отримаємо об’єднаний рейтинг і виберемо топ-K.

In [None]:
#  Task18: формування фічсетів A/B
from pathlib import Path
import pandas as pd
import numpy as np

IN = Path("out/tables/Task18_features_train.csv")
OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

df = pd.read_csv(IN, low_memory=False)

# -- невеликі утиліти ---------------------------------------------------------
def has(col): return col in df.columns
def safe_cols(cands): return [c for c in cands if has(c)]

# робимо числові лог-версії вартості/зарплати (можуть знадобитися пізніше)
for c in ["value_eur","wage_eur"]:
    if has(c):
        df[f"log1p_{c}"] = np.log1p(pd.to_numeric(df[c], errors="coerce"))

# розбір work_rate "High/ Medium" -> дві числові (лише якщо нема)
if has("work_rate") and (not has("work_att") or not has("work_def")):
    m = df["work_rate"].astype(str).str.lower().str.extract(r"(low|medium|high)[\s/]*(low|medium|high)?")
    map3 = {"low":0, "medium":1, "high":2}
    df["work_att"] = df.get("work_att", m[0].map(map3))
    df["work_def"] = df.get("work_def", m[1].map(map3))

# ---- таргет
y_col = "primary_position"
if y_col not in df.columns:
    raise ValueError("Немає стовпця primary_position у Task18_features_train.csv")

# ---- фічсет A: індекси + базова антропометрія/профіль
IDX  = safe_cols(["pace_idx","dribble_idx","playmake_idx","attack_idx","defend_idx","phys_idx","gk_idx"])
BASE = safe_cols(["overall","potential","age","height_cm","weight_kg","weak_foot","skill_moves","international_reputation"])
CATS = safe_cols(["preferred_foot","body_type"]) + safe_cols(["work_rate"])  # сирі категорії (для one-hot у пайплайні)
WR   = safe_cols(["work_att","work_def"])  # числовий розбір

FEAT_A = list(dict.fromkeys(IDX + BASE + WR + CATS))  # порядок без дублів

# ---- фічсет B: детальні навички (усі доступні «технічні» стовпці)
PATTERNS = ("attacking_","skill_","movement_","mentality_","power_","defending_","goalkeeping_")
DETAIL = [c for c in df.columns if c.startswith(PATTERNS)]
FEAT_B = list(dict.fromkeys(DETAIL + BASE + WR + CATS))

# діагностика: чи є кандидати, яких немає у df (на випадок майбутніх рефакторингів)
missing_A = [c for c in (IDX + BASE + WR + CATS) if c not in df.columns]
missing_B = [c for c in (DETAIL + BASE + WR + CATS) if c not in df.columns]
if missing_A:
    print(f"[WARN] Відсутні у df кандидати з набору A: {missing_A}")
if missing_B:
    print(f"[WARN] Відсутні у df кандидати з набору B: {missing_B[:10]}{' ...' if len(missing_B)>10 else ''}")

# збережемо метадані
pd.Series(FEAT_A, name="feature").to_csv(OUT_T/"Task18_featset_A_list.csv", index=False)
pd.Series(FEAT_B, name="feature").to_csv(OUT_T/"Task18_featset_B_list.csv", index=False)

print(f"[A] {len(FEAT_A)} ознак;  [B] {len(FEAT_B)} ознак")


Мета. Автоматично відібрати найінформативніші фічі для мультикласової цілі primary_position, щоб надалі тренувати компактні й стійкі моделі.

Як працює блок:

Читаємо тренувальну матрицю з Task18_features_train.csv. Якщо немає числових work_att/work_def, відновлюємо їх із текстового work_rate.

Для кожного списку фіч A/B (збережені в Task18_featset_A_list.csv / Task18_featset_B_list.csv) виконуємо:

Підготовку даних: медіанна імпутація числових, one-hot для категоріальних (щільна матриця; сумісно зі старими/новими версіями sklearn).

Filter-крок (MI): рахуємо mutual_info_classif між ознаками та ціллю; для категоріальних агрегуємо важливість назад на “сиру” фічу (максимум по її one-hot стовпцях).

Embedded-крок (RF): 5-фолдова StratifiedKFold з RandomForestClassifier; усереднюємо важливості та також згортаємо їх на рівень вихідних фіч.

Зведений рейтинг: ранжуємо за MI та RF, складаємо бали (rank_sum) і сортуємо.

Анти-колінеарність: для числових дропаємо надлишково корельовані пари (|r| ≥ 0.95), лишаючи одну з них.

Вибір: беремо top-k (для A – 40, для B – 60).

Результати зберігаються у:

Task19_feature_ranks_A.csv, Task19_selected_features_A.csv

Task19_feature_ranks_B.csv, Task19_selected_features_B.csv

Чому саме так:

MI ловить нелінійні та не монотонні залежності; RF враховує взаємодії та є стійким до шуму.

CV зменшує варіативність оцінок, агрегація one-hot не дає категоріальним фічам “перемножувати” свій вплив, кореляційний фільтр прибирає мультиколінеарність.

class_weight="balanced_subsample" допомагає при дисбалансі класів.

In [None]:
#  Task19: авто-відбір фіч (MI + RandomForest, CV) — СУМІСНИЙ ПАТЧ
import numpy as np, pandas as pd
from pathlib import Path
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline
from sklearn.feature_selection import mutual_info_classif
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import StratifiedKFold

IN = Path("out/tables/Task18_features_train.csv")
OUT_T = Path("out/tables"); OUT_T.mkdir(parents=True, exist_ok=True)

df = pd.read_csv(IN, low_memory=False)

# — відновлюємо work_att/work_def, якщо їх немає, але є work_rate
if ("work_att" not in df.columns or "work_def" not in df.columns) and ("work_rate" in df.columns):
    m = df["work_rate"].astype(str).str.lower().str.extract(r"(low|medium|high)[\s/]*(low|medium|high)?")
    map3 = {"low":0, "medium":1, "high":2}
    df["work_att"] = m[0].map(map3)
    df["work_def"] = m[1].map(map3)

y = df["primary_position"].astype(str)

# — списки фіч
FEAT_A = pd.read_csv(OUT_T/"Task18_featset_A_list.csv")["feature"].tolist()
FEAT_B = pd.read_csv(OUT_T/"Task18_featset_B_list.csv")["feature"].tolist()

# — сумісний one-hot (dense), працює і в нових, і в старих sklearn
def OHE_dense():
    try:
        return OneHotEncoder(handle_unknown="ignore", sparse_output=False)
    except TypeError:
        return OneHotEncoder(handle_unknown="ignore", sparse=False)

def select_features(FEATS, set_name, top_k=40, corr_drop_thr=0.95, random_state=42):
    FEATS = [c for c in FEATS if c in df.columns]
    if not FEATS:
        raise ValueError(f"Порожній набір ознак {set_name} після фільтрації за наявністю в df.")
    num = [c for c in FEATS if pd.api.types.is_numeric_dtype(df[c])]
    cat = [c for c in FEATS if not pd.api.types.is_numeric_dtype(df[c])]

    #  MI (потрібна щільна матриця; фітуємо тільки на df[FEATS])
    transformers_mi = []
    if num: transformers_mi.append(("num", SimpleImputer(strategy="median"), num))
    if cat: transformers_mi.append(("cat", OHE_dense(), cat))
    if not transformers_mi:
        raise ValueError(f"Немає валідних ознак у наборі {set_name}.")
    pre_mi = ColumnTransformer(transformers_mi, remainder="drop")
    X_mi = pre_mi.fit_transform(df[FEATS])  # <-- лише підмножина FEATS

    # дискретні фічі = ті, що з one-hot
    mi_names = pre_mi.get_feature_names_out()
    mi_is_discrete = np.array([name.startswith("cat__") for name in mi_names], dtype=bool)

    mi_vals = mutual_info_classif(X_mi, y, discrete_features=mi_is_discrete, random_state=random_state)
    mi_tbl  = pd.DataFrame({"col": mi_names, "mi": mi_vals})

    # агрегуємо MI з one-hot до сирих назв
    agg_mi = {}
    for raw in FEATS:
        keys = [n for n in mi_names if n.endswith(f"__{raw}") or n.startswith(f"cat__{raw}_")]
        if keys:
            agg_mi[raw] = float(mi_tbl.loc[mi_tbl["col"].isin(keys), "mi"].max())
    mi_rank = pd.DataFrame({"feature": list(agg_mi.keys()), "mi": list(agg_mi.values())})

    #  RF + CV (важливості усереднюємо та згортаємо по one-hot)
    transformers_rf = []
    if num: transformers_rf.append(("num", SimpleImputer(strategy="median"), num))
    if cat: transformers_rf.append(("cat", OHE_dense(), cat))
    pre_rf = ColumnTransformer(transformers_rf, remainder="drop")

    rf = RandomForestClassifier(
        n_estimators=400, min_samples_split=4,
        random_state=random_state, n_jobs=-1,
        class_weight="balanced_subsample"
    )
    pipe = Pipeline([("prep", pre_rf), ("rf", rf)])

    skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=random_state)
    imp_accum = {f: 0.0 for f in FEATS}

    for tr, te in skf.split(df[FEATS], y):
        X_tr, y_tr = df.iloc[tr][FEATS], y.iloc[tr]
        pipe.fit(X_tr, y_tr)
        oh_names = pipe.named_steps["prep"].get_feature_names_out()
        imp_oh   = pipe.named_steps["rf"].feature_importances_
        imp_tbl  = pd.DataFrame({"col": oh_names, "imp": imp_oh})
        for raw in FEATS:
            keys = [n for n in oh_names if n.endswith(f"__{raw}") or n.startswith(f"cat__{raw}_")]
            if keys:
                imp_accum[raw] += float(imp_tbl.loc[imp_tbl["col"].isin(keys), "imp"].sum())

    for k in imp_accum:
        imp_accum[k] /= skf.get_n_splits()
    rf_rank = pd.DataFrame({"feature": list(imp_accum.keys()), "rf_importance": list(imp_accum.values())})

    #  Об'єднаний рейтинг
    tbl = mi_rank.merge(rf_rank, on="feature", how="outer").fillna(0.0)
    tbl["rank_mi"] = tbl["mi"].rank(ascending=False, method="average")
    tbl["rank_rf"] = tbl["rf_importance"].rank(ascending=False, method="average")
    tbl["rank_sum"] = tbl["rank_mi"] + tbl["rank_rf"]
    tbl = tbl.sort_values(["rank_sum","rank_rf"], ascending=[True, True]).reset_index(drop=True)

    #  Дроп надлишково корельованих числових фіч (> corr_drop_thr) на рівні сирих ознак
    keep, num_keep = [], []
    corr_mat = df[num].corr().abs() if num else pd.DataFrame()
    for f in tbl["feature"]:
        if f in num and not corr_mat.empty and f in corr_mat.index:
            if any((corr_mat.loc[f, g] > corr_drop_thr) for g in num_keep if g in corr_mat.index):
                continue
            num_keep.append(f)
        keep.append(f)

    selected = keep[:top_k] if top_k else keep
    tbl.to_csv(OUT_T/f"Task19_feature_ranks_{set_name}.csv", index=False)
    pd.Series(selected, name="feature").to_csv(OUT_T/f"Task19_selected_features_{set_name}.csv", index=False)
    print(f"[{set_name}] обрано {len(selected)} фіч (з {len(FEATS)}), top_k={top_k}")
    return tbl, selected

rankA, selA = select_features(FEAT_A, "A", top_k=40)
rankB, selB = select_features(FEAT_B, "B", top_k=60)


Мета блоку: саніті-чек / маніфест артефактів Task17–19

Що робить цей блок

Перевіряє, що всі очікувані CSV з Task17–19 згенеровані, не порожні та свіжі.

Друкує зручний звіт зі статусом для кожного файлу: ✅/❌, розмір, кількість рядків у заголовку (head_rows), час модифікації.

Формує зведену таблицю-маніфест _manifest_tasks_17_19.csv у out/tables/.

Додатково показує «зайві» CSV у каталозі (не перелічені в EXPECTED) — щоби ми нічого не загубили після рефакторингу.

Коли запускати

Після завершення всіх кроків Task17 → Task19 (або наприкінці ноутбука).

Перед синхронізацією у GitHub / CI, щоб упевнитись, що артефакти повні.

Як читати звіт

✅ — файл існує і має ненульовий розмір; ❌ — відсутній або порожній.

head_rows — скільки рядків прочиталося з head (швидка перевірка, що файл валідний CSV).

mtime — коли файл востаннє оновлювався (корисно, якщо підозрюємо «застряглі» артефакти).

Гнучкість і розширення

Список очікуваних файлів задається у словнику EXPECTED по тасках — просто додайте новий файл до відповідного списку.

Прапорець STRICT:

False (дефолт): лише друкуємо попередження.

True: якщо є відсутні/порожні критичні файли — падаємо з assert (зручно для CI).

Типові причини «❌» і як виправити

Не запущені попередні комірки (наприклад, Task17.B для outliers).

Занадто суворі пороги (наприклад, Z_THR у Task17.B → спробуйте 3.0–3.5).

Неправильний шлях виводу (має бути out/tables).

Дані фільтрами «вичистилися» (перевірте train_mask, наявність колонок, тощо).

Вихід

Зведений маніфест записується у out/tables/_manifest_tasks_17_19.csv і може бути прикріплений до звіту/README.

In [None]:
# 🔍 Саніті-чек / маніфест артефактів Task17–19
import os, time, glob
from pathlib import Path
import pandas as pd

OUT = Path("out/tables")
OUT.mkdir(parents=True, exist_ok=True)

# 👇 Список очікуваних файлів по тасках (оновлюємо за потреби)
EXPECTED = {
    "Task17": [
        "EDA_types.csv",
        "EDA_nulls.csv",
        "EDA_pos_count.csv",
        "EDA_role_group_count.csv",
        "EDA_categorical_cardinality.csv",
        "EDA_contamination.csv",
        "EDA_quantiles_core.csv",
        "EDA_range_violations.csv",
        "EDA_core_strong_corr.csv",
        "EDA_strong_corr_all_pearson.csv",
        "EDA_strong_corr_all_spearman.csv",
        "Task17_role_extremes_height_weight.csv",
        "Task17_missing_bodymetrics.csv",
        "Task17_value_outliers_byrole.csv",
        "Task17_wage_outliers_byrole.csv",
        "Task17_high_overall_but_weak_core_attrs.csv",
    ],
    "Task18": [
        "Task18_features_base.csv",
        "Task18_features_train.csv",
        "Task18_featset_A_list.csv",
        "Task18_featset_B_list.csv",
    ],
    "Task19": [
        "Task19_feature_ranks_A.csv",
        "Task19_feature_ranks_B.csv",
        "Task19_selected_features_A.csv",
        "Task19_selected_features_B.csv",
    ],
}

STRICT = False  # True → падати з assert, якщо критичний файл відсутній/порожній

rows = []
for task, files in EXPECTED.items():
    for name in files:
        p = OUT / name
        exists = p.exists()
        size   = p.stat().st_size if exists else 0
        mtime  = time.ctime(p.stat().st_mtime) if exists else "-"
        head   = "-"
        if exists and p.suffix == ".csv" and size > 0:
            try:
                head = pd.read_csv(p, nrows=3).shape[0]
            except Exception:
                head = "?"
        rows.append({
            "task": task,
            "path": str(p),
            "exists": exists,
            "size": int(size),
            "head_rows": head,
            "mtime": mtime
        })

# Додаткові CSV у каталозі, яких немає в EXPECTED (щоб не загубити щось корисне)
all_csv = set(glob.glob(str(OUT / "*.csv")))
expected_csv = set(str(OUT / f) for fs in EXPECTED.values() for f in fs)
extra = sorted(all_csv - expected_csv)

man = pd.DataFrame(rows).sort_values(["task", "path"])
man.to_csv(OUT / "_manifest_tasks_17_19.csv", index=False)

# Зручний друк
ok = True
for _, r in man.iterrows():
    mark = "✅" if (r["exists"] and r["size"] > 0) else "❌"
    print(f'{mark} {r["task"]:<6} | {os.path.basename(r["path"]):45s} | size={r["size"]:>7} | head={r["head_rows"]!s:<3} | {r["mtime"]}')
    if STRICT and not (r["exists"] and r["size"] > 0):
        ok = False

if extra:
    print("\nℹ️  Додаткові CSV (не у списку EXPECTED):")
    for p in extra:
        print("   •", os.path.basename(p))

if STRICT:
    assert ok, "Є відсутні або порожні файли у критичних артефактах."
else:
    print("\nМаніфест збережено → out/tables/_manifest_tasks_17_19.csv")


Мета блоку: «Синхронізація результатів у GitHub і підготовка до моделювання»

Навіщо:
Зафіксувати всі артефакти з Task17–19 у репозиторії як «джерело правди», щоб у наступному ноутбуці ми не готували дані повторно, а просто зчитали готові таблиці з GitHub. Це підвищує відтворюваність і спрощує перевірку.

Що саме відправляємо (очікувано):

out/tables/Task18_features_base.csv

out/tables/Task18_features_train.csv

out/tables/Task18_featset_A_list.csv, Task18_featset_B_list.csv

out/tables/Task19_feature_ranks_A.csv, Task19_feature_ranks_B.csv

out/tables/Task19_selected_features_A.csv, Task19_selected_features_B.csv

допоміжні EDA-звіти (EDA_*.csv) та маніфест _manifest_tasks_17_19.csv

Якщо деякі CSV відсутні — це сигнал, що відповідні попередні клітинки не запускались або повернули пустий результат.

In [None]:
#  Sync Task17–19 артефактів у GitHub + підготовка до моделювання
import os, glob, json, getpass, subprocess, shlex, time
from pathlib import Path

#  Налаштування
WORKDIR = "/content/project_fifa_players"   # корінь клонованого репо
BRANCH  = "main"                            # цільова гілка
GLOBS   = ["out/tables/*.csv", "out/figures/*.png"]  # що пушимо (CSV/PNG)
FORCE_ADD_IF_IGNORED = False                # True → git add -f

# Вхідні для наступного ноутбука (класифікація)
INPUTS = {
    "train_matrix": "out/tables/Task18_features_train.csv",
    "featset_A":    "out/tables/Task19_selected_features_A.csv",
    "featset_B":    "out/tables/Task19_selected_features_B.csv",
}

#  Утиліти
def run(cmd, check=True, capture=False):
    print("$", cmd)
    if capture:
        return subprocess.run(shlex.split(cmd), check=check, capture_output=True, text=True)
    return subprocess.run(shlex.split(cmd), check=check)

#  0) Робоча тека
os.makedirs(WORKDIR, exist_ok=True)
os.chdir(WORKDIR)
print("pwd:", os.getcwd())

#  1) Переконаємось, що потрібні файли існують
missing = [p for p in INPUTS.values() if not Path(p).exists()]
if missing:
    print("⚠️  Відсутні необхідні файли для моделювання:", missing)
else:
    # створимо службовий JSON з вхідними шляхами
    Path("modeling").mkdir(exist_ok=True)
    with open("modeling/inputs.json", "w", encoding="utf-8") as f:
        json.dump(INPUTS, f, ensure_ascii=False, indent=2)
    print("✅ Створено modeling/inputs.json")

#  2) Конфіг локального автора комітів
run('git config user.name "rvkushnir"', check=False)
run('git config user.email "rvkushnir@gmail.com"', check=False)

#  3) Додамо артефакти у staging
added_files = []
for pat in GLOBS + ["modeling/inputs.json"]:
    # якщо шаблон → розгортаємо
    paths = glob.glob(pat) if any(ch in pat for ch in "*?[]") else [pat]
    paths = [p for p in paths if Path(p).exists()]
    if not paths:
        continue
    if FORCE_ADD_IF_IGNORED:
        run(f'git add -f {" ".join(shlex.quote(p) for p in paths)}', check=False)
    else:
        run(f'git add {" ".join(shlex.quote(p) for p in paths)}', check=False)
    added_files.extend(paths)

if not added_files:
    print("ℹ️  Немає що додавати (файлів за шаблонами не знайдено).")

#  4) Коміт (лише якщо є staged-зміни)
has_staged = subprocess.run(shlex.split("git diff --cached --quiet")).returncode != 0
if has_staged:
    ts = time.strftime("%Y-%m-%d %H:%M:%S")
    run(f'git commit -m "Sync Task17–19 artifacts + modeling/inputs.json ({ts})"', check=False)
else:
    print("ℹ️  Немає нових staged-змін — коміт пропущено.")

#  5) Актуалізація та rebase поверх origin/main
run(f"git fetch origin {BRANCH}", check=False)
run(f"git rebase origin/{BRANCH}", check=False)

#  6) Пуш з токеном
if "GH_TOKEN" not in os.environ or not os.environ["GH_TOKEN"]:
    os.environ["GH_TOKEN"] = getpass.getpass("GitHub token (приховано): ")

push_url = f'https://x-access-token:{os.environ["GH_TOKEN"]}@github.com/rvkushnir/project_fifa_players.git'
run(f'git push "{push_url}" HEAD:{BRANCH}', check=False)

#  7) Звіт: що є у HEAD
res = run('git ls-tree -r HEAD --name-only', check=False, capture=True)
head_files = [p for p in res.stdout.splitlines() if p.startswith(("out/tables/","out/figures/","modeling/"))]
print("\n✅ У HEAD тепер є:")
for p in head_files:
    print(" •", p)
