<a href="https://colab.research.google.com/github/rvkushnir/project_fifa_players/blob/main/notebooks/04_analytical_thinking_block.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ініціалізація середовища**

Клонуємо репозиторій з GitHub у /content, переходимо в корінь проєкту.
Це гарантує однакові шляхи для даних/виводів у всіх сесіях Colab.
Після клонування перевіряємо наявність data/raw/fifa_players.csv.
Вихід: робочий каталог → pwd = /content/project_fifa_players.

In [None]:
#  Ініціалізація середовища: клон репозиторію і перехід у робочу теку
REPO = "rvkushnir/project_fifa_players"
BRANCH = "main"
WORKDIR = "/content/project_fifa_players"

# чистий клон
!rm -rf "$WORKDIR"
!git clone --depth 1 -b "$BRANCH" "https://github.com/{REPO}.git" "$WORKDIR"
%cd "$WORKDIR"

# Якщо у репо використовується Git LFS (великі файли) — підтягнемо дані
!git lfs install 2>/dev/null || true
!git lfs pull 2>/dev/null || true

# Перевіримо, що CSV на місці
!ls -lah data/raw


Блок 11–15 аналітичного мислення - метрики пенальтистів і «пенальті-стоперів» (логіка та артефакти)

Мета. Створити осмислені, відтворювані метрики для пенальтистів (PTS) і воротарів, що відбивають пенальті (GPS), агрегувати їх до рівня клубів і відповісти на завдання 11–15.

Методологія:

PTS (Penalty Taker Score) — зважене середнє атрибутів (0–100):
0.50·penalties + 0.15·composure + 0.15·finishing + 0.15·shot_power + 0.05·reactions.
Логіка: точність удару та психостійкість — ядро; finishing і сила — техніка/якість удару; reactions — допоміжно.

GPS (GK Penalty Saver Score) — зважене середнє для GK:
0.40·reflexes + 0.25·diving + 0.20·positioning + 0.05·handling + 0.10·reactions.
Логіка: реакція та стрибок — ключ; позиційність — читання моменту; handling на пенальті менш критичний.

Воротарі як пенальтисти. Прапор INCLUDE_GK_TAKERS. Дані показують, що GK майже не конкурують із польовими за PTS (навіть топ-GK не входить у топ-9000), тож True/False практично не змінює результати — лишив опцію.

Імпутація пропусків (щоб не завищувати слабких):

Медіана серед однопрофільних (рольова група DEF/MID/FWD/GK) з таким самим overall (бін 1 бал), бін ±2 бали, медіана лише по ролі, глобальна медіана.
Після каскаду, якщо все ще є NaN — такий гравець виключається з підрахунків.

Клубні показники та «суттєва» перевага (Task 13):

PTS_club = середнє TOP-2 пенальтистів клубу (аналог 1-го і 2-го штатних виконавців), оскільки зазвичай саме ці гравці б'ють більшість пенальті з гри.

GPS_club = максимум GPS серед воротарів клубу (основний GK).

Поріг «суттєво»: |Δ| = |PTS_club − GPS_club| ≥ 8 або |zPTS − zGPS| ≥ 0.8.
(Комбінуємо абсолютну різницю на шкалі 0–100 і стандартизовану різницю, щоб не залежати від стиснення однієї з метрик.)

Що саме зберігаємо (артефакти з префіксом Task):

Task11_penalty_taker_scores.csv — PTS по гравцях.

Task12_gk_penalty_saver_scores.csv — GPS по воротарях.

Task13_club_penalty_edge.csv — по клубах: PTS_club, GPS_club, Delta, Zdiff, статус label.

Task14_top10_clubs_best_penalty_takers.csv — топ-10 клубів за PTS_club.

Task15_top10_clubs_best_gk_penalty_savers.csv — топ-10 клубів за GPS_club.

In [None]:
# Блок 11–15: Метрики пенальтистів і GK, порівняння по клубах
from pathlib import Path
import pandas as pd
import numpy as np

# Шляхи
DATA_CSV = Path("data/raw/fifa_players.csv")
OUT = Path("out/tables"); OUT.mkdir(parents=True, exist_ok=True)

# Параметри методології
INCLUDE_GK_TAKERS = True    # чи враховувати воротарів як потенційних пенальтистів
OVERALL_BIN_WIDE  = True    # ввімкнути ширший бін (±2)
SAVE_APPENDIX     = False   # додаткові діагностики (за потреби)

# Ваги PTS (пенальтист)
W_PTS = {
    "mentality_penalties": 0.50,
    "mentality_composure": 0.15,
    "attacking_finishing": 0.15,
    "power_shot_power":    0.15,
    "movement_reactions":  0.05,
}

# Ваги GPS (GK-сейвер)
W_GPS = {
    "goalkeeping_reflexes":    0.40,
    "goalkeeping_diving":      0.25,
    "goalkeeping_positioning": 0.20,
    "goalkeeping_handling":    0.05,
    "movement_reactions":      0.10,
}

#  Допоміжні
DEF = {"CB","LB","RB","LWB","RWB"}
MID = {"CDM","CM","CAM","LM","RM"}
FWD = {"ST","CF","LW","RW"}

def role_group(pos: str) -> str:
    p = str(pos).strip().upper()
    if p == "GK": return "GK"
    if p in DEF:  return "DEF"
    if p in MID:  return "MID"
    if p in FWD:  return "FWD"
    return "OTHER"

def make_primary_position(s: pd.Series) -> pd.Series:
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

def _check_columns(df: pd.DataFrame, cols: list, context: str):
    missing = [c for c in cols if c not in df.columns]
    if missing:
        raise ValueError(f"[{context}] Відсутні колонки: {missing}")

def _prepare_bins(df: pd.DataFrame, attrs: list, role_col: str, overall_col: str):
    # точний бін (крок 1 бал)
    df["_overall_bin1"] = df[overall_col].round().astype("Int64")
    g1 = df.groupby([role_col,"_overall_bin1"], dropna=False)[attrs].median().rename(columns=lambda c:f"{c}__b1")
    # ширший бін (крок 2 бали)
    if OVERALL_BIN_WIDE:
        df["_overall_bin2"] = (df[overall_col]/2).round().astype("Int64")*2
        g2 = df.groupby([role_col,"_overall_bin2"], dropna=False)[attrs].median().rename(columns=lambda c:f"{c}__b2")
    else:
        g2 = None
    # медіана по ролі
    gR = df.groupby(role_col, dropna=False)[attrs].median().rename(columns=lambda c:f"{c}__r")
    # глобальна медіана
    gG = df[attrs].median().to_frame().T
    gG.index = ["__GLOBAL__"]
    gG = gG.rename(columns=lambda c:f"{c}__g")
    return g1, g2, gR, gG

def _impute_attrs(df: pd.DataFrame, attrs: list, role_col="role_group", overall_col="overall"):
    # побудова бенчів
    g1, g2, gR, gG = _prepare_bins(df, attrs, role_col, overall_col)
    X = df[[role_col, overall_col, "_overall_bin1"]].copy()
    X = X.join(g1, on=[role_col,"_overall_bin1"])
    if g2 is not None:
        X = X.join(df[["_overall_bin2"]])
        X = X.join(g2, on=[role_col,"_overall_bin2"])
    X = X.join(gR, on=role_col)
    # додамо глобальні по одному разу (потім підставимо за потреби)
    for a in attrs:
        X[f"{a}__g"] = gG.iloc[0][f"{a}__g"]

    # послідовне заповнення: b1 → b2 → r → g
    for a in attrs:
        src_b1 = f"{a}__b1"
        src_b2 = f"{a}__b2" if g2 is not None else None
        src_r  = f"{a}__r"
        src_g  = f"{a}__g"
        # де оригінал NaN — підставляємо за пріоритетом
        mask = df[a].isna()
        if src_b1 in X.columns:
            df.loc[mask, a] = X.loc[mask, src_b1]
            mask = df[a].isna()
        if src_b2 and (src_b2 in X.columns):
            df.loc[mask, a] = X.loc[mask, src_b2]
            mask = df[a].isna()
        if src_r in X.columns:
            df.loc[mask, a] = X.loc[mask, src_r]
            mask = df[a].isna()
        df.loc[mask, a] = X.loc[mask, src_g]
    return df

def zscore(s: pd.Series) -> pd.Series:
    m, sd = s.mean(), s.std(ddof=0)
    if pd.isna(sd) or sd == 0:
        return pd.Series(np.zeros(len(s)), index=s.index)
    return (s - m) / sd

#  1) Завантаження та базова підготовка
if not DATA_CSV.exists():
    raise FileNotFoundError(f"Не знайдено файл: {DATA_CSV.resolve()}")

df = pd.read_csv(DATA_CSV, low_memory=False)
_check_columns(df, ["overall","player_positions","short_name","sofifa_id"], "load")

df["primary_position"] = make_primary_position(df["player_positions"])
df["role_group"] = df["primary_position"].str.upper().map(role_group)

# до чисел
for c in list(set(
    ["overall","club_name","league_name","nationality_name"] +
    list(W_PTS.keys()) + list(W_GPS.keys())
)):
    if c in df.columns and df[c].dtype == "object":
        # числові тільки там, де це числові атрибути
        if c in list(W_PTS.keys())+list(W_GPS.keys()) or c=="overall":
            df[c] = pd.to_numeric(df[c], errors="coerce")

#  2) Обчислення PTS (пенальтист)
PTS_ATTRS = list(W_PTS.keys())
_check_columns(df, PTS_ATTRS, "PTS")
pts_df = df.copy()
pts_df = _impute_attrs(pts_df, PTS_ATTRS, role_col="role_group", overall_col="overall")

# фільтр складу для PTS
if not INCLUDE_GK_TAKERS:
    pts_df = pts_df[pts_df["role_group"]!="GK"].copy()

# рахунок
w_vec = np.array([W_PTS[a] for a in PTS_ATTRS], dtype=float)
pts_df["PTS"] = np.dot(pts_df[PTS_ATTRS].values, w_vec)

# зберегти Task11 (лише валідні без NaN)
task11_cols = ["sofifa_id","short_name","primary_position","role_group","overall","club_name","league_name","nationality_name","PTS"]
pts_out = pts_df.dropna(subset=["PTS"])[task11_cols]
pts_out = pts_out.sort_values(["PTS","overall"], ascending=[False, False])
pts_out.to_csv(OUT/"Task11_penalty_taker_scores.csv", index=False)

#  3) Обчислення GPS (GK-сейвер)
GPS_ATTRS = list(W_GPS.keys())
_check_columns(df, GPS_ATTRS, "GPS")
gk_df = df[df["role_group"]=="GK"].copy()
gk_df = _impute_attrs(gk_df, GPS_ATTRS, role_col="role_group", overall_col="overall")
w_vec_g = np.array([W_GPS[a] for a in GPS_ATTRS], dtype=float)
gk_df["GPS"] = np.dot(gk_df[GPS_ATTRS].values, w_vec_g)

task12_cols = ["sofifa_id","short_name","primary_position","overall","club_name","league_name","nationality_name","GPS"]
gk_out = gk_df.dropna(subset=["GPS"])[task12_cols].sort_values(["GPS","overall"], ascending=[False, False])
gk_out.to_csv(OUT/"Task12_gk_penalty_saver_scores.csv", index=False)

#  4) Клубні агрегації та порівняння (Task13)

# PTS_club: середнє TOP-2 у клубі (без .apply на групі)
pts_by_club = (
    pts_out.groupby("club_name", as_index=False)
           .agg(PTS_club=("PTS", lambda s: s.nlargest(2).mean()),
                n_takers=("sofifa_id", "size"))
)

# GPS_club: макс у клубі (без .apply на групі)
gps_by_club = (
    gk_out.groupby("club_name", as_index=False)
          .agg(GPS_club=("GPS", "max"),
               n_gk=("sofifa_id", "size"))
)

club_cmp = pd.merge(pts_by_club, gps_by_club, on="club_name", how="outer")
club_cmp["enough_data"] = (club_cmp["n_takers"].fillna(0) >= 2) & (club_cmp["n_gk"].fillna(0) >= 1)

# z-скори на базі гравців (без .apply на групі)
pts_out_z = pts_out.assign(zPTS_ind=zscore(pts_out["PTS"]))
top2 = (pts_out_z.sort_values("PTS", ascending=False)
                   .groupby("club_name", group_keys=False)
                   .head(2))
club_zpts = (top2.groupby("club_name", as_index=False)["zPTS_ind"]
                  .mean()
                  .rename(columns={"zPTS_ind": "zPTS"}))

gk_out_z = gk_out.assign(zGPS_ind=zscore(gk_out["GPS"]))
club_zgps = (gk_out_z.groupby("club_name", as_index=False)["zGPS_ind"]
                      .max()
                      .rename(columns={"zGPS_ind": "zGPS"}))

club_cmp = club_cmp.merge(club_zpts, on="club_name", how="left") \
                   .merge(club_zgps, on="club_name", how="left")

# дельта та ярлики "суттєвості"
club_cmp["Delta"] = club_cmp["PTS_club"] - club_cmp["GPS_club"]
club_cmp["Delta_abs"] = club_cmp["Delta"].abs()
club_cmp["Zdiff"] = club_cmp["zPTS"] - club_cmp["zGPS"]

def _label(row):
    if not row.get("enough_data", False):
        return "insufficient"
    if (row["Delta"] >= 8) or (row["Zdiff"] >= 0.8):
        return "takers >> GK"
    if (row["Delta"] <= -8) or (row["Zdiff"] <= -0.8):
        return "GK >> takers"
    return "balanced"

club_cmp["label"] = club_cmp.apply(_label, axis=1)

# фінальний вигляд Task13
task13_cols = ["club_name","PTS_club","GPS_club","Delta","Zdiff","n_takers","n_gk","enough_data","label"]
club_cmp[task13_cols].sort_values(["label","Delta"], ascending=[True, False]).to_csv(
    OUT/"Task13_club_penalty_edge.csv", index=False
)


#  5) Топи клубів (Task14, Task15)

# Task14: топ-10 клубів за PTS_club (фільтр ≥2 пенальтистів)
task14 = club_cmp[club_cmp["n_takers"]>=2] \
    .sort_values(["PTS_club","n_takers"], ascending=[False, False]) \
    .head(10)
task14[["club_name","PTS_club"]].to_csv(
    OUT/"Task14_top10_clubs_best_penalty_takers.csv", index=False
)

# Task15: топ-10 клубів за GPS_club (фільтр ≥1 GK)
task15 = club_cmp[club_cmp["n_gk"]>=1] \
    .sort_values(["GPS_club","n_gk"], ascending=[False, False]) \
    .head(10)
task15[["club_name","GPS_club"]].to_csv(
    OUT/"Task15_top10_clubs_best_gk_penalty_savers.csv", index=False
)


#  Діагностика (опційно)
if SAVE_APPENDIX:
    # частка ненульових атрибутів для GK у PTS-ознаках і навпаки — для контролю повноти
    take = PTS_ATTRS + ["role_group"]
    keep = [c for c in take if c in df.columns]
    diag_takers = df[keep].assign(_nonnull=lambda x: x[PTS_ATTRS].notna().sum(axis=1))
    diag = diag_takers.groupby("role_group")["_nonnull"].agg(["count","mean"]).rename(columns={"mean":"avg_nonnull_PTS_attrs"})
    diag.to_csv(OUT/"_appendix_penalty_attrs_nonnull_by_role.csv")

print("OK. Збережено Task11–Task15 у out/tables/")


Синхронізація артефактів out/tables/ з Colab у GitHub

Мета.
Надійно зберігати підсумкові таблиці (CSV) у репозиторії для перевіряючого та презентації. Блок автоматично додає, комітить і пушить зміни з out/tables/ у гілку main.

Вхід / Вихід.

Вхід: CSV, згенеровані в попередніх кроках у out/tables/*.csv (цей блок нічого не перераховує, лише відправляє).

Вихід: новий коміт у main з оновленими файлами out/tables/*.csv. (Старі версії залишаються в історії git.)

Коли запускати.
Після завершення розрахунків, коли CSV вже збережені в out/tables/.

Що робить під капотом.

Прописує підпис комітів (user.name/user.email) локально для репо.

git add out/tables/*.csv → кладе зміни у staging.

Створює коміт тільки якщо є нові/зміненi файли.

git fetch + git rebase origin/main → ставить наш коміт поверх актуального main.

git push через URL з токеном (без інтерактивного логіна/пароля).

Для контролю друкує перелік файлів, що увійшли до HEAD.

.gitignore дозволяє тільки підсумкові таблиці:

/out/*
!/out/
!/out/tables/
/out/tables/*
!/out/tables/*.csv


Потрібен GitHub-токен з правами Repository contents → Read & write. Токен вводиться у змінну GH_TOKEN і не зберігається в коді/історії.

In [None]:
#  СИНХРОНІЗАЦІЯ out/tables → GitHub


import os, getpass, glob, subprocess, shlex

# Налаштування
WORKDIR   = "/content/project_fifa_players"   # корінь клонованого репо
BRANCH    = "main"                            # цільова гілка
FILES_GLOB = "out/tables/*.csv"               # що синхронізувати
FORCE_ADD  = False                            # True → додавати з -f, якщо .gitignore заважає

def run(cmd, check=True):
    """Запуск команди з охайним виводом."""
    print("$", cmd)
    return subprocess.run(shlex.split(cmd), check=check)

# 0) Перейти в робочу теку
os.makedirs(WORKDIR, exist_ok=True)
os.chdir(WORKDIR)
print("pwd:", os.getcwd())

# 1) Перевірити наявність файлів
files = glob.glob(FILES_GLOB)
if not files:
    print("⚠️  Немає файлів для синхронізації:", FILES_GLOB)
else:
    # 2) Підпис комітів (локально для репо)
    run('git config user.name "rvkushnir"', check=False)
    run('git config user.email "rvkushnir@gmail.com"', check=False)

    # 3) Додати у staging
    add_cmd = f"git add {'-f ' if FORCE_ADD else ''}{FILES_GLOB}"
    run(add_cmd, check=False)

    # 4) Закомітити, якщо є зміни
    #    (git diff --cached --quiet повертає 0, якщо змін немає)
    has_staged = subprocess.run(shlex.split("git diff --cached --quiet")).returncode != 0
    if has_staged:
        run('git commit -m "Sync out/tables (updated CSV)"', check=False)
    else:
        print("ℹ️  Немає нових змін у staging (коміт не потрібен).")

    # 5) Підтягнути віддалені зміни і покласти наш коміт зверху (rebase)
    run(f"git fetch origin {BRANCH}", check=False)
    run(f"git rebase origin/{BRANCH}", check=False)

    # 6) Пуш з токеном (без інтерактивних запитів логіна/пароля)
    if "GH_TOKEN" not in os.environ or not os.environ["GH_TOKEN"]:
        os.environ["GH_TOKEN"] = getpass.getpass("GitHub token (приховано): ")

    push_url = f'https://x-access-token:{os.environ["GH_TOKEN"]}@github.com/rvkushnir/project_fifa_players.git'
    run(f'git push "{push_url}" HEAD:{BRANCH}', check=False)

    # 7) Швидка перевірка: чи у HEAD є наші файли
    out = subprocess.run(
        shlex.split('git ls-tree -r HEAD --name-only'),
        capture_output=True, text=True, check=False
    ).stdout.splitlines()
    pushed = [p for p in out if p.startswith("out/tables/") and p.endswith(".csv")]
    print("✅ У коміті:", pushed if pushed else "нема CSV у out/tables")
