<a href="https://colab.research.google.com/github/rvkushnir/project_fifa_players/blob/main/notebooks/02_analytical_block.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ініціалізація середовища**

Клонуємо репозиторій з GitHub у /content, переходимо в корінь проєкту.
Це гарантує однакові шляхи для даних/виводів у всіх сесіях Colab.
Після клонування перевіряємо наявність data/raw/fifa_players.csv.
Вихід: робочий каталог → pwd = /content/project_fifa_players.

In [None]:
#  Ініціалізація середовища: клон репозиторію і перехід у робочу теку
REPO = "rvkushnir/project_fifa_players"
BRANCH = "main"
WORKDIR = "/content/project_fifa_players"

# чистий клон
!rm -rf "$WORKDIR"
!git clone --depth 1 -b "$BRANCH" "https://github.com/{REPO}.git" "$WORKDIR"
%cd "$WORKDIR"

# Якщо у репо використовується Git LFS (великі файли) — підтягнемо дані
!git lfs install 2>/dev/null || true
!git lfs pull 2>/dev/null || true

# Перевіримо, що CSV на місці
!ls -lah data/raw


Мета блоку.
Побудувати узгоджений набір аналітичних таблиць для пунктів (1–7):

1) топ-100 гравців за рейтингом;
2) топ-100 за зарплатою та їх порівняння;
3) топ-30 воротарів;
4) топ-30 клубів за середнім рейтингом;
5) топ-30 клубів за середньою швидкістю;
6) ліги з найкращим дриблінгом;
7) рейтинг клубів за “стартовим XI” (1–4–4–2).

Вхід.

data/interim/players_clean.parquet (кеш із Блоку 1) або data/raw/fifa_players.csv (якщо кеш відсутній).

Вихід (CSV → out/tables/).

top100_overall.csv, top100_wage.csv, compare_top100_summary.csv,
top100_only_overall.csv, top100_only_wage.csv, top100_intersection.csv

top30_goalkeepers_overall.csv

clubs_avg_overall_all.csv, clubs_avg_overall_top30_min11.csv

clubs_avg_speed_all.csv, clubs_avg_speed_top30_min11.csv

leagues_avg_dribbling_all.csv, leagues_avg_dribbling_min200.csv

clubs_best_starting_xi_top30.csv

Ключові правила / параметри.

Сортування стабілізоване тай-брейками:

за рейтингом: overall ↓, potential ↓, wage_eur ↓, age ↑;

за зарплатою: wage_eur ↓, overall ↓, age ↑.

Швидкість: базово movement_sprint_speed (якщо немає — pace).

Дриблінг по лігах: зберігаємо всі та версію з порогом вибірки MIN_LEAGUE_PLAYERS=200.

“Стартовий XI” (1–4–4–2):

Гнучкий режим можливий: FLEXIBLE_POSITIONS=True — гравець може займати будь-яку зі своїх позицій (задача призначення), штраф за не-primary роль NON_PRIMARY_PENALTY=2.0.

Жорсткий режим: FLEXIBLE_POSITIONS=False — беремо лише primary_position.

Якщо клуб не має достатньо валідних гравців по лініях — він пропускається.

План аналітичного блоку.
1. Побудуємо ТОП-100 за overall.
2. Побудуємо ТОП-100 за wage_uer, порівняємо з 1: перетин, розбіжності, Jaccard.
3. ТОП-30 воротарів за overall.
4. ТОП-30 клубів за середнім overall.
5. ТОП-30 клубів за середньою швидкістю (використаємо movement_sprint_speed, або pace як fallback).
6. Ліги з найвищим середнім dribbling (+ розмір вибірки).
7. Рейтинг клубів за стартовим складом 11 гравців (1 GK, 4  DEF, 4 MID, 2 FWD) на основі primary_position.


In [None]:
#  Завантаження даних (CSV)
from pathlib import Path
import pandas as pd
import numpy as np

DATA_CSV = Path("data/raw/fifa_players.csv")
OUT = Path("out/tables"); OUT.mkdir(parents=True, exist_ok=True)

def make_primary_position(s: pd.Series) -> pd.Series:
    # Беремо перший запис з player_positions як primary
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

# читаємо CSV і готуємо df
if not DATA_CSV.exists():
    raise FileNotFoundError(f"Не знайдено файл: {DATA_CSV.resolve()}")

df = pd.read_csv(DATA_CSV, low_memory=False)
if "player_positions" not in df.columns:
    raise ValueError("Не знайдено стовпця player_positions.")
df["primary_position"] = make_primary_position(df["player_positions"])
for col in ["overall","potential","wage_eur","age"]:
    if col in df.columns:
        df[col] = pd.to_numeric(df[col], errors="coerce")

# сформувати club_df для групувань
club_df = df.dropna(subset=["club_name"]) if "club_name" in df.columns else df.copy()

#  Базові колонки для зручності виводу
base_cols = [c for c in [
    "sofifa_id","short_name","long_name","age","overall","potential",
    "value_eur","wage_eur","club_name","league_name","nationality_name","primary_position"
] if c in df.columns]

def _stable_sort(_df, cols, asc):
    cols2 = [c for c in cols if c in _df.columns]
    asc2  = [asc[i] for i,c in enumerate(cols) if c in _df.columns]
    return _df.sort_values(by=cols2, ascending=asc2) if cols2 else _df

# --- Налаштування виводу (лише відповіді на завдання) ---
SAVE_APPENDIX = False  # True → зберегти допоміжні повні таблиці (для аналізу)

# (1) Топ-100 за рейтингом
top100_overall = (
    _stable_sort(df, ["overall","potential","wage_eur","age"], [False, False, False, True])
      .loc[:, base_cols].head(100)
)
top100_overall.to_csv(OUT/"Task1_top100_overall.csv", index=False)

# (2) Топ-100 за зарплатою
top100_wage = (
    _stable_sort(df, ["wage_eur","overall","age"], [False, False, True])
      .loc[:, base_cols].head(100)
)
top100_wage.to_csv(OUT/"Task2_top100_wage.csv", index=False)

# (2.1) Порівняння з (1): Джаккард + Overlap
set_overall = set(top100_overall["sofifa_id"])
set_wage    = set(top100_wage["sofifa_id"])
inter_ids   = set_overall & set_wage
union_ids   = set_overall | set_wage
jaccard     = (len(inter_ids) / len(union_ids)) if union_ids else 0.0
overlap     = (len(inter_ids) / min(len(set_overall), len(set_wage))) if min(len(set_overall), len(set_wage)) else 0.0

pd.DataFrame([{
    "n_overall": len(set_overall),
    "n_wage": len(set_wage),
    "intersection": len(inter_ids),
    "union": len(union_ids),
    "jaccard": round(jaccard, 4),
    "overlap_coefficient": round(overlap, 4)
}]).to_csv(OUT/"Task2.1_compare_summary.csv", index=False)

if SAVE_APPENDIX:
    df[df["sofifa_id"].isin(set_overall - set_wage)][base_cols].to_csv(OUT/"_appendix_Task2_only_overall.csv", index=False)
    df[df["sofifa_id"].isin(set_wage - set_overall)][base_cols].to_csv(OUT/"_appendix_Task2_only_wage.csv", index=False)
    df[df["sofifa_id"].isin(inter_ids)][base_cols].to_csv(OUT/"_appendix_Task2_intersection.csv", index=False)

# (3) Топ-30 воротарів за рейтингом
gk = df[df["primary_position"]=="GK"].copy()
top30_gk = _stable_sort(gk, ["overall","potential","age"], [False, False, True]).loc[:, base_cols].head(30)
top30_gk.to_csv(OUT/"Task3_top30_goalkeepers_overall.csv", index=False)

# (4) Топ-30 клубів за середнім рейтингом (мін. 11 гравців)
club_agg = (
    club_df.groupby("club_name", as_index=False)
      .agg(avg_overall=("overall","mean"), n_players=("sofifa_id","nunique"))
      .sort_values(["avg_overall","n_players"], ascending=[False, False])
)
club_agg[club_agg["n_players"]>=11].head(30).to_csv(OUT/"Task4_top30_clubs_avg_overall_min11.csv", index=False)
if SAVE_APPENDIX:
    club_agg.to_csv(OUT/"_appendix_clubs_avg_overall_all.csv", index=False)

# (5) Топ-30 клубів за середньою швидкістю (мін. 11 гравців)
speed_col = "movement_sprint_speed" if "movement_sprint_speed" in df.columns else ("pace" if "pace" in df.columns else None)
if speed_col is None:
    raise ValueError("Не знайдено стовпців швидкості (movement_sprint_speed чи pace).")
club_speed = (
    club_df.groupby("club_name", as_index=False)
      .agg(avg_speed=(speed_col,"mean"), n_players=("sofifa_id","nunique"))
      .sort_values(["avg_speed","n_players"], ascending=[False, False])
)
club_speed[club_speed["n_players"]>=11].head(30).to_csv(OUT/"Task5_top30_clubs_avg_speed_min11.csv", index=False)
if SAVE_APPENDIX:
    club_speed.to_csv(OUT/"_appendix_clubs_avg_speed_all.csv", index=False)

# (6) Ліги з найкращим дриблінгом (повний список)
if "dribbling" not in df.columns:
    raise ValueError("Не знайдено стовпця dribbling.")
league_drib = (
    df.groupby("league_name", as_index=False)
      .agg(avg_dribbling=("dribbling","mean"), n_players=("sofifa_id","nunique"))
      .sort_values(["avg_dribbling","n_players"], ascending=[False, False])
)
league_drib.to_csv(OUT/"Task6_leagues_avg_dribbling_all.csv", index=False)

# (7) Клубний рейтинг за 'стартовим складом 11'
from scipy.optimize import linear_sum_assignment

DEF = {"CB", "LB", "RB", "LWB", "RWB"}
MID = {"CDM", "CM", "CAM", "LM", "RM"}
FWD = {"ST", "CF", "LW", "RW"}

FLEXIBLE_POSITIONS = True      # увімк/вимк гнучкий підбір
NON_PRIMARY_PENALTY = 2.0      # штраф за гру не на основній ролі (бали overall)

def _group_of(pos: str) -> str:
    # Мапимо позицію до групи
    if pos == "GK":
        return "GK"
    if pos in DEF:
        return "DEF"
    if pos in MID:
        return "MID"
    if pos in FWD:
        return "FWD"
    return "OTHER"

def _eligible_for_group(positions_set: set, group_name: str) -> bool:
    # Перевіряємо придатність за будь-якою позицією у списку
    if not isinstance(positions_set, (set, frozenset)):
        return False
    if group_name == "GK":
        return "GK" in positions_set
    if group_name == "DEF":
        return len(positions_set & DEF) > 0
    if group_name == "MID":
        return len(positions_set & MID) > 0
    if group_name == "FWD":
        return len(positions_set & FWD) > 0
    return False

def _to_positions_set(v):
    # перетворення у множину позицій з безпекою для NaN/порожніх
    if isinstance(v, (set, frozenset)):
        return set(v)
    if isinstance(v, (list, tuple)):
        return {str(x).strip() for x in v if pd.notna(x) and str(x).strip()}
    if pd.isna(v):
        return set()
    s = str(v).strip()
    if not s or s.lower() == "nan":
        return set()
    return {x.strip() for x in s.split(",") if x.strip()}

def _rigid_xi(sub: pd.DataFrame):
    # жорсткий відбір суто за primary_position
    s = sub.sort_values(["overall", "potential"], ascending=[False, False]).drop_duplicates("sofifa_id")
    gk  = s[s["primary_position"] == "GK"].head(1)
    de  = s[s["primary_position"].isin(DEF)].head(4)
    md  = s[s["primary_position"].isin(MID)].head(4)
    fw  = s[s["primary_position"].isin(FWD)].head(2)
    if (len(gk) < 1) or (len(de) < 4) or (len(md) < 4) or (len(fw) < 2):
        return None
    xi = pd.concat([gk, de, md, fw], axis=0)
    return {
        "avg_overall_xi": xi["overall"].mean(),
        "players_ids": list(xi["sofifa_id"].values),
        "n_selected": len(xi),
    }

def best_starting_xi_score(club_df: pd.DataFrame):
    # Дві поведінки: гнучко за списком позицій + fallback на жорсткий; або одразу жорстко
    sub = club_df.copy().drop_duplicates("sofifa_id")

    if FLEXIBLE_POSITIONS and "player_positions" in sub.columns:
        # Гнучкий підбір через Hungarian
        slots = (["GK"] * 1) + (["DEF"] * 4) + (["MID"] * 4) + (["FWD"] * 2)
        n_slots = len(slots)

        sub2 = sub[pd.notna(sub["overall"])]
        if not sub2.empty:
            players = sub2.reset_index(drop=True)
            players["positions_set"] = sub2["player_positions"].apply(_to_positions_set)
            players["positions_set"] = players["positions_set"].apply(_to_positions_set)  # нормалізація
            players["primary_group"] = sub2["primary_position"].astype(str).apply(_group_of)

            # Перевірка достатності кандидатів за групами
            need = {"GK": 1, "DEF": 4, "MID": 4, "FWD": 2}
            has_gk  = (players["positions_set"].apply(lambda s: isinstance(s, (set, frozenset)) and "GK" in s)).sum()
            has_def = (players["positions_set"].apply(lambda s: isinstance(s, (set, frozenset)) and len(s & DEF) > 0)).sum()
            has_mid = (players["positions_set"].apply(lambda s: isinstance(s, (set, frozenset)) and len(s & MID) > 0)).sum()
            has_fwd = (players["positions_set"].apply(lambda s: isinstance(s, (set, frozenset)) and len(s & FWD) > 0)).sum()
            have = {"GK": int(has_gk), "DEF": int(has_def), "MID": int(has_mid), "FWD": int(has_fwd)}

            if not any(have[g] < need[g] for g in need):
                # Матриця оцінок: overall - штраф, якщо не первинна група
                scores = np.full((len(players), n_slots), -1e9, dtype=float)
                for i in range(len(players)):
                    ov = float(players.loc[i, "overall"])
                    pset = players.loc[i, "positions_set"]
                    pgrp = players.loc[i, "primary_group"]
                    for j, grp in enumerate(slots):
                        if _eligible_for_group(pset, grp):
                            penalty = 0.0 if pgrp == grp else NON_PRIMARY_PENALTY
                            scores[i, j] = ov - penalty

                cost = -scores
                row_ind, col_ind = linear_sum_assignment(cost)
                chosen = [(r, c) for r, c in zip(row_ind, col_ind) if scores[r, c] > -1e8]
                if len(chosen) >= n_slots:
                    sel_idx = [r for r, _ in sorted(chosen, key=lambda x: x[1])]
                    xi = players.iloc[sel_idx]
                    return {
                        "avg_overall_xi": xi["overall"].mean(),
                        "players_ids": list(xi["sofifa_id"].values),
                        "n_selected": len(xi),
                    }
        # fallback на жорсткий
        return _rigid_xi(sub)

    # одразу жорсткий режим
    return _rigid_xi(sub)

rows = []
for club, grp in club_df.groupby("club_name"):
    res = best_starting_xi_score(grp)
    if res:
        rows.append({"club_name": club, **res})

# Фінальний вивід для завдання (тільки Top-30)
if rows:
    xi_table = pd.DataFrame(rows).sort_values("avg_overall_xi", ascending=False)
    xi_table.head(30).to_csv(OUT / "Task7_top30_clubs_best_starting_xi.csv", index=False)
else:
    # безпечне збереження порожньої таблиці
    pd.DataFrame(columns=["club_name", "avg_overall_xi", "players_ids", "n_selected"]).to_csv(
        OUT / "Task7_top30_clubs_best_starting_xi.csv", index=False
    )

print(f"[INFO] Клубів з валідним XI: {len(rows)}")
print("OK. Результати (Task1–Task7) збережено у out/tables/")


Синхронізація артефактів out/tables/ з Colab у GitHub

Мета.
Надійно зберігати підсумкові таблиці (CSV) у репозиторії для перевіряючого та презентації. Блок автоматично додає, комітить і пушить зміни з out/tables/ у гілку main.

Вхід / Вихід.

Вхід: CSV, згенеровані в попередніх кроках у out/tables/*.csv (цей блок нічого не перераховує, лише відправляє).

Вихід: новий коміт у main з оновленими файлами out/tables/*.csv. (Старі версії залишаються в історії git.)

Коли запускати.
Після завершення розрахунків, коли CSV вже збережені в out/tables/.

Що робить під капотом.

Прописує підпис комітів (user.name/user.email) локально для репо.

git add out/tables/*.csv → кладе зміни у staging.

Створює коміт тільки якщо є нові/зміненi файли.

git fetch + git rebase origin/main → ставить наш коміт поверх актуального main.

git push через URL з токеном (без інтерактивного логіна/пароля).

Для контролю друкує перелік файлів, що увійшли до HEAD.

.gitignore дозволяє тільки підсумкові таблиці:

/out/*
!/out/
!/out/tables/
/out/tables/*
!/out/tables/*.csv


Потрібен GitHub-токен з правами Repository contents → Read & write. Токен вводиться у змінну GH_TOKEN і не зберігається в коді/історії.

In [None]:
#  СИНХРОНІЗАЦІЯ out/tables → GitHub


import os, getpass, glob, subprocess, shlex

# Налаштування
WORKDIR   = "/content/project_fifa_players"   # корінь клонованого репо
BRANCH    = "main"                            # цільова гілка
FILES_GLOB = "out/tables/*.csv"               # що синхронізувати
FORCE_ADD  = False                            # True → додавати з -f, якщо .gitignore заважає

def run(cmd, check=True):
    """Запуск команди з охайним виводом."""
    print("$", cmd)
    return subprocess.run(shlex.split(cmd), check=check)

# 0) Перейти в робочу теку
os.makedirs(WORKDIR, exist_ok=True)
os.chdir(WORKDIR)
print("pwd:", os.getcwd())

# 1) Перевірити наявність файлів
files = glob.glob(FILES_GLOB)
if not files:
    print("⚠️  Немає файлів для синхронізації:", FILES_GLOB)
else:
    # 2) Підпис комітів (локально для репо)
    run('git config user.name "rvkushnir"', check=False)
    run('git config user.email "rvkushnir@gmail.com"', check=False)

    # 3) Додати у staging
    add_cmd = f"git add {'-f ' if FORCE_ADD else ''}{FILES_GLOB}"
    run(add_cmd, check=False)

    # 4) Закомітити, якщо є зміни
    #    (git diff --cached --quiet повертає 0, якщо змін немає)
    has_staged = subprocess.run(shlex.split("git diff --cached --quiet")).returncode != 0
    if has_staged:
        run('git commit -m "Sync out/tables (updated CSV)"', check=False)
    else:
        print("ℹ️  Немає нових змін у staging (коміт не потрібен).")

    # 5) Підтягнути віддалені зміни і покласти наш коміт зверху (rebase)
    run(f"git fetch origin {BRANCH}", check=False)
    run(f"git rebase origin/{BRANCH}", check=False)

    # 6) Пуш з токеном (без інтерактивних запитів логіна/пароля)
    if "GH_TOKEN" not in os.environ or not os.environ["GH_TOKEN"]:
        os.environ["GH_TOKEN"] = getpass.getpass("GitHub token (приховано): ")

    push_url = f'https://x-access-token:{os.environ["GH_TOKEN"]}@github.com/rvkushnir/project_fifa_players.git'
    run(f'git push "{push_url}" HEAD:{BRANCH}', check=False)

    # 7) Швидка перевірка: чи у HEAD є наші файли
    out = subprocess.run(
        shlex.split('git ls-tree -r HEAD --name-only'),
        capture_output=True, text=True, check=False
    ).stdout.splitlines()
    pushed = [p for p in out if p.startswith("out/tables/") and p.endswith(".csv")]
    print("✅ У коміті:", pushed if pushed else "нема CSV у out/tables")
