<a href="https://colab.research.google.com/github/rvkushnir/project_fifa_players/blob/main/notebooks/03_visualization_block_ipynb%22.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ініціалізація середовища**

Клонуємо репозиторій з GitHub у /content, переходимо в корінь проєкту.
Це гарантує однакові шляхи для даних/виводів у всіх сесіях Colab.
Після клонування перевіряємо наявність data/raw/fifa_players.csv.
Вихід: робочий каталог → pwd = /content/project_fifa_players.

In [None]:
#  Ініціалізація середовища: клон репозиторію і перехід у робочу теку
REPO = "rvkushnir/project_fifa_players"
BRANCH = "main"
WORKDIR = "/content/project_fifa_players"

# чистий клон
!rm -rf "$WORKDIR"
!git clone --depth 1 -b "$BRANCH" "https://github.com/{REPO}.git" "$WORKDIR"
%cd "$WORKDIR"

# Якщо у репо використовується Git LFS (великі файли) — підтягнемо дані
!git lfs install 2>/dev/null || true
!git lfs pull 2>/dev/null || true

# Перевіримо, що CSV на місці
!ls -lah data/raw


Блок 8–10 — візуалізації

Мета. Показати розподіли віку та рейтингу по позиціях, а також різницю рейтингу між провідними національностями коротко і «менеджерською» мовою.

Чому boxplot.

Компактно показує медіану та центральний розкид (Q1–Q3), без залежності від форми розподілу.

Стійкий до викидів: “вуса” відтинають екстремальні значення (у нас викиди приховані).

Дозволяє порівнювати багато категорій на одній шкалі (позиції/національності), сортуємо за медіаною та підписуємо n для прозорості.

Як читати графік.

Товста лінія — медіана; коробка — 25–75 перцентилі; “вуса” — дані в межах 1.5·IQR від коробки; приховані точки поза вусами — потенційні викиди.

Чим вища коробка → більші значення показника (вік або рейтинг); чим компактніша коробка → стабільніший профіль у категорії.

In [None]:
#  Візуалізації 8–10: вік/рейтинг по позиціях, рейтинг по національностях
from pathlib import Path
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Шляхи
DATA_CSV = Path("data/raw/fifa_players.csv")
FIG = Path("out/figures"); FIG.mkdir(parents=True, exist_ok=True)

# Допоміжне
def make_primary_position(s: pd.Series) -> pd.Series:
    # Беремо перший запис з player_positions як primary
    return s.astype(str).str.split(",", n=1, expand=True)[0].str.strip()

# Завантаження
if not DATA_CSV.exists():
    raise FileNotFoundError(f"Не знайдено файл: {DATA_CSV.resolve()}")

df = pd.read_csv(DATA_CSV, low_memory=False)
if "player_positions" not in df.columns or "overall" not in df.columns or "age" not in df.columns:
    raise ValueError("Відсутні необхідні стовпці (player_positions/overall/age).")

df["primary_position"] = make_primary_position(df["player_positions"])
df["overall"] = pd.to_numeric(df["overall"], errors="coerce")
df["age"] = pd.to_numeric(df["age"], errors="coerce")

# Легка фільтрація екстремумів для кращої презентації
df = df[(df["age"].between(15, 45)) & df["overall"].between(30, 95)]

#  (8) Розподіл віку по позиціях (top-10 за чисельністю) =====
pos_counts = df["primary_position"].value_counts()
top_positions = pos_counts.head(10).index.tolist()

age_data = []
labels = []
# Сортуємо позиції за медіаною віку (спадаюче)
order = (
    df[df["primary_position"].isin(top_positions)]
      .groupby("primary_position")["age"].median()
      .sort_values(ascending=False)
      .index.tolist()
)
for p in order:
    vals = df.loc[df["primary_position"] == p, "age"].dropna().values
    if len(vals) >= 20:  # мін. вибірка для стабільності
        age_data.append(vals)
        labels.append(f"{p} (n={len(vals)})")

plt.figure(figsize=(12, 6))
bp = plt.boxplot(age_data, showfliers=False, tick_labels=labels)
plt.xticks(rotation=30, ha="right")
plt.ylabel("Вік")
plt.title("Розподіл віку по позиціях (top-10 за чисельністю)")
plt.tight_layout()
plt.savefig(FIG / "Task8_players_age_by_position.png", dpi=240)
plt.close()

#  (9) Розподіл рейтингу по позиціях (top-10 за чисельністю) =====
overall_data = []
labels2 = []
# Сортуємо позиції за медіаною рейтингу (спадаюче)
order2 = (
    df[df["primary_position"].isin(top_positions)]
      .groupby("primary_position")["overall"].median()
      .sort_values(ascending=False)
      .index.tolist()
)
for p in order2:
    vals = df.loc[df["primary_position"] == p, "overall"].dropna().values
    if len(vals) >= 20:
        overall_data.append(vals)
        labels2.append(f"{p} (n={len(vals)})")

plt.figure(figsize=(12, 6))
bp = plt.boxplot(overall_data, showfliers=False, tick_labels=labels2)
plt.xticks(rotation=30, ha="right")
plt.ylabel("Рейтинг (overall)")
plt.title("Розподіл рейтингу по позиціях (top-10 за чисельністю)")
plt.tight_layout()
plt.savefig(FIG / "Task9_overall_by_position.png", dpi=240)
plt.close()

#  (10) Розподіл національностей за рейтингом (top-15)
if "nationality_name" not in df.columns:
    raise ValueError("Не знайдено стовпця nationality_name.")

nat_counts = df.groupby("nationality_name")["sofifa_id"].count().sort_values(ascending=False)
top_nat = nat_counts.head(15).index.tolist()

nat_data = []
labels3 = []
# Сортуємо національності за медіаною рейтингу (спадаюче)
order3 = (
    df[df["nationality_name"].isin(top_nat)]
      .groupby("nationality_name")["overall"].median()
      .sort_values(ascending=False)
      .index.tolist()
)
for n in order3:
    vals = df.loc[df["nationality_name"] == n, "overall"].dropna().values
    if len(vals) >= 30:  # трохи вищий мін.розмір для націй
        nat_data.append(vals)
        labels3.append(f"{n} (n={len(vals)})")

plt.figure(figsize=(13, 6))
bp = plt.boxplot(nat_data, showfliers=False, tick_labels=labels3)
plt.xticks(rotation=30, ha="right")
plt.ylabel("Рейтинг (overall)")
plt.title("Розподіл рейтингу по національностях (top-15 за чисельністю)")
plt.tight_layout()
plt.savefig(FIG / "Task10_overall_by_nationality_top15.png", dpi=240)
plt.close()

print("OK. Збережено фігури до out/figures/:",
      "Task8_players_age_by_position.png,",
      "Task9_overall_by_position.png,",
      "Task10_overall_by_nationality_top15.png")
# ===================================================================


Синхронізація артефактів out/tables/ з Colab у GitHub

Мета.
Надійно зберігати підсумкові таблиці (CSV) у репозиторії для перевіряючого та презентації. Блок автоматично додає, комітить і пушить зміни з out/tables/ у гілку main.

Вхід / Вихід.

Вхід: CSV, згенеровані в попередніх кроках у out/tables/*.csv (цей блок нічого не перераховує, лише відправляє).

Вихід: новий коміт у main з оновленими файлами out/tables/*.csv. (Старі версії залишаються в історії git.)

Коли запускати.
Після завершення розрахунків, коли CSV вже збережені в out/tables/.

Що робить під капотом.

Прописує підпис комітів (user.name/user.email) локально для репо.

git add out/tables/*.csv → кладе зміни у staging.

Створює коміт тільки якщо є нові/зміненi файли.

git fetch + git rebase origin/main → ставить наш коміт поверх актуального main.

git push через URL з токеном (без інтерактивного логіна/пароля).

Для контролю друкує перелік файлів, що увійшли до HEAD.

.gitignore дозволяє тільки підсумкові таблиці:

/out/*
!/out/
!/out/tables/
/out/tables/*
!/out/tables/*.csv


Потрібен GitHub-токен з правами Repository contents → Read & write. Токен вводиться у змінну GH_TOKEN і не зберігається в коді/історії.

In [None]:
#  СИНХРОНІЗАЦІЯ out/tables (CSV) + out/figures (PNG) → GitHub
import os, getpass, glob, subprocess, shlex

# Налаштування
WORKDIR    = "/content/project_fifa_players"  # корінь клонованого репо
BRANCH     = "main"                           # цільова гілка
FILES_GLOBS = [
    "out/tables/*.csv",        # таблиці-відповіді
    "out/figures/*.png",       # зображення для презентації
    # "out/figures/*.svg",     # ← розкоментуй, якщо треба
    # "out/figures/*.pdf",
]
FORCE_ADD  = False             # True → додати з -f, якщо .gitignore заважає

def run(cmd, check=True):
    print("$", cmd)
    return subprocess.run(shlex.split(cmd), check=check)

# 0) Перейти в робочу теку
os.makedirs(WORKDIR, exist_ok=True)
os.chdir(WORKDIR)
print("pwd:", os.getcwd())

# 1) Зібрати список файлів за всіма шаблонами
files = []
for pat in FILES_GLOBS:
    files += glob.glob(pat)
files = sorted(set(files))

if not files:
    print("⚠️  Немає файлів для синхронізації за шаблонами:", FILES_GLOBS)
else:
    # 2) Підпис комітів (локально для репо)
    run('git config user.name "rvkushnir"', check=False)
    run('git config user.email "rvkushnir@gmail.com"', check=False)

    # 3) Додати у staging (поштучно, щоб не схибив shell)
    for pat in FILES_GLOBS:
        add_cmd = f"git add {'-f ' if FORCE_ADD else ''}{pat}"
        run(add_cmd, check=False)

    # 4) Закомітити, якщо є зміни
    has_staged = subprocess.run(shlex.split("git diff --cached --quiet")).returncode != 0
    if has_staged:
        # компактне повідомлення з підрахунком типів
        n_csv = len([p for p in files if p.endswith(".csv")])
        n_png = len([p for p in files if p.endswith(".png")])
        msg = f"Sync artifacts: tables({n_csv}) figures({n_png})"
        run(f'git commit -m "{msg}"', check=False)
    else:
        print("ℹ️  Немає нових змін у staging (коміт не потрібен).")

    # 5) Підтягнути віддалені зміни та поставити наш коміт зверху
    run(f"git fetch origin {BRANCH}", check=False)
    run(f"git rebase origin/{BRANCH}", check=False)

    # 6) Пуш з токеном
    if "GH_TOKEN" not in os.environ or not os.environ["GH_TOKEN"]:
        os.environ["GH_TOKEN"] = getpass.getpass("GitHub token (приховано): ")
    push_url = f'https://x-access-token:{os.environ["GH_TOKEN"]}@github.com/rvkushnir/project_fifa_players.git'
    run(f'git push "{push_url}" HEAD:{BRANCH}', check=False)

    # 7) Перевірка: що є у HEAD
    out = subprocess.run(
        shlex.split('git ls-tree -r HEAD --name-only'),
        capture_output=True, text=True, check=False
    ).stdout.splitlines()
    pushed_csv = [p for p in out if p.startswith("out/tables/") and p.endswith(".csv")]
    pushed_png = [p for p in out if p.startswith("out/figures/") and p.endswith(".png")]
    print("✅ У коміті CSV:", pushed_csv if pushed_csv else "нема")
    print("✅ У коміті PNG:", pushed_png if pushed_png else "нема")
# =============================================================================
