# Проект по анализу данных

### Описание репозитория (README)

Проект имеет составную структуру и состоит из нескольких папок и файлов: 
Папки: `_funcs`, `cache`, `data`, `FIFA`
Файлы: `data_processing.ipynb`, `project.ipynb`, `requirements.txt`, `Sofifa-parser.py`

Данные доступны по этой [ссылке](https://drive.google.com/drive/folders/1WM4IMwhoWHOdsHX7I2gORPWO8tnLHofr?usp=sharing)

Идейно проект разделен на $3$ части: сбор данных, обработка данных и их анализ. При этом непосредственно в проекте тоже будут смысловые разделы: введение и первичное исследование данных (а также создадим новые признаки), визуализации, построение гипотез и их проверка (матстат), машинное обучение, заключение и выводы по проделанной работе

Функционал всех составляющих проекта:
* `_funcs`. В папке `_funcs` хранятся $3$ модуля с необходимыми для различных частей проекта. В папке `_funcs` есть `.py` файлы: `parser.py` с функциями для парсинга данных, `processing.py` с функциями для обработки данных, `project.py` с функциями для основного проекта (там преимущественно присутствуют функции для разного рода визуализаций). У всех функций и модулей есть документация. Однако поскольку, сбор и обработка данных не являются основными частями проекта, то документация не слишком подробная
* `cache`. В папке `cache` содержатся картинки с игроками (для быстрой демонстрации работы некоторых функций)
* `data`. В папке `data` лежат обработанные данные (по $4$ разделам: `leagues`, `teams`, `national`, `players`). Размерность основной таблицы `players` составляет примерно $(300000, 90)$
* `FIFA`. В папке `FIFA` лежат необработанные данные (также по $4$ разделам: `leagues`, `teams`, `national`, `players`)
* `requirements.txt`. В файле лежит список всех необходимых для запуска ноутбука библиотек для удобной установки с помощью `pip`
* `Sofifa-parser.py`. В файле лежит код для выгрузки данных (время выполнения кода $\sim 14$ часов) 
* `data_processing.ipynb`. В тетрадке лежит код для обработки данных (время выполнения кода $\sim 1$ минута)
* `project.ipynb`. В тетрадке лежит код с непосредственно анализом данных (время выполнения кода $\sim 1$ минута)

### Введение

Проект посвящен исследованию футбола, поиском закономерностей и построением прогнозов в данном виде спорта. Авторам была интересна тема футбола, потому что эта та сфера деятельности, которая не слишком хорошо описывается числами, и большинство закономерностей являются эвристическими. Перед авторами стал вопрос о том, как и где необходимые данные для анализа получить. Безусловно, можно взять данные из flashscore, transfermarkt, opta, understat, FootyStats. Однако в этих источниках не так много информации о "качестве" игры некоторых футболистов (описываемых численно) $-$ разве что рейтинг в конце матча (который является важным агрегирующим показателем, но далеко не единственным и не самым точным). Поэтому было решено рассматривать не реальные данные, а "игрушечные" (которые появляются каждый год после выхода номерной серии FIFA). Безусловно, такой подход имеет существенные ограничения, которые авторы понимают. В частности, рейтинги, выставленные игрокам, носят субъективный характер. Это может привести к различным смещениям, выбросам и аномалиям в наших данных, а также исказить связь данных с реальностью. Однако важно отметить, что поскольку игра аффилирована с международной федерацией футбола, то ключевые данные (например, возраст игроков и переходы игроков) совпадают в этих играх с данными из реального футбола. Какие-то части данных (например, разного рода рейтинги) носят весьма субъективный характер, но все еще соотносятся с реальностью и могут быть использованы для ее описания с некоторыми ограничениями. Есть и те части данных, которые слабо связаны с реальностью (например, стоимости игроков и их зарплаты)

Данные по играм серии `FIFA` не публикуются в каких-либо официальных источниках издателя `EA`. Однако есть несколько порталов от сообщества со всеми данными, которые можно извлечь из каждой (начиная с 2007-го года) номерной части. Поскольку сайты пользовательские и сделаны силами сообщества, то стоит ожидать, что в данных будут разного рода ошибки (некоторые из которых мы уже учли и исправили в `data_processing.ipynb` $-$ в любом случае, следует понимать, что данные не являются $100\%$ верными и в них будут ошибки и нелогичности, однако поскольку наша выборка достаточно большая, то эти нелогичности скомпенсируются и будет реалистичная картина мира). Были проанализированы и рассмотрены разные сайты с информацией об игроках, однако наиболее полным и точным оказался сайт `Sofifa`. На сайте `https://sofifa.com/` доступна информация о игроках:

<img src="https://i.ibb.co/Y4XSD838/2025-02-19-205757.png" alt="2025-02-19-205757" border="1">

Для команд также есть данные:

<img src="https://i.ibb.co/tpLK3pLS/2025-02-19-210346.png" alt="2025-02-19-210346" border="1">

Затем данные с сайта были получены с использованием функционала библиотек `Selenium` и `bs4`. После этого данные были обработанны, выгружены в отдельные файлы и готовы к анализу. 

### Библиотеки

In [None]:
# базовые модули
import os
import sys
import requests
import tqdm
from time import sleep

# библиотеки для вычислений
import numpy as np
import pandas as pd
import scipy.stats as sts

# библиотеки для визуализиций на основе matplotlib
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
import matplotlib_inline
import seaborn as sns

# модули для визуализаций на основе plotly
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff


# модули для построения дашбордов
import dash
from dash import dcc, html
from dash.dependencies import Input, Output

# модули для машинного обучения
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import precision_score, confusion_matrix
from sklearn.cluster import DBSCAN

# импорт функций из кастомного модуля
from _funcs.project import *


sns.set_theme() # красивый фон у визуализаций на основе matplotlib
matplotlib_inline.backend_inline.set_matplotlib_formats('svg') # векторный формат у визуализаций на основе matplotlib
# для включения визуализаций на основе matplotlib непосредственно в jupyter-notebook
%matplotlib inline

In [None]:
# функции из модуля _funcs имеют краткую документацию и аннотацию типов
help(draw_player)

### Данные

Загрузим данные из наших файлов. Всего будет $4$ таблицы: `national`, `leagues`, `teams`, `players`. Самая большая и важная таблицы для последующего анализа $-$ это `players`. Именно к ней мы будем добавлять данные из других таблиц

In [None]:
# загружаем данные
national = pd.read_csv('data\\national.csv', low_memory=False)
leagues = pd.read_csv('data\\leagues.csv', low_memory=False)
teams = pd.read_csv('data\\teams.csv', low_memory=False)
players = pd.read_csv('data\\players.csv', low_memory=False)

In [None]:
# делаем небольшую обработку данных, сортируя их и приводя название игры к порядковому номеру вида 7, 8, 9, ..., 24

players['game'] = players['game'].apply(lambda x: int(x.strip('FIFA')))
players = players.sort_values(by='game')

teams['game'] = teams['game'].apply(lambda x: int(x.strip('FIFA')))
teams = teams.sort_values(by='game')

leagues['game'] = leagues['game'].apply(lambda x: int(x.strip('FIFA')))
leagues = leagues.sort_values(by='game')

national['game'] = national['game'].apply(lambda x: int(x.strip('FIFA')))
national = national.sort_values(by='game')

In [None]:
# объединяем и соединяем таблицы в основую таблицы df
df = pd.merge(players, teams[['Name', 'League', 'country', 'game', 'ID']], left_on=['Team', 'game'], right_on=['Name', 'game'], how='left')
df = df.rename(columns={'Name_x': 'Name', 'Name_y':'Team (again)', 'country_x': 'Player country', 'country_y': 'Team country', 'ID_x':'ID', 'ID_y': 'ID Team'})
df = df.sort_values(by=['game'], ascending=[False])
df = df.drop(columns='Team (again)')
df = df.drop(columns=['Traits', 'PlayStyles', 'PlayStyles +', 'Joined', 'Acceleration Type'])
df.columns

Итак, у нас есть 4 таблицы с разными данными. Мы хотим более подробно посмотреть на эти данные. Для этого опишем столбцы всех таблиц:
1. Таблица `leagues`. 
* `Name` $-$ название лиги; 
* `Teams` $-$ число команд в лиге; 
* `Players` $-$ число игроков в лиге; 
* `href` $-$ ссылка на лигу на сайте 'Sofifa.com'; 
* `country` $-$ страна, в которой базируется лига; 
* `game` $-$ номер игры (число $\in [7, 24]$)

2. Таблица `national`. 
* `Name` $-$ название национальной сборной; 
* `ID` $-$ уникальный идентификатор национальной сборной; 
* `Overall` $-$ общий рейтинг национальной сборной; 
* `Name` $-$ название национальной сборной; 
* `Attack` $-$ рейтинг атаки команды; 
* `Midfield` $-$ рейтинг полузащиты команды; 
* `Defence` $-$ рейтинг защиты команды; 
* `Speed` $-$ рейтинг скорости команды; 
* `Dribbling` $-$ рейтинг дриблинга команды; 
* `Passing` $-$ рейтинг передач команды; 
* `Positioning` $-$ рейтинг позиционной игры команды; 
* `Crossing` $-$ рейтинг навесов команды; 
* `Shooting` $-$ рейтинг удара команды; 
* `Aggression` $-$ рейтинг агрессии команды; 
* `Pressure` $-$ рейтинг прессинга команды; 
* `Team width` $-$ ширина расстановки команды на поле; 
* `Defender line` $-$ стиль линии защиты команды; 
* `International prestige` $-$ международный уровень престижа команды; 
* `Players` $-$ число игроков в составе сборной; 
* `Starting XI average age` $-$ средний возраст стартового состава; 
* `href` $-$ ссылка на страницу национальной сборной на сайте 'Sofifa.com'; 
* `game` $-$ номер игры (число $\in [7, 24]$).

3. Таблица `teams`. 
* `Name` $-$ название клуба; 
* `ID` $-$ уникальный идентификатор клуба; 
* `League` $-$ лига, в которой выступает клуб; 
* `Overall` $-$ общий рейтинг клуба; 
* `Attack` $-$ рейтинг атаки клуба; 
* `Midfield` $-$ рейтинг полузащиты клуба; 
* `Defence` $-$ рейтинг защиты клуба; 
* `Transfer budget` $-$ трансферный бюджет клуба; 
* `Club worth` $-$ общая стоимость клуба; 
* `Speed` $-$ рейтинг скорости команды; 
* `Dribbling` $-$ рейтинг дриблинга команды; 
* `Passing` $-$ рейтинг передач команды; 
* `Positioning` $-$ рейтинг позиционной игры команды; 
* `Crossing` $-$ рейтинг навесов команды; 
* `Shooting` $-$ рейтинг удара команды; 
* `Aggression` $-$ рейтинг агрессии команды; 
* `Pressure` $-$ рейтинг прессинга команды; 
* `Team width` $-$ ширина расстановки команды на поле; 
* `Defender line` $-$ стиль линии защиты команды; 
* `Domestic prestige` $-$ престиж клуба на внутренней арене; 
* `International prestige` $-$ международный престиж клуба; 
* `Players` $-$ число игроков в составе клуба; 
* `Starting XI average age` $-$ средний возраст стартового состава; 
* `Whole team average age` $-$ средний возраст всех игроков команды; 
* `href` $-$ ссылка на страницу клуба на сайте 'Sofifa.com'; 
* `country` $-$ страна, в которой базируется клуб; 
* `game` $-$ номер игры (число $\in [7, 24]$).

4. Таблица `players`. 
* `Name` $-$ имя игрока; 
* `Age` $-$ возраст игрока; 
* `Team` $-$ клуб, за который выступает игрок; 
* `Best position` $-$ основная позиция игрока на поле; 
* `Overall rating` $-$ общий рейтинг игрока; 
* `Potential` $-$ потенциальный рейтинг игрока; 
* `ID` $-$ уникальный идентификатор игрока; 
* `Height` $-$ рост игрока (см); 
* `Weight` $-$ вес игрока (кг); 
* `foot` $-$ ведущая нога (левша/правша); 
* `Joined` $-$ дата присоединения к клубу; 
* `Value` $-$ стоимость игрока; 
* `Wage` $-$ зарплата игрока; 
* `Release clause` $-$ сумма отступных за игрока (при выплате этой суммы можно пропустить этап переговоров с командой при покупке игрока); 
* `Total attacking` $-$ общий рейтинг атакующих навыков; 
* `Crossing` $-$ точность навесов; 
* `Finishing` $-$ точность ударов; 
* `Heading accuracy` $-$ точность ударов головой; 
* `Short passing` $-$ точность коротких передач; 
* `Volleys` $-$ точность ударов с лёта; 
* `Total skill` $-$ общий рейтинг технических навыков; 
* `Dribbling` $-$ дриблинг; 
* `Curve` $-$ подкрутка мяча; 
* `FK Accuracy` $-$ точность ударов со штрафных; 
* `Long passing` $-$ точность длинных передач; 
* `Ball control` $-$ контроль мяча; 
* `Total movement` $-$ общий рейтинг движения; 
* `Acceleration` $-$ ускорение; 
* `Sprint speed` $-$ скорость бега; 
* `Agility` $-$ ловкость; 
* `Reactions` $-$ реакция; 
* `Balance` $-$ баланс; 
* `Total power` $-$ общий рейтинг физических качеств; 
* `Shot power` $-$ сила удара; 
* `Jumping` $-$ высота прыжка; 
* `Stamina` $-$ выносливость; 
* `Strength` $-$ сила; 
* `Long shots` $-$ точность дальних ударов; 
* `Total mentality` $-$ общий рейтинг ментальных характеристик; 
* `Aggression` $-$ агрессия; 
* `Tactical Awareness` $-$ тактическое понимание игры; 
* `Positioning` $-$ умение выбирать позицию; 
* `Vision` $-$ видение поля; 
* `Penalties` $-$ точность пенальти; 
* `Composure` $-$ хладнокровие; 
* `Total defending` $-$ общий рейтинг защитных навыков; 
* `Marking` $-$ опека игроков; 
* `Tackling` $-$ точность отбора мяча; 
* `Sliding tackle` $-$ точность подкатов; 
* `Standing tackle` $-$ точность отбора без подката; 
* `Interceptions` $-$ перехваты; 
* `Total goalkeeping` $-$ общий рейтинг вратарских навыков; 
* `GK Diving` $-$ умение вратаря прыгать за мячом; 
* `GK Handling` $-$ умение вратаря фиксировать мяч; 
* `GK Kicking` $-$ сила и точность ударов вратаря; 
* `GK Positioning` $-$ выбор позиции вратаря; 
* `GK Reflexes` $-$ реакция вратаря; 
* `Total stats` $-$ сумма всех характеристик игрока; 
* `Base stats` $-$ сумма основных характеристик игрока; 
* `Weak foot` $-$ уровень владения слабой ногой; 
* `Skill moves` $-$ уровень выполнения финтов; 
* `Attacking work rate` $-$ интенсивность атакующих действий; 
* `Defensive work rate` $-$ интенсивность защитных действий; 
* `International reputation` $-$ уровень международного признания игрока; 
* `Real face` $-$ наличие реалистичного лица (для наиболее известных игроков делают сканирование лица с последующей интеграцией скана в игру) в игре $-$ возможно, этот показатель поможет отделить наиболее известных игроков с высоким рейтингом от других; 
* `Pace / Diving` $-$ скорость (для полевых игроков) или умение прыгать (для вратарей); 
* `Shooting / Handling` $-$ удар (для полевых игроков) или умение фиксировать мяч (для вратарей); 
* `Passing / Kicking` $-$ передача (для полевых игроков) или игра ногами (для вратарей); 
* `Dribbling / Reflexes` $-$ дриблинг (для полевых игроков) или рефлексы (для вратарей); 
* `Defending / Pace` $-$ защита (для полевых игроков) или скорость (для вратарей); 
* `Physical / Positioning` $-$ физические характеристики (для полевых игроков) или выбор позиции (для вратарей); 
* `Traits` $-$ список особенностей игрока; 
* `PlayStyles` $-$ список игровых стилей; 
* `PlayStyles +` $-$ список улучшенных игровые стили; 
* `Number of traits` $-$ количество особенностей игрока; 
* `Number of playstyles` $-$ количество игровых стилей; 
* `Acceleration Type` $-$ тип ускорения игрока; 
* `Positions` $-$ все возможные позиции, на которых может играть игрок; 
* `Start of contract` $-$ дата начала контракта; 
* `End of contract` $-$ дата окончания контракта; 
* `On loan` $-$ флаг, обозначающий аренду игрока (Yes/No); 
* `Loan end` $-$ дата окончания аренды; 
* `href` $-$ ссылка на страницу игрока на сайте 'Sofifa.com'; 
* `country` $-$ страна, которую представляет игрок; 
* `game` $-$ номер игры (число $\in [7, 24]$).

Отметим, что большинство характеристик из таблицы `players` $-$ это рейтинги в стобальной системе. При у многих характеристик-рейтингов есть большое количество пропусков, поскольку характеристики-различные рейтинги появлялись не сразу (например, `Tackling`). Также отметим, что список позиций игроков конечный: `GK` $-$ вратарь, `CB` $-$ центральный защитник, `LB` $-$ левый защитник, `RB` $-$ правый защитник, `LWB` $-$ левый фланговый защитник, `RWB` $-$ правый фланговый защитник, `CDM` $-$ центральный защитный полузащитник, `CM` $-$ центральный полузащитник, `CAM` $-$ центральный аттакующий полузащитник, `LM` $-$ левый полузащитник, `RM` $-$ правый полузащитник, `ST` $-$ нападающий, `CF` $-$ центральный форвард, `LW` $-$ левый фланговый нападающий, `RW` $-$ правый фланговый нападающий. Также есть и другие позиции, но они были удалены из современных частей, поэтому их доля в общей выборке пренебрежимо мала. 

<img src="https://i.ibb.co/x83FxJdv/Positions-in-football-on-a-pitch.png" alt="Positions-in-football-on-a-pitch" border="1">

Также отметим, что у нас есть много данных с дополнительной информацией (metadata): страны, лиги, команды и т. д. Их можно использовать для построения более полной картины анализа

In [None]:
# размерность основной таблицы
df.shape

In [None]:
df.describe() # смотрим числовые характеристики

Смотря на числовые характеристики различных признаков, которые у нас есть, можем заметить, что большинства признаков достаточно большое стандартное отклонение ($15-25$ по стобальной шкале), что свидетельствует о том, что между игроками с разных позиций есть существенные различия в некоторых рейтингах. При этом агрегирующие характеристики (`Overall rating` и `Potential`) имеют сравнительно небольшое стандартное отклонение. Интересно также то, что интерквартильный размах у возраста (`Age`) составляет $7$ лет, а квантиль уровня $25\%$ для `Wage` составляет $0$. 

In [None]:
df.isna().mean().sort_values(ascending=False).head(20) # смотрим на пропуски

Мы видим, что в некоторых столбцах нашей таблицы (`Loan end`, `Number of playstyles`, `Tackling`, `Tactical Awareness`, `Positioning`, `Defensive awareness`) очень много (больше половины) значений $-$ это пропуски. Это может быть обусловлено тем, что `Loan end` имеет значение `np.nan` всегда, если игрок не находится в аренде (что бывает не так часто). `Number of playstyles` содержит многочисленные порпуски, поскольку эта характеристика была добавлена лишь в последний частях игр (аналогичная ситуация для `Tackling`, `Tactical Awareness`, `Positioning` и `Defensive awareness`). В случае с `Marking`, `Attacking work rate`, `Defensive work rate`, `Interceptions`, `Att. Position`, `Standing tackle`, `Number of traits` пропуски также вызваны тем, что эти параметры были добавлены не игру не сразу. В случае же с `Start of contract`, `End of contract`, `Team country`, `League` пропуски обусловлены сущностью данных (пропуски будут, например, тогда, когда игрок не играет ни за какую-то команду $-$ `Team==Free`). 

In [None]:
df

### Функции

Для удобной работы мы написали несколько функций в `_funcs.project`. Возможно, эти функции позволят повысить наглядность проекта, а также скорость построения основных графиков для сравнения. Продемонстрируем работу этих функций (у функций есть базовая документация и аннотация типов)

In [None]:
draw_player(173731, players)

In [None]:
draw_player_history(158023, players)

In [None]:
draw_player_stat([167495, 1179, 193080], players, 'Overall rating')

### Визуализации

Теперь мы переходим к части с визуализациями. В этом разделе авторам хотелось бы понять, какие есть связи между различными признаками, а также посмотреть на распределения отдельных признаков. Это важно, поскольку данные, с которыми мы будем работать имеют крайне высокую размерность и есть риск столкнуться с [проклятьем размерностей](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%BE%D0%BA%D0%BB%D1%8F%D1%82%D0%B8%D0%B5_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8). Большинство признаков имеют вид некоторого рейтинга и изменяются от $1$ до $99$ (хотя чаще диапазон значений более узкий). Для того, чтобы не строить много однотипных гистограмм с распределением различных признаков, было решено построить один интерактивный дэшбоард, в котором можно будет увидеть распределения основных "рейтингоподобных" признаков. 

Для того, чтобы появился интерактивный дашборд (при открытии ноутбука дэшборда не будет), необходимо запустить ноутбук и все ячейки в нем. Интерактивная гистограмма должна выглядить примерно следующим образом: 

<img src="https://i.ibb.co/Z1ksL8tp/2025-02-20-103945.png" alt="2025-02-20-103945" border="1">

In [None]:
draw_general_visualization(df)

Итак, какие выводы можно сделать, подробно изучив интерактивный дэшбоард? $-$ Большинство признаков имеют ненормальное распределение с тяжелым левым хвостом. Это можно объяснить тем, что зачастую между вратарями и полевыми игроками есть большая разница в скиллах, и поэтому в левом хвосте чаще находятся вратари, а в правом $-$ полевые. Кроме того, есть большое количество признаков с мультимодальным распределением (например, `Long passing`). 

Теперь посмотрим на попарные корреляции Пирсона, расчитанные для числовых признаков: 

In [None]:
px.imshow(df.drop(columns=['ID', 'game', 'Start of contract', 'End of contract', 'Loan end']).corr(method='pearson', numeric_only=True), 
          color_continuous_scale='RdPu')

На тепловой карте явно выделяются признаки, связанные с скиллами вратарей. Это обусловлено тем, что у вратарей высокие характеристики, связанные с их основной позицией, но при этом низкие остальные характеристики. 

В данных, которые мы спарсили, много информации о странах и регионах. Именно поэтому хочется визуализировать региональные различия в футболе на интерактивной карте. Для начала изобразим рейтинг лучших футболистов всех доступных стран. 

In [None]:
players_grouped = players.groupby('country', as_index=False)['Overall rating'].max()
fig = px.choropleth(
    players.loc[players.groupby('country')['Overall rating'].idxmax(), ['country', 'Name', 'Overall rating']],
    locations="country",
    locationmode="country names",
    color="Overall rating",
    hover_name="country",
    hover_data={"Overall rating": True, "Name": True},
    color_continuous_scale="RdPu",
    title="Best players' ratings (overall ratings) by countries across FIFA games"
)
fig.update_layout(font=dict(size=14), plot_bgcolor='white', width=1200, height=750)
fig.update_geos(projection_type="natural earth")
fig.show()

Несмотря на то, что идея изобразить максимальный рейтинг футболистов по странам может показаться странной из-за многочисленных выбросов, мы получаем весьма осмысленный результат (однако все еще много выбросов в страннах с сравнительно слабыми футбольными федерациями). 

Для того, чтобы избавиться от выбросов построим карту по медианным рейтингам игроков по странам 

In [None]:
players_grouped = players.groupby('country', as_index=False)['Overall rating'].median()

fig = px.choropleth(
    players_grouped,
    locations="country",
    locationmode="country names",
    color="Overall rating",
    hover_name="country",
    color_continuous_scale="Magenta",
    title="Median players' ratings (overall ratings) by countries across FIFA games"
)
fig.update_layout(font=dict(size=14), plot_bgcolor='white', width=1200, height=750)
fig.update_geos(projection_type="orthographic")
fig.show()

Теперь мы получили странный результат: у европейских стран зачастую рейтинг ниже, чем у африканских. Это обусловлено тем, что выборки несколько смещенные: в игру попадают только известные африканские игроки с высоким рейтингом, в то время как европейские игроки попадают в игру независимо от рейтинга. 

In [None]:
players_grouped = players.groupby(['game', 'country'], as_index=False)['Overall rating'].mean()

fig = px.choropleth(
    players_grouped,
    locations="country",
    locationmode="country names",
    color="Overall rating",
    hover_name="country",
    animation_frame="game",
    color_continuous_scale="RdPu",
    title="Average players' ratings (overall ratings) by countries across FIFA games"
)
fig.update_layout(font=dict(size=14), plot_bgcolor='white', width=1200, height=750)
fig.show()

Как ни странно, средние рейтинги дают более осмысленный результат с меньшим числов выбросов, чем медианные. 

Наконец, посмотрим на рейтинги не конкретных игроков, а на рейтинги целых национальных сборных. 

In [None]:
fig = px.choropleth(
    national,
    locations="Name",
    locationmode="country names",
    color="Overall",
    hover_name="Name",
    animation_frame="game",
    color_continuous_scale="Magenta",
    title="National teams ratings (overall ratings) by countries across FIFA games"
)
fig.update_layout(font=dict(size=14), plot_bgcolor='white', width=1200, height=750,)
fig.show()

Стоит отметить, что национальных сборных меньше, чем национальностей игроков. Поэтому на карте много "серых" зон. Явно выделяется Европа и Южная Америка, что соответствует действительности. 

Посмотрим, как менялся в среднем менялся рейтинг (`Overall rating`) игроков в разные годы. 

In [None]:
px.line(
    players[['Overall rating', 'game']].groupby('game')['Overall rating'].mean(),
    color_discrete_sequence=['purple'],
    markers=True,
    title='Average overall rating across all FIFA games'
)

Волатильность среднего `Overall rating` уменьшилась с годами. 

У всех игроков есть два столбца, связанных с позицией на поле: `Best position` и `Positions`. `Best position` $-$ для основной позиции игрока; `Positions` $-$ для списка всех позиций, на которых может играть футболист. Хочется посмотреть на "перекосы" в числе игроков определенных позиций. Для этого построим `pieplot`. 

In [None]:
players_grouped = players[~players['Best position'].isin(['SW', 'LF', 'RF'])].groupby('Best position')['Best position'].count()
color_sequence = [
    "#800080", "#8B008B", "#9400D3", "#9932CC", "#A020F0",
    "#A52AFA", "#B030C3", "#BA55D3", "#C71585", "#D02090",
    "#DA70D6", "#E066FF", "#EE82EE", "#FA58FC", "#FF00FF"]

px.pie(
    players_grouped,
    names=players_grouped.index,
    values=players_grouped,
    color_discrete_sequence=color_sequence,
    title='Distribution of positions across all FIFA games'
)

По меньшей мере, есть позиции `SW`, `LF`, `RF`, которых очень мало в исходной выборке; мы их исключили из рассмотрения. Кроме того, есть существенные различия в популярности позиций `CB`, `ST`, `GK`, `CAM` и позиций `LWB`, `RWB`, `LW`, `RW`. 

Теперь более подробно рассмотрим распределения конкретных признаков. Начем с `Overall` для таблицы `Teams`. 

In [None]:
fig = px.histogram(
    teams,
    x='Overall',
    barmode='overlay',
    histnorm='probability density',
    color_discrete_sequence=['purple'],
    title="Teams' overall ratings across FIFA games"
)
fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    bargap=0.1,
    xaxis_title="Overall Rating",
    yaxis_title="Density"
)
fig.show()

Похоже на нормальное распределение

Теперь посмотрим на распределения `Overall` по отдельным играм. 

In [None]:
fig = px.histogram(
    players,
    x="Overall rating",
    barmode="overlay",
    color="game",
    histnorm="probability density",
    title="Distribution of Player 'Overall rating' Across FIFA Games",
    animation_frame="game",
    color_discrete_sequence=['purple'],
    range_x = [20, 100],
    range_y = [0, 0.07]
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Overall Rating",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Посмотрим на распределение `Overall rating`. 

In [None]:
fig = px.histogram(
    players,
    x="Overall rating",
    barmode="overlay",
    histnorm="probability density",
    title="Distribution of Player 'Overall rating' Across all FIFA Games",
    color_discrete_sequence=['purple']
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Overall Rating",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Очень похоже на нормальное. 

Посмотрим на распределение `Potential`. 

In [None]:
fig = px.histogram(
    players,
    x="Potential",
    barmode="overlay",
    color="game",
    histnorm="probability density",
    title="Distribution of Player 'Potential Ratings' Across FIFA Games",
    animation_frame="game",
    color_discrete_sequence=['purple'],
    range_x = [30, 100],
    range_y = [0, 0.07]
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Potential Rating",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Похоже на нормальное; весьма пологое

Агрегированный `Potential`. 

In [None]:
fig = px.histogram(
    players,
    x="Potential",
    barmode="overlay",
    histnorm="probability density",
    title="Distribution of Player 'Potential Ratings' Across FIFA Games",
    color_discrete_sequence=['purple'],
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Potential Rating",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Хорошо описывается нормальным распределением. 

Смотрим на распределение `Total attacking`. 

In [None]:
fig = px.histogram(
    players,
    x="Total attacking",
    barmode="overlay",
    color="game",
    histnorm="probability density",
    title="Distribution of Player 'Total attacking' Across FIFA Games",
    animation_frame="game",
    color_discrete_sequence=['purple'],
    range_y = [0, 0.01]
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Total attacking",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Не похоже на нормальное, есть тяжелый левый хвост. 

Агрегированный  показатель `Total attacking`. 

In [None]:
fig = px.histogram(
    players,
    x="Total attacking",
    barmode="overlay",
    histnorm="probability density",
    title="Distribution of Player 'Total attacking Ratings' Across FIFA Games",
    color_discrete_sequence=['purple'],
    nbins=100
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Total attacking",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Распределение не похоже на нормальное, есть тяжелый левый хвост. 

Наконец, смотрим на распределение `Total goalkeeping`. 

In [None]:
fig = px.histogram(
    players,
    x="Total goalkeeping",
    barmode="overlay",
    color="game",
    histnorm="probability density",
    title="Distribution of Player 'Total goalkeeping Ratings' Across FIFA Games",
    animation_frame="game",
    color_discrete_sequence=['purple'],
    range_y=[0, 0.07]
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Total goalkeeping",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Распределение мультимодальное; не похоже на нормальное; есть тяжелый правый хвост. 

Рассмотрим агрегированный `Total goalkeeping`. 

In [None]:
fig = px.histogram(
    players,
    x="Total goalkeeping",
    barmode="overlay",
    histnorm="probability density",
    title="Distribution of Player 'Total goalkeeping Ratings' Across FIFA Games",
    color_discrete_sequence=['purple'],
    nbins=50
)

fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Total goalkeeping",
    yaxis_title="Density",
    bargap=0.1
)

fig.show()

Аналогично, распределение мультимодальное с тяжелым правым хвостом. 

Рассмотрим распределение зарплат игроков `Wages`. 

In [None]:
fig = px.histogram(
    players[players['game'].isin([i for i in range(12, 24 + 1)])],
    x='Wage',
    barmode='overlay',
    histnorm='probability density',
    color_discrete_sequence = ['purple'],
    title="Wages across all FIFA games"
)
fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Wage",
    yaxis_title="Density"
)
fig.show()

Очень большое количество игроков с маленькой, оклонулевой зарплатой. Есть выбросы с огромными зарплатами. 

Теперь посмотрим на стоимости игроков. 

In [None]:
fig = px.histogram(
    players[players['game'].isin([i for i in range(12, 24 + 1)])],
    x='Value',
    barmode='overlay',
    histnorm='probability density',
    color_discrete_sequence = ['purple'],
    title="Values of players across all FIFA games"
)
fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Value",
    yaxis_title="Density"
)
fig.show()

Похоже на распределение зарплат. Много "недорогих" игроков; много выбросов

Посмотрим на многомерную взаимосвязь трех важных характеристик: `Age`, `Overall rating`, `Potential`. 

In [None]:
fig = px.scatter_3d(
    players.sample(10000), 
    x='Age', 
    y='Potential', 
    z='Overall rating', 
    color_discrete_sequence=['purple'],
    hover_data = ['Name', 'game'],
    title = "Connection between overall rating, potential rating and age across all FIFA games"
)
fig.update_layout(
    font=dict(size=14)
)
fig.show()

Наблюдается тесная связь между `Overall rating` и `Potential` (что логично). При этом можно заметить, что у тех точек, у которых `Age` лежит рядом с $20$, есть больший разрыв в разнице между `Overall rating` и `Potential`. Это свидетельствует о том, что молодые игроки зачастую имеют не очень высокий фактический рейтинг `Overall rating`, но при этом потенциальный рейтинг `Potential` у них достаточно высокий. 

Расмотрим зависимость `Overall rating` от `foot`.

In [None]:
fig = px.violin(
    players,
    x='foot',
    y='Overall rating',
    hover_data=['Name', 'game'],
    color_discrete_sequence=['purple'],
    title="Difference in players' overall rating depending on the leading foot"
)
fig.show()

Особенной разницы между правшами и левшами замечено не было. 

Как меняются рейтинги футболистов в зависимости от основной позиции? Рассмотри `boxplot` для `Best position` по `Overall rating`. 

In [None]:
fig = px.box(
    players,
    x='Best position',
    y='Overall rating',
    hover_data=['Name', 'game'],
    color_discrete_sequence=['purple'],
    title="Distribution of players' overall rating depending on position"
)
fig.show()

Наблюдаются небольшие различия в рейтинге игроков разных позиций. Тут позицию, на которой играет футболист, можно рассматривать как некоторый выбор между риском и выигрышем: есть позиции с высокими рейтингами на уровне квантиля $75\%$, но с большим интерквартильным размахом; а также есть позиции с низкими рейтингами на уровне квантиля $75\%$, но с маленьким интерквартильным размахом. 

Выше мы выяснили, что основная нога футболиста слабо влияет на его рейтинг `Overall rating`. Однако, каково влияние рабочей ноги на выбор позиции? Посмотрим на тепловую карту с зависимостью между позицией и рабочей ногой. 

In [None]:
players_mod = players.copy()
players_mod = players[players['Best position'].isin(['RW', 'RM', 'LW', 'LM', 'RB', 'RWB', 'LB', 'LWB'])].sort_values(by='Best position')
fig = px.density_heatmap(
    players_mod,
    x='Best position',
    y='foot',
    color_continuous_scale='RdPu',
    title="Correlation between foot and position"
)
fig.show()

Как мы видим, позиции коррелированы с рабочей ногой. При этом для правшей данный эффект выражен сильнее. 

Посмотрим на что влияет признак `Real face`. 

In [None]:
fig = px.violin(
    players,
    x='Real face',
    y='Overall rating',
    color_discrete_sequence=['purple'], 
    title='"Overall rating" for different "Real face" meanings',
    hover_data='Name'
)
fig.show()

Заметим, что у сильных игроков чаще бывает `Real face`. 

Рассмотрим распределение *теоретических сроков контрактов. 

\* теоретический срок контракта $-$ срок, на который планируется подписать игрока. Зачастую игрок меняет команду раньше, чем истекает его теоретический контракт

In [None]:
fig = px.histogram(
    df['End of contract'] - df['Start of contract'],
    title='Distribution of contract length among all FIFA games',
    color_discrete_sequence=['purple']
)
fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Years of contract",
    yaxis_title="Density",
    bargap=0.1
)
fig.show()

Распределение с тяжелым правым хвостом. Есть контракты с сроком $20+$ лет. Было выяснено, что подобные контракты существуют из-за ошибок в исходных данных сайта. 

На всякий случай посмотрим на `scatterplot` с `Height` и `Weight`. 

In [None]:
fig = px.scatter(
    df,
    x='Height',
    y='Weight',
    color_discrete_sequence=['purple'],
    title='Scatterplot of "Height" and "Weight"',
    trendline='ols'
)
fig.update_traces(marker=dict(color='purple', size=8), textposition='top center')
fig.update_traces(selector=dict(mode='lines'), line=dict(color='magenta'))
fig.update_layout(font=dict(size=14), plot_bgcolor='white', width=1200, height=700)
fig.show()

Корреляция присутствует; $r^2=0.58$

Итак, мы построили основные визуализации для наших данных и готовы строить гипотезы. 

### Матстат-часть

Первая гипотеза, которую мы проверим, будет простой. Часто можно слышать, что чем больше иностранных игроков играет в лиге, тем эта лига сильнее. Хочется посмотреть на взаимосвязь между числом иностранных игроков в некоторой национальной лиге и средним рейтингом игроков в этой лиге. Прежде всего, посмотрим на корреляцию между долей иностранных игроков (`diversity rate`) среди всех игроков лиги и средним рейтингом игроков этой лиги. 

In [None]:
diversity_df = pd.DataFrame()
diversity_df['Country'] = df['Team country']
diversity_df['League'] = df['League']

diversity_df['Diversity rate'] = (df['Player country'] != df['Team country'])
diversity_df = diversity_df.groupby('League')['Diversity rate'].mean()
diversity_df = pd.DataFrame({"Diversity rate": diversity_df})
diversity_df['Diversity rate'].sort_values(ascending=False).head(10)

In [None]:
pd.DataFrame([diversity_df['Diversity rate'], (df[['League', 'Overall rating']].groupby('League')['Overall rating'].mean())]).T.corr('pearson')

In [None]:
diversity_df = diversity_df.join((df[['League', 'Overall rating']].groupby('League')['Overall rating'].mean()), on=diversity_df.index, how='left')
diversity_df = diversity_df.merge(teams[['League', 'country']], on='League', how='left')
diversity_df = diversity_df.drop(columns='key_0')
diversity_df

In [None]:
fig = px.scatter(diversity_df, x='Diversity rate', y='Overall rating',
                 trendline='ols', labels={'Diversity rate': 'Diversity rate', 'Overall rating': 'Overall Rating'},
                 title='Scatter Plot of "Diversity rate" and "Overall Rating"', 
                 hover_data=['League', 'country'])
fig.update_traces(marker=dict(color='purple', size=8), textposition='top center')
fig.update_traces(selector=dict(mode='lines'), line=dict(color='magenta'))
fig.update_layout(font=dict(size=14), plot_bgcolor='white', width=1200, height=700)
fig.show();

Можем заметить, что особенной корреляции нет. 

Теперь проверим более сложную и интересную гипотезу про то, как меняется рейтинг игрока при смене команды. Возможно, существует некоторый паттерн того, как обычно меняется рейтинг игрока после смены команды. Мы попытаемся построить гистограмму распределения изменения рейтинга игроков в течение нескольких лет после смены команды, а также привести это распределение к некоторому теоретическому известному и оценить параметры этого распределения. После того, как мы получим теоретическое распределение, которое будет хорошо описывать наше эмпирическое распределение. 

In [None]:
df_copy = df.sort_values(by=['ID', 'game'])
df_copy = df_copy[df_copy['On loan']=="No"]
df_copy = df_copy[(df_copy['Age']>=20) & (df_copy['Age']<=35)]

df_copy['Prev Team'] = df_copy.groupby('ID')['Team'].shift(1)  # Предыдущая команда
df_copy['Prev Overall'] = df_copy.groupby('ID')['Overall rating'].shift(1)  # Предыдущий рейтинг
df_copy['Team Change'] = df_copy['Team'] != df_copy['Prev Team']  # Флаг смены команды
df_copy['Rating Change'] = df_copy['Overall rating'] - df_copy['Prev Overall']  # Изменение рейтинга

df_filtered = df_copy[df_copy['Team Change'] & df_copy['Prev Overall'].notna()]

df_filtered['Year in contract'] = 2000 + df_filtered['game'] - df_filtered['Start of contract']

rating_change_by_year = df_filtered.groupby('Year in contract')['Rating Change'].mean()
rating_change_by_year = rating_change_by_year[rating_change_by_year.index<=10]

fig = px.line(
    rating_change_by_year,
    x=rating_change_by_year.index,
    y='Rating Change',
    markers=True,
    color_discrete_sequence=['purple'],
    title='Change in "Overall rating" through years of contract'
)
fig.add_hline(0, line_color='magenta', line_dash="dash", annotation_text="No change in rating", annotation_position="bottom right")
fig.add_hline(df_filtered['Rating Change'].mean(), line_color='pink', line_dash='dash', annotation_text="Mean change in rating", annotation_position="bottom right")

In [None]:
df_first_year = df_filtered[df_filtered['Year in contract'] == 1]


df_filtered = df_filtered.sort_values(by='Year in contract')
fig = px.histogram(
    df_filtered[df_filtered['Year in contract']<=5],
    x='Rating Change',
    animation_frame='Year in contract',
    barmode="overlay",
    histnorm="probability density",
    color_discrete_sequence=['purple'],
    nbins=30,
    title='Histogram of change in "Overall rating" through the years of contract'
)
fig.update_layout(
    font=dict(size=14),
    plot_bgcolor='white',
    xaxis_title="Years of contract",
    yaxis_title="Density",
    bargap=0.1
)
fig.show()

### ML-часть

В части с машинным обучением сперва определимся с тем, какая у нас будет целевая переменная. Предсказывать по нашим данным можно много чего: `Overall rating`, `Potential`, `Position`. Однако мы будем решать задачу классификации и прогнозировать позицию (`Position`) по входным параметрам. Сперва обработаем входные данные для модели. В качестве входных параметров модели будем использовать агрегирующие характеристики (`Total attacking`, `Total skill` и т. д. $-$ все характеристики в названии которых есть "Total"). Будем смотреть на долю каждой характеристики в `Total stats`. 

In [None]:
df_ml = df[df['game']==24][['Name', 'Team', 'game', 'foot', 'Overall rating', 'Best position', 'Positions','Total attacking', 'Total skill', 'Total movement', 'Total power', 'Total mentality', 'Total defending', 'Total goalkeeping', 'Total stats']]
df_ml['foot'] = df_ml['foot'].apply(lambda x: 1 if x=='Right' else 0)
df_ml['Total attacking'] = df_ml['Total attacking'] / df_ml['Total stats']
df_ml['Total skill'] = df_ml['Total skill'] / df_ml['Total stats']
df_ml['Total movement'] = df_ml['Total movement'] / df_ml['Total stats']
df_ml['Total power'] = df_ml['Total power'] / df_ml['Total stats']
df_ml['Total mentality'] = df_ml['Total mentality'] / df_ml['Total stats']
df_ml['Total defending'] = df_ml['Total defending'] / df_ml['Total stats']
df_ml['Total goalkeeping'] = df_ml['Total goalkeeping'] / df_ml['Total stats']
df_ml = df_ml.drop(columns=['Total stats'])
df_ml

Теперь попробуем применить модель KNN для классификации. 

In [None]:
X = df_ml.drop(columns=['Best position', 'Name', 'Team', 'game', 'Overall rating', 'Positions'])
y = df_ml['Best position']
names = df_ml['Name']
team = df_ml['Team']
ratings = df_ml['Overall rating']
game = df_ml['game']
all_positions = df_ml['Positions']

X_train, X_test, y_train, y_test, names_train, names_test, teams_train, teams_test, ratings_train, ratings_test, game_train, game_test, pos_train, pos_test  = train_test_split(X, y, names, team, ratings, game, all_positions, test_size=0.1, random_state=666)

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

knn = KNeighborsClassifier(n_neighbors=15, weights='uniform', p=2)
knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

In [None]:
precision = precision_score(y_test, y_pred, average='weighted')
f'Precision: {precision}'

In [None]:
conf_matrix = confusion_matrix(y_test, y_pred, normalize='pred')
conf_matrix_df = pd.DataFrame(conf_matrix, index=knn.classes_, columns=knn.classes_)
conf_matrix_df

In [None]:
fig = px.imshow(conf_matrix_df, color_continuous_scale='RdPu', title='Confusion matrix')
fig.update_layout(xaxis_title='Expected', yaxis_title='Predicted', title_x=0.5)
fig.show()

In [None]:
results = pd.DataFrame({'Name': names_test, 'Team': teams_test, 'Game': game_test, 'Overall rating': ratings_test, 'Actual': y_test, 'Predicted': y_pred, 'Positions': pos_test})
results['Correct'] = (results['Actual'] == results['Predicted'])

In [None]:
results['Correct'].mean()

In [None]:
results["Correct (all positions)"] = results.apply(lambda row: row["Predicted"] == row["Actual"] or row["Predicted"] in row["Positions"], axis=1)
results['Correct (all positions)'].mean()

In [None]:
results.sort_values(by='Overall rating', ascending=False).head(30)

### Интересные факты

In [None]:
df[['Name', 'ID', 'Team', 'game', 'Start of contract', 'href', 'Age']].sort_values(by='Start of contract').drop_duplicates(subset=['Name']).iloc[4:7] #самые ранние контракты

In [None]:
draw_player(241, players)

In [None]:
teams.sort_values(by=['Overall', 'Attack', 'Midfield', 'Defence'], ascending=False).head(5) # сильнейшие клубы

In [None]:
draw_player(188545, players, 18)

In [None]:
national.sort_values(by=['Overall', 'Attack', 'Midfield', 'Defence'], ascending=False).head(5) # сильнейшые национальные сборные

In [None]:
draw_player(41, players, 12)

In [None]:
players.sort_values(by='Potential', ascending=False).head() # игроки с самым высоким потенциалом

In [None]:
draw_player(158023, players, 14)

In [None]:
players.sort_values(by='Wage', ascending=False).head() # самые высокооплачиваемые игроки

In [None]:
draw_player(158023, players, 19)

In [None]:
players.sort_values(by='Value', ascending=False).head() # самые дорогие игроки

In [None]:
draw_player(231747, players, 22)

In [None]:
players.sort_values(by='Total goalkeeping', ascending=False).head() # лучшие вратари

In [None]:
draw_player(167495, players, 18)