Проект имеет составную структуру и состоит из нескольких папок и файлов:
- Папки:
_funcs
,cache
,data
,FIFA
- Файлы:
data_processing.ipynb
,project.ipynb
,project-ml.ipynb
,requirements.txt
,Sofifa-parser.py
Идейно проект разделен на
Функционал всех составляющих проекта:
-
_funcs
. В папке_funcs
хранятся$3$ модуля с необходимыми для различных частей проекта. В папке_funcs
есть.py
файлы:parser.py
с функциями для парсинга данных,processing.py
с функциями для обработки данных,project.py
с функциями для основного проекта (там преимущественно присутствуют функции для разного рода визуализаций). У всех функций и модулей есть документация. Однако поскольку, сбор и обработка данных не являются основными частями проекта, то документация не слишком подробная -
cache
. В папкеcache
содержатся картинки с игроками (для быстрой демонстрации работы некоторых функций) -
data
. В папкеdata
лежат обработанные данные (по$4$ разделам:leagues
,teams
,national
,players
). Размерность основной таблицыplayers
составляет примерно$(300000, 90)$ -
FIFA
. В папкеFIFA
лежат необработанные данные (также по$4$ разделам:leagues
,teams
,national
,players
) -
requirements.txt
. В файле лежит список всех необходимых для запуска ноутбука библиотек для удобной установки с помощьюpip
-
Sofifa-parser.py
. В файле лежит код для выгрузки данных (время выполнения кода$\sim 14$ часов) -
data_processing.ipynb
. В тетрадке лежит код для обработки данных (время выполнения кода$\sim 1$ минута) -
project.ipynb
. В тетрадке лежит код с непосредственно анализом данных (время выполнения кода$\sim 1$ минута) -
project-ml.ipynb
. В тетрадке лежит код с бонусной частью с машинным обучением, который является логическим продолжением тетрадкиproject.ipynb
(время выполнения кода$\sim 1$ час)