# Прогнозирование качества исполнения элементов фигурного катания

## Описание работы

**Цель работы:**
Построить и обучить модели машинного обучения (МО), позволяющие предсказать элементы фигурного катания, которые может выполнить спортсмен.

**Планируемое использование результата работы:**
Заказчику необходимо приобрести инструмент, который поможет тренеру оперативно оценить возможности и перспективы спортсмена. Кроме того, возможно использование инструмента в оценке риска получения спортсменов травм в результате совершения ошибок при исполнении элементов фигурного катания.

**Входные данные:**
Заказчик предоставил набор данных о выступлениях спортсменов на различных соревнованиях за 3 года с указанием выполненных элементов, допущенных ошибок и результатах выступлений.

**Ключевые задачи работы:**
1. Изучить и подготовить данные для разработки моделей МО.
2. Определить условия работки моделей, разработать несколько моделей с использованием различных алгоритмов.
3. Оценить качество работы моделей.
4. Протестировать лучшие модели.
5. Разработать простейший интерфейс взаимодействия пользователя модели и самой модели.
6. Сформировать план на дальнейшую работу.

**Критерии заказчика:** Требования заказчика к метрике качества модели не установлены. Требований к скорости обучения и работы моделей не имеется.

**План работы:**

0. Уточнение задач в сфере DS и разработки на основе поставленной бизнес-задачи.
1. Изучение и подготовка данных.
    - Загрузка и изучение данных: изучить входные данные, оценить полноту и качество входных данных для достижения цели исследования; определить задачи предобработки данных;    
    - Преобработка данных: осуществить предобработку данных в части улучшения качества данных для дальнейшего анализа.
    - Исследовательский анализ данных: провести исследовательский анализ данных; оценить необходимость формирования дополнительных категорий, параметров и групп данных для достижения цели исследования, feature engineering: объединить или разделить необходимые данные, сформировать новые признаки, дополнительные категории и группы данных.
    - Подготовка данных: сформировать основные пайп-лайны, разделить дата-сет на выборки.
2. Разработка моделей.
    - Определение условий разработки моделей МО: определиться с критериями разработки моделей, метриками качества моделей, с используемыми алгоритмами, критериями сравнения моделей.
    - Основной этап моделирования: разработать модели, получить результаты для анализа их качества и скорости.
3. Оценка качества работы моделей: выбор лучших моделей.
4. Оценка качества работы моделей на тестовой выборке.
5. Разработка интерфейса взаимодействия клиентов и модели.

## Уточнение задач в сфере DS и разработки на основе поставленной бизнес-задачи

К решению задачи принято решение подойти со стороны бизнеса, а не данных.

Зафиксирована глобальная бизнес-задача:
**"Разработать прогностическую модель для предсказания элементов фигурного катания, которые можно выполнить спортсмен".**

**Уточнена бизнес-задачу в области *продукта* - демонстрации MVP (Minimal Viable Product), реализующий следующий функционал:**
1. Выбор спортсмена для отображения элементов фигурного катания, которые он выполнил на последнем и предыдущем соревновании. 

2. Ручное формирование нового элемента фигурного катания (с указанием дополнительных параметров, например, выполнение во второй половине программы), нажатие на кнопку "Оценить". 

3. Вывод результата работы после нажатия кнопки "Оценить" - анализа (предсказания): 
   - вероятности идеального исполнения элемента;
   - возможных ошибок исполнения (в формате вероятностей появления ошибок);
   - возможного количества очков.

4. Вывод 5 вариантов иных элементов, которые более вероятно могут принести большее количество очков.

5. Загрузка новых данных для спортсменов, не включенных в БД.

**Уточнена бизнес-задачу в области *Data Science*:**
1. Приложение должно взаимодействовать с несколькими моделями машинного обучения, предсказывающими:
   - вероятности идеального исполнения элемента;
   - вероятности возможных ошибок исполнения;
   - возможное количество очков.

2. Вероятность идеального исполнения элемента - предполагается реализация модели бинарной классификации (исполнит/не исполнит идеально). 

3. Вероятность возможных ошибок исполнения - предполагается реализация модели мульти-лейбл классификации (каждый лейбл - один вид ошибки). 

4. Возможное количество очков - расчет на основании справочной информации без использования МО после предсказания идеального исполнения и возможных ошибок. Возможно, удастся предсказать GOE. В данном случае предполагается реализация модели регрессии.

5. Предсказание новых вариантов иных элементов - рекомендательная система. Способ реализации будет определено после реализации предыдущих моделей.

6. Исходные данные:
   - 3035 спортсменов;
   - 143 соревнования;
   - для каждого спортсмена: 'color' (категория спортсмена), 'school_id';
   - для каждого соревнования: 'date_start', 'date_end', 'origin_id' (место проведения соревнования);
   - для каждого спортсмена и каждого соревнования представлены последовательности выполненных элементов (как отдельные строки) с указанием допущенных ошибок, goe, 'segment_name' (тип программы);
   - для каждого спортсмена и каждого соревнования представлены общее количество набранных очков за выполненную последовательность элементов в каждой программе, занятое место в каждой программе, общее количество очков за выполненные последовательности за все программы в соревновании, занятое место в соревновании.

7. Валидация моделей:
   - Общая валидация качества моделей для их отбора будет производиться на основании разделения выборки на тренировочную, валидационную и тестовую выборки в соотношении (70:20:10).
   - Тестовую выборку применим только к итоговым моделям.
   - Для итоговой "эмпирической" валидации моделей используем данные 3-х рандомных спортсменов.
   - Для итогового "эмпирического" тестирования выберем также данные других 3-х рандомных спортсменов.

**Уточнена бизнес-задачу в области *разработки*:**
1. Приложение должно иметь минимальный пользовательский интерфейс для реализации необходимого функционала.
2. Возможно применение streamlit при условии соблюдения ограничений на объем моделей, а также при ограниченности времени.

## Описание результатов работы

**Основные этапы и результаты**

- **Изучение данных, предобработка, feature engineering:** 

  В условиях ограниченности времени работы над задачей проведен быстрый исследовательский анализ данных, совмещенный с их предобработкой. Изучены нормативные документы, влияющие на понимание данных. Выявлены значительные погрешности в данных, не позволяющие использовать их в полном объеме. Необходима дополнительная работа по их очистке и уточнения взаимосвязи данных между собой. В данных обнаружена временная зависимость. Принято решение о работе с данными, как с временными рядами. Созданы новые признаки, характеризующие спортсменов на основании истории их выступлений. Подробности представлены в [ноутбуке](preprocessing.ipynb).


- **Описание разрабатываемых моделей:** 
  
  На основании интерпретации задачи, представленной выше, принято решение о реализации четырех моделей машинного обучения:
  - *Модель № 1* для предсказания вероятности идеального исполнения элементов. Решена задача бинарной классификации (1 - идеальное исполнение, 0 - исполнение с ошибками) с определением вероятности отнесения экземпляра к одному из классов. Предсказания модели используются в работе следующей модели. Подробности представлены в [ноутбуке](model_one.ipynb) разработки модели.
  - *Модель № 2* для предсказания количества очков, которые спортсмен может получить за выполнение элемента (идеальное или с ошибками) - GOE. Решена задача регрессии. Предсказания модели используются в работе следующей модели и расчете общей суммы очков за исполнение элемента. Подробности представлены в [ноутбуке](model_two.ipynb) разработки модели.
  - *Модель № 3* для предсказания вероятности возникновения ошибок. Решена задача мульти-лейбл классификации для 7 ошибок ("q", "e", "!", "<", "<<", "V"; для прогнозирования иных ошибок, например, nS, nU и др. определено, что не достаточно данных) с определением вероятности присвоения меток классам. Подробности представлены в [ноутбуке](model_three.ipynb) разработки модели.
  - *Модель № 4* (планируется к реализации, эксперименты не показали качественных результатов) для предсказания элементов фигурного катания, которые могут быть исполнены идеально и принести равное или большее количество очков. Предполагается отказаться от машинного обучения в этой задаче, а только лишь рассчитать таковые элементы. Подробности представлены в [ноутбуке](model_four.ipynb) разработки модели.


- **Метрики и результаты моделирования:** 
  Выбраны контролируемые и анализируемые метрики:   
  - *Модель № 1*. Обнаружен дисбаланс классов (1:3) в сторону положительного класса (идеальное исполнение). Для учета качества предсказания класса 0 выбрана метрика **F1_Weighted**. Результат моделирования **F1 = 0.84**.
  - *Модель № 2*. Для анализа моделей регрессии выбрана метрика RMSE, отражающая среднюю ошибку предсказания в единицах измерения таргета. Результат моделирования **RMSE = 0.57** для оценок GOE в диапазоне [-5,5].
  - *Модель № 3*. Для анализа моделей мульти-лейбл классификации выбрана метрика **Hamming Loss**, отражающая долю меток, которые были предсказаны неправильно. При этом, оценивалась метрика **F1_macro** по всем классам для учета классов, которые плохо распознаются моделью. Моделирование показало, что имеет место накопительный эффект ошибок - так как в модели использовались данные, предсказанные предыдущими моделями. Необходимо улучшение качества предыдущих моделей.
  - *Модель № 4*. Работа над моделью не производилась в полном объеме. Предприняты только первые шаги в разработке и визуально оценены результаты.

- **Проверка моделей на тестовых данных:** 
  Планируется провести оценку качество моделей на эмпирических тестовых данных. Изучить ошибки моделей. Последний этап не завершен ввиду ограниченности времени.
  
- **Приложение на streamlit:** Разработано приложение [My Champion App](https://my-champion-app.streamlit.app/)


## Имплементация текущих результатов

* **Реализация проекта на GitHub**: Репозиторий [My Champion App](https://github.com/alekFil/my_champion_app)

* **Реализация проекта на Streamlit**: Приложение [My Champion App](https://my-champion-app.streamlit.app/)