Целью данной задачи является предсказание временных рядов. В качестве данных были взяты исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. в качестве основной метрики задачи выступило RMSE.
В файле расширения .py как обычно находится скрипт, в блокноте .ipynb - результаты решения. Использованные библиотеки указаны в файле requirements.txt.
Были построены классические для задач такого типа фичи - скользящее среднее и шифты, дабы моделям было на чем обучаться, построена сезонность и тренды, проведена минимальная предобработка данных и обучен ряд моделей и самое прикольное что получилось - графическое сравнение предиктов с фактом. Полученные модели довольно неплохо справились в большинстве своем с предсказаниями (если сравнивать с дамми-моделью, предсказывающей по среднему значению так вовсе замечательно).
Все поставленые перед собой задачи (обучиться основам форкастинга, визуализация данных в задачах такого рода и сравнительный анализ) удалось решить. Как улучшить проект? Можно еще поинженерить фичи, изучить ARIMA (хотя вроде она и нечасто используется).
P.S. не стал в работе отражать поиск гиперпараметров для бустинга, тк это вцелом долго и не очень интересно с точки зрения результатов.