Skip to content

crazyelf1971/odb21

Repository files navigation

Open Data Battle 2021

Скорость работы моделей

Соревнование по анализу данных Open Data Battle проходило в октябре 2021 года.

Здесь будут представлены мои решения всех 6 задач отборочного тура. Для прохождения в финал достаточно было выполнить две задачи, но мне интересно было решить все, поскольку они были довольно разнотипные, интересно было разобраться:

  • что требуется получить в итоге
  • как подготовить данные к обучению моделей
  • какие модели и метрики использовать для нахождения решения

Решение для финала пока выкладывать не планирую, поскольку не удалось занять достойное место (я занял 130 место из 370 участников, приславших результаты предсказаний), попробованные мной варианты не улучшили результат по сравнению с простым обучением LightGBM на всех признаках "как есть". Лучше посмотреть решения людей, занявших призовые места. Страница проверки результатов до сих пор открыта и можно пробовать улучшать свои решения. Если мне всё же удастся добиться улучшения результата, я выложу и решение финала.

Решения задач в формате Jupyter Notebook для запуска в Google Colab:

Решение Описание Особенности и детали
Задача 1 Определить, какая часть света отличается от других в статистике заражения COVID-19 - аггрегация данных
- подсчёт корреляций
Задача 2 Определить пол клиентов - основная сложность была сообразить, что таблицу с данными нужно разрезать по вертикали на две части, а потом склеить столбиком
Задача 3 Оптимизировать нейросеть, описывающую зависимость уровня зарплаты от опыта сотрудников - подбор коэффициентов методом простого перебора для оптимизации заданной организаторами модели
Задача 4 Определить оптимальное число кластеров по данным о недвижимости в Париже - преобразование данных в понятный модели вид (например, парсинг чисел, написанных прописью)
- кластеризация
- метод "локтя" (silhouette score)
Задача 5 Определить категории новостей - векторизация текстов
- понижение размерности данных
- сравнение скоростей и качества разных моделей на кросс-валидации (с визуализацией)
Задача 6 Предсказать пассажиропоток в последующие 12 месяцев - задача на числовые ряды (time series)
- отбор фич с кросс-валидацией
- пошаговое предсказание

About

Open Data Battle 2021

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published