Skip to content

Latest commit

 

History

History
24 lines (16 loc) · 1.68 KB

README_RUS.md

File metadata and controls

24 lines (16 loc) · 1.68 KB

Sberbank AutoML solution

Предобработка датасета

  • Если датасет большой (>2GB), тогда мы строим матрицу корреляций и убираем скоррелированные фичи
  • Если же датасет маленький, то мы можем позволить себе сделать Mean Target Encoding и One Hot Encoding
  • Далее с помощью линейной модели (Ridge/LogisticRegression) выбираем топ-10 признаков с максимальными коэффициентами
  • Из этих десяти признаков генерим новые с помощью попарного деления. Таким образом получаем дополнительные 90 фичей (10^2-10)

Обучение модели

  • Если датасет маленький, то мы можем позволить себе обучить несколько LightGBM на трех фолдах, после чего усреднить с помощью ModelsEnsemble
  • Если датасет большой, а времени мало (5 минут), то просто обучаем линейную регрессию
  • Иначе учим один бустинг на 800 деревьев

UDP

Только сейчас понял, что забыл брать коэффициенты регрессии по модулю ¯\(ツ)

Результаты

Пятое место на приватном лидерборде