- Если датасет большой (>2GB), тогда мы строим матрицу корреляций и убираем скоррелированные фичи
- Если же датасет маленький, то мы можем позволить себе сделать Mean Target Encoding и One Hot Encoding
- Далее с помощью линейной модели (Ridge/LogisticRegression) выбираем топ-10 признаков с максимальными коэффициентами
- Из этих десяти признаков генерим новые с помощью попарного деления. Таким образом получаем дополнительные 90 фичей (10^2-10)
- Если датасет маленький, то мы можем позволить себе обучить несколько LightGBM на трех фолдах, после чего усреднить с помощью ModelsEnsemble
- Если датасет большой, а времени мало (5 минут), то просто обучаем линейную регрессию
- Иначе учим один бустинг на 800 деревьев
Только сейчас понял, что забыл брать коэффициенты регрессии по модулю ¯\(ツ)/¯
Пятое место на приватном лидерборде