- Обучение на данных price_type=1
- Чистка данных (floor, categorical columns)
- 10 фолдов
- Предикт домножаем на 0.94
- Ансамбль LGBMRegressor (0.75) + XGBRegressor (0.05) + CatBoostRegressor (0.2)
- Публичный лидерборд - 1.4062123483345823
Файл работы - raifhack-dspyt-com-final-solution.ipynb
Файл для отправки - submission_final_raif
- убедиться, что у вас стоит python3.6 или выше
- установить зависимости:
pip install -r requirements.txt
- запустить обучение, предикт
Обучение и предсказание моделей происходит в ноутбуке
raifhack-dspyt-com-final-solution.ipynb
- загрузить полученные результаты в систему
- Пробовалось агрегировать фичи, но это не дало результат.
- В колонке city хранятся данные не только о городах, но и о улицах, районах, станциях метро.
- Очищение колонки floor дало наиболее ощутимый результат.
- Кросс валидация улучшает результат в среднем на 0.02
- Пробовались разные варианты ансамблирования, оптимальный представлен в описании (п.5).
- Пост процессинг, для удаления выбросов умножаем предикты соло моделей на 0.9, финального на 0.94.
Распределение недвижимости по России:
Распределение цен в сабмишине:
Распределение цен в трейне:
Распределение площади недвижимости:
Важность дефолтных фич:
Код на каггле: https://www.kaggle.com/pavfedotov/raifhack-dspyt-com-final-solution
Код для генерации картинок на каггле: https://www.kaggle.com/pavfedotov/raiff21-eda
- Ипользовать TabNet или AutoML
- Генерация гео-факторов
- Добавление временных дополнительных данных таких каких инфляция/прогноз инфляции
- Кластеризация по местоположению
- Попробовать другие кросс-валидационные функции: GroupKFold, TimeSeriesSplit
- Псевдолейбелинг