В чем отличие от бэйзлайна

Добавили кросс валидацию в класс модели BenchmarkModel
Обучаемся на всех данных независимо от price_type
Корректирующий коэффициент выставляется вручную на основе последнего фолда
Добавили признак floor, предварительно предобработав его от пропусков и строковых значений

Как работает кросс валидация

Обучаемся на нескольких первых месяцах на всех данных и предсказываем на три месяца вперед только на на данных с price_type=1.
Сдвигаем валидационный фолд на месяц вперед.
Подсчитываем корректирующий коэффициент и метрику соревнования.
Логируем коэффициент и метрику.

Описание

Это бенчмарк скрипт для хакатона от Раййфайзенбанка по оценке коммерческой недвижимости Бенчмарк состоит из:

pyproject.toml - конфигурационный файл для менеджера пакетов poetry (https://python-poetry.org/) - в интернете есть много статей, посвященных ему (например https://habr.com/ru/post/455335/ и https://khashtamov.com/ru/python-poetry-dependency-management/)
requirements.txt - стандартный requirements для pip
train.py - скрипт, который обучает модель и сохраняет ее
predict.py - скрипт, который делает предсказание на отложенной тестовой выборке

Запуск

Вариант с poetry

Крайне рекомендую именно установку с poetry - poetry это новый packet manager для питона, и он гораздо круче чем pip. Разобравшись с ним (а это очень-очень просто), думаю, вы будете необычайно счастливы. Для запуска необходимо:

убедиться, что у вас стоит python3.6 или выше
установить poetry:
```
 pip install poetry 
```
установить все нужные пакеты из poetry.lock:
1. по умолчанию poetry создает виртуальное окружение - это лучше для изоляции от вашей системы и рекомендуем именно такой способ установи пакетов:
```
     poetry  install  
```
2. если хочется установить без виртуального окружения, то установить нужно с помощью следующей команды:
```
    poetry config virtualenvs.create false && poetry  install
```

запустить обучение

poetry run python3 train.py --train_data <path_to_train_data> --model_path <path_to_pickle_ml_model>

запустить предикт

poetry run python3 predict.py --model_path <path_to_pickled_model> --test_data <path_to_test_data> --output <path_to_output_csv_file>

загрузить полученные результаты в систему

Вариант с requirements.txt

убедиться, что у вас стоит python3.6 или выше
установить зависимости:
```
pip install -r requirements.txt 
```

запустить обучение

python3 train.py --train_data <path_to_train_data> --model_path <path_to_pickle_ml_model>

запустить предикт

python3 predict.py --model_path <path_to_pickled_model> --test_data <path_to_test_data> --output <path_to_output_csv_file>

загрузить полученные результаты в систему

В репозитории есть своя реализация регуляризованного target encoding (SmoothedTargetEncoding). можно поэкспериментировать с ним

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
raif_hack		raif_hack
.gitignore		.gitignore
README.md		README.md
predict.py		predict.py
pyproject.toml		pyproject.toml
requirements.txt		requirements.txt
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

В чем отличие от бэйзлайна

Как работает кросс валидация

Описание

Запуск

Вариант с poetry

Вариант с requirements.txt

About

Releases

Packages

Languages

traptrip/raifhack_public

Folders and files

Latest commit

History

Repository files navigation

В чем отличие от бэйзлайна

Как работает кросс валидация

Описание

Запуск

Вариант с poetry

Вариант с requirements.txt

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages