-
Notifications
You must be signed in to change notification settings - Fork 0
Home
##Конкурс от Билайн по BigData
##Цель Попасть в топ25 рейтинга (выполнено)
##Достижение цели
Входные данные обработаны следующим образом: все скалярные признаки (фичи), присутствующие и в трейн- и в тест-сетах оставлены без изменений. Категориальные фичи подверглись векторизация (метод one-hot-encoding).
Для обучения использовался алгоритм градиентного бустинга с максимальной глубиной 500, шагом обучения 0.05 и сабсэмплингом 0.65. Данные значения были выбраны в результате покрытия сеткой, так как показали наилучший результат.
Сначала происходит обучение на 60% трейн-сета и предсказывается результат для оставшихся 40%. Если результат удовлетворяет, модель дообучается на оставшихся 40% и происходит предсказание вероятностей для тест-сета. ПОлучившиеся вероятности адаптируются в CSV и архивируются. Затем архив загружается на страницу habrahabra с конкурсом и проходит оценку.
Используются: python-библиотеки для машинного обучения: scikit, numpy, xgboost, sklearn, а так же MS Azure Machine Learning.
##Требования к установленному ПО
0. Операционная система Windows/Linux
1. Python > 3
Установка с сайта python. Для Windows рекомендуется использовать Anaconda for windows, так как для неё в репозитариях имеются бинарники numpy и scipy.
2. numpy
Установка из репозитария.
Linux: pip install numpy
.
Windows: установка с помощью одного из инсталляторов для windows либо с использованием anaconda for windows.
3. pandas
Установка с помощью pip:
pip install pandas
6. xgboost
Установка из репозитария,
для сборки необходима Microsoft Visual Studio. Необходимо открыть проект, выбрать 64-битный релиз и пересобрать.
Затем в /python-package нужно выполнить скрипт setup.py с параметром install (python3 setup.py install
)
7. scipy
Установка из репозитария. Для установки необходим компилятор mingw, подробные инструкции в INSTALL.txt
##Демо:
Запустить netcover.py