Skip to content
Semyon Danilov edited this page Dec 22, 2015 · 4 revisions

##Конкурс от Билайн по BigData

Условия конкурса

##Цель Попасть в топ25 рейтинга (выполнено)

##Достижение цели

Входные данные обработаны следующим образом: все скалярные признаки (фичи), присутствующие и в трейн- и в тест-сетах оставлены без изменений. Категориальные фичи подверглись векторизация (метод one-hot-encoding).

Для обучения использовался алгоритм градиентного бустинга с максимальной глубиной 500, шагом обучения 0.05 и сабсэмплингом 0.65. Данные значения были выбраны в результате покрытия сеткой, так как показали наилучший результат.

Сначала происходит обучение на 60% трейн-сета и предсказывается результат для оставшихся 40%. Если результат удовлетворяет, модель дообучается на оставшихся 40% и происходит предсказание вероятностей для тест-сета. ПОлучившиеся вероятности адаптируются в CSV и архивируются. Затем архив загружается на страницу habrahabra с конкурсом и проходит оценку.

Используются: python-библиотеки для машинного обучения: scikit, numpy, xgboost, sklearn, а так же MS Azure Machine Learning.

##Требования к установленному ПО

0. Операционная система Windows/Linux

1. Python > 3

Установка с сайта python. Для Windows рекомендуется использовать Anaconda for windows, так как для неё в репозитариях имеются бинарники numpy и scipy.

2. numpy

Установка из репозитария. Linux: pip install numpy.

Windows: установка с помощью одного из инсталляторов для windows либо с использованием anaconda for windows.

3. pandas

Установка с помощью pip: pip install pandas

6. xgboost

Установка из репозитария, для сборки необходима Microsoft Visual Studio. Необходимо открыть проект, выбрать 64-битный релиз и пересобрать. Затем в /python-package нужно выполнить скрипт setup.py с параметром install (python3 setup.py install)

7. scipy

Установка из репозитария. Для установки необходим компилятор mingw, подробные инструкции в INSTALL.txt

##Демо:

Запустить netcover.py

Clone this wiki locally