# Random Forest (sklearn) vs XGBoost

## sklearn.ensemble.RandomForestClassifier

In [None]:
from sklearn import ensemble , cross_validation, learning_curve, metrics 

import numpy as np
import pandas as pd
import xgboost as xgb

In [None]:
%pylab inline

### Данные

Задача на kaggle: https://www.kaggle.com/c/bioresponse

Данные: https://www.kaggle.com/c/bioresponse/data

По данным характеристикам молекулы требуется определить, будет ли дан биологический ответ (biological response).

Признаки нормализаваны.

Для демонстрации используется обучающая выборка из исходных данных train.csv, файл с данными прилагается.

In [None]:
bioresponce = pd.read_csv('bioresponse.csv', header=0, sep=',')

In [None]:
bioresponce.head()

In [None]:
bioresponce_target = bioresponce.Activity.values

In [None]:
bioresponce_data = bioresponce.iloc[:, 1:]

## Зависимость качества от количества деревьев

### RandomForestClassifier

In [None]:
n_trees = [1] + range(10, 55, 5) 

In [None]:
%%time
scoring = []
for n_tree in n_trees:
    estimator = ensemble.RandomForestClassifier(n_estimators = n_tree, min_samples_split=5, random_state=1)
    score = cross_validation.cross_val_score(estimator, bioresponce_data, bioresponce_target, 
                                             scoring = 'accuracy', cv = 3)    
    scoring.append(score)
scoring = np.asmatrix(scoring)

In [None]:
scoring

In [None]:
pylab.plot(n_trees, scoring.mean(axis = 1), marker='.', label='RandomForest')
pylab.grid(True)
pylab.xlabel('n_trees')
pylab.ylabel('score')
pylab.title('Accuracy score')
pylab.legend(loc='lower right')

### XGBoost

In [None]:
%%time
xgb_scoring = []
for n_tree in n_trees:
    estimator = xgb.XGBClassifier(learning_rate=0.1, max_depth=5, n_estimators=n_tree, min_child_weight=3)
    score = cross_validation.cross_val_score(estimator, bioresponce_data, bioresponce_target, 
                                             scoring = 'accuracy', cv = 3)    
    xgb_scoring.append(score)
xgb_scoring = np.asmatrix(xgb_scoring)

In [None]:
xgb_scoring

In [None]:
pylab.plot(n_trees, scoring.mean(axis = 1), marker='.', label='RandomForest')
pylab.plot(n_trees, xgb_scoring.mean(axis = 1), marker='.', label='XGBoost')
pylab.grid(True)
pylab.xlabel('n_trees')
pylab.ylabel('score')
pylab.title('Accuracy score')
pylab.legend(loc='lower right')

#### **Если Вас заинтересовал xgboost:**
python api: http://xgboost.readthedocs.org/en/latest/python/python_api.html

установка: http://xgboost.readthedocs.org/en/latest/python/python_intro.html#install-xgboost

#### Другая полезная внешняя библиотека - Vowpal Wabbit (линейные модели):

установка:
https://github.com/JohnLangford/vowpal_wabbit#compiling

пример использовани из python:
https://github.com/JohnLangford/vowpal_wabbit/blob/master/python/examples/VW_in_Python.ipynb

## Задание по инструментам (к следующему семинару):

1. Поставить XGBoost так, чтобы примеры из этого блокнота у вас работали
1. Попробовать поставить Vowpal Wabbit и с его помощью решить задачу классификации на рассмотренном датасете. Попробуйте также покрутить параметры. На следующем семинаре обсудим, у кого что получилось.

## Задание по алгоритмам (тоже к следующему семинару):

Поиграйтесь на этом датасете с параметрами случайного леса, градиентного бустинга и линейных классификаторов и посмотрите, как изменение отдельных параметров влияет на результат.