# Decision tree и Random forest

## Дерево принятия решений с CART 

Основным элементом дерева является класс Node, который содержит в себе информацию о детях, глубине и типе узла, а также фичи и значения, по которым производится разделение.

In [1]:
class Node:
    feature = -1
    key = -1
    left = None
    type = -1  # this field is assigned when node is a leaf; the type with the highest probability is selected.
    # In case when multiple types have it, the first one is selected.
    right = None
    depth = 0

Дерево строится рекурсивно, в каждом узле вычисляется наиболее выгодное разделение; если таковое отсутствует, то узел становится листом, ему назначается тип согласно типам в обучающей выборке в нём.
Классификация элемента производится аналогично: алгоритм рекурсивно спускается влево/вправо, пока не достигнет листа.
Код в файле tree.py

## Random forest

Строится список из нескольких деревьев (по умолчанию 10), каждое из которых обучается на некоторой доле фич (по умолчанию 25%). 
Код в файле random_forest.py

## CV

Кросс-валидация (k-fold) проводилась на данных с ирисами Фишера. Оценивалось дерево на базе индека Джини и ансамбль из десяти деревьев, использующих подвыборку из 50% фич.

In [1]:
from tree import Tree
from random_forest import RandomForest
from CV import k_fold
import pickle

__author__ = 'vks'

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

tree = Tree()
forest = RandomForest(size=10, features=0.5)
print(k_fold(10, data, types, tree))
print(k_fold(10, data, types, forest))

0.9400000000000001
0.6733333333333332


Результат Random forest из sklearn:

In [2]:
from CV import k_fold
import pickle
from sklearn.ensemble import RandomForestClassifier as RFC
from sklearn.cross_validation import cross_val_score

__author__ = 'vks'

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

skl_forest = RFC(max_features=0.5)
print(cross_val_score(skl_forest, data, types))

[ 0.98039216  0.92156863  0.97916667]


## grid search оптимальных параметров

In [4]:
from random_forest import RandomForest
from CV import k_fold
import pickle

__author__ = 'vks'

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

for k in range(1, 20):
    for f in range(2, 11, 3):
        forest = RandomForest(size=k, features=f / 10)
        print("Trees : %s, features: %s, CV: %s" % (k, f / 10, k_fold(10, data, types, forest)))

Trees : 1, features: 0.2, CV: 0.4666666666666666
Trees : 1, features: 0.5, CV: 0.7066666666666667
Trees : 1, features: 0.8, CV: 0.8333333333333333
Trees : 2, features: 0.2, CV: 0.47333333333333333
Trees : 2, features: 0.5, CV: 0.5533333333333333
Trees : 2, features: 0.8, CV: 0.6133333333333335
Trees : 3, features: 0.2, CV: 0.3333333333333333
Trees : 3, features: 0.5, CV: 0.64
Trees : 3, features: 0.8, CV: 0.9066666666666666
Trees : 4, features: 0.2, CV: 0.27999999999999997
Trees : 4, features: 0.5, CV: 0.8333333333333334
Trees : 4, features: 0.8, CV: 0.8733333333333334
Trees : 5, features: 0.2, CV: 0.4133333333333334
Trees : 5, features: 0.5, CV: 0.74
Trees : 5, features: 0.8, CV: 0.8866666666666667
Trees : 6, features: 0.2, CV: 0.24666666666666667
Trees : 6, features: 0.5, CV: 0.8666666666666668
Trees : 6, features: 0.8, CV: 0.8733333333333334
Trees : 7, features: 0.2, CV: 0.4866666666666667
Trees : 7, features: 0.5, CV: 0.7533333333333334
Trees : 7, features: 0.8, CV: 0.9066666666666

Как видно, оптимальным будет ансамбль из четырёх и больше деревьев, в каждом из которых используется 50-80% признаков.

## Анализ алгоритма

Построение дерева займёт в худшем случае O(N) итераций, где N — размер датасета, в таком случае на каждой итерации данный будут разделяться на массив длины 1 и остальную часть датасета. Каждая итерация занимает O(F N^2) — поиск оптимального разбиения или поиск чаще всего встречающейся категории в случае листа, где F — число фичей. Суммарная сложность — O(F N^3).
Классификация элемента займёт O(N) в худшем случае, т.к. дерево может быть несбалансированным.

Построение ансамбля займёт в M раз больше времени, где M — его размер. Аналогично и с классификацией.

Как видно из grid search, результаты в среднем чуть хуже, чем у kNN

In [5]:
from CV import k_fold
import pickle
from kNN import Naive_kNN

__author__ = 'vks'

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

knn = Naive_kNN()
print(k_fold(10, data, types, knn))

0.9333333333333333


Вероятно, это связано с довольно малым количеством фич: многие деревья получаются похожими, так как поднаборов признаков достаточно мало. К тому же, kNN обучается за O(N), поэтому при малом количестве фич, недостаточном для проявления "проклятия размерности", предпочтительно использовать его.

Зависимость ошибки от количества используемых фич и величины ансамбля также прослеживается в результатах grid search: чем больше деревьев и фич, тем лучше. Однако качество резко возрастает только вначале, при количестве деревьев не больше шести, затем довольно слабо меняется, хотя и немного возрастает. Та же тенденция и в количестве фич: при 20% (одна фича в выборке с ирисами) алгоритм верно ответил в 20 — 50 процентах случаев. При 50% (две фичи) 50 — 90% верных ответов. При 80% фич (три фичи) верных ответов было 70 — 95%. 

Наконец, посмотрим, как поведёт себя алгоритм при экстремальных параметрах: 200 деревьев и 20% фич.

In [6]:
from random_forest import RandomForest
from CV import k_fold
import pickle

__author__ = 'vks'

with open("iris.txt", "rb") as f:
    data, types = pickle.load(f, encoding="latin-1")

forest = RandomForest(size=200, features=0.2)
print(k_fold(10, data, types, forest))

0.4133333333333334


С всего лишь одной используемой фичей алгоритму не удалось добиться приемлемой точности даже при двухстах деревьев.