## Decision trees

### Motivation


* Работает, как для задач регрессии, так и для классификации;
* Разделяет данные на определенные регионы. Набор правил разделения может быть выражено в виде дерева;

* Одно дерево обычно ничем не лучше линейной регрессии, логистической регрессии или ЛДА;
* Бэггинг, случайные деревья, и бустинг могут существенно улучшить эффективность

### Regression tree

* Divide the predictor space into J distinct and non-overlapping regions

* for every observation that falls in a region, predict the mean of the response value in that region

* Each region is split to minimize the RSS (residual sum of squares)

* It uses a top-down greedy approach called **recursive binary splitting**

#### Top-down greedy approach
* Top-down: all observations are in a single region before the first split

* Greedy: the best split occurs at particular step to make the best prediction at that step, rather than looking forward and making a split that will give a better result in a future step

$R_1 (j,s)$ = {$X| X_j$ < s} and $R_2$(j,s) = {$X | X_j \geq$ s}

and we seek j and s to minimize:

$\sum_{i:x_i\in R_1(j,s)}(y_i - \hat{y}_{R_1})^2 + \sum_{i:x_i\in R_2(j,s)} (y_i - \hat{y}_{R_2})^2$

### Classification tree

* Predict the most commonly occuring class in a region

* RSS cannot be used; each split must minimize the **classification error rate**

#### Classification error rate. 
***Gini index***

$G = \sum^{K}_{k=1}\hat{p}_{mk}(1-\hat{p}_{mk})$

* small if proportion is close to 0 or 1. Good measure of **node purity**

***Cross-entropy***

$D = -\sum^{K}_{k=1}\hat{p}_{mk}\log{(\hat{p}_{mk})}$

### Bagging

* Bagging: bootstrap aggregation

Основная идея использования бэггинга заключается в том, что у деревья выбора обычно очень высокая вариация, что приводит к оверфиту. Бэггинг уменьшает вариацию, тем самым улучшая эффективность нашей модели

### Boosting

* Похож на бэггинг, но деревья строятся друг за другом, причем каждое последующее дерево использует информацию предыдущего дерева

* медленная обучаемость

* each tree fist the residuals instead of the target variable. Each tree is small and will slowly improve the predictions

Используется 3 параметра для настройки:
* число деревьев **(B)**: бустинг может начать оверфитить, если B слишком большой. Используйте кросс-калибровку

* shrinkage parameter $**(\alpha)**$: значение которое контролирует темп обучения (learning rate). Принимает значения между 0.01 и 0.001

* Число деления (splits) в каждом дереве **(d)**: контролирует сложность ансамбля моделей, который подвергается бустингу. d=1, это стандартное значение. Также известно под названием **interaction depth**

``
from sklearn.ensemble import GradientBoostingClassifier

boost_clf = GradientBoostingClassifier(
    
    learning_rate = 0.01, // shrinkage parameter 
    
    n_estimators = 100,   // number of trees B
    
    max_depth = 2         // number of splits d
)
``