## Decision Trees

- Decision Trees (DTs) are a non-parametric supervised learning method used for classification and regression: https://scikit-learn.org/stable/modules/tree.html
- Decision tree can be used to visually and explicitly represent decisions and decision making.
- It is a basic component of random forest, one of the most powerful machine learning algorithm.
- DT is relatively free from preprocessing data (e.g., scaling).
    - DT는 스케일링(단위)에 영향받지 않는다
    - 원래는 데이터들의 크기를 비슷하게 맞춰주어야함

#### Advantages and disadvantages (https://towardsdatascience.com/decision-trees-in-machine-learning-641b9c4e8052)

**Advantages**

  - Simple to understand, interpret, visualize.
  - Decision trees implicitly perform variable screening or feature selection.
  - Can handle both numerical and categorical data.
  - Decision trees require relatively little effort from users for data preparation.

**Disadvantages**

  - Decision-tree learners can create over-complex trees that do not generalize the data well. This is called overfitting.
  - Decision trees can be unstable(높은 분산) because small variations in the data might result in a completely different tree being generated. Thus, decision trees exhibit high variance, which needs to be lowered by methods like bagging and boosting. (we wil learn about this later)
      - 디시전 트리는 너무 유연해서 오버피팅도 잘 일어나고 학습에 사용하는 data에 따라 모형이 확확바뀜(높은 분산), 즉 배깅이나 부스팅으로 에러를 낮춰주어야함
  - Decision tree learners create biased trees if some classes dominate. It is therefore recommended to balance the data set prior to fitting with the decision tree.
      - 클래스의 밸런스가 잘 이루어지지 않을 떄 학습이 잘 일어나지지 않음.

## How decision trees work

<img src="./img/decision_trees.PNG" width="700" height="700">

- 위는 디시전 트리의 모형의 구조이다
    - 스무고개를 한다고 생각하면됨
    - 위에서부터 참이나 거짓이냐에 따라 가지지기해서 결정하고 판단하는 것임. 
    - 맨위의 판단하는 노드를 root node 그 이후로 나오는 판단하는 노드를 intermediate node, 
        각 잎사귀 처럼 달린 결과노드를 terminal node(leaf)라고 한다
- 또한 각 노드에서 데이터를 나눌때 불순도를 체크해서 나눈다. 이떄 불순도를 계산하는 방식에는 엔트로피 계수와 지니계수를 사용하는 방식이 많이쓰인다

## Hyperparameters

- hyperparameters for regularization:
  - max_depth: 결정트리의 최대 깊이, default = None ==== DT의 층의 계수
  - min_samples_split: 분할되기 위해 노드가 가져야 하는 최소 샘플수
  - min_samples_leaf: 리프 노프가 가지고 있어야 할 최소 샘플수
  - min-weight_fraction_leaf: min_samples_leaf와 같지만 가중치가 부여된 전체 샘플수 대비 비율
  - max_leaf_nodes: 리프 노드의 최대 수
  - max_features: 각 노드에서 분할에 사용할 특성의 최대 수
- min_으로 시작하는 매개변수를 증가시키거나 max_로 증가하는 매개변수를 감소시키면 regularization 증가

### The effect of hyperparameters - 1

- Max_depth = 3
<img src="./img/decision_trees2.PNG" width="600" height="600">
- Max_depth = 5
<img src="./img/decision_trees3.png" width="600" height="600">

- 위의 그림은 DT를 시각화해서 보인것이다. Depth =0일때 노란색과 나머지를 나누고
- 1일때 2일때 점점 나눠가는 방식이다. 하지만 depth가 늘어나면 오버피팅 경향이 있고 5의 경우 보면 영역을 침범했다.

### The effect of hyperparameters - 2

- No restriction
<img src="./img/decision_trees4.PNG" width="600" height="600">
- min_sample_leafs = 4
<img src="./img/decision_trees5.png" width="600" height="600">

위의 경우는 leaf가 가질 수 있는 최소 샘플수를 제한한 것인데. 제한하면 비교적 깔끔하게 분류를 하는 반면, 제한하지 않으면 지저분하게 분류를 하는 것을 볼수있다.

## Ensemble Learning
- Ensemble: a set of weak learners are combined to create a strong learner that obtains better performance than a single one.
  - Bagging (bootstrap aggregating): 데이터가 주어졌을 때, 배깅 알고리즘은 무작위 추출을 통해 새로운 훈련 데이터들을 다수 생성, 각각의 데이터에 모형을 훈련시킨 후 예측 결과를 종합하여 예측치를 도출하는 알고리즘이다.
          - bagging 알고리즘의 목적은 bias와 variance중 var를 낮추는 것에 있다. 물론 bias를 낮추어 예측정확도를 높이는 목적으로도 사용되지만 주된 목적은 var를 낮추는 것에 있음(overfit되면 예측 var가 커짐)
  - Boosting: 여러 개의 알고리즘이 순차적으로 학습-예측을 진행, 뒤의 모형이 이전 단계의 잘못된 예측을 올바르게 예측할 수 있도록 뒤의 모형에 가중치를 부여하여 학습과 예측을 진행하는 방식이다.
        - 그림으로 이해하면 더 좋은데, 말로설명하면 첫번째 모형에서 경계를 나누고 제대로 분류되지 못한 아웃라이어들에게 가중치를 더 부여하여서 다음 모형에서 가중치를 고려하여 또 경계를 나누고 또 아웃라이어가 생기면 가중치를 부여해서 다음모형이 더 잘 예측하도록 학습시키는 과정이다. 
        - 부스팅은 예측 정확도를 높이는 것이 목적이고 그에따라 bias를 낮추는 것이 부스팅의 가장 큰 목적이다
    - Adaboosting (adaptive boosting)
    - Gradient boosting
  - Stacking

- Ensemble Learning can be viewed as the wisdom of the crowd.

- |                                 | bagging                   |      boosting      |                stacking                |          
- |---------------------------|:------------------:|:--------------------------------------:|:--------:|
- | partitioning into subsets |       random       | higher weights on misclassified samples |  various |
- | goal                      |    min. variance   |        increase predictive power       |   both   |
- | methods                   |   random subspace  |            gradient descent            | blending |
- | functions to combine      | (weighted) average |            weighted majority           |   logit  |

### Random Forest

- Decision trees are known to be prone to overfitting, which increases the variance of the forecasts.
- Random forest (RF) method was designed to produce ensemble forecasts with lower variance.
- random forest introduces two dimensions of randomness:
    - (1) Bootstrap aggregation: individual trees are independently trained over bootstrapped subsets of the data.
        - 랜덤추출을해서 데이터셋들을 만든다음 각각의 셋들에 대해 DT 훈련을 시키는 것임. 그리고 그 결과들을 종합하여 예측치를 도출하는 것임
        - 훈련되는 sample data에 대한 ramdomness를 도입을하는 것임 
    - (2) When optimizing each node split, only a random subsample of features are used.
        - In decision trees, predictive features tend to be placed on the upper nodes.
        - If the features are not randomly sampled, due to this feature the decision trees will be more correlated.
        - Thus, the effect of ensemble will decrease.
        
            - 즉 각각의 노드에서 사용되는 feature를 어느정도 통제하는 것으로 이해할 수 있음
            - 특징들을 통제하지 않으면 상위노드에 강한 예측 feature가 놓이게 되는 경향이 있고 그에 따라서 decision tree들의 모형이 비슷해져서 correlated되는 경향이 있다. 랜덤포레스트 모형의 목적은 각 dt들의 결과를 종합해서 각모형들의 있는 오류를 없애는 것인데(분산을 낮추는 것). 각각의 dt들이 서로 같아져 버리면 그의미가 사라진다. 즉 그러므로 랜덤추출로 dataset을 만들고 ramdom subsample of feature를 사용한다
            - (따라서 앙상블러닝에서 배깅알고리즘이 잘 작동하기 위해서는 여러개의 모형을 사용할때 이 모형간의 유사도를 최대한 낮춰줘야 하는 이슈도 있다.) 
            
            
                - 이렇게해서 정확도를 구하면 개별 DT의 정확도 보다 낮을 수는 있지만, 분산이 낮아지고 앞으로 다른 데이터를 수집하더라도 여러가지 데이터셋을 잘 예측할 수 있는 모형이된다.
                - 분산을 낮춤으로써 과적합을 방지한다고 생각하면 된다

In [1]:
# Decision Tree example

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings(action='ignore')
%matplotlib inline

df = pd.read_csv('data/titanic.csv', index_col=0)
df.head()

Unnamed: 0,survived,pclass,sex,sibsp,parch,fare,class,who,adult_male,alive,alone
0,0,3,male,1,0,7.25,Third,man,True,no,False
1,1,1,female,1,0,71.2833,First,woman,False,yes,False
2,1,3,female,0,0,7.925,Third,woman,False,yes,True
3,1,1,female,1,0,53.1,First,woman,False,yes,False
4,0,3,male,0,0,8.05,Third,man,True,no,True


In [2]:
temp = pd.get_dummies(df[['sex', 'class', 'adult_male', 'alone']]).replace({False: 0, True:1})
temp = pd.concat([temp, df[['pclass', 'fare', 'sibsp', 'parch']]], axis=1)
temp.head()

Unnamed: 0,adult_male,alone,sex_female,sex_male,class_First,class_Second,class_Third,pclass,fare,sibsp,parch
0,1,0,0,1,0,0,1,3,7.25,1,0
1,0,0,1,0,1,0,0,1,71.2833,1,0
2,0,1,1,0,0,0,1,3,7.925,0,0
3,0,0,1,0,1,0,0,1,53.1,1,0
4,1,1,0,1,0,0,1,3,8.05,0,0


In [3]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.model_selection import GridSearchCV

criterion = ['gini', 'entropy']
maxdepth = [3,5,10,20]
minsampleleafs = [0.005 ,0.01, 0.05, 0.10]

model = DecisionTreeClassifier(random_state=42)

hyperparameters = {'criterion': criterion,
                   'max_depth': maxdepth,
                   'min_samples_leaf':minsampleleafs
                  }

y = df.survived
X = temp.copy()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

gsearch = GridSearchCV(model, hyperparameters, verbose=1)
gsearch.fit(X_train, y_train, )


Fitting 3 folds for each of 32 candidates, totalling 96 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  96 out of  96 | elapsed:    0.3s finished


GridSearchCV(cv='warn', error_score='raise-deprecating',
       estimator=DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=42,
            splitter='best'),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'criterion': ['gini', 'entropy'], 'max_depth': [3, 5, 10, 20], 'min_samples_leaf': [0.005, 0.01, 0.05, 0.1]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=1)

In [4]:
gsearch.best_params_

{'criterion': 'entropy', 'max_depth': 3, 'min_samples_leaf': 0.05}

In [5]:
mod = gsearch.best_estimator_.fit(X_train, y_train)
accuracy_score(y_test, mod.predict(X_test))

0.8208955223880597

In [6]:
print(confusion_matrix(y_test, mod.predict(X_test)))

[[140  17]
 [ 31  80]]


In [7]:
print(classification_report(y_test, mod.predict(X_test)))

              precision    recall  f1-score   support

           0       0.82      0.89      0.85       157
           1       0.82      0.72      0.77       111

   micro avg       0.82      0.82      0.82       268
   macro avg       0.82      0.81      0.81       268
weighted avg       0.82      0.82      0.82       268



In [8]:
len(X.columns)

11

In [9]:
# Random Forest

nestimators = [10,20,50,100]
criterion = ['gini', 'entropy']
maxdepth = [3,5,10,20]
minsampleleafs = [0.005 ,0.01, 0.05, 0.10]
maxfeatures = [2,3,5,11]

model = RandomForestClassifier(random_state=42)

hyperparameters = {'n_estimators': nestimators,
                   'max_features': maxfeatures,
                   'criterion': criterion,
                   'max_depth': maxdepth,
                   'min_samples_leaf':minsampleleafs
                  }

y = df.survived
X = temp.copy()
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

gsearch = GridSearchCV(model, hyperparameters, verbose=1)
gsearch.fit(X_train, y_train, )

[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


Fitting 3 folds for each of 512 candidates, totalling 1536 fits


[Parallel(n_jobs=1)]: Done 1536 out of 1536 | elapsed:  1.4min finished


GridSearchCV(cv='warn', error_score='raise-deprecating',
       estimator=RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators='warn', n_jobs=None,
            oob_score=False, random_state=42, verbose=0, warm_start=False),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'n_estimators': [10, 20, 50, 100], 'max_features': [2, 3, 5, 11], 'criterion': ['gini', 'entropy'], 'max_depth': [3, 5, 10, 20], 'min_samples_leaf': [0.005, 0.01, 0.05, 0.1]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=1)

In [10]:
mod = gsearch.best_estimator_.fit(X_train, y_train)
accuracy_score(y_test, mod.predict(X_test))

0.8208955223880597

In [11]:
print(confusion_matrix(y_test, mod.predict(X_test)))

[[141  16]
 [ 32  79]]


In [12]:
print(classification_report(y_test, mod.predict(X_test)))

              precision    recall  f1-score   support

           0       0.82      0.90      0.85       157
           1       0.83      0.71      0.77       111

   micro avg       0.82      0.82      0.82       268
   macro avg       0.82      0.80      0.81       268
weighted avg       0.82      0.82      0.82       268

