# Chapter6. Decision Tree
#### 분류, 회귀, 다중출력 작업이 가능한 기계학습 알고리즘 
#### 복잡한 데이터 셋에 잘 작동하는 강력한 알고리즘 
#### Random Forest의 기본 구성요소 


## <목차>

### 1) DT가 어떻게 학습, 시각화, 예측하는가
### 2) CART알고리즘(Sickit-learn), 트리 정규화 및 회귀작업 
### 3) DT의 한계점


# 1
## 1) Training and Visualizing a Decision Tree
- iris 데이터를 Decision Tree에 학습 
- Scikit-learn의 DecisionTreeClassifier

#### Iris 데이터셋
- 3종류의 아이리스에 대해 꽃받침의 길이, 너비와 꽃잎길이, 너비를 포함한 총 150개의 데이터 
<img src = 'image\ch4\iris.png'>
- 라벨값
    - Setosa : 0
    - Versicolor : 1
    - Virginica : 2 

In [1]:
import numpy as np

In [2]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier #결정트리분류기 

iris = load_iris()
X = iris.data[:, 2:] #꽃잎(petal)의 길이와 넓이 
y = iris.target #타겟값(정답값)

tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42) #분류트리의 최대 깊이는 2
tree_clf.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=42,
            splitter='best')

In [3]:
iris

 'data': array([[ 5.1,  3.5,  1.4,  0.2],
        [ 4.9,  3. ,  1.4,  0.2],
        [ 4.7,  3.2,  1.3,  0.2],
        [ 4.6,  3.1,  1.5,  0.2],
        [ 5. ,  3.6,  1.4,  0.2],
        [ 5.4,  3.9,  1.7,  0.4],
        [ 4.6,  3.4,  1.4,  0.3],
        [ 5. ,  3.4,  1.5,  0.2],
        [ 4.4,  2.9,  1.4,  0.2],
        [ 4.9,  3.1,  1.5,  0.1],
        [ 5.4,  3.7,  1.5,  0.2],
        [ 4.8,  3.4,  1.6,  0.2],
        [ 4.8,  3. ,  1.4,  0.1],
        [ 4.3,  3. ,  1.1,  0.1],
        [ 5.8,  4. ,  1.2,  0.2],
        [ 5.7,  4.4,  1.5,  0.4],
        [ 5.4,  3.9,  1.3,  0.4],
        [ 5.1,  3.5,  1.4,  0.3],
        [ 5.7,  3.8,  1.7,  0.3],
        [ 5.1,  3.8,  1.5,  0.3],
        [ 5.4,  3.4,  1.7,  0.2],
        [ 5.1,  3.7,  1.5,  0.4],
        [ 4.6,  3.6,  1. ,  0.2],
        [ 5.1,  3.3,  1.7,  0.5],
        [ 4.8,  3.4,  1.9,  0.2],
        [ 5. ,  3. ,  1.6,  0.2],
        [ 5. ,  3.4,  1.6,  0.4],
        [ 5.2,  3.5,  1.5,  0.2],
        [ 5.2,  3.4,  1.4,  0.2],
      

In [6]:
x_vals = np.array([])

- 시각화 

    -  ※graphviz 모듈 
        - 사이트에서 graphviz 다운로드 및 설치 
        - 생성되는 bin 폴더의 path를 환경변수에 추가 
        - cmd에서 .dot 파일이 존재하는 경로까지 접근 후 
        - 책의 dot 명령어 실행 
        - .dot 파일이 존재하는 경로에 이미지 파일이 생성됨

In [9]:
#시각화 모듈 
from sklearn.tree import export_graphviz

export_graphviz(
        tree_clf,
        out_file=("iris_tree.png"),
        feature_names=iris.feature_names[2:],
        class_names=iris.target_names,
        rounded=True, #노드 모양(둥근 사각형), 폰트 설정
        filled=True #분류에서 중요한 노드(클래스)를 색칠해서 표현 
    )

<img src = 'iris_tree.dot'>

## 2) Making Prediction
#### 위의 트리가 어떻게 예측되는지 과정 
#### 아이리스 꽃을 발견했고 그것을 분류한다 가정 
### - 깊이 0 
<img src = 'image\ch6\iris_tree.png'>
#### - 탐색은 루트노드에서 시작 
- 꽃잎의 길이가 2.45보다 작거나 같은가
    - 깊이 1의 자식노드로 이동 : 맞으면 왼쪽, 아니면 오른쪽 노드로 이동 
   
    
### - 깊이 1 
<img src = 'iris_tree.png'>
#### - 왼쪽
- 꽃잎길이가 2.45보다 작거나 같음 
- 예상클래스 : Setosa
- 리프노드 (자식이 없음) : 더이상 질문하지 않음  

#### - 오른쪽
- 꽃잎길이가 2.45보다 큼 
- 추가적인 질문을 함 (리프노드가 아님) 
     - 꽃잎의 너비가 1.75보다 작거나 같은가 
         - 깊이 2의 자식노드로 이동 
         
### - 깊이 2 
<img src = 'iris_tree.png'>
#### - 왼쪽 
- 꽃잎의 길이가 2.45보다 크고 꽃잎의 너비가 1.75보다 작거나 같음
- 예상클래스 : Versicolor
- 리프노드

#### - 오른쪽 
- 꽃잎의 길이가 2.45보다 크고 꽃잎의 너비가 1.75보다 큼 
- 예상클래스 : Virginica
- 리프노드 

#### 간단하게 예측 가능 
 

## ※DT의 특징 
#### - 특별히 많은 데이터 준비가 요구되지 않음 
#### - feature scaling이나 centering 등의 작업도 필요하지 않음 
    


## - 노드의 속성 
<img src = 'image\ch6\dt2.png'>
### Samples
#### - 해당 노드에 적용된 학습데이터의 수 

### Value
#### - 해당 노드에서 각 클래스의 학습데이터 수 
    - 54개의 샘플 중 클래스1은 40개, 클래스2는 5개

### Gini
#### - 적용되는 학습데이터의 불순도 
    - 만약 모든 학습데이터가 같은 클래스에 속하면 gini = 0
        - Setosa 노드
#### - Gini 불순도 계산 공식 (i번째 노드의 gini 점수 계산) 
<img src = 'image\ch6\gini.png'> 
    - P(i,k) : i번째 노드에서 학습데이터 중  클래스k에 속하는 데이터의 비율

## ※Scikit- learn 
#### - Scikit-learn은 이진트리만 생성하는 CART 알고리즘 사용 
 - ID3과 같은 알고리즘을 사용하면 세개 이상의 자식을 가지는 의사결정트리 생성 가능 
    

## - DT의 결정경계 
<img src = 'iris_tree.png'>
<img src = 'image\ch6\dtb.png'>
### 굵은 선은 루트노드의 경계 
#### -  왼쪽은 pure한 상태라 더이상 분할하지 않음 
#### - 오른족은 impure하기 때문에 다시 분할 

### 굵은 점선은 깊이 1의 오른쪽 노드의 경계 

### 깊이가 늘어나면 결정경계도 늘어남 (얇은 점선) 

## ※ 모델 해석 : White Box VS Black Box 
### - White Box 모델 
#### 예측을 이해, 해석하기 쉬운 모델 
#### 예) DT 

### - Black Box 모델 
#### 예측에 대한 이해, 해석하기 복잡하고 어려움 
#### 예)  RandomForest, Nueral Network

## 3) Estimating Class Probabilities 
- 데이터가 특정 클래스에 속할 확률 측정 가능 

#### 1. 해당 데이터의 리프노드를 찾기 위해 탐색 
#### 2. 해당 노드에서 클래스k의 학습데이터 비율 반환 

#### 어떤 클래스에 속하는지 예측시에는 가장 높은 확률을 가진 클래스 반환

In [3]:
#꽃잎의 길이가 5, 너비가 1.5인 꽃은 어느 클래스에 속할까
tree_clf.predict_proba([[5, 1.5]])

array([[ 0.        ,  0.90740741,  0.09259259]])

In [4]:
tree_clf.predict([[5, 1.5]])
#1번째 클래스의 확률이 가장 높기 때문 

array([1])

# 2
## 1) CART 알고리즘 
#### Scikit-learn은 CART(Classification And Regression Tree)알고리즘을 사용해 DT 학습 

### - CART 아이디어 
####  1. 하나의 특징(t)과 임계값(tk)를 사용해 학습데이터를 두개의 subset으로 분할 
- t와 tk 선택 방법 
    - 가장 순수한 부분집한 쌍 (t, tk)를 찾음 
    - 알고리즘이 최소화하려는 비용함수 
    <img src = 'image\ch6\cart.png'>
        - m : 데이터 개수 
        - 왼쪽 노드의 불순성과 오른쪽 노드의 불순성의 합이 최대한 최소가 되도록 
        
####  2. subset 분할이 성공적이면 동일한 로직을 사용해 하위 집합을 계속 분할
- 최대깊이 도달, 더이상 불순성을 줄일 분할이 없을때 까지 진행 
- 추가적으로 중지할 수 있는 하이퍼파리미터 존재 


## ※주의 
### CART 알고리즘은 탐욕(greedy) 알고리즘
#### - 최고수준(현재단계)에서 최적의 분할을 탐색하는 과정을 반복 
#### - 이후의 단계에서의 불순성 정도를 신경쓰지 않음 
#### - 그러므로, CART 알고리즘은 합리적인 해결책은 제공해도 최적의 해결책이라 보장하기는 어려움 

#### - 최적의 트리를 찾는 것
- NP-Complete문제로 알려져있음 
- O(exp(m))의 시간복잡도를 가져 적은양의 학습데이터에서도 문제를 다루기 어려움 

### - 계산 복잡도 
#### 트리 탐색시 대략 O(log2(m))개의 노드를 지나야함 
- 예측을 위해선 DT는 루트에서 리프로 이동해야함 
- DT는 일반적으로 어느정도의 균형을 이룸 

#### 특징의 개수에 영향을 받지 않음 
- 각 노드는 하나의 특징만을 사용
- 특징의 개수에 상관없이 전체 예측 복잡도는 O(log2(m))

#### 하지만 학습알고리즘은 데이터의 크기에 영향을 받음 
- 학습알고리즘은 각 노드의 모든 샘플들에서 모든 특징을 비교함 
- 학습 복잡도는 O(n × m log(m))
- Scikit-learn에서 작은 학습데이터는 presorting으로 속도를 높일 수 있지만, 대규모 데이터에서는 속도가 꽤 느려짐 

### - Gini Impurity or Entropy?
#### 기본적으로 gini 불순도가 사용되지만 entropy불순도도 사용가능 
- 하이퍼파라미터 (criterion = entropy)로 설정 

#### - Entropy 
- 기계학습에서 불순도 측정시 자주 사용 
- 데이터의 불순도가 낮을수록 0에 가까움 (데이터에 한가지 클래스만 존재하면 0)
- entropy 공식 
<img src = 'image\ch6\entropy.png'>
    - p(i,k) : 노드 i의 데이터가 클래스k일 확률 

#### - 언제 무엇을 사용?
- 사실 gini와 entropy에 큰 차이는 없음 
- 결국은 비슷한 트리로 이어짐 
- gini가 계산속도가 조금 더 빨라 DecisionTreeClassifier의 default로 설정되어있음
- 차이점 
    - gini : 트리의 분기에서 가장 빈번한 클래스를 고립시키는 경향 존재 
    - entropy : gini보다 좀 더 균형잡힌 트리 생성 
    
## 2) Regularization Hyperparameters
#### DT는 학습데이터의 구조에 대한 가정을 크게 고려하지 않음  
#### 제한을 주지 않으면 데이터 자체에 트리가 적응하여 overfitting 될 가능성 높음 
#### Nonparametic Model 
- 예) DT
- 매개변수의 값이 학습 이전에 결정되지 않음 

#### Parametic Model 
- 예) 선형모델 
- 미리 결정된 값의 매개변수들을 가짐 
- 자유도 제약, overfitting 가능성 낮춰줌 (underfitting 가능성은 높아질 수 있음) 

#### overfitting 방지를 위해서는 DT의 자유도 제한 필요 
- 정규화 작업 필요 

### Scikit-learn DecisionTreeClassifier클래스의 DT 제한 하이퍼파라미터 
#### - max_depth : 트리의 최대깊이 지정 
#### - min_sample_split : 노드가 분할되기 전에 있어야할 샘플의 최소개수 지정
#### - min_samples_leaf : 리프노드에 있어야할 샘플의 최소개수 지정 
#### - min_weight_fractoin_leaf :  min_samples_leaf와 같지만 가중치가 부여된 데이터의 총 개수의 부분으로 표현 
#### - max_leaf_nodes : 리프노드 최대개수 지정 
#### - max_features : 각 노드에서 분할시 사용되는 최대 특징개수 지정 



## ※
- 다른 학습 알고리즘은 먼저 제약 없이 한 번 학습 후 필요없다고 생각되는 노드를 제거함 
    - 필요하지 않은 노드  : 더이상 불순성 향상이 크게 의미가 없는 리프노드 
    - 모든 리프노드를 고려하는 것은 불필요하기 때문에 제거 
    
- X^2 테스트와 같은 표준 통계 테스트는 개선이 순전히 우연의 결과라는 것을 증명하기 위해 사용됨 
    - 귀무가설 : 설정한 가설이 진실할 확률이 극히 적어 처음부터 버릴 것으로 예상되는 가설 
    - 대립가설 : 실제로 채택될 것을 희망하는 가설 (귀무가설과 반대)
        - 귀무가설이 기각되면 대립가설이 채택
        
- p-value가 주어진 임계값(보통 5%)보다 높으면, 노드는 불필요한 것으로 간주되어 제거됨 
    - p-value가 임계값 보다 크면 
        - 오차가 커 귀무가설이 기각되지 않음 
    - p-value가 임계값 보다 작으면 
        - 귀무가설이 기각됨
            -  귀무가설인 '개선이 순전히 우연의 결과'를 기각할 수 없음 
            -  즉, 개선은 순전히 우연의 결과다 
            - 그러므로 해당 노드의 향상은 큰 의미가 없다 
            - 결론적으로 제거해도 된다 
            
- 이러한 제거(가지치기)는 모든 불필요한 노드들이 제거될때 까지 진행됨 


### - 기본값 사용 vs 하이퍼파라미터 정규화 
<img src = 'image\ch6\r1.png'>
- 왼쪽, overfitting 됨 

## 3) Regression 
### - Scikit-learn의 DecisionTreeRegression 클래스 사용 
- 최대깊이가 2인 DT
- 노이즈를 포함한 2차데이터 학습 

In [9]:
import numpy as np

#노이즈를 포함하는 2차데이터 생성 
np.random.seed(42)
m = 200
X = np.random.rand(m, 1)
y = 4 * (X - 0.5) ** 2
y = y + np.random.randn(m, 1) / 10

#회귀트리 
from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor(max_depth=2, random_state=42) #최대깊이는 2
tree_reg.fit(X, y)

DecisionTreeRegressor(criterion='mse', max_depth=2, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=42, splitter='best')

In [10]:
#시각화 
export_graphviz(
        tree_reg,
        out_file=("regression_tree.dot"),
        rounded=True,
        filled=True
    )

<img src = 'regression_tree.png'>

#### - 회귀트리 
- 데이터의 클래스를 반환하는 분류트리가 아니라 값을 예측함 
- 예측값은 해당 노드의 데이터들의 평균 
- MSE를 비용함수로 사용 

#### - 왜 예측값이 데이터들의 평균인가 
<img src = 'image\ch6\regression.png'>
- 왼쪽, 위의 회귀트리 
- 오른쪽, 트리의 최대깊이를 3으로 지정 
- 빨간선이 예측값 
- 알고리즘은 각 영역에서의 데이터들이 최대한 예측값과 가까이 위치하도록 분할함 
    - 데이터들이 모두 가장 가깝게 위치할 수 있는 곳 -> 평균 
    
#### - CART 알고리즘 
- 분류트리에서는 불순성을 최소화 
- 회귀트리에서는 MSE를 최소화 
<img src = 'image\ch6\cart2.png'>
    - m : 데이터의 개수 
    
#### - 정규화 
<img src = 'image\ch6\regression2.png'>
- 왼쪽, 하이퍼파라미터를 정규화하지 않은 회귀트리 
- 오른쪽, 정규화한 회귀트리 (리프노드의 최소 샘플수 10으로 지정)
- 회귀트리도 default 하이퍼파라미터를 사용하면 overfitting되기 쉬움 
- 정규화를 이용하면 훨씬 합리적인 모델이 생성될 수 있음 

# 3
##  DT의 한계
### 1) DT의 결정경계는 항상 축에 수직적으로 직교함 
#### - 데이터의 회전에 민감함 
<img src = 'image\ch6\i1.png'>
- 단순한 선형으로 분리된 데이터
- 왼쪽, 쉽게 분할 가능 
- 오른쪽, 데이터가 45도 회전함 
    - 불필요하게 굉장히 복잡한 결정경계 생성 
    - PCA를 사용해 해결 가능 
    
### 2) 데이터의 작은 변화에도 매우 민감 
#### - 하나의 데이터가 제거되어도 전혀 다른 모양의 트리가 생성될 수 있음
- 데이터(versicolor) 삭제 전 
<img src = 'image\ch6\dtb.png'>
- 데이터(versicolor) 삭제 후 (굵은 점선 사이에 존재하는 데이터 삭제) 
<img src = 'image\ch6\i2.png'>

#### - 실제로 scikit-learn에 의해 사용되는 훈련알고리즘이 확률적임 
- 각 노드에서 특징을 임의로 선택 
- 그러므로 같은 데이터에 대해서도 매우 다른 모델 생성이 가능함 
- random_state 하리퍼파라미터로 제한 가능 

#### 다음 장의 RandomForest는 많은 트리의 예측의 평균을 사용하기 떄문에 불안전성 처리 가능 